Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv7 so với YOLOv9#

Bối cảnh của object detection thời gian thực đã phát triển nhanh chóng, với mỗi phiên bản mới đều mở rộng các giới hạn của những gì có thể thực hiện trên các thiết bị biên (edge devices) cũng như máy chủ đám mây. Khi đánh giá các kiến trúc cho những dự án thị giác máy tính, các nhà phát triển thường so sánh các benchmark đã được thiết lập với những đổi mới mới hơn. Hướng dẫn toàn diện này so sánh hai cột mốc quan trọng trong gia đình YOLO: YOLOv7YOLOv9.

Chúng tôi sẽ phân tích các bước đột phá về kiến trúc, chỉ số hiệu suất và các kịch bản triển khai lý tưởng để giúp bạn chọn model phù hợp cho ứng dụng của mình. Chúng tôi cũng sẽ khám phá cách Ultralytics Platform hợp nhất các model này, giúp việc train, validate và triển khai chúng trở nên dễ dàng hơn.

Link to this sectionDòng dõi Model và Thông số Kỹ thuật#

Việc hiểu rõ nguồn gốc và triết lý thiết kế của các model này cung cấp bối cảnh cần thiết cho khả năng của chúng. Cả hai model đều chia sẻ một dòng dõi nghiên cứu chung nhưng nhắm vào các điểm nghẽn kiến trúc khác nhau.

Link to this sectionYOLOv7: Người tiên phong Bag-of-Freebies#

Được phát hành vào giữa năm 2022, YOLOv7 đã khẳng định vị thế là một kiến trúc có độ tin cậy cao và được tối ưu hóa mạnh mẽ. Nó giới thiệu kỹ thuật tái tham số hóa cấu trúc (structural re-parameterization) và phương pháp "trainable bag-of-freebies" để duy trì tốc độ inference cao mà không làm ảnh hưởng đến mean Average Precision (mAP).

Đổi mới về Kiến trúc: YOLOv7 có đặc điểm Extended Efficient Layer Aggregation Network (E-ELAN), cho phép model học được các đặc trưng đa dạng hơn bằng cách mở rộng, xáo trộn và hợp nhất các cardinalities. Thiết kế này mang lại khả năng tận dụng GPU và inference latency tuyệt vời. Tuy nhiên, nó có thể đòi hỏi dung lượng bộ nhớ đáng kể trong quá trình train phức tạp so với các phiên bản hiện đại.

Tìm hiểu thêm về YOLOv7

Link to this sectionYOLOv9: Giải quyết nút thắt thông tin#

Được giới thiệu vào đầu năm 2024 bởi cùng nhóm nghiên cứu, YOLOv9 giải quyết "điểm nghẽn thông tin" vốn có trong các mạng thần kinh sâu. Khi dữ liệu đi qua các lớp sâu, các chi tiết quan trọng thường bị mất đi. YOLOv9 giảm thiểu điều này thông qua các thiết kế lớp mới về cơ bản.

Đổi mới về Kiến trúc: YOLOv9 giới thiệu Programmable Gradient Information (PGI) và Generalized Efficient Layer Aggregation Network (GELAN). PGI đảm bảo rằng các gradient đáng tin cậy được bảo toàn và phản hồi ngược lại để cập nhật trọng số một cách chính xác. GELAN tối đa hóa hiệu quả tham số, cho phép YOLOv9 đạt được độ chính xác cao với số lượng FLOPs ít hơn đáng kể so với các thế hệ tiền nhiệm.

Tìm hiểu thêm về YOLOv9

Link to this sectionPhân tích Hiệu suất#

Khi chọn lựa giữa các kiến trúc, các kỹ sư AI phải cân bằng giữa độ chính xác, inference speed và chi phí tính toán. Bảng dưới đây nêu bật những khác biệt về hiệu suất của các model này trên COCO dataset tiêu chuẩn.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Link to this sectionNhững điểm chính cần ghi nhớ#

  • Hiệu quả tham số: YOLOv9m đạt độ chính xác ngang bằng với YOLOv7l (51.4% mAP) trong khi sử dụng ít hơn gần 45% tham số (20.0M so với 36.9M). Sự cắt giảm mạnh mẽ này giúp YOLOv9m dễ dàng triển khai hơn nhiều trên các thiết bị edge AI bị hạn chế về bộ nhớ.
  • Triển khai siêu nhỏ (Micro-Deployments): Sự ra đời của biến thể YOLOv9t (tiny) mang lại tốc độ đáng kinh ngạc (2.3ms trên T4 TensorRT) cho các môi trường đòi hỏi sự khắt khe về thời gian thực.
  • Độ chính xác tối đa: Đối với các ứng dụng mà độ chính xác là ưu tiên hàng đầu, YOLOv9e đẩy độ chính xác phát hiện lên tới 55.6% mAP, vượt trội đáng kể so với YOLOv7x.
Đảm bảo tính tương lai cho các dự án thị giác máy tính của bạn

Mặc dù YOLOv7 và YOLOv9 rất mạnh mẽ, YOLO26 mới ra mắt gần đây đại diện cho bước nhảy vọt mang tính quyết định. YOLO26 giới thiệu thiết kế end-to-end NMS-free nguyên bản, loại bỏ quá trình hậu xử lý phức tạp và tăng tốc độ inference trên CPU lên tới 43%. Bằng cách tận dụng bộ tối ưu hóa MuSGD mới lạ và các hàm mất mát ProgLoss + STAL nâng cao, YOLO26 mang lại sự ổn định khi train vượt trội và độ chính xác cao đối với các đối tượng nhỏ.

Link to this sectionLợi thế từ Ultralytics#

Chọn kiến trúc model chỉ mới là bước đầu. Hệ sinh thái phần mềm bao quanh model mới quyết định tốc độ mà bạn có thể chuyển từ nguyên mẫu sang sản xuất. Việc tích hợp các model này thông qua Ultralytics Python API mang lại lợi ích đáng kể cho các nhà phát triển và nghiên cứu.

Link to this sectionDễ sử dụng và hiệu quả huấn luyện#

Trước đây, việc train YOLOv7 đòi hỏi sự chuẩn bị dữ liệu phức tạp và các tập lệnh tùy chỉnh nặng nề. Framework Ultralytics trừu tượng hóa các sự phức tạp của deep learning này. Các nhà phát triển có thể dễ dàng chuyển đổi giữa các kiến trúc, thử nghiệm với hyperparameter tuning và tận dụng các đường ống data augmentation thông minh với lượng code tối thiểu.

Hơn nữa, Ultralytics tối ưu hóa memory usage trong quá trình train và inference. Không giống như các transformer models nặng nề (như RT-DETR), các kiến trúc Ultralytics YOLO train nhanh hơn đáng kể và đòi hỏi ít bộ nhớ CUDA hơn, khiến chúng trở nên lý tưởng cho các GPU cấp độ tiêu dùng.

Link to this sectionVí dụ mã nguồn: Huấn luyện tinh gọn#

Việc train các model hiện đại nhất trở nên liền mạch trong hệ sinh thái Ultralytics. Dưới đây là ví dụ có thể chạy hoàn toàn để minh họa cách train và validate một model YOLOv9:

from ultralytics import YOLO

# Initialize the model (you can swap 'yolov9c.pt' with 'yolov7.pt' or 'yolo26n.pt')
model = YOLO("yolov9c.pt")

# Train the model on the COCO8 sample dataset
train_results = model.train(
    data="coco8.yaml",
    epochs=50,
    imgsz=640,
    device="0",  # Use GPU 0 if available
    batch=16,  # Optimized batch size for memory efficiency
)

# Validate the model's performance on the validation set
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Link to this sectionSự linh hoạt vượt trội trên các tác vụ#

Một hệ sinh thái được duy trì tốt đồng nghĩa với việc tiếp cận được nhiều tác vụ thị giác máy tính đa dạng. Trong khi YOLOv7 được xây dựng chủ yếu cho object detection (với các nhánh thử nghiệm sau này cho các tác vụ khác), các model Ultralytics hiện đại được xây dựng nguyên bản cho sự linh hoạt. Bạn có thể thực hiện instance segmentation, pose estimation, image classificationOriented Bounding Box (OBB) một cách liền mạch ngay từ đầu.

Link to this sectionCác trường hợp sử dụng và ứng dụng lý tưởng#

Quyết định giữa YOLOv7 và YOLOv9 thường phụ thuộc vào những hạn chế cụ thể trong ngành của bạn và khả năng phần cứng hiện có.

Link to this sectionKhi nào nên sử dụng YOLOv7#

  • Triển khai Edge Legacy: Đối với các môi trường phần cứng đã được tinh chỉnh và tối ưu hóa mạnh mẽ cho kiến trúc E-ELAN của YOLOv7, đây vẫn là một lựa chọn mạnh mẽ cho industrial IoT.
  • Giám sát Giao thông: Tốc độ khung hình cao và độ ổn định đã được kiểm chứng của YOLOv7 làm cho nó trở nên xuất sắc đối với cơ sở hạ tầng thành phố thông minh và real-time traffic management.
  • Tích hợp Robot: Việc điều hướng các môi trường năng động đòi hỏi xử lý có độ trễ thấp, một kịch bản mà các biến thể YOLOv7 đã được kiểm thử kỹ lưỡng.

Link to this sectionKhi nào nên sử dụng YOLOv9#

  • Chẩn đoán Hình ảnh Y tế: Kiến trúc PGI trong YOLOv9 đặc biệt xuất sắc trong việc bảo toàn các chi tiết tinh vi qua các lớp sâu, điều này rất quan trọng khi phân tích các tác vụ medical image analysis phức tạp như phát hiện khối u.
  • Phân tích Bán lẻ Mật độ cao: Để theo dõi và đếm các mặt hàng được xếp chồng dày đặc trên kệ hàng bán lẻ, sự tích hợp đặc trưng của YOLOv9 cung cấp độ chính xác vượt trội và giảm các kết quả âm tính giả (false negatives).
  • Hình ảnh trên không và Drone: Hiệu quả tham số của YOLOv9m cho phép xử lý hình ảnh độ phân giải cao trên drone, hỗ trợ trong việc wildlife conservation và giám sát nông nghiệp mà không làm cạn kiệt thời lượng pin.

Link to this sectionKết luận#

Cả YOLOv7 và YOLOv9 đều đã khẳng định vị thế của mình trong lịch sử thị giác máy tính. YOLOv7 đã giới thiệu những tối ưu hóa thiết yếu cho xử lý thời gian thực, trong khi YOLOv9 giải quyết các điểm nghẽn về cấu trúc deep learning để tối đa hóa hiệu quả tham số.

Tuy nhiên, đối với các nhà phát triển bắt đầu các dự án mới ngay hôm nay, việc tận dụng hệ sinh thái Ultralytics—đặc biệt là các model thế hệ tiếp theo như YOLO11YOLO26—mang lại sự cân bằng thuận lợi nhất giữa tốc độ, độ chính xác và trải nghiệm nhà phát triển. Với những cải tiến như bộ tối ưu hóa MuSGD và việc loại bỏ Distribution Focal Loss (DFL) để tương thích rộng hơn với phần cứng, Ultralytics tiếp tục cung cấp các công cụ mạnh mẽ và dễ tiếp cận nhất cho các chuyên gia AI thị giác.

Người đóng góp

Bình luận