Link to this sectionSo sánh YOLOv6-3.0 và YOLOv9#
Bối cảnh phát hiện đối tượng thời gian thực không ngừng phát triển, được thúc đẩy bởi nhu cầu về độ chính xác cao hơn, độ trễ thấp hơn và khả năng tận dụng phần cứng tốt hơn. Bài so sánh toàn diện này xem xét hai cột mốc quan trọng trong lĩnh vực này: YOLOv6-3.0, được phát triển cho hiệu suất công nghiệp, và YOLOv9, vốn giới thiệu các kiến trúc mới để vượt qua các nút thắt thông tin trong deep learning.
Trong khi cả hai model đều mang đến những đổi mới kiến trúc độc đáo, các nhà phát triển tìm kiếm sự cân bằng tối ưu giữa hiệu năng và tính đơn giản khi triển khai thường chuyển sang các hệ sinh thái hiện đại. Đối với những người mới bắt đầu dự án mới, Ultralytics YOLO26 với thiết kế end-to-end nguyên bản là tiêu chuẩn được khuyến nghị, mang lại độ chính xác hiện đại cùng trải nghiệm phát triển tối giản hơn đáng kể.
Link to this sectionYOLOv6-3.0: Tối ưu hóa hiệu suất công nghiệp#
Được phát triển bởi Bộ phận AI Thị giác tại Meituan, YOLOv6-3.0 được thiết kế chuyên biệt để đạt hiệu suất tối đa trong các ứng dụng công nghiệp, đặc biệt là trên phần cứng GPU.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
- Tổ chức: Meituan
- Ngày: 13 tháng 1, 2023
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Link to this sectionCải tiến kiến trúc#
YOLOv6-3.0 giới thiệu một số sửa đổi chính để tăng cường khả năng hợp nhất đặc trưng và hiệu quả phần cứng. Kiến trúc này kết hợp module Bi-directional Concatenation (BiC) trong phần neck, cung cấp các tín hiệu định vị chính xác hơn. Nó cũng sử dụng chiến lược Anchor-Aided Training (AAT). Cách tiếp cận này kết hợp sự hướng dẫn phong phú của đào tạo dựa trên anchor với tốc độ inference của mô hình không cần anchor (anchor-free), mang lại hiệu năng tốt hơn mà không làm chậm quá trình triển khai.
Backbone dựa trên thiết kế EfficientRep, được tối ưu hóa tỉ mỉ để thân thiện với phần cứng cho việc inference trên GPU. Điều này làm cho nó trở nên vô cùng mạnh mẽ cho các kịch bản sản xuất công nghiệp nơi việc xử lý theo lô (batch processing) cường độ cao là tiêu chuẩn.
Link to this sectionĐiểm mạnh và điểm yếu#
Thế mạnh chính của YOLOv6-3.0 nằm ở tốc độ khung hình cao trên các GPU như NVIDIA T4, giúp nó phù hợp cho các luồng hiểu video mật độ cao. Tuy nhiên, việc phụ thuộc nặng nề vào các tối ưu hóa phần cứng cụ thể có thể dẫn đến độ trễ không tối ưu trên các thiết bị edge chỉ sử dụng CPU. Hơn nữa, việc thiết lập pipeline đào tạo của nó có thể phức tạp so với các framework thống nhất hơn.
Link to this sectionYOLOv9: Thông tin Gradient có thể lập trình#
Được phát hành một năm sau đó, YOLOv9 tập trung vào việc giải quyết vấn đề nút thắt thông tin vốn có trong các mạng neural sâu, đẩy giới hạn lý thuyết của các kiến trúc CNN.
- Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
- Tổ chức: Viện Khoa học Thông tin, Academia Sinica
- Ngày: 21 tháng 2 năm 2024
- Arxiv: 2402.13616
- GitHub: WongKinYiu/yolov9
Link to this sectionCải tiến kiến trúc#
Đóng góp chính của YOLOv9 là Programmable Gradient Information (PGI), đảm bảo dữ liệu quan trọng được giữ lại khi đi qua nhiều lớp mạng, cho phép cập nhật trọng số đáng tin cậy hơn. Bên cạnh PGI, model này còn có Generalized Efficient Layer Aggregation Network (GELAN). GELAN tối đa hóa hiệu quả tham số, cho phép YOLOv9 đạt được độ chính xác vượt trội với ít FLOPs tính toán hơn nhiều so với các tiền nhiệm.
Link to this sectionĐiểm mạnh và điểm yếu#
YOLOv9 đạt được mean Average Precision (mAP) xuất sắc trên các tập dữ liệu benchmark như COCO, trở thành lựa chọn ưa thích của các nhà nghiên cứu ưu tiên độ chính xác thô. Tuy nhiên, giống như YOLOv6, nó vẫn dựa vào phương pháp truyền thống Non-Maximum Suppression (NMS) để hậu xử lý. Điều này làm tăng độ trễ và phức tạp hóa pipeline triển khai model, đặc biệt là khi chuyển đổi sang các thiết bị edge bằng các định dạng như ONNX hoặc TensorRT.
Link to this sectionSo sánh hiệu năng#
Khi so sánh các model này, điều cần thiết là phải xem xét sự cân bằng giữa độ chính xác, số lượng tham số và tốc độ inference.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Link to this sectionLợi thế của Ultralytics: Giới thiệu YOLO26#
Mặc dù YOLOv6-3.0 và YOLOv9 cung cấp các kiến trúc mạnh mẽ, môi trường sản xuất đòi hỏi một hệ sinh thái được bảo trì tốt, yêu cầu bộ nhớ thấp và khả năng sử dụng đặc biệt dễ dàng. Đây là nơi Ultralytics Platform và các model như YOLO11 cùng YOLO26 tiên tiến tỏa sáng.
Được phát hành vào đầu năm 2026, YOLO26 định nghĩa lại cơ bản hiệu quả triển khai bằng cách loại bỏ các nút thắt cũ.
YOLO26 có Thiết kế NMS-Free End-to-End, loại bỏ hoàn toàn nhu cầu hậu xử lý Non-Maximum Suppression. Điều này làm giảm đáng kể sự biến thiên độ trễ khi inference và đơn giản hóa logic triển khai trên thiết bị edge.
Link to this sectionNhững đổi mới chính của YOLO26#
- MuSGD Optimizer: Lấy cảm hứng từ việc đào tạo LLM (như Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định đào tạo vượt trội và khả năng hội tụ nhanh hơn cho các tác vụ thị giác máy tính.
- Inference trên CPU nhanh hơn tới 43%: Không giống như sự tập trung mạnh vào GPU của YOLOv6, YOLO26 được tối ưu hóa mạnh mẽ cho các thiết bị edge. Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa phần head, làm cho nó tương thích cao với các CPU công suất thấp và phần cứng edge computing.
- ProgLoss + STAL: Các hàm loss nâng cao giúp cải thiện đáng kể khả năng phát hiện đối tượng nhỏ, vốn rất quan trọng cho ảnh hàng không và robotics.
- Tính linh hoạt vô song: Trong khi YOLOv6 thuần túy là một bộ máy phát hiện, YOLO26 xử lý liền mạch phân đoạn đối tượng (instance segmentation), phân loại, ước tính tư thế (pose estimation) và phát hiện Oriented Bounding Box (OBB).
Link to this sectionĐào tạo liền mạch với Ultralytics#
Việc đào tạo các model tiên tiến không nên đòi hỏi các tập lệnh bash phức tạp. API Python của Ultralytics cung cấp trải nghiệm tinh giản với tính năng tự động load dữ liệu, mức sử dụng bộ nhớ CUDA tối thiểu và tính năng theo dõi tích hợp.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset using the robust MuSGD optimizer natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX with a single command
model.export(format="onnx")Link to this sectionCác trường hợp sử dụng lý tưởng#
Việc lựa chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào môi trường triển khai mục tiêu của bạn:
- Sử dụng YOLOv6-3.0 cho: Tự động hóa nhà máy và phát hiện lỗi sản phẩm nơi các GPU cấp máy chủ (ví dụ: A100s) dồi dào và việc xử lý theo lô tối đa hóa hiệu suất.
- Sử dụng YOLOv9 cho: Nghiên cứu học thuật hoặc các cuộc thi nơi việc đạt được mAP cao nhất tuyệt đối trên các tập dữ liệu chuẩn hóa như COCO là mục tiêu chính.
- Use YOLO26 for: Almost all modern commercial applications. Its NMS-free architecture, low memory footprint, and high-speed CPU inference make it perfect for security alarm systems, smart retail, and real-time object tracking on embedded devices.
Bằng cách tận dụng hệ sinh thái Ultralytics toàn diện, các nhà phát triển có thể dễ dàng thử nghiệm với YOLOv8, YOLO11 và YOLO26 để tìm ra sự cân bằng hiệu năng hoàn hảo cho các thách thức thực tế cụ thể của họ.