Link to this sectionYOLOX so với YOLOv6-3.0#
Sự tiến hóa của computer vision phần lớn được định hình bởi những tiến bộ nhanh chóng trong dòng sản phẩm YOLO. Việc lựa chọn kiến trúc phù hợp cho triển khai thường xoay quanh việc cân bằng giữa thông lượng thô, sự đơn giản của kiến trúc và hiệu quả đào tạo. Hai cột mốc đáng chú ý trong hành trình này là nghiên cứu tập trung vào hướng không sử dụng neo (anchor-free) của YOLOX và thông lượng công nghiệp được tối ưu hóa cao của YOLOv6-3.0.
Bản so sánh kỹ thuật này phân tích sự khác biệt về kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng, đồng thời giới thiệu các khả năng thế hệ mới của Ultralytics YOLO26 dành cho các nhà phát triển đang tìm kiếm giải pháp triển khai trên cloud và biên (edge) tối ưu nhất.
Link to this sectionYOLOX: Kết nối Nghiên cứu và Công nghiệp#
Được phát triển bởi các nhà nghiên cứu tại Megvii, YOLOX được giới thiệu như một bước chuyển mình lớn hướng tới việc đơn giản hóa kiến trúc YOLO bằng cách hoàn toàn loại bỏ việc sử dụng neo (anchor-free).
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, Jian Sun
- Tổ chức: Megvii
- Ngày: 2021-07-18
- Arxiv: 2107.08430
- GitHub: Megvii-BaseDetection/YOLOX
Link to this sectionĐiểm nổi bật về kiến trúc#
YOLOX đã tích hợp thành công thiết kế không neo vào dòng YOLO. Bằng cách loại bỏ các anchor boxes được định nghĩa trước, mô hình giảm đáng kể số lượng tham số thiết kế và việc tinh chỉnh bằng phương pháp heuristic cần thiết trong quá trình đào tạo. Điều này làm cho YOLOX có khả năng thích ứng cao với các tập dữ liệu tùy chỉnh đa dạng mà không cần tính toán lại neo thủ công.
Hơn nữa, YOLOX đã giới thiệu kiến trúc đầu phân tách (decoupled head). Bằng cách tách biệt các tác vụ phân loại và hồi quy thành các nhánh khác nhau, mô hình giải quyết mâu thuẫn cố hữu giữa việc xác định đối tượng là gì và nó đang ở đâu. Kết hợp với chiến lược gán nhãn SimOTA, YOLOX đạt được sự hội tụ nhanh hơn và cải thiện mean average precision (mAP).
Các bộ phát hiện không neo như YOLOX thường hoạt động tốt hơn trên các tập dữ liệu tùy chỉnh với tỷ lệ khung hình đối tượng bất thường vì chúng không dựa vào các khung hình hộp bao (bounding box) cố định vốn có thể không khớp với dữ liệu mới.
Link to this sectionYOLOv6-3.0: Trọng pháo công nghiệp#
Được phát triển bởi Bộ phận Vision AI tại Meituan, YOLOv6-3.0 được thiết kế chuyên biệt để đạt thông lượng công nghiệp tối đa, đặc biệt là trên các GPU NVIDIA sử dụng các bộ tăng tốc phần cứng như TensorRT.
- Tác giả: Chuyi Li, Lulu Li, Yifei Geng, và cộng sự.
- Tổ chức: Meituan
- Ngày: 2023-01-13
- Arxiv: 2301.05586
- GitHub: meituan/YOLOv6
Link to this sectionTối ưu hóa cho triển khai#
YOLOv6-3.0 tập trung vào việc tối đa hóa việc sử dụng GPU. Nó giới thiệu mô-đun Kết nối hai chiều (BiC) trong phần neck để nâng cao khả năng hợp nhất tính năng trong khi vẫn duy trì tốc độ suy luận cao. Mặc dù giai đoạn suy luận hoàn toàn không sử dụng neo, YOLOv6-3.0 sử dụng chiến lược Đào tạo có hỗ trợ neo (AAT) sáng tạo để tận dụng sự ổn định dựa trên neo trong giai đoạn đào tạo.
Phần backbone được xây dựng bằng kiến trúc EfficientRep thân thiện với phần cứng, được thiết kế có chủ đích để giảm thiểu chi phí truy cập bộ nhớ và tối đa hóa mật độ tính toán trên các bộ tăng tốc hiện đại. Điều này làm cho YOLOv6 trở thành một ứng cử viên đặc biệt mạnh mẽ cho phân tích video phía máy chủ.
Link to this sectionSo sánh hiệu năng#
Khi so sánh các mô hình này, các nhà phát triển phải cân nhắc độ chính xác thô so với tốc độ suy luận và số lượng tham số. Bảng sau đây làm nổi bật hiệu suất của cả hai dòng mô hình trên các kích thước khác nhau.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Mặc dù YOLOv6-3.0 cho thấy mAP vượt trội và tốc độ TensorRT xuất sắc cho các biến thể lớn hơn, YOLOX vẫn duy trì tính cạnh tranh cao nhờ sự đơn giản và hiệu suất mạnh mẽ trên phần cứng cũ.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOX và YOLOv6 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOX#
YOLOX là lựa chọn mạnh mẽ cho:
- Nghiên cứu Phát hiện Anchor-Free: Nghiên cứu học thuật sử dụng kiến trúc anchor-free sạch, gọn của YOLOX làm baseline để thử nghiệm với các head phát hiện hoặc hàm mất mát mới.
- Thiết bị biên siêu nhẹ: Triển khai trên vi điều khiển hoặc phần cứng di động cũ nơi mà footprint cực nhỏ của biến thể YOLOX-Nano (0.91M tham số) là rất quan trọng.
- Nghiên cứu Gán nhãn SimOTA: Các dự án nghiên cứu điều tra các chiến lược gán nhãn dựa trên vận chuyển tối ưu và tác động của chúng đến sự hội tụ trong đào tạo.
Link to this sectionKhi nào nên chọn YOLOv6#
YOLOv6 được khuyến nghị cho:
- Triển khai chú trọng phần cứng công nghiệp: Các kịch bản mà thiết kế chú trọng phần cứng của mô hình và khả năng tái tham số hóa hiệu quả mang lại hiệu năng tối ưu trên phần cứng mục tiêu cụ thể.
- Phát hiện single-stage nhanh: Các ứng dụng ưu tiên tốc độ inference thô trên GPU để xử lý video thời gian thực trong các môi trường được kiểm soát.
- Tích hợp hệ sinh thái Meituan: Các đội ngũ đã và đang làm việc trong hệ sinh thái công nghệ và hạ tầng triển khai của Meituan.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionLợi thế từ Ultralytics#
Mặc dù cả Megvii và Meituan đều cung cấp các kho lưu trữ nghiên cứu mạnh mẽ, việc triển khai các mô hình này vào thực tế sản xuất thường đòi hỏi chi phí kỹ thuật đáng kể. Ultralytics ecosystem tích hợp giúp loại bỏ những rào cản này bằng cách cung cấp một API thống nhất, được tài liệu hóa kỹ lưỡng.
Bằng cách tận dụng gói Ultralytics, các nhà phát triển có quyền truy cập vào trải nghiệm người dùng chưa từng có. Điều này bao gồm tính năng auto-augmentation tích hợp sẵn, quản lý bộ nhớ hiệu quả cao trong quá trình đào tạo (giảm đáng kể yêu cầu VRAM so với các mô hình Transformer như RTDETR) và quy trình xuất mượt mà sang các định dạng như ONNX và OpenVINO.
Không giống như các mô hình chuyên biệt, các kiến trúc Ultralytics vốn dĩ linh hoạt, hỗ trợ sẵn sàng Object Detection, Instance Segmentation, Pose Estimation, Phân loại hình ảnh và Oriented Bounding Boxes (OBB).
Link to this sectionGiới thiệu YOLO26: Giải pháp tối ưu cho thiết bị biên#
Đối với các nhóm đang bắt đầu các dự án computer vision mới, chúng tôi đặc biệt khuyến nghị nâng cấp lên Ultralytics YOLO26 vừa mới ra mắt. Dựa trên những thành công của YOLO11 và YOLOv8, YOLO26 giới thiệu các cải tiến mang tính thay đổi tư duy:
- End-to-End NMS-Free Design: First explored in YOLOv10, YOLO26 natively eliminates the need for Non-Maximum Suppression (NMS) post-processing. This guarantees deterministic, ultra-low latency inference critical for real-time robotics.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật đào tạo LLM như Kimi K2 của Moonshot AI, YOLO26 sử dụng trình tối ưu hóa MuSGD (kết hợp giữa SGD và Muon) để đạt được động lực đào tạo ổn định đáng kinh ngạc và hội tụ nhanh hơn.
- Up to 43% Faster CPU Inference: By removing Distribution Focal Loss (DFL) and streamlining the network head, YOLO26 is heavily optimized for edge devices relying on CPU execution, drastically outperforming YOLOv6 in edge scenarios.
- ProgLoss + STAL: Các công thức hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong small object detection, làm cho YOLO26 trở nên lý tưởng cho hình ảnh trên không và kiểm tra các lỗi vi mô.
Link to this sectionVí dụ về Đào tạo thống nhất#
Sử dụng Ultralytics Python API, việc đào tạo các mô hình hiện đại chỉ cần vài dòng mã. Giao diện sạch sẽ tương tự này áp dụng cho dù bạn đang thử nghiệm một mô hình YOLO cũ hay triển khai khung YOLO26 tiên tiến.
from ultralytics import YOLO
# Load the next-generation YOLO26 model (NMS-free, optimized for edge)
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset
# The ecosystem handles downloading, caching, and auto-batching natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model and print mAP metrics
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the model for edge deployment
model.export(format="onnx")Để có trải nghiệm mượt mà hơn, hãy quản lý tập dữ liệu, theo dõi thử nghiệm và đào tạo các mô hình trên cloud bằng Ultralytics Platform không cần mã.
Link to this sectionKhuyến nghị trường hợp sử dụng#
Khi quyết định giữa các kiến trúc này, hãy xem xét các ràng buộc về phần cứng và yêu cầu dự án cụ thể của bạn:
- Chọn YOLOX nếu bạn đang tiến hành nghiên cứu học thuật về các chiến lược gán nhãn hoặc yêu cầu một đường cơ sở không neo thuần túy, dễ hiểu cho các sửa đổi kiến trúc tùy chỉnh.
- Chọn YOLOv6-3.0 nếu bạn đang triển khai trên một hệ thống máy chủ công nghiệp với các GPU NVIDIA cao cấp (như A100 hoặc T4), nơi bạn có thể sử dụng kích thước batch lớn và các tối ưu hóa TensorRT để xử lý hàng trăm luồng video cùng lúc.
- Choose YOLO26 for the vast majority of modern applications. If you are building Edge AI applications for IoT devices, drones, or mobile phones, YOLO26's native NMS-free design, CPU optimizations, and comprehensive ecosystem support make it the undisputed best choice for bridging the gap between training and production.