Meet YOLO26: next-gen vision AI.

Link to this sectionDAMO-YOLO so với YOLOX#

Bối cảnh thị giác máy tính thời gian thực đang không ngừng phát triển. Hai cột mốc đáng chú ý trong hành trình này là DAMO-YOLOYOLOX, mỗi mô hình đều mang đến những đổi mới độc đáo cho bài toán phát hiện đối tượng với tốc độ cao và độ chính xác cao. Mặc dù cả hai mô hình đều đóng góp đáng kể cho cộng đồng mã nguồn mở, việc hiểu rõ sự khác biệt về kiến trúc, phương pháp huấn luyện và kịch bản triển khai lý tưởng là điều cốt yếu đối với các kỹ sư học máy.

Hướng dẫn toàn diện này khám phá các sắc thái kỹ thuật của cả hai mô hình và làm nổi bật lý do tại sao các giải pháp thay thế hiện đại như nền tảng Ultralytics YOLO26 mang lại hiệu suất vượt trội và sự dễ dàng khi sử dụng cho môi trường sản xuất hiện nay.

Link to this sectionTổng quan về mô hình#

Link to this sectionChi tiết về DAMO-YOLO#

Được phát triển bởi một nhóm các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO được giới thiệu như một phương pháp phát hiện đối tượng hiệu quả cao tận dụng việc khám phá kiến trúc tự động. Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 2022-11-23
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: DAMO-YOLO Documentation

Tìm hiểu thêm về DAMO-YOLO

Link to this sectionChi tiết về YOLOX#

Được tạo bởi các nhà nghiên cứu tại Megvii, YOLOX hướng đến việc thu hẹp khoảng cách giữa nghiên cứu và cộng đồng công nghiệp bằng cách chuyển đổi dòng YOLO sang thiết kế không neo (anchor-free), đơn giản hóa đáng kể kiến trúc trong khi vẫn đạt được hiệu suất tốt hơn tại thời điểm đó. Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li và Jian Sun
Tổ chức: Megvii
Ngày: 2021-07-18
Arxiv: https://arxiv.org/abs/2107.08430
GitHub: https://github.com/Megvii-BaseDetection/YOLOX
Tài liệu: YOLOX Documentation

Tìm hiểu thêm về YOLOX

Link to this sectionPhân tích kiến trúc#

Link to this sectionKiến trúc DAMO-YOLO#

DAMO-YOLO dựa nhiều vào Tìm kiếm kiến trúc mạng thần kinh (NAS). Các thành phần cốt lõi bao gồm:

  • MAE-NAS Backbones: Sử dụng thuật toán tìm kiếm tiến hóa đa mục tiêu để khám phá các xương sống (backbone) cung cấp sự cân bằng tối ưu giữa tốc độ suy luận và độ chính xác.
  • Efficient RepGFPN: Một thiết kế phần cổ (neck) hạng nặng được tùy chỉnh cho hợp nhất đặc trưng, giúp mô hình duy trì độ chính xác cao trên các thang đo đối tượng khác nhau.
  • ZeroHead: Một đầu phát hiện (detection head) nhẹ và đơn giản hóa, giúp giảm chi phí tính toán trong các lớp dự đoán cuối cùng.

Link to this sectionKiến trúc YOLOX#

YOLOX áp dụng một cách tiếp cận khác, tập trung vào sự đơn giản về cấu trúc và thiết kế không neo (anchor-free):

  • Cơ chế không neo (Anchor-Free Mechanism): Bằng cách dự đoán trực tiếp tọa độ BBox mà không cần neo định sẵn, YOLOX giảm số lượng tham số thiết kế và việc tinh chỉnh theo kinh nghiệm cần thiết.
  • Decoupled Head: Tách biệt các tác vụ phân loại và hồi quy thành các nhánh đặc trưng khác nhau, giúp cải thiện tốc độ hội tụ và độ chính xác tổng thể.
  • SimOTA Label Assignment: Một chiến lược gán nhãn nâng cao phân bổ động các mẫu dương tính cho các dữ liệu thực tế (ground truth), giúp cải thiện hiệu quả huấn luyện.
Triết lý thiết kế

Trong khi DAMO-YOLO sử dụng các tìm kiếm NAS do máy thực hiện để tìm ra các kiến trúc tối ưu dưới những ràng buộc chặt chẽ, YOLOX tận dụng các đơn giản hóa do con người thiết kế một cách tinh tế (như các đầu không neo) để hợp lý hóa quy trình phát hiện đối tượng.

Link to this sectionSo sánh hiệu năng#

Việc đánh giá các mô hình này đòi hỏi phải xem xét mAP (mean Average Precision), tốc độ suy luận và số lượng tham số. Dưới đây là bảng so sánh chi tiết các biến thể tiêu chuẩn và nhẹ cho cả hai kiến trúc.

Mô hìnhkích thước
(pixel)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Trong khi YOLOXx đạt mAP tuyệt đối cao nhất ở mức 51.1, DAMO-YOLOl mang lại mAP 50.8 đầy cạnh tranh với ít hơn một nửa số tham số (42.1M so với 99.1M) và tốc độ thực thi TensorRT nhanh hơn đáng kể.

Link to this sectionPhương pháp Huấn luyện#

Link to this sectionHuấn luyện DAMO-YOLO#

DAMO-YOLO sử dụng quá trình tăng cường chưng cất (distillation) phức tạp trong quá trình huấn luyện. Thông thường, một mô hình "giáo viên" lớn được huấn luyện trước, và kiến thức của nó được chưng cất vào các mô hình "học sinh" nhỏ hơn. Nó cũng sử dụng AlignedOTA để gán nhãn động. Mặc dù rất hiệu quả, nhưng quy trình huấn luyện nhiều giai đoạn này làm tăng đáng kể thời gian tính toán GPU và chi phí bộ nhớ cần thiết.

Link to this sectionHuấn luyện YOLOX#

YOLOX dựa vào các chiến lược tăng cường dữ liệu mạnh mẽ như MixUp và Mosaic. Tuy nhiên, các tác giả phát hiện ra rằng việc tắt các tăng cường mạnh này trong 15 epoch cuối cùng cho phép mô hình thu hẹp khoảng cách thực tế, cải thiện đáng kể các chỉ số độ chính xác cuối cùng.

Link to this sectionCác trường hợp sử dụng lý tưởng#

  • DAMO-YOLO: Phù hợp nhất cho các triển khai công nghiệp quan trọng, nơi các quy trình chưng cất phía máy chủ có thể được hỗ trợ và nơi phần cứng mục tiêu (như các GPU NVIDIA cụ thể) được hưởng lợi trực tiếp từ kiến trúc NAS phần cổ hạng nặng của nó.
  • YOLOX: Tuyệt vời cho các nhà phát triển tìm kiếm một cách tiếp cận hoàn toàn không neo (anchor-free). YOLOXnano cực kỳ nhẹ khiến nó khả thi cho các thiết bị Android cũ, edge computing và các cảm biến IoT rất hạn chế, nơi số lượng tham số là điểm nghẽn tuyệt đối.

Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#

Mặc dù DAMO-YOLO và YOLOX đại diện cho những cột mốc xuất sắc, các nhà phát triển ngày nay đòi hỏi những giải pháp toàn diện, linh hoạt và dễ sử dụng hơn. Đây là lúc Ultralytics PlatformUltralytics YOLO26 mới được phát hành tỏa sáng.

Được phát hành vào tháng 1 năm 2026, YOLO26 là mô hình được khuyến nghị tối ưu cho tất cả các tác vụ computer vision. Nó giới thiệu một loạt các đột phá vượt qua các kiến trúc cũ:

  • Thiết kế End-to-End NMS-Free: YOLO26 loại bỏ hoàn toàn hậu xử lý NMS (Non-Maximum Suppression) một cách nguyên bản. Điều này cho phép triển khai đơn giản và nhanh hơn đáng kể, tránh các điểm nghẽn về độ trễ vốn có trong các đầu phát hiện truyền thống.
  • Tốc độ suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ Distribution Focal Loss (DFL) một cách chiến lược và tối ưu hóa các lớp, YOLO26 mang lại tốc độ chưa từng có trên CPU và phần cứng biên (edge).
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (LLM), YOLO26 giới thiệu bộ tối ưu hóa MuSGD (kết hợp giữa SGD và Muon), dẫn đến các lần chạy huấn luyện ổn định cao và hội tụ nhanh hơn nhiều so với các thiết lập kế thừa trong YOLOX.
  • ProgLoss + STAL: Những hàm mất mát nâng cao này mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, làm cho YOLO26 trở nên vượt trội hơn hẳn cho cảnh quay từ drone và robot.
  • Tính linh hoạt: Không giống như DAMO-YOLO, vốn chỉ dành cho phát hiện đối tượng, YOLO26 xử lý liền mạch instance segmentation, pose estimation, classificationOriented Bounding Boxes (OBB) nguyên bản trong cùng một hệ sinh thái được bảo trì tốt.

Tìm hiểu thêm về YOLO26

Link to this sectionDễ sử dụng với Ultralytics#

Python API của Ultralytics hợp lý hóa trải nghiệm của nhà phát triển. Việc huấn luyện một mô hình YOLO26 hiện đại đòi hỏi ít mã boilerplate hơn nhiều và tránh được các quy trình chưng cất phức tạp của DAMO-YOLO. Hơn nữa, các mô hình Ultralytics có yêu cầu bộ nhớ CUDA đặc biệt thấp trong quá trình huấn luyện so với các mô hình dựa trên Transformer hạng nặng.

from ultralytics import YOLO

# Load the latest Ultralytics YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with one line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run fast, NMS-free inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
Huấn luyện và triển khai trên đám mây

Bạn có thể tự động gắn nhãn, huấn luyện và triển khai mô hình lên biên (edge) bằng cách sử dụng Ultralytics Platform, nền tảng xử lý tất cả việc quản lý phiên bản dữ liệu và cung cấp GPU đám mây cho bạn.

Link to this sectionKết luận#

Việc lựa chọn giữa DAMO-YOLO và YOLOX phụ thuộc vào các ràng buộc cụ thể: DAMO-YOLO cung cấp tỷ lệ tốc độ trên độ chính xác đặc biệt trên các GPU cụ thể thông qua NAS, trong khi YOLOX cung cấp thiết kế sạch, không neo, lý tưởng cho các kịch bản biên (edge) nhẹ.

Tuy nhiên, đối với các nhóm tìm kiếm một giải pháp hiện đại, hướng tới tương lai với một cộng đồng năng động, kiến trúc Ultralytics YOLO26 là lựa chọn quyết định. Thiết kế không cần NMS, suy luận CPU nhanh chóng và API thống nhất cho các tác vụ phát hiện, phân đoạn và ước tính tư thế khiến nó trở nên vô song để chuyển đổi suôn sẻ từ nghiên cứu sang sản xuất thực tế mạnh mẽ.

Đối với các nhà phát triển quan tâm đến việc khám phá các kiến trúc hiện đại khác, chúng tôi cũng khuyến nghị kiểm tra Ultralytics YOLO11 hoặc các mô hình dựa trên Transformer như RT-DETR có sẵn trong tài liệu Ultralytics toàn diện.

Người đóng góp

Bình luận