DAMO-YOLO so với YOLO26: So sánh kỹ thuật các bộ detect đối tượng thời gian thực
Sự phát triển của detect đối tượng thời gian thực đã chứng kiến những tiến bộ nhanh chóng, được thúc đẩy bởi nhu cầu về các mô hình cân bằng giữa tốc độ, độ chính xác và hiệu quả triển khai. Bài viết này cung cấp một so sánh kỹ thuật toàn diện giữa DAMO-YOLO, được phát triển bởi Alibaba Group, và YOLO26, phiên bản mới nhất từ Ultralytics. Chúng tôi sẽ phân tích kiến trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp các nhà phát triển và nghiên cứu lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của họ.
Tổng quan về DAMO-YOLO
DAMO-YOLO là một phương pháp detect đối tượng nhanh và chính xác được giới thiệu vào cuối năm 2022 bởi các nhà nghiên cứu tại Alibaba Group. Nó được thiết kế để đẩy giới hạn hiệu suất bằng cách tích hợp một số công nghệ tiên tiến vào framework YOLO. Triết lý cốt lõi đằng sau DAMO-YOLO là sử dụng Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) để tự động khám phá các backbone hiệu quả, kết hợp với một neck tái tham số hóa mạnh mẽ.
Các tính năng kiến trúc chính bao gồm:
- Backbone MAE-NAS: Sử dụng phương pháp autoencoder che mặt nạ (MAE) để tìm kiếm các cấu trúc backbone tối ưu dưới các ràng buộc độ trễ khác nhau.
- RepGFPN hiệu quả: Một Mạng Kim tự tháp Đặc trưng Tổng quát (GFPN) được tối ưu hóa mạnh mẽ bằng cách tái tham số hóa để cải thiện hiệu quả hợp nhất đặc trưng mà không làm giảm tốc độ trong quá trình suy luận.
- ZeroHead: Một thiết kế head nhẹ giúp giảm chi phí tính toán.
- AlignedOTA: Một chiến lược gán nhãn được cải tiến giúp giải quyết các vấn đề sai lệch giữa các tác vụ phân loại và hồi quy.
- Cải thiện bằng chưng cất: Một pipeline chưng cất mạnh mẽ được sử dụng để tăng cường độ chính xác của các mô hình nhỏ hơn bằng cách sử dụng các mô hình giáo viên lớn hơn.
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức:Alibaba Group
Ngày: 23 tháng 11, 2022
Liên kết:Arxiv, GitHub
Tổng quan về YOLO26
Được phát hành vào tháng 1 năm 2026 bởi Ultralytics, YOLO26 đại diện cho một bước tiến đáng kể trong thị giác máy tính được tối ưu hóa cho biên. Được thiết kế đặc biệt cho các thiết bị biên và công suất thấp, nó tập trung vào việc hợp lý hóa pipeline triển khai đồng thời nâng cao độ chính xác trên các tác vụ khó khăn như detect đối tượng nhỏ.
YOLO26 nổi bật với một số đổi mới lớn:
- Thiết kế không NMS đầu cuối: Bằng cách loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression (NMS), YOLO26 đơn giản hóa logic triển khai và giảm biến động độ trễ, một khái niệm lần đầu tiên được tiên phong trong YOLOv10.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss (DFL) đơn giản hóa cấu trúc đầu ra của mô hình, giúp việc xuất sang các định dạng như ONNX và TensorRT trở nên dễ dàng hơn và tương thích với nhiều loại phần cứng hơn.
- Bộ tối ưu hóa MuSGD: Một bộ tối ưu hóa lai mới kết hợp SGD và Muon, lấy cảm hứng từ các kỹ thuật huấn luyện LLM từ Kimi K2 của Moonshot AI. Điều này dẫn đến động lực huấn luyện ổn định hơn và hội tụ nhanh hơn.
- ProgLoss + STAL: Sự kết hợp giữa Cân bằng mất mát lũy tiến (Progressive Loss Balancing) và Gán nhãn nhận biết mục tiêu nhỏ (Small-Target-Aware Label Assignment - STAL) giúp tăng cường đáng kể hiệu suất trên các đối tượng nhỏ, giải quyết một điểm yếu chung trong các bộ detect thời gian thực.
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 14 tháng 1, 2026
Liên kết:Tài liệu Ultralytics, GitHub
Phân tích so sánh
Kiến trúc và Triết lý Thiết kế
Sự khác biệt nổi bật nhất nằm ở pipeline suy luận. DAMO-YOLO tuân theo quy trình làm việc của bộ detect truyền thống yêu cầu NMS để lọc các bounding box chồng chéo. Mặc dù hiệu quả, NMS có thể là nút thắt cổ chai trong các ứng dụng thông lượng cao và làm phức tạp việc triển khai trên một số bộ tăng tốc nhất định.
Ngược lại, YOLO26 có thiết kế đầu cuối nguyên bản. Mô hình dự đoán trực tiếp tập hợp các bounding box cuối cùng. Thiết kế không NMS này không chỉ giảm độ trễ suy luận—đặc biệt trên các thiết bị biên bị giới hạn bởi CPU nơi NMS tốn kém—mà còn đơn giản hóa mã tích hợp cần thiết để chạy mô hình trong môi trường sản xuất.
Đơn giản hóa triển khai
Kiến trúc không NMS của YOLO26 có nghĩa là bạn không cần triển khai logic xử lý hậu kỳ phức tạp bằng C++ hoặc CUDA khi triển khai lên các thiết bị biên. Đầu ra của mô hình là kết quả detect cuối cùng.
Phương pháp luận huấn luyện
DAMO-YOLO phụ thuộc nhiều vào Chưng cất tri thức để đạt được hiệu suất cao, đặc biệt đối với các biến thể nhỏ hơn của nó. Điều này làm tăng độ phức tạp cho pipeline huấn luyện, vì một mô hình giáo viên mạnh mẽ phải được huấn luyện trước.
YOLO26 giới thiệu bộ tối ưu hóa MuSGD, thu hẹp khoảng cách giữa tối ưu hóa Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính. Điều này cho phép YOLO26 đạt được sự hội tụ tiên tiến mà không nhất thiết phải dựa vào các thiết lập chưng cất phức tạp, mặc dù các chế độ huấn luyện của Ultralytics hỗ trợ nhiều cấu hình nâng cao khác nhau. Hơn nữa, ProgLoss của YOLO26 điều chỉnh trọng số mất mát một cách linh hoạt trong quá trình huấn luyện để ổn định quá trình học.
Các chỉ số hiệu suất
Khi so sánh hiệu suất trên tập dữ liệu COCO, cả hai mô hình đều cho thấy kết quả ấn tượng, nhưng có những đánh đổi rõ rệt về tốc độ và hiệu quả.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Phân tích:
- Hiệu quả tham số: YOLO26 thể hiện hiệu quả tham số tốt hơn đáng kể. Ví dụ,
YOLO26sđạt được 48.6 mAP với chỉ 9.5 triệu tham số, trong khiDAMO-YOLOsđạt được 46.0 mAP với 16.3 triệu tham số. Điều này giúp các mô hình YOLO26 nhẹ hơn khi lưu trữ và tải nhanh hơn. - Tốc độ suy luận: YOLO26n cực kỳ nhanh, đạt mức 1.7 ms trên GPU T4 với TensorRT, so với khoảng 2.32 ms cho biến thể Tiny DAMO. Tốc độ CPU của YOLO26 cũng là một điểm nổi bật chính, được tối ưu hóa đặc biệt cho các thiết bị như Raspberry Pi hoặc điện thoại di động nơi không có GPU.
- Độ chính xác: Ở các quy mô tương tự (ví dụ: Trung bình/Lớn), YOLO26 luôn vượt trội hơn DAMO-YOLO về mAP, có thể là do chiến lược gán STAL tiên tiến và kiến trúc tinh chỉnh.
Tính linh hoạt và hỗ trợ tác vụ
Trong khi DAMO-YOLO chủ yếu tập trung vào detect đối tượng, hệ sinh thái Ultralytics đảm bảo rằng YOLO26 là một công cụ đa nhiệm mạnh mẽ.
- DAMO-YOLO: Chuyên về Detect Đối tượng.
- YOLO26: Hỗ trợ Detect Đối tượng, segment Thực thể, Phân loại Hình ảnh, Ước tính Tư thế, và detect Hộp giới hạn có hướng (OBB) ngay lập tức.
Tính linh hoạt này cho phép các nhà phát triển sử dụng một API thống nhất duy nhất cho các vấn đề thị giác máy tính đa dạng, giảm đường cong học tập và nợ kỹ thuật.
Dễ sử dụng và hệ sinh thái
Một trong những lợi thế mạnh nhất của YOLO26 là hệ sinh thái Ultralytics xung quanh.
DAMO-YOLO cung cấp một codebase mà các nhà nghiên cứu có thể sử dụng để tái tạo kết quả, nhưng nó có thể thiếu tài liệu phong phú, bảo trì và hỗ trợ cộng đồng được tìm thấy trong các thư viện tập trung vào sản phẩm hơn.
YOLO26 hưởng lợi từ:
- API đơn giản: Một Python nhất quán và giao diện CLI (
yolo predict ...) giúp việc huấn luyện và triển khai dễ tiếp cận cho cả người mới bắt đầu và chuyên gia. - Tài liệu: Các hướng dẫn chi tiết về mọi thứ từ huấn luyện trên tập dữ liệu tùy chỉnh đến xuất mô hình cho iOS và Android.
- Tích hợp: Kết nối liền mạch với các công cụ như Comet, Weights & Biases, và Roboflow cho MLOps.
- Bảo trì: Cập nhật thường xuyên khắc phục lỗi và giới thiệu các tính năng mới, đảm bảo mô hình luôn phù hợp.
Ví dụ Mã: Chạy YOLO26
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
Các Trường hợp Sử dụng
Khi nào nên chọn DAMO-YOLO
- Ứng dụng Nghiên cứu: Nếu công việc của bạn liên quan đến việc nghiên cứu Tìm kiếm Kiến trúc Mạng nơ-ron (NAS) hoặc khám phá các kỹ thuật tái tham số hóa mới lạ, DAMO-YOLO cung cấp một nền tảng phong phú cho nghiên cứu học thuật.
- Các Ràng buộc Kế thừa Cụ thể: Nếu một pipeline hiện có được xây dựng chặt chẽ xung quanh định dạng đầu ra cụ thể hoặc chiến lược gán anchor của DAMO-YOLO và việc tái cấu trúc không khả thi.
Khi nào nên chọn YOLO26
- Triển khai Biên: Đối với các ứng dụng trên Raspberry Pi, thiết bị di động hoặc hệ thống nhúng nơi tốc độ suy luận CPU và dấu chân bộ nhớ thấp là rất quan trọng.
- Hệ thống Thời gian Thực: Bản chất không NMS làm cho YOLO26 lý tưởng cho các yêu cầu độ trễ cực thấp trong robot học hoặc lái xe tự hành.
- Dự án Đa nhiệm: Nếu dự án của bạn yêu cầu detect đối tượng, segment mặt nạ và ước tính tư thế đồng thời, YOLO26 đáp ứng tất cả các yêu cầu với một framework duy nhất.
- Phát triển Thương mại: Sự ổn định, hỗ trợ và khả năng dễ dàng xuất sang các định dạng như CoreML và OpenVINO khiến nó trở thành lựa chọn vượt trội cho phần mềm sản xuất.
Kết luận
Cả hai mô hình đều đại diện cho những thành tựu đáng kể trong thị giác máy tính. DAMO-YOLO đã giới thiệu các khái niệm ấn tượng về NAS và hợp nhất đặc trưng hiệu quả. Tuy nhiên, YOLO26 đã tinh chỉnh công nghệ tiên tiến bằng cách tập trung vào tính thực tiễn triển khai, sự ổn định trong huấn luyện và hiệu quả tính toán. Với thiết kế không NMS từ đầu đến cuối, hiệu quả tham số vượt trội và sự hỗ trợ từ hệ sinh thái Ultralytics mạnh mẽ, YOLO26 nổi bật là lựa chọn được khuyến nghị cho các ứng dụng thị giác máy tính thời gian thực hiện đại.
Đối với những ai quan tâm đến việc khám phá các tùy chọn khác trong hệ sinh thái Ultralytics, các mô hình như YOLO11 và YOLOv8 vẫn là những lựa chọn thay thế mạnh mẽ cho các tác vụ detect tổng quát.