YOLO26 so với DAMO-YOLO: So sánh kỹ thuật về các bộ phát hiện đối tượng thời gian thực
Khi chọn một model thị giác máy tính hiện đại, việc tìm ra sự cân bằng tối ưu giữa tốc độ suy luận, độ chính xác và khả năng triển khai là rất quan trọng. Hướng dẫn toàn diện này so sánh hai model nổi bật trong lĩnh vực thị giác AI: Ultralytics YOLO26 và DAMO-YOLO. Mặc dù cả hai kiến trúc đều đẩy mạnh giới hạn của việc phát hiện đối tượng thời gian thực, triết lý thiết kế cơ bản và các trường hợp sử dụng dự định của chúng lại khác biệt đáng kể.
Đổi mới và thiết kế kiến trúc
Ultralytics YOLO26: Tiêu chuẩn thị giác ưu tiên thiết bị cạnh (Edge-First)
Được phát triển bởi Glenn Jocher và Jing Qiu tại Ultralytics và phát hành vào ngày 14 tháng 1 năm 2026, YOLO26 đại diện cho một bước tiến nhảy vọt trong dòng họ YOLO. Nó được thiết kế từ đầu cho điện toán biên, kết hợp liền mạch các phương pháp huấn luyện LLM tiên tiến với các kiến trúc thị giác hiện đại.
Những đột phá kiến trúc chính của YOLO26 bao gồm:
- Thiết kế End-to-End không cần NMS: Dựa trên nghiên cứu tiên phong từ YOLOv10, YOLO26 là kiến trúc end-to-end tự nhiên. Bằng cách loại bỏ hoàn toàn Non-Maximum Suppression (NMS) trong quá trình hậu xử lý, nó đảm bảo độ trễ xác định và đơn giản hóa đáng kể các quy trình triển khai.
- Loại bỏ DFL: Việc loại bỏ Distribution Focal Loss giúp tinh gọn đồ thị model. Điều này làm cho việc xuất (export) sang các framework triển khai như ONNX và TensorRT trở nên mượt mà hơn nhiều và đảm bảo khả năng tương thích tốt hơn với các thiết bị biên công suất thấp.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa Stochastic Gradient Descent (SGD) và Muon này mang những đổi mới trong huấn luyện LLM vào thị giác máy tính, dẫn đến việc huấn luyện ổn định đáng kể và hội tụ nhanh chóng.
- ProgLoss + STAL: Các hàm loss tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, vốn là nhu cầu quan trọng đối với phân tích hình ảnh trên không dựa trên drone và các hệ thống robotics phức tạp.
DAMO-YOLO: Neural Architecture Search ở quy mô lớn
Được phát triển bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun từ Alibaba Group (phát hành ngày 23 tháng 11 năm 2022), DAMO-YOLO tập trung mạnh mẽ vào việc tự động khám phá kiến trúc. Nghiên cứu này, được trình bày chi tiết trong bài báo trên arXiv, sử dụng Neural Architecture Search (NAS) để tìm ra các backbone tối ưu dưới những giới hạn nghiêm ngặt về độ trễ.
Các đặc điểm kiến trúc chính của DAMO-YOLO bao gồm:
- Backbone MAE-NAS: Sử dụng tìm kiếm tiến hóa đa mục tiêu (Multi-Objective Evolutionary search) để tự động thiết kế các backbone cân bằng giữa độ chính xác và tốc độ triển khai mục tiêu.
- Efficient RepGFPN: Một thiết kế heavy-neck mạnh mẽ giúp tối ưu hóa việc kết hợp đặc trưng qua các thang đo khác nhau, giúp nó có khả năng xử lý các cảnh quay trực quan phức tạp.
- ZeroHead: Một head phát hiện được đơn giản hóa mạnh mẽ, thiết kế để giảm thiểu chi phí tính toán trong các lớp dự đoán cuối cùng.
Mặc dù kiến trúc dựa trên NAS của DAMO-YOLO rất xuất sắc cho các ràng buộc phần cứng cụ thể, được xác định trước, nhưng thiết kế không cần NMS và việc loại bỏ DFL của YOLO26 khiến nó trở thành một lựa chọn linh hoạt và dễ dự đoán hơn nhiều trong vô số các môi trường biên và đám mây khác nhau.
So sánh hiệu suất và các chỉ số
Sự so sánh trực tiếp các biến thể model được huấn luyện trên tập dữ liệu COCO tiêu chuẩn cho thấy các hồ sơ hiệu suất riêng biệt. Bảng dưới đây phác thảo sự đánh đổi giữa độ chính xác (mAP), tốc độ và dấu chân tính toán (số tham số và FLOPs).
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích hiệu suất
Khi phân tích dữ liệu, sự cân bằng hiệu suất nghiêng mạnh về phía YOLO26 cho các ứng dụng hiện đại. Biến thể Nano (YOLO26n) cực kỳ nhẹ với chỉ 2.4 triệu tham số, mang lại tốc độ ấn tượng 1.7 ms trên GPU NVIDIA T4. Hơn nữa, YOLO26 được thiết kế đặc biệt để cung cấp tốc độ suy luận trên CPU nhanh hơn tới 43%, khiến nó trở thành nhà vô địch không thể tranh cãi cho các thiết bị biên thiếu bộ tăng tốc GPU chuyên dụng.
Mặc dù DAMO-YOLOt vượt trội hơn một chút so với YOLO26n về mAP thuần túy, nhưng điều này phải trả giá bằng việc yêu cầu số lượng tham số gần gấp bốn lần (8.5 triệu). Khi chuyển sang các biến thể lớn hơn, YOLO26 liên tục vượt trội hơn DAMO-YOLO về độ chính xác trong khi vẫn duy trì dấu chân bộ nhớ nhỏ hơn, mức sử dụng bộ nhớ CUDA thấp hơn trong quá trình huấn luyện và tốc độ TensorRT nhanh hơn đáng kể.
Hệ sinh thái, tính khả dụng và hiệu quả huấn luyện
Sức mạnh thực sự của một model machine learning không chỉ nằm ở các số liệu thô mà còn ở khả năng được sử dụng dễ dàng bởi các nhà phát triển và nhà nghiên cứu.
Ưu thế của Ultralytics
Việc chọn một model Ultralytics đảm bảo quyền truy cập vào một hệ sinh thái tinh gọn, tập trung vào nhà phát triển. Các quy trình làm việc phức tạp bao gồm tăng cường dữ liệu, tinh chỉnh siêu tham số và theo dõi thí nghiệm mạnh mẽ được trừu tượng hóa thành các lệnh trực quan.
Hơn nữa, YOLO26 mang đến sự linh hoạt chưa từng có. Trong khi DAMO-YOLO chỉ là bộ phát hiện đối tượng, YOLO26 cung cấp những cải tiến toàn diện, cụ thể cho từng tác vụ trên nhiều lĩnh vực ngay từ đầu:
- Phân đoạn thực thể (Instance Segmentation): Sử dụng hàm loss phân đoạn ngữ nghĩa chuyên dụng và tạo mẫu đa quy mô.
- Ước tính tư thế (Pose Estimation): Hưởng lợi từ Residual Log-Likelihood Estimation (RLE) tiên tiến.
- Hộp bao quanh định hướng (OBB): Kết hợp các hàm loss góc chuyên dụng để giải quyết hoàn hảo các vấn đề ranh giới phức tạp.
- Phân loại hình ảnh (Image Classification): Dành cho việc dán nhãn hình ảnh toàn cầu nhanh chóng và nhẹ nhàng.
Phương pháp huấn luyện
Huấn luyện DAMO-YOLO thường bao gồm một quy trình chưng cất (distillation) phức tạp, nơi một model "giáo viên" lớn huấn luyện một model "học sinh" nhỏ hơn. Mặc dù kỹ thuật này mang lại những cải tiến độ chính xác nhỏ, nhưng nó đòi hỏi bộ nhớ GPU lớn và chu kỳ huấn luyện dài hơn.
Ngược lại, các yêu cầu bộ nhớ cho YOLO26 thấp hơn đáng kể. Được vận hành bởi trình tối ưu hóa MuSGD, YOLO26 huấn luyện nhanh chóng và hiệu quả trên phần cứng cấp người dùng tiêu chuẩn. Đây là cách bạn có thể dễ dàng huấn luyện một model YOLO26 bằng PyTorch thông qua Ultralytics Python API:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")Ứng dụng trong thế giới thực
Việc lựa chọn giữa các kiến trúc này cuối cùng phụ thuộc vào môi trường triển khai của bạn.
AI biên và thiết bị IoT
Đối với camera bán lẻ thông minh, thiết bị giám sát nông nghiệp tự động hoặc robotics, tài nguyên máy tính bị giới hạn nghiêm ngặt. Ở đây, YOLO26 là lựa chọn dứt khoát. Tốc độ suy luận CPU nhanh hơn 43%, quy trình hoàn toàn không cần NMS và dấu chân tham số nhỏ cho phép nó chạy mượt mà trên các thiết bị biên như Raspberry Pi mà không làm mất đi độ chính xác quan trọng.
Sản xuất tốc độ cao và kiểm soát chất lượng
Trong các dây chuyền tự động hóa sản xuất nhịp độ nhanh, việc phát hiện lỗi trên các băng chuyền chuyển động nhanh đòi hỏi độ trễ tối thiểu, xác định. Mặc dù DAMO-YOLO có thể hoạt động đầy đủ trên các cấu hình GPU cụ thể, độ trễ dao động do hậu xử lý NMS truyền thống gây ra có thể làm mất đồng bộ hóa các bộ truyền động robot. Bản chất end-to-end của YOLO26 đảm bảo thời gian xử lý khung hình nhất quán, có thể dự đoán được, đảm bảo sự tích hợp hoàn hảo vào các hệ thống robotics công nghiệp tốc độ cao.
Drone và hình ảnh trên không
Việc phát hiện các đối tượng nhỏ từ độ cao lớn là vô cùng khó khăn. Việc tích hợp ProgLoss và STAL trong YOLO26 cải thiện đáng kể khả năng nhận diện đối tượng nhỏ. Cho dù là theo dõi động vật hoang dã hay phân tích ùn tắc giao thông từ UAV, YOLO26 liên tục xác định các đối tượng có diện tích pixel nhỏ hơn mà các kiến trúc cũ hơn, bao gồm cả DAMO-YOLO, thường xuyên bỏ sót.
Các trường hợp sử dụng và khuyến nghị
Việc lựa chọn giữa YOLO26 và DAMO-YOLO phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLO26
YOLO26 là một lựa chọn mạnh mẽ cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Khi nào nên chọn DAMO-YOLO
DAMO-YOLO được khuyến nghị cho:
- Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.
Kết luận
Mặc dù DAMO-YOLO vẫn là một nghiên cứu thú vị về khả năng của Neural Architecture Search cho các mục tiêu phần cứng cụ thể, Ultralytics YOLO26 đứng vững như một giải pháp vượt trội, toàn diện cho những người thực hành AI hiện đại. Với kiến trúc end-to-end không cần NMS, yêu cầu bộ nhớ thấp hơn đáng kể, trình tối ưu hóa MuSGD lai và một hệ sinh thái được duy trì hoàn hảo, YOLO26 trao quyền cho các nhà phát triển xây dựng và triển khai các hệ thống thị giác hiện đại nhanh chóng và đáng tin cậy hơn bao giờ hết.