DAMO-YOLO so với YOLO26: Phân tích Kiến trúc Phát hiện Đối tượng Thời gian thực Thế hệ mới
Bối cảnh của thị giác máy tính đang không ngừng phát triển, được thúc đẩy bởi nhu cầu về các kiến trúc cân bằng giữa độ chính xác cao và suy luận có độ trễ thấp. Bài so sánh này đi sâu vào các chi tiết kỹ thuật của DAMO-YOLO và Ultralytics YOLO26, khám phá những cải tiến về kiến trúc, phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng.
Cho dù bạn đang triển khai các model thị giác máy tính trên thiết bị biên hay xây dựng các pipeline cloud với lưu lượng truy cập cao, việc hiểu rõ sự khác biệt giữa các model này là rất quan trọng để đưa ra các quyết định kiến trúc sáng suốt trong phát triển AI hiện đại.
DAMO-YOLO: Neural Architecture Search ở quy mô lớn
DAMO-YOLO, được phát triển bởi Alibaba Group, được ra mắt vào ngày 23 tháng 11 năm 2022. Được thiết kế bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun, model này tập trung mạnh mẽ vào việc tự động khám phá các kiến trúc hiệu quả bằng cách sử dụng Neural Architecture Search (NAS).
Bạn có thể xem lại nghiên cứu gốc trong bài báo trên ArXiv của họ hoặc khám phá mã nguồn trên kho lưu trữ DAMO-YOLO GitHub.
Các tính năng kiến trúc chính
DAMO-YOLO giới thiệu một số cải tiến kỹ thuật được thiết kế để đẩy mạnh giới hạn của việc phát hiện đối tượng thời gian thực:
- MAE-NAS Backbones: DAMO-YOLO sử dụng tìm kiếm tiến hóa đa mục tiêu (Multi-Objective Evolutionary search) để tìm ra các backbone tối ưu. Phương pháp NAS này khám phá ra các kiến trúc cân bằng nghiêm ngặt giữa độ chính xác phát hiện và tốc độ suy luận trên phần cứng cụ thể.
- Efficient RepGFPN: Một thiết kế neck chuyên sâu giúp cải thiện đáng kể khả năng hợp nhất đặc trưng, điều này cực kỳ hữu ích khi phân tích các cảnh phức tạp như những gì được tìm thấy trong ảnh chụp từ trên không.
- ZeroHead Design: Một đầu phát hiện (detection head) được đơn giản hóa tối đa giúp giảm thiểu độ phức tạp tính toán của các lớp dự đoán cuối cùng.
- AlignedOTA và Distillation: DAMO-YOLO sử dụng Aligned Optimal Transport Assignment (AlignedOTA) để giải quyết các sự mơ hồ trong việc gán nhãn, kết hợp với chiến lược tăng cường chưng cất tri thức (knowledge distillation) mạnh mẽ để tăng độ chính xác cho các model học viên nhỏ hơn bằng cách sử dụng các mạng giáo viên lớn hơn.
Lợi thế của Ultralytics: YOLO26
Được ra mắt vào ngày 14 tháng 1 năm 2026 bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO26 đại diện cho đỉnh cao của AI thị giác máy tính hiệu năng cao, dễ tiếp cận. Được xây dựng dựa trên di sản của YOLO11 và YOLOv10, YOLO26 được thiết kế từ đầu cho việc triển khai ưu tiên thiết bị biên, tính linh hoạt đa phương thức và sự dễ sử dụng tuyệt vời.
Những cải tiến của YOLO26
Ultralytics YOLO26 giới thiệu một số tính năng đột phá khiến nó trở thành lựa chọn hàng đầu cho các ứng dụng thị giác máy tính hiện đại:
- Thiết kế End-to-End không cần NMS: YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS). Được tiên phong lần đầu trong YOLOv10, phương pháp end-to-end này giúp đơn giản hóa đáng kể các pipeline triển khai và đảm bảo suy luận có tính quyết định với độ trễ thấp.
- Suy luận trên CPU nhanh hơn tới 43%: Được tối ưu hóa về mặt kiến trúc cho điện toán biên, YOLO26 mang lại tốc độ vượt trội trên các thiết bị biên và CPU tiêu chuẩn, khiến nó trở nên hoàn hảo cho các thiết bị IoT chạy bằng pin.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình đào tạo LLM (như Kimi K2 của Moonshot AI), YOLO26 kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định trong đào tạo các mô hình ngôn ngữ lớn vào thị giác máy tính, dẫn đến sự hội tụ nhanh hơn và đáng tin cậy hơn.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, biểu đồ mô hình (model graph) được đơn giản hóa, cho phép xuất file mượt mà sang các định dạng như ONNX và TensorRT.
- ProgLoss + STAL: Những hàm mất mát (loss function) tiên tiến này cung cấp những cải tiến đáng chú ý trong việc nhận dạng đối tượng nhỏ, một tính năng quan trọng cho hoạt động của drone và nông nghiệp.
YOLO26 bao gồm các cải tiến chuyên biệt trên nhiều phương thức: một multi-scale proto cho Phân đoạn đối tượng (Instance Segmentation), Ước tính Log-Likelihood dư (RLE) cho Ước tính tư thế (Pose Estimation), và hàm mất mát góc nâng cao để giảm thiểu các vấn đề về biên trong phát hiện Hộp bao định hướng (OBB).
So sánh hiệu năng
Khi đánh giá các model này, sự cân bằng giữa độ chính xác (mAP) và hiệu quả tính toán (Tốc độ/FLOPs) là quan trọng nhất. Bảng dưới đây nêu bật cách so sánh các model này bằng cách sử dụng tập dữ liệu COCO tiêu chuẩn công nghiệp.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như đã thấy ở trên, YOLO26 liên tục mang lại độ chính xác cao hơn với ít tham số và FLOPs hơn đáng kể, tạo ra một kiến trúc hiệu quả hơn nhiều cho cả quá trình đào tạo và suy luận.
Hiệu quả đào tạo và Khả năng sử dụng
Những phức tạp của DAMO-YOLO
Mặc dù DAMO-YOLO đạt được độ chính xác cạnh tranh, phương pháp đào tạo của nó lại vô cùng phức tạp. Việc phụ thuộc vào Neural Architecture Search (NAS) và chưng cất tri thức nặng nề đồng nghĩa với việc đào tạo một model tùy chỉnh thường đòi hỏi tài nguyên GPU đáng kể và kiến thức chuyên môn. Quy trình đa giai đoạn này—đào tạo một model giáo viên khổng lồ để chưng cất vào một model học viên nhỏ hơn—có thể trở thành nút thắt đối với các nhóm kỹ thuật linh hoạt đang cố gắng lặp lại nhanh trên các tập dữ liệu tùy chỉnh.
Trải nghiệm Ultralytics tinh gọn
Ngược lại, Ultralytics YOLO26 được thiết kế để dễ sử dụng từ con số không. Toàn bộ vòng đời đào tạo, xác thực và triển khai được trừu tượng hóa đằng sau một Python API và CLI thống nhất, sạch sẽ. Hơn nữa, YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình đào tạo so với các model dựa trên Transformer như RT-DETR, cho phép các nhà nghiên cứu đào tạo các model hiện đại trên phần cứng cấp độ người dùng.
Đây là một ví dụ về việc dễ dàng đào tạo, đánh giá và xuất một model YOLO26 bằng cách sử dụng Ultralytics SDK như thế nào:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")Đối với các nhóm thích môi trường không cần code (no-code), Ultralytics Platform cung cấp giao diện trực quan cho việc chú thích tập dữ liệu, đào tạo trên cloud và triển khai liền mạch.
Ứng dụng trong thế giới thực
Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào môi trường triển khai mục tiêu và các hạn chế về phần cứng.
Kiểm soát chất lượng công nghiệp
Đối với tự động hóa sản xuất tốc độ cao, DAMO-YOLO có thể hoạt động tốt trên phần cứng GPU chuyên dụng. Tuy nhiên, YOLO26 là lựa chọn ưu tiên cho các dây chuyền lắp ráp hiện đại. Thiết kế End-to-End không cần NMS của nó đảm bảo độ trễ xác định, không bị giật, điều cần thiết khi đồng bộ hóa dữ liệu hình ảnh với các bộ truyền động robot trong thời gian thực.
Edge AI và thiết bị di động
Triển khai thị giác máy tính trên các thiết bị chạy bằng pin đòi hỏi hiệu quả cực cao. Trong khi DAMO-YOLO dựa vào các neck RepGFPN cụ thể, YOLO26n (Nano) được tối ưu hóa đặc biệt cho điện toán biên. Việc loại bỏ DFL và suy luận CPU nhanh hơn 43% khiến nó trở thành giải pháp tối ưu cho camera thông minh, ứng dụng di động và hệ thống báo động an ninh.
Yêu cầu dự án đa phương thức
If a project demands more than just object detection—such as analyzing player mechanics in sports using pose estimation, or extracting exact pixel boundaries using instance segmentation—YOLO26 provides native support across all these tasks within a single, unified codebase. DAMO-YOLO is strictly limited to bounding box detection.
Các trường hợp sử dụng và khuyến nghị
Việc lựa chọn giữa DAMO-YOLO và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, các hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO-YOLO là lựa chọn mạnh mẽ cho:
- Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là số liệu chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với các ràng buộc về độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của việc tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đối với hiệu suất phát hiện.
Khi nào nên chọn YOLO26
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Kết luận
Cả hai kiến trúc đều đại diện cho những thành tựu đáng kể trong lĩnh vực deep learning. DAMO-YOLO mang đến một cái nhìn thú vị về sức mạnh của tìm kiếm kiến trúc thần kinh (Neural Architecture Search) và các kỹ thuật chưng cất được thiết kế cho các điểm chuẩn phần cứng cụ thể.
Tuy nhiên, đối với các nhà phát triển, nhà nghiên cứu và doanh nghiệp đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, Ultralytics YOLO26 nổi bật là lựa chọn vượt trội. Sự kết hợp giữa thiết kế end-to-end không cần NMS, mức tăng suy luận CPU khổng lồ, tính linh hoạt đa phương thức và khả năng tích hợp vào hệ sinh thái Ultralytics được duy trì tốt khiến nó trở thành công cụ mạnh mẽ và thiết thực nhất để giải quyết các thách thức thị giác máy tính trong thế giới thực hiện nay.
Đối với người dùng quan tâm đến việc khám phá các model khác trong hệ sinh thái Ultralytics, tài liệu toàn diện có sẵn cho YOLO11, YOLOv8 và RT-DETR dựa trên Transformer.