DAMO-YOLO vs. YOLO26: Phân tích các Kiến trúc phát hiện đối tượng thời gian thực thế hệ tiếp theo
Lĩnh vực thị giác máy tính không ngừng phát triển, được thúc đẩy bởi nhu cầu về các kiến trúc cân bằng giữa độ chính xác cao và độ trễ suy luận thấp. Bài so sánh này đi sâu vào các chi tiết kỹ thuật của DAMO- YOLO và Ultralytics YOLO26 , khám phá những đổi mới về kiến trúc, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng của chúng.
Cho dù bạn đang triển khai các mô hình thị giác máy tính lên các thiết bị biên hay xây dựng các hệ thống xử lý dữ liệu đám mây hiệu suất cao, việc hiểu rõ những điểm khác biệt tinh tế giữa các mô hình này là rất quan trọng để đưa ra các quyết định kiến trúc sáng suốt trong quá trình phát triển AI hiện đại.
DAMO- YOLO Tìm kiếm kiến trúc mạng nơ-ron ở quy mô lớn
DAMO-YOLO, được phát triển bởi Alibaba Group, được phát hành vào ngày 23 tháng 11 năm 2022. Được thiết kế bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun, mô hình tập trung nhiều vào việc tự động khám phá các kiến trúc hiệu quả bằng cách sử dụng Tìm kiếm Kiến trúc Nơ-ron (NAS).
Bạn có thể xem lại nghiên cứu gốc trong bài báo trên ArXiv hoặc khám phá mã nguồn trên kho lưu trữ GitHub của DAMO- YOLO .
Các tính năng kiến trúc chính
DAMO-YOLO giới thiệu một số đổi mới kỹ thuật được thiết kế để đẩy ranh giới của phát hiện đối tượng thời gian thực:
- Các Backbone MAE-NAS: DAMO-YOLO sử dụng tìm kiếm tiến hóa đa mục tiêu để tìm các backbone tối ưu. Phương pháp NAS này khám phá các kiến trúc cân bằng nghiêm ngặt độ chính xác detect với tốc độ suy luận trên phần cứng cụ thể.
- RepGFPN hiệu quả: Một thiết kế heavy-neck giúp cải thiện đáng kể việc hợp nhất đặc trưng, điều này rất có lợi khi phân tích các cảnh phức tạp như những cảnh được tìm thấy trong ảnh chụp từ trên không.
- ZeroHead Design: Một đầu detect được đơn giản hóa đáng kể giúp giảm thiểu độ phức tạp tính toán của các lớp dự đoán cuối cùng.
- AlignedOTA và Chưng cất tri thức: DAMO-YOLO sử dụng Gán Vận chuyển Tối ưu Căn chỉnh (AlignedOTA) để giải quyết sự mơ hồ trong việc gán nhãn, kết hợp với chiến lược tăng cường chưng cất tri thức mạnh mẽ nhằm nâng cao độ chính xác của các mô hình học sinh nhỏ hơn bằng cách sử dụng các mạng lưới giáo viên lớn hơn.
Lợi thế của Ultralytics: YOLO26
Được Glenn Jocher và Jing Qiu tại Ultralytics phát hành vào ngày 14 tháng 1 năm 2026, YOLO26 đại diện cho đỉnh cao của trí tuệ nhân tạo thị giác hiệu năng cao, dễ tiếp cận. Dựa trên nền tảng của YOLO11 và YOLOv10 , YOLO26 được thiết kế từ đầu với ưu tiên triển khai trên thiết bị biên, tính linh hoạt đa phương thức và sự dễ sử dụng chưa từng có.
Những đổi mới của YOLO26
Ultralytics YOLO26 giới thiệu một số tính năng đột phá, biến nó trở thành lựa chọn tối ưu cho các ứng dụng thị giác máy tính hiện đại:
- Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 tự nhiên loại bỏ hậu xử lý Non-Maximum Suppression (NMS). Được tiên phong ban đầu trong YOLOv10, phương pháp đầu cuối này đơn giản hóa đáng kể các quy trình triển khai và đảm bảo suy luận có tính xác định, độ trễ thấp.
- Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa kiến trúc cho điện toán biên, YOLO26 mang lại tốc độ vượt trội trên các thiết bị biên và CPU tiêu chuẩn, biến nó thành hoàn hảo cho các thiết bị IoT chạy bằng pin.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 tích hợp sự kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định huấn luyện mô hình ngôn ngữ lớn cho thị giác máy tính, giúp hội tụ nhanh hơn và đáng tin cậy hơn.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, đồ thị mô hình được đơn giản hóa, cho phép xuất dễ dàng sang các định dạng như ONNX và TensorRT.
- ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải thiện đáng kể trong nhận diện vật thể nhỏ, một tính năng quan trọng đối với hoạt động máy bay không người lái và nông nghiệp.
Cải tiến dành riêng cho nhiệm vụ
YOLO26 bao gồm các cải tiến chuyên biệt trên nhiều phương thức: một nguyên mẫu đa tỷ lệ cho Phân đoạn đối tượng , Ước lượng logarit khả năng dư (RLE) cho Ước lượng tư thế và tổn thất góc nâng cao để giảm thiểu các vấn đề về ranh giới trong phát hiện Hộp giới hạn định hướng (OBB) .
So sánh hiệu suất
Khi đánh giá các mô hình này, cần cân bằng giữa độ chính xác ( mAP Hiệu suất (Tốc độ/FLOPs) và hiệu quả tính toán là tối quan trọng. Bảng dưới đây nêu bật sự so sánh giữa các mô hình này bằng cách sử dụng bộ dữ liệu COCO tiêu chuẩn ngành.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như đã thấy ở trên, YOLO26 luôn mang lại độ chính xác cao hơn với ít tham số và FLOPs hơn đáng kể, dẫn đến một kiến trúc hiệu quả hơn nhiều cho cả quá trình huấn luyện và suy luận.
Hiệu quả và tính khả dụng của đào tạo
Sự phức tạp của DAMO- YOLO
Trong khi DAMO- YOLO Mặc dù đạt được độ chính xác cạnh tranh, phương pháp huấn luyện của nó lại rất phức tạp. Việc phụ thuộc vào Tìm kiếm Kiến trúc Mạng thần kinh (NAS) và quá trình chắt lọc kiến thức chuyên sâu đồng nghĩa với việc huấn luyện một mô hình tùy chỉnh thường đòi hỏi rất nhiều công sức. GPU nguồn lực và kiến thức chuyên môn. Quá trình nhiều giai đoạn này—đào tạo một mô hình giáo viên khổng lồ để chắt lọc thành một mô hình học sinh nhỏ hơn—có thể gây tắc nghẽn cho các nhóm kỹ thuật linh hoạt đang cố gắng lặp lại nhanh chóng trên các tập dữ liệu tùy chỉnh.
Sự tinh gọn Ultralytics Kinh nghiệm
Ngược lại, Ultralytics YOLO26 được thiết kế để dễ sử dụng từ "người mới đến chuyên gia". Toàn bộ vòng đời huấn luyện, xác thực và triển khai được trừu tượng hóa đằng sau một API Python và CLI sạch, thống nhất. Hơn nữa, YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện so với các mô hình dựa trên transformer như RT-DETR, cho phép các nhà nghiên cứu huấn luyện các mô hình tiên tiến trên phần cứng tiêu dùng.
Dưới đây là một ví dụ minh họa cách đơn giản để huấn luyện, đánh giá và xuất mô hình YOLO26 bằng cách sử dụng... Ultralytics SDK:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")
Đối với các nhóm ưa thích môi trường không cần lập trình, Ultralytics Platform cung cấp giao diện trực quan để chú thích dữ liệu, huấn luyện trên đám mây và triển khai liền mạch.
Các ứng dụng thực tế
Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào môi trường triển khai mục tiêu và các ràng buộc về phần cứng.
Kiểm soát chất lượng công nghiệp
Đối với tự động hóa sản xuất tốc độ cao, DAMO- YOLO có thể hoạt động tốt trên các hệ thống chuyên dụng. GPU Tuy nhiên, YOLO26 là lựa chọn ưu tiên cho các dây chuyền lắp ráp hiện đại. Thiết kế "không cần hệ thống quản lý mạng NMS từ đầu đến cuối đảm bảo độ trễ ổn định, không bị giật, điều này rất cần thiết khi đồng bộ hóa dữ liệu hình ảnh với các bộ truyền động robot trong thời gian thực.
Trí tuệ nhân tạo biên và thiết bị di động
Triển khai thị giác máy tính trên các thiết bị chạy bằng pin đòi hỏi hiệu quả cực cao. Trong khi DAMO-YOLO dựa vào các cổ RepGFPN cụ thể, YOLO26n (Nano) được tối ưu hóa đặc biệt cho điện toán biên. Việc loại bỏ DFL và suy luận CPU nhanh hơn 43% của nó biến nó thành giải pháp tối ưu cho camera thông minh, ứng dụng di động và hệ thống báo động an ninh.
Yêu cầu dự án đa phương thức
Nếu một dự án đòi hỏi nhiều hơn chỉ là phát hiện đối tượng—chẳng hạn như phân tích chuyển động của người chơi trong thể thao bằng cách ước tính tư thế, hoặc trích xuất ranh giới pixel chính xác bằng cách phân đoạn đối tượng— YOLO26 cung cấp hỗ trợ gốc cho tất cả các tác vụ này trong một mã nguồn thống nhất duy nhất. DAMO- YOLO Chỉ giới hạn nghiêm ngặt trong việc phát hiện khung bao quanh.
Các trường hợp sử dụng và Khuyến nghị
Việc lựa chọn giữa DAMO-YOLO và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, các ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn DAMO-YOLO
DAMO-YOLO là một lựa chọn mạnh mẽ cho:
- Phân tích video thông lượng cao: Xử lý các luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản có ràng buộc nghiêm ngặt về độ trễ GPU trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu tìm kiếm kiến trúc mạng nơ-ron: Nghiên cứu ảnh hưởng của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone được tham số hóa lại hiệu quả đến hiệu suất detect.
Khi nào nên chọn YOLO26
YOLO26 được khuyến nghị sử dụng cho:
- Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
- Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.
Kết luận
Cả hai kiến trúc đều đại diện cho những thành tựu đáng kể trong lĩnh vực học sâu. DAMO-YOLO mang đến cái nhìn sâu sắc về sức mạnh của các kỹ thuật Tìm kiếm Kiến trúc Mạng thần kinh (Neural Architecture Search) và chưng cất (distillation) được tùy chỉnh cho các tiêu chuẩn phần cứng cụ thể.
Tuy nhiên, đối với các nhà phát triển, nhà nghiên cứu và doanh nghiệp đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội. Sự kết hợp giữa giải pháp toàn diện từ đầu đến cuối là điểm mạnh của nó. NMS - Thiết kế miễn phí, quy mô lớn CPU những lợi ích về suy luận, tính linh hoạt đa phương thức và sự tích hợp vào hệ thống được bảo trì tốt. Ultralytics Hệ sinh thái này biến nó trở thành công cụ mạnh mẽ và thiết thực nhất để giải quyết các thách thức về thị giác máy tính trong thế giới thực hiện nay.
Dành cho người dùng quan tâm đến việc khám phá các mô hình khác trong phạm vi này. Ultralytics Trong hệ sinh thái này, tài liệu đầy đủ có sẵn cho YOLO11 , YOLOv8 và RT-DETR dựa trên transformer.