Link to this sectionDAMO-YOLO so với YOLO26#
Bối cảnh của thị giác máy tính đang không ngừng phát triển, được thúc đẩy bởi nhu cầu về các kiến trúc cân bằng giữa độ chính xác cao và suy luận có độ trễ thấp. Bài so sánh này đi sâu vào các khía cạnh kỹ thuật phức tạp của DAMO-YOLO và Ultralytics YOLO26, khám phá những đổi mới về kiến trúc, phương pháp huấn luyện và các trường hợp sử dụng lý tưởng của chúng.
Cho dù bạn đang triển khai các mô hình thị giác trên thiết bị biên hay xây dựng các đường ống dẫn dữ liệu đám mây với lưu lượng cao, việc hiểu rõ các sắc thái giữa những mô hình này là điều quan trọng để đưa ra các quyết định kiến trúc sáng suốt trong phát triển AI hiện đại.
Link to this sectionDAMO-YOLO: Tìm kiếm Kiến trúc Neural ở quy mô lớn#
DAMO-YOLO, được phát triển bởi Alibaba Group, đã được ra mắt vào ngày 23 tháng 11 năm 2022. Được thiết kế bởi Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun, mô hình này tập trung mạnh mẽ vào việc tự động khám phá các kiến trúc hiệu quả thông qua Tìm kiếm Kiến trúc Nơ-ron (NAS).
Bạn có thể xem lại nghiên cứu gốc trong bài báo trên ArXiv của họ hoặc khám phá mã nguồn trên kho lưu trữ GitHub của DAMO-YOLO.
Link to this sectionCác tính năng kiến trúc chính#
DAMO-YOLO giới thiệu một số cải tiến kỹ thuật được thiết kế để vượt qua các giới hạn của phát hiện đối tượng thời gian thực:
- Backbone MAE-NAS: DAMO-YOLO sử dụng quá trình tìm kiếm tiến hóa đa mục tiêu để tìm ra các backbone tối ưu. Phương pháp NAS này khám phá các kiến trúc cân bằng nghiêm ngặt giữa độ chính xác phát hiện và tốc độ suy luận trên các phần cứng cụ thể.
- Efficient RepGFPN: Một thiết kế neck nặng giúp cải thiện đáng kể quá trình hòa trộn đặc trưng, điều này cực kỳ hữu ích khi phân tích các cảnh phức tạp như những cảnh được tìm thấy trong ảnh chụp từ trên không.
- Thiết kế ZeroHead: Một head phát hiện được đơn giản hóa đáng kể nhằm giảm thiểu độ phức tạp tính toán của các lớp dự đoán cuối cùng.
- AlignedOTA và Chưng cất (Distillation): DAMO-YOLO sử dụng Aligned Optimal Transport Assignment (AlignedOTA) để giải quyết các vấn đề mơ hồ trong việc gán nhãn, kết hợp với chiến lược tăng cường chưng cất kiến thức mạnh mẽ để nâng cao độ chính xác của các mô hình học sinh nhỏ hơn bằng cách sử dụng các mạng giáo viên lớn hơn.
Link to this sectionLợi thế từ Ultralytics: YOLO26#
Được ra mắt vào ngày 14 tháng 1 năm 2026 bởi Glenn Jocher và Jing Qiu tại Ultralytics, YOLO26 đại diện cho đỉnh cao của AI thị giác hiệu năng cao, dễ tiếp cận. Kế thừa di sản từ YOLO11 và YOLOv10, YOLO26 được thiết kế ngay từ đầu cho triển khai ưu tiên thiết bị biên, tính linh hoạt đa phương thức và sự dễ sử dụng vô song.
Link to this sectionNhững cải tiến của YOLO26#
Ultralytics YOLO26 giới thiệu một số tính năng đột phá khiến nó trở thành lựa chọn tối ưu cho các ứng dụng thị giác máy tính hiện đại:
- Thiết kế End-to-End không dùng NMS: YOLO26 loại bỏ hoàn toàn quá trình hậu xử lý Non-Maximum Suppression (NMS). Được tiên phong ban đầu trong YOLOv10, phương pháp end-to-end này giúp đơn giản hóa đáng kể các đường ống triển khai và đảm bảo suy luận tất định, độ trễ thấp.
- Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa về mặt kiến trúc cho điện toán biên, YOLO26 mang lại tốc độ vượt trội trên các thiết bị biên và CPU tiêu chuẩn, khiến nó trở nên hoàn hảo cho các thiết bị IoT chạy bằng pin.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM (như Kimi K2 của Moonshot AI), YOLO26 kết hợp giữa SGD và Muon. Điều này mang lại sự ổn định trong huấn luyện mô hình ngôn ngữ lớn vào thị giác máy tính, dẫn đến sự hội tụ nhanh hơn và đáng tin cậy hơn.
- Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, đồ thị mô hình được đơn giản hóa, cho phép xuất sang các định dạng như ONNX và TensorRT một cách mượt mà.
- ProgLoss + STAL: Những hàm mất mát (loss function) tiên tiến này cung cấp những cải tiến đáng kể trong việc nhận dạng vật thể nhỏ, một tính năng quan trọng cho các hoạt động drone và nông nghiệp.
YOLO26 bao gồm các cải tiến chuyên biệt trên nhiều phương thức: proto đa tỷ lệ cho Phân đoạn đối tượng (Instance Segmentation), Ước tính Log-Likelihood dư (RLE) cho Ước tính tư thế (Pose Estimation), và hàm mất mát góc tiên tiến để giảm thiểu các vấn đề về ranh giới trong phát hiện Hộp bao định hướng (OBB).
Link to this sectionSo sánh hiệu năng#
Khi đánh giá các mô hình này, sự cân bằng giữa độ chính xác (mAP) và hiệu quả tính toán (Tốc độ/FLOPs) là tối quan trọng. Bảng dưới đây nêu bật cách các mô hình này so sánh khi sử dụng tập dữ liệu COCO tiêu chuẩn công nghiệp.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Như đã thấy ở trên, YOLO26 liên tục mang lại độ chính xác cao hơn với ít tham số và FLOPs hơn đáng kể, tạo ra một kiến trúc hiệu quả hơn nhiều cho cả huấn luyện và suy luận.
Link to this sectionHiệu quả Huấn luyện và Khả năng Sử dụng#
Link to this sectionSự phức tạp của DAMO-YOLO#
Mặc dù DAMO-YOLO đạt được độ chính xác cạnh tranh, phương pháp huấn luyện của nó rất phức tạp. Việc phụ thuộc vào Neural Architecture Search (NAS) và chưng cất kiến thức nặng nề có nghĩa là việc huấn luyện một mô hình tùy chỉnh thường đòi hỏi tài nguyên GPU đáng kể và kiến thức chuyên môn. Quy trình nhiều giai đoạn này—huấn luyện một mô hình giáo viên khổng lồ để chưng cất vào một mô hình học sinh nhỏ hơn—có thể gây tắc nghẽn cho các nhóm kỹ thuật linh hoạt đang cố gắng lặp lại nhanh chóng trên các tập dữ liệu tùy chỉnh.
Link to this sectionTrải nghiệm Ultralytics được tinh giản#
Ngược lại, Ultralytics YOLO26 được thiết kế cho khả năng sử dụng "từ con số không đến thành công". Toàn bộ vòng đời huấn luyện, xác thực và triển khai được trừu tượng hóa đằng sau một Python API và CLI thống nhất, sạch sẽ. Hơn nữa, YOLO26 yêu cầu ít bộ nhớ CUDA hơn đáng kể trong khi huấn luyện so với các mô hình dựa trên Transformer như RT-DETR, cho phép các nhà nghiên cứu huấn luyện các mô hình hiện đại nhất trên phần cứng cấp độ người tiêu dùng.
Dưới đây là ví dụ về việc đơn giản như thế nào để huấn luyện, đánh giá và xuất một mô hình YOLO26 bằng Ultralytics SDK:
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Evaluate the model's performance on the validation set
metrics = model.val()
# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
# Export the model to ONNX format for deployment
model.export(format="onnx")Đối với các nhóm thích môi trường không cần code (no-code), Ultralytics Platform cung cấp một giao diện trực quan cho việc gán nhãn tập dữ liệu, huấn luyện trên đám mây và triển khai liền mạch.
Link to this sectionỨng dụng trong thực tế#
Việc lựa chọn kiến trúc phù hợp phụ thuộc rất nhiều vào môi trường triển khai mục tiêu và các hạn chế về phần cứng.
Link to this sectionKiểm soát chất lượng công nghiệp#
Đối với tự động hóa sản xuất tốc độ cao, DAMO-YOLO có thể hoạt động tốt trên phần cứng GPU chuyên dụng. Tuy nhiên, YOLO26 là lựa chọn ưu tiên cho các dây chuyền lắp ráp hiện đại. Thiết kế End-to-End không dùng NMS của nó đảm bảo độ trễ tất định, không bị giật, điều này rất cần thiết khi đồng bộ hóa dữ liệu thị giác với các thiết bị truyền động robot trong thời gian thực.
Link to this sectionAI biên và thiết bị di động#
Việc triển khai thị giác máy tính trên các thiết bị chạy bằng pin đòi hỏi hiệu suất cực cao. Trong khi DAMO-YOLO dựa vào các neck RepGFPN cụ thể, YOLO26n (Nano) được tối ưu hóa đặc biệt cho điện toán biên. Việc loại bỏ DFL và suy luận CPU nhanh hơn 43% làm cho nó trở thành giải pháp tối ưu cho camera thông minh, ứng dụng di động và hệ thống báo động an ninh.
Link to this sectionYêu cầu dự án đa phương thức#
Nếu một dự án đòi hỏi nhiều hơn là chỉ phát hiện đối tượng—chẳng hạn như phân tích cơ học của người chơi trong thể thao bằng cách ước tính tư thế, hoặc trích xuất ranh giới pixel chính xác bằng cách phân đoạn đối tượng—YOLO26 cung cấp hỗ trợ tự nhiên trên tất cả các tác vụ này trong một cơ sở mã duy nhất, thống nhất. DAMO-YOLO bị giới hạn nghiêm ngặt trong việc phát hiện hộp bao.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc chọn giữa DAMO-YOLO và YOLO26 phụ thuộc vào yêu cầu dự án cụ thể, các hạn chế triển khai và tùy chọn hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn DAMO-YOLO#
DAMO-YOLO là một lựa chọn mạnh mẽ cho:
- Phân tích video thông lượng cao: Xử lý luồng video FPS cao trên cơ sở hạ tầng GPU NVIDIA cố định, nơi thông lượng batch-1 là chỉ số chính.
- Dây chuyền sản xuất công nghiệp: Các kịch bản với hạn chế độ trễ GPU nghiêm ngặt trên phần cứng chuyên dụng, chẳng hạn như kiểm tra chất lượng thời gian thực trên dây chuyền lắp ráp.
- Nghiên cứu Neural Architecture Search: Nghiên cứu tác động của tìm kiếm kiến trúc tự động (MAE-NAS) và các backbone tái tham số hóa hiệu quả đối với hiệu năng phát hiện.
Link to this sectionKhi nào nên chọn YOLO26#
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKết luận#
Cả hai kiến trúc đều đại diện cho những thành tựu đáng kể trong lĩnh vực học sâu. DAMO-YOLO cung cấp một cái nhìn thú vị về sức mạnh của Tìm kiếm Kiến trúc Nơ-ron và các kỹ thuật chưng cất được thiết kế cho các điểm chuẩn phần cứng cụ thể.
Tuy nhiên, đối với các nhà phát triển, nhà nghiên cứu và doanh nghiệp đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, Ultralytics YOLO26 nổi bật như một lựa chọn vượt trội. Sự kết hợp giữa thiết kế end-to-end không dùng NMS, mức tăng suy luận CPU khổng lồ, tính linh hoạt đa phương thức và sự tích hợp vào hệ sinh thái Ultralytics được duy trì tốt làm cho nó trở thành công cụ thực tế và mạnh mẽ nhất để giải quyết các thách thức thị giác máy tính trong thế giới thực ngày nay.
Đối với người dùng quan tâm đến việc khám phá các mô hình khác trong hệ sinh thái Ultralytics, tài liệu toàn diện có sẵn cho YOLO11, YOLOv8 và RT-DETR dựa trên Transformer.