Link to this sectionRTDETRv2 so với DAMO-YOLO#
Bối cảnh thị giác máy tính đang không ngừng phát triển, với các nhà nghiên cứu và kỹ sư luôn nỗ lực xây dựng các model cân bằng hoàn hảo giữa tốc độ, độ chính xác và hiệu suất. Hai kiến trúc nổi bật đã tạo nên làn sóng đáng kể trong lĩnh vực này là RTDETRv2, do Baidu phát triển, và DAMO-YOLO, được tạo ra bởi Alibaba Group. Cả hai model đều mở rộng các giới hạn của phát hiện đối tượng thời gian thực, nhưng chúng áp dụng các triết lý kiến trúc cơ bản khác nhau để đạt được kết quả ấn tượng.
Trong bài so sánh kỹ thuật này, chúng ta sẽ đi sâu vào kiến trúc, phương pháp huấn luyện và khả năng triển khai thực tế của chúng. Chúng ta cũng sẽ khám phá cách các model này so sánh với hệ sinh thái rộng lớn hơn, đặc biệt là Nền tảng Ultralytics được tối ưu hóa cao và kiến trúc YOLO26 tiên tiến nhất.
Link to this sectionCải tiến kiến trúc#
Hiểu rõ các cơ chế cốt lõi của những model này là rất quan trọng đối với các kỹ sư học máy đang thực hiện nhiệm vụ chọn công cụ phù hợp cho môi trường sản xuất.
Link to this sectionRTDETRv2: Tiếp cận theo hướng Transformer#
Dựa trên thành công của RT-DETR gốc, RTDETRv2 sử dụng bộ mã hóa lai (hybrid encoder) và bộ giải mã transformer. Thiết kế này cho phép model xử lý ngữ cảnh toàn cục cực kỳ hiệu quả, giúp nó đặc biệt xuất sắc trong việc phân biệt các đối tượng chồng chéo trong các khung cảnh dày đặc. Ưu điểm quan trọng nhất của kiến trúc này là thiết kế không cần NMS (Non-Maximum Suppression) nguyên bản. Bằng cách loại bỏ bước hậu xử lý NMS, RTDETRv2 tối ưu hóa pipeline suy luận và đảm bảo độ trễ ổn định hơn trên các cấu hình phần cứng khác nhau.
Link to this sectionDAMO-YOLO: Nâng cao hiệu suất CNN#
Ngược lại, DAMO-YOLO vẫn bắt nguồn từ dòng họ YOLO dựa trên CNN vô cùng thành công nhưng giới thiệu nhiều cải tiến đột phá. Nó tận dụng Tìm kiếm Kiến trúc Thần kinh (NAS) để tối ưu hóa backbone, đảm bảo hiệu quả trích xuất đặc trưng tối đa. Hơn nữa, nó tích hợp RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và thiết kế ZeroHead, cùng với AlignedOTA và các kỹ thuật tăng cường chưng cất (distillation). Những đổi mới này cho phép DAMO-YOLO đạt được tốc độ suy luận nhanh trong khi vẫn duy trì điểm mAPval cạnh tranh cao.
Trong khi RTDETRv2 tập trung tận dụng các cơ chế chú ý (attention mechanisms) để hiểu đặc trưng toàn cục mà không cần NMS, thì DAMO-YOLO tối đa hóa hiệu suất CNN truyền thống thông qua NAS và chưng cất nâng cao, yêu cầu hậu xử lý tiêu chuẩn nhưng cung cấp lợi thế về tốc độ rõ rệt trên một số phần cứng nhất định.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi đánh giá các model để triển khai, các số liệu hiệu suất như mAP, tốc độ suy luận và số lượng tham số là tối quan trọng. Dưới đây là bảng so sánh chi tiết của hai họ model này.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Link to this sectionPhân tích kết quả#
Như đã thấy trong bảng, RTDETRv2-x đạt độ chính xác cao nhất với mAPval là 54.3, thể hiện sức mạnh của kiến trúc transformer trên các tập kiểm chứng phức tạp như tập dữ liệu COCO. Tuy nhiên, điều này đi kèm với cái giá là số lượng tham số (76M) và FLOPs cao hơn đáng kể.
Ngược lại, DAMO-YOLOt (Tiny) cực kỳ nhẹ, chỉ yêu cầu 8.5M tham số, khiến nó trở thành một lựa chọn nhanh chóng đáng kinh ngạc cho các môi trường nơi bộ nhớ CUDA bị hạn chế nghiêm ngặt. DAMO-YOLO thường cung cấp sự cân bằng thuận lợi giữa tốc độ và độ chính xác cho các thiết bị edge cũ.
Link to this sectionHệ sinh thái, khả năng sử dụng và Lợi thế Ultralytics#
Trong khi các kho lưu trữ độc lập như GitHub RT-DETR chính thức và GitHub DAMO-YOLO cung cấp mã nguồn thô để huấn luyện các model này, việc tích hợp chúng vào các pipeline sản xuất thường đòi hỏi mã boilerplate phức tạp và tối ưu hóa thủ công.
Đây chính là nơi hệ sinh thái Ultralytics đơn giản hóa đáng kể trải nghiệm của nhà phát triển. Ultralytics tích hợp các model như RTDETRv2 trực tiếp vào API thống nhất của mình, cho phép người dùng huấn luyện, kiểm chứng và xuất model chỉ với một dòng mã. Hơn nữa, các model Ultralytics nổi tiếng với yêu cầu bộ nhớ tối thiểu trong quá trình huấn luyện so với các kho lưu trữ độc lập dựa trên transformer nặng nề.
Link to this sectionVí dụ mã: Tích hợp liền mạch#
Dưới đây là cách bạn có thể dễ dàng tận dụng thư viện Python của Ultralytics để chạy suy luận. API vẫn nhất quán cho dù bạn đang sử dụng model transformer hay một CNN hiện đại.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Sử dụng API Ultralytics, bạn có thể xuất các model đã huấn luyện sang các định dạng như TensorRT, ONNX hoặc CoreML một cách liền mạch với lệnh model.export(format="engine") đơn giản, giúp giảm đáng kể khó khăn khi triển khai.
Link to this sectionCác trường hợp sử dụng lý tưởng#
Việc lựa chọn giữa các kiến trúc này phụ thuộc hoàn toàn vào yêu cầu cụ thể của dự án bạn:
- RTDETRv2 vượt trội trong xử lý phía server nơi VRAM dồi dào. Khả năng nhận thức ngữ cảnh toàn cục của nó hoàn hảo cho chẩn đoán hình ảnh y tế và phân tích đám đông dày đặc nơi tình trạng bị che khuất thường xuyên xảy ra.
- DAMO-YOLO rất phù hợp cho các ứng dụng IoT nhúng và các dây chuyền kiểm tra công nghiệp chuyển động nhanh, nơi số lượng tham số thấp và FPS cao là những yêu cầu khắt khe.
Link to this sectionTương lai: Ultralytics YOLO26#
Mặc dù cả RTDETRv2 và DAMO-YOLO đều có ưu điểm riêng, nhưng lĩnh vực thị giác máy tính đang tiến triển nhanh chóng. Đối với các dự án mới, Ultralytics YOLO26 mới nhất đại diện cho sự tổng hợp tối thượng về tốc độ, độ chính xác và trải nghiệm nhà phát triển.
YOLO26 áp dụng Thiết kế NMS-Free End-to-End, nắm bắt lợi ích chính của transformers mà không bị gánh nặng tính toán khổng lồ. Nó tích hợp Bộ tối ưu hóa MuSGD sáng tạo—lấy cảm hứng từ quá trình huấn luyện Mô hình Ngôn ngữ Lớn—để hội tụ nhanh và ổn định. Hơn nữa, với Loại bỏ DFL (Distribution Focal Loss bị loại bỏ để xuất đơn giản hơn và tương thích tốt hơn với các thiết bị edge/công suất thấp), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43%, khiến nó trở thành nhà vô địch không thể tranh cãi cho điện toán biên. Ngoài ra, ProgLoss + STAL cung cấp các hàm loss cải tiến với những cải thiện đáng chú ý trong việc nhận diện đối tượng nhỏ, rất quan trọng cho IoT, robot và hình ảnh trên không.
Không giống như các model chỉ giới hạn ở bounding box, họ YOLO26 mang lại tính linh hoạt vô song, hỗ trợ các tác vụ từ phân đoạn đối tượng (instance segmentation) và ước tính tư thế (pose estimation) đến hộp bao định hướng (OBB), tất cả đều được quản lý liền mạch thông qua Nền tảng Ultralytics trực quan.
Link to this sectionChi tiết Model và Tài liệu tham khảo#
Link to this sectionRTDETRv2#
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- Arxiv: 2407.17140
- GitHub: Kho lưu trữ RT-DETR
Link to this sectionDAMO-YOLO#
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: Kho lưu trữ DAMO-YOLO
Đối với người dùng quan tâm đến việc khám phá các so sánh khác, hãy xem hướng dẫn của chúng tôi về RTDETRv2 so với YOLO11 hoặc DAMO-YOLO so với YOLOv8 để xem cách các model này hoạt động so với các thế hệ trước của gia đình Ultralytics.