RTDETRv2 so với DAMO-YOLO: Hướng dẫn toàn diện về phát hiện đối tượng thời gian thực hiện đại
Bối cảnh thị giác máy tính đang không ngừng phát triển, với các nhà nghiên cứu và kỹ sư luôn nỗ lực xây dựng các mô hình cân bằng hoàn hảo giữa tốc độ, độ chính xác và hiệu suất. Hai kiến trúc nổi bật đã tạo nên làn sóng lớn trong lĩnh vực này là RTDETRv2, do Baidu phát triển, và DAMO-YOLO, được tạo ra bởi Alibaba Group. Cả hai mô hình đều đẩy giới hạn của phát hiện đối tượng thời gian thực, nhưng chúng áp dụng các triết lý kiến trúc khác nhau về cơ bản để đạt được kết quả ấn tượng.
Trong bài so sánh kỹ thuật này, chúng ta sẽ đi sâu vào kiến trúc, phương pháp huấn luyện và khả năng triển khai thực tế của chúng. Chúng ta cũng sẽ khám phá cách các mô hình này so sánh với hệ sinh thái rộng lớn hơn, đặc biệt là Ultralytics Platform được tối ưu hóa cao và kiến trúc YOLO26 hiện đại nhất.
Đổi mới kiến trúc
Hiểu rõ cơ chế cốt lõi của các mô hình này là điều quan trọng đối với kỹ sư học máy được giao nhiệm vụ chọn công cụ phù hợp cho môi trường sản xuất.
RTDETRv2: Cách tiếp cận Transformer
Dựa trên thành công của RT-DETR gốc, RTDETRv2 sử dụng bộ mã hóa lai (hybrid encoder) và transformer decoder. Thiết kế này cho phép mô hình xử lý bối cảnh toàn cầu hiệu quả, giúp nó đặc biệt xuất sắc trong việc phân biệt các đối tượng chồng lấp trong cảnh dày đặc. Ưu điểm đáng kể nhất của kiến trúc này là thiết kế không dùng NMS (Non-Maximum Suppression) gốc. Bằng cách loại bỏ bước hậu xử lý NMS, RTDETRv2 hợp lý hóa quy trình inference và đảm bảo độ trễ ổn định hơn trên các cấu hình phần cứng khác nhau.
DAMO-YOLO: Thúc đẩy hiệu suất CNN
Ngược lại, DAMO-YOLO vẫn bắt nguồn từ dòng YOLO dựa trên CNN thành công rực rỡ nhưng giới thiệu một số cải tiến đột phá. Nó tận dụng Tìm kiếm kiến trúc thần kinh (NAS) để tối ưu hóa backbone, đảm bảo hiệu suất trích xuất đặc trưng tối đa. Hơn nữa, nó tích hợp RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và thiết kế ZeroHead, cùng với các kỹ thuật AlignedOTA và tăng cường chưng cất (distillation). Những đổi mới này cho phép DAMO-YOLO đạt tốc độ inference nhanh chóng trong khi vẫn duy trì điểm mAPval rất cạnh tranh.
Trong khi RTDETRv2 tập trung vào việc tận dụng các cơ chế chú ý (attention mechanisms) để hiểu đặc trưng toàn cầu mà không cần NMS, DAMO-YOLO tối đa hóa hiệu suất CNN truyền thống thông qua NAS và chưng cất nâng cao, yêu cầu hậu xử lý tiêu chuẩn nhưng mang lại những lợi thế tốc độ rõ rệt trên một số phần cứng nhất định.
So sánh hiệu suất và các chỉ số
Khi đánh giá các mô hình để triển khai, các chỉ số hiệu suất như mean Average Precision (mAP), tốc độ inference và số lượng tham số là vô cùng quan trọng. Dưới đây là bảng so sánh chi tiết giữa hai dòng mô hình này.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phân tích kết quả
Như đã thấy trong bảng, RTDETRv2-x đạt độ chính xác cao nhất với mAPval là 54.3, thể hiện sức mạnh của kiến trúc transformer trên các bài kiểm tra phức tạp như tập dữ liệu COCO. Tuy nhiên, điều này đi kèm với cái giá là số lượng tham số (76M) và FLOPs cao hơn đáng kể.
Ngược lại, DAMO-YOLOt (Tiny) đặc biệt nhẹ, chỉ yêu cầu 8.5M tham số, trở thành một tùy chọn cực nhanh cho các môi trường nơi bộ nhớ CUDA bị hạn chế nghiêm trọng. DAMO-YOLO thường cung cấp sự cân bằng thuận lợi giữa tốc độ và độ chính xác cho các thiết bị biên đời cũ.
Hệ sinh thái, khả năng sử dụng và Lợi thế của Ultralytics
Mặc dù các kho lưu trữ độc lập như RT-DETR GitHub và DAMO-YOLO GitHub chính thức cung cấp mã nguồn gốc để huấn luyện các mô hình này, việc tích hợp chúng vào các quy trình sản xuất thường đòi hỏi nhiều mã boilerplate và tối ưu hóa thủ công.
Đây là nơi hệ sinh thái Ultralytics đơn giản hóa đáng kể trải nghiệm của nhà phát triển. Ultralytics tích hợp các mô hình như RTDETRv2 trực tiếp vào API thống nhất của mình, cho phép người dùng huấn luyện, xác thực và xuất mô hình chỉ với một dòng mã. Hơn nữa, các mô hình của Ultralytics nổi tiếng với yêu cầu bộ nhớ tối thiểu trong quá trình huấn luyện so với các kho lưu trữ độc lập dựa trên transformer nặng nề.
Ví dụ về mã: Tích hợp liền mạch
Đây là cách bạn có thể dễ dàng tận dụng thư viện Python của Ultralytics để chạy inference. API vẫn nhất quán cho dù bạn đang sử dụng mô hình transformer hay CNN hiện đại nhất.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")
# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")
# Display the results
results_yolo[0].show()Sử dụng API của Ultralytics, bạn có thể dễ dàng xuất các mô hình đã huấn luyện sang các định dạng như TensorRT, ONNX hoặc CoreML với lệnh model.export(format="engine") đơn giản, giảm đáng kể sự khó khăn khi triển khai.
Các trường hợp sử dụng lý tưởng
Việc lựa chọn giữa các kiến trúc này phụ thuộc hoàn toàn vào các yêu cầu dự án cụ thể của bạn:
- RTDETRv2 vượt trội trong xử lý phía máy chủ nơi VRAM dồi dào. Khả năng nhận thức bối cảnh toàn cầu của nó hoàn hảo cho chẩn đoán hình ảnh y tế và phân tích đám đông dày đặc nơi các trường hợp che khuất thường xuyên xảy ra.
- DAMO-YOLO rất phù hợp cho các ứng dụng IoT nhúng và các dây chuyền kiểm tra công nghiệp chuyển động nhanh, nơi số lượng tham số thấp và FPS cao là những yêu cầu khắt khe.
Tương lai: Ultralytics YOLO26
Trong khi cả RTDETRv2 và DAMO-YOLO đều có những ưu điểm riêng, lĩnh vực thị giác máy tính đang tiến triển nhanh chóng. Đối với các dự án mới, Ultralytics YOLO26 mới nhất đại diện cho sự tổng hợp tối ưu về tốc độ, độ chính xác và trải nghiệm nhà phát triển.
YOLO26 áp dụng Thiết kế NMS-Free End-to-End, nắm bắt lợi ích chính của transformer mà không cần chi phí tính toán khổng lồ. Nó kết hợp bộ tối ưu hóa MuSGD Optimizer cải tiến—lấy cảm hứng từ quá trình huấn luyện Large Language Model—để hội tụ ổn định và nhanh chóng. Hơn nữa, với Loại bỏ DFL (Distribution Focal Loss được loại bỏ để đơn giản hóa việc xuất và cải thiện khả năng tương thích với các thiết bị biên/công suất thấp), YOLO26 đạt tốc độ inference CPU nhanh hơn tới 43%, trở thành nhà vô địch không thể tranh cãi cho tính toán biên. Ngoài ra, ProgLoss + STAL cung cấp các hàm mất mát (loss functions) được cải thiện với những tiến bộ đáng chú ý trong nhận diện đối tượng nhỏ, điều cực kỳ quan trọng đối với IoT, robot và hình ảnh trên không.
Không giống như các mô hình giới hạn chặt chẽ ở hộp bao (bounding box), dòng YOLO26 cung cấp sự linh hoạt vô song, hỗ trợ các tác vụ từ instance segmentation và pose estimation đến oriented bounding boxes (OBB), tất cả đều được quản lý liền mạch thông qua Ultralytics Platform trực quan.
Chi tiết mô hình và Tài liệu tham khảo
RTDETRv2
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- Arxiv: 2407.17140
- GitHub: RT-DETR Repository
DAMO-YOLO
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: Kho lưu trữ DAMO-YOLO
Đối với người dùng quan tâm đến việc khám phá các so sánh khác, hãy xem hướng dẫn của chúng tôi về RTDETRv2 so với YOLO11 hoặc DAMO-YOLO so với YOLOv8 để xem các mô hình này hoạt động như thế nào so với các thế hệ trước của dòng Ultralytics.