Cuộc đối đầu kỹ thuật: DAMO-YOLO so với RTDETRv2 trong phát hiện đối tượng thời gian thực
Sự phát triển nhanh chóng của lĩnh vực thị giác máy tính đã tạo ra một loạt các kiến trúc ấn tượng được thiết kế để cân bằng giữa tốc độ, độ chính xác và hiệu quả tính toán. Hai mô hình nổi bật đã đóng góp những cách tiếp cận độc đáo để giải quyết các thách thức này là DAMO-YOLO và RTDETRv2. Mặc dù cả hai mô hình đều hướng tới việc cung cấp các giải pháp tiên tiến cho suy luận thời gian thực, chúng khác biệt căn bản trong triết lý kiến trúc.
Hướng dẫn toàn diện này đi sâu vào các thông số kỹ thuật, đổi mới kiến trúc và các trường hợp sử dụng thực tế của cả hai mô hình, đồng thời khám phá cách các giải pháp hiện đại như Ultralytics Platform và YOLO26 tiên tiến nhất đã định nghĩa lại các tiêu chuẩn công nghiệp về triển khai và tính dễ sử dụng.
Tổng quan về các model
Tìm hiểu về DAMO-YOLO
Được phát triển bởi các nhà nghiên cứu tại Alibaba Group, DAMO-YOLO giới thiệu một phương pháp phát hiện đối tượng nhanh và chính xác, dựa nhiều vào Neural Architecture Search (NAS). Nó thay thế các backbone thủ công truyền thống bằng các cấu trúc do NAS tạo ra được thiết kế cho độ trễ thấp. Ngoài ra, nó tích hợp thiết kế RepGFPN (Reparameterized Generalized Feature Pyramid Network) hiệu quả và ZeroHead để hợp lý hóa việc tổng hợp đặc trưng và dự đoán bbox.
Chi tiết chính về mô hình:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Alibaba Group
- Ngày: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- Tài liệu: Tài liệu DAMO-YOLO
Tìm hiểu về RTDETRv2
RTDETRv2 của Baidu đại diện cho một bước tiến đáng kể đối với Real-Time Detection Transformers. Không giống như các Convolutional Neural Networks (CNN) truyền thống dựa vào anchor box và Non-Maximum Suppression (NMS), RTDETRv2 sử dụng các cơ chế self-attention để xem xét toàn bộ ngữ cảnh hình ảnh. Nó trực tiếp xuất ra các bbox, bỏ qua hoàn toàn bước hậu xử lý NMS. Mô hình này giới thiệu chiến lược đào tạo "bag of freebies" để cải thiện độ chính xác cơ sở mà không làm tăng độ trễ suy luận.
Chi tiết chính về mô hình:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- Arxiv: 2407.17140
- GitHub: RT-DETR Repository
- Tài liệu: RTDETRv2 Documentation
Mặc dù transformer đòi hỏi tài nguyên tính toán cao hơn, khả năng xử lý ngữ cảnh toàn cục của chúng làm cho chúng cực kỳ hiệu quả đối với việc hiểu các khung cảnh phức tạp, vốn là một thế mạnh lớn của RTDETRv2.
So sánh hiệu năng
Khi đánh giá các mô hình này cho triển khai thực tế, các thông số như Mean Average Precision (mAP), tốc độ suy luận và mức tiêu thụ bộ nhớ là rất quan trọng. Các mô hình dựa trên Transformer như RTDETRv2 thường yêu cầu bộ nhớ CUDA cao hơn trong quá trình đào tạo và suy luận so với các CNN nhẹ như DAMO-YOLO.
Dưới đây là so sánh chi tiết về các chỉ số hiệu suất của chúng.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Các trường hợp sử dụng lý tưởng
Điểm mạnh của DAMO-YOLO: Nhờ backbone được tối ưu hóa bằng NAS và số lượng tham số cực thấp trong các biến thể nhỏ hơn (như DAMO-YOLOt), nó rất phù hợp để triển khai trên phần cứng bị hạn chế tài nguyên. Nếu bạn đang xây dựng các giải pháp cho thiết bị nhúng sử dụng runtime như ONNX hoặc các engine TensorRT chuyên dụng cho edge computing, DAMO-YOLO cung cấp một framework có khả năng phản hồi rất cao.
Điểm mạnh của RTDETRv2: RTDETRv2 tỏa sáng trong các tình huống có sẵn GPU cấp máy chủ và ngữ cảnh hình ảnh toàn cục là ưu tiên hàng đầu. Kiến trúc transformer cho phép nó tự nhiên giải quyết các bbox chồng lấp mà không cần NMS, biến nó thành một lựa chọn mạnh mẽ cho quản lý đám đông dày đặc hoặc object tracking phức tạp, nơi các mối quan hệ không gian giữa các đối tượng ở xa là rất quan trọng.
Lợi thế của Ultralytics: Giới thiệu YOLO26
Mặc dù DAMO-YOLO và RTDETRv2 đại diện cho những thành tựu học thuật đáng kể, việc chuyển đổi các mô hình này thành các ứng dụng có thể mở rộng, sẵn sàng cho sản xuất có thể gặp nhiều khó khăn. Các nhà phát triển thường phải đối mặt với cơ sở mã phân mảnh, thiếu hỗ trợ cho học đa tác vụ và các quy trình triển khai phức tạp.
Đây là nơi hệ sinh thái Ultralytics thực sự tạo nên sự khác biệt. Bằng cách ưu tiên tính dễ sử dụng, Python API được bảo trì tốt và tính linh hoạt vượt trội, Ultralytics đảm bảo các nhà phát triển dành ít thời gian để sửa lỗi hơn và nhiều thời gian hơn để xây dựng.
Mô hình Ultralytics YOLO26 mới được phát hành đã đưa những lợi thế này lên một tầm cao mới, mang đến những đột phá vượt trội hơn cả DAMO-YOLO và RTDETRv2:
- Thiết kế End-to-End không cần NMS: Được tiên phong ban đầu trong YOLOv10, YOLO26 là mô hình end-to-end tự nhiên. Điều này loại bỏ hoàn toàn hậu xử lý NMS, giúp việc triển khai nhanh hơn và đơn giản hơn đáng kể so với các CNN truyền thống, đồng thời phù hợp với những lợi ích xuất trực tiếp của RTDETRv2.
- Suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa mạnh mẽ cho các thiết bị edge AI không có GPU rời, biến nó thành lựa chọn vượt trội hơn hẳn cho các ứng dụng IoT so với các kiến trúc transformer nặng về bộ nhớ.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI, sự kết hợp giữa SGD và Muon này mang các đổi mới đào tạo Large Language Model (LLM) vào thị giác máy tính, dẫn đến quá trình đào tạo ổn định đáng kinh ngạc và hội tụ nhanh hơn.
- ProgLoss + STAL: Các hàm mất mát (loss function) tiên tiến này mang lại những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ, một lĩnh vực mà các mô hình truyền thống thường gặp khó khăn. Điều này rất quan trọng đối với các ứng dụng ảnh hàng không và drone.
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đảm bảo các định dạng xuất đơn giản hóa và khả năng tương thích tốt hơn với các thiết bị edge công suất thấp.
- Tính linh hoạt vượt trội: Không giống như các mô hình cạnh tranh bị giới hạn nghiêm ngặt trong việc phát hiện, YOLO26 bao gồm các cải tiến dành riêng cho tác vụ trên toàn bộ hệ thống, chẳng hạn như hàm loss góc chuyên dụng cho Oriented Bounding Boxes (OBB), loss phân đoạn ngữ nghĩa cho độ chính xác từng pixel và Residual Log-Likelihood Estimation (RLE) cho Pose estimation.
Việc đào tạo các mô hình dựa trên transformer như RTDETRv2 đòi hỏi dung lượng bộ nhớ CUDA khổng lồ, thường đòi hỏi các thiết lập đa GPU đắt đỏ. Các mô hình Ultralytics YOLO duy trì yêu cầu bộ nhớ thấp hơn đáng kể trong cả quá trình đào tạo và suy luận, giúp dân chủ hóa việc phát triển AI cho cả các nhà nghiên cứu và người đam mê.
Ví dụ mã: API Ultralytics thống nhất
Một trong những lợi ích lớn nhất của hệ sinh thái Ultralytics là API thống nhất của nó. Bạn có thể tải, đào tạo và xác thực một loạt các mô hình một cách liền mạch—bao gồm triển khai PyTorch của RTDETR và các mô hình YOLO hiện đại nhất—mà không cần thay đổi quy trình làm việc của mình.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()Sự đơn giản này mở rộng đến đào tạo tập dữ liệu tùy chỉnh và xuất mô hình. Sử dụng gói Ultralytics Python, các nhà phát triển có thể dễ dàng đẩy trọng số đã đào tạo của họ lên các nền tảng triển khai như CoreML hoặc OpenVINO chỉ với một lệnh duy nhất.
Kết luận và khám phá thêm
Cả DAMO-YOLO và RTDETRv2 đều đã đẩy lùi ranh giới của những gì có thể thực hiện được trong phát hiện đối tượng thời gian thực. DAMO-YOLO cung cấp các cấu trúc mạng được tự động tìm kiếm, tối ưu hóa cao cho hiệu suất thô, trong khi RTDETRv2 chứng minh rằng các transformer có thể cạnh tranh trong không gian thời gian thực bằng cách loại bỏ các điểm nghẽn truyền thống như NMS.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm sự cân bằng tối ưu giữa hiệu suất, tài liệu toàn diện và tính sẵn sàng cho sản xuất, các mô hình Ultralytics YOLO vẫn là tiêu chuẩn vàng. Với sự ra đời của YOLO26, người dùng có quyền truy cập vào khả năng phát hiện end-to-end giống transformer, hiệu quả đào tạo lấy cảm hứng từ LLM và tốc độ CPU vô song—tất cả được gói gọn trong một hệ sinh thái mạnh mẽ và trực quan.
Nếu bạn đang đánh giá các mô hình cho dự án tiếp theo của mình, bạn cũng có thể thấy hữu ích khi đọc các so sánh của chúng tôi về EfficientDet so với RTDETR, khám phá thế hệ trước YOLO11 hoặc xem xét các nền tảng học thuật như YOLOX. Hãy bắt đầu xây dựng ngay hôm nay bằng cách khám phá hướng dẫn nhanh Ultralytics.