RTDETRv2 so với DAMO- YOLO : So sánh kỹ thuật để phát hiện đối tượng
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là rất quan trọng đối với các ứng dụng thị giác máy tính thành công. Ultralytics cung cấp nhiều mô hình đa dạng và trang này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2 và DAMO- YOLO , hai mô hình tiên tiến trong lĩnh vực phát hiện đối tượng. Phân tích này sẽ hỗ trợ bạn đưa ra quyết định sáng suốt dựa trên yêu cầu của dự án.
RTDETRv2: Phát hiện độ chính xác cao dựa trên máy biến áp
RTDETRv2 ( Real-Time Detection Transformer v2 ) là mô hình phát hiện đối tượng tiên tiến do Baidu phát triển, được biết đến với độ chính xác cao và hiệu suất thời gian thực hiệu quả. Được giới thiệu vào ngày 2023-04-17 trong bài báo " DETRs Beat YOLOs on Real-time Object Detection " của Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu, RTDETRv2 tận dụng kiến trúc Vision Transformer (ViT) để đạt được khả năng trích xuất tính năng mạnh mẽ và hiểu ngữ cảnh toàn cầu.
Kiến trúc và tính năng
RTDETRv2 nổi bật với kiến trúc dựa trên máy biến áp, cho phép nó nắm bắt bối cảnh toàn cầu trong hình ảnh hiệu quả hơn các máy dò dựa trên CNN truyền thống. Kiến trúc này cho phép độ chính xác cao hơn, đặc biệt là trong các cảnh phức tạp, nơi việc hiểu bối cảnh rộng hơn là rất quan trọng. Mô hình được triển khai trong PyTorch và có sẵn trên GitHub .
Hiệu suất
RTDETRv2 cho thấy số liệu hiệu suất ấn tượng, đạt mAPval50-95 là 54,3 cho biến thể lớn nhất của nó, RTDETRv2-x. Tốc độ suy luận cũng cạnh tranh, khiến nó phù hợp với các ứng dụng thời gian thực khi sử dụng phần cứng có khả năng.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Độ chính xác cao : Kiến trúc máy biến áp cung cấp độ chính xác phát hiện đối tượng tuyệt vời.
- Khả năng thời gian thực : Đạt được tốc độ suy luận nhanh, đặc biệt là với TensorRT sự gia tốc.
- Học theo ngữ cảnh hiệu quả : Vision Transformers có khả năng nắm bắt bối cảnh toàn cầu trong hình ảnh một cách xuất sắc.
Điểm yếu:
- Kích thước mô hình lớn hơn : Các mô hình RTDETRv2, đặc biệt là các biến thể lớn hơn, có số lượng tham số và FLOP đáng kể, đòi hỏi nhiều tài nguyên tính toán hơn.
- Nhu cầu tính toán : Mặc dù được tối ưu hóa về tốc độ, nhưng nó có thể không nhẹ bằng một số mô hình khác để triển khai trên các thiết bị có nguồn lực hạn chế.
Các trường hợp sử dụng
RTDETRv2 lý tưởng cho các ứng dụng ưu tiên độ chính xác cao và có quyền truy cập vào các tài nguyên tính toán đáng kể:
- Xe tự hành : Nhận thức về môi trường đáng tin cậy và chính xác là yếu tố quan trọng đối với AI trên xe tự lái .
- Robot : Cho phép robot nhận thức và tương tác chính xác với các vật thể trong môi trường phức tạp, tăng cường ứng dụng từ Thuật toán đến Tự động hóa: Vai trò của AI trong Robot .
- Chụp ảnh y tế : Để phát hiện chính xác các bất thường trong hình ảnh y tế, hỗ trợ chẩn đoán, như đã khám phá trong AI trong chăm sóc sức khỏe .
- Phân tích hình ảnh chi tiết : Thích hợp cho việc phân tích hình ảnh có độ phân giải cao như Sử dụng Thị giác máy tính để Phân tích Hình ảnh vệ tinh hoặc kiểm tra công nghiệp.
DAMO- YOLO : Phát hiện đối tượng nhanh chóng và hiệu quả
DAMO- YOLO ( DAMO series YOLO ), do Alibaba Group phát triển và giới thiệu vào ngày 2022-11-23 trong bài báo " DAMO- YOLO : Tái suy nghĩ về phát hiện đối tượng có thể mở rộng và chính xác " của Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang và Xiuyu Sun, được thiết kế để đạt tốc độ và hiệu quả trong khi vẫn duy trì độ chính xác cạnh tranh. DAMO- YOLO tập trung vào hiệu suất thời gian thực và có sẵn trên GitHub .
Kiến trúc và tính năng
DAMO- YOLO kết hợp một số kỹ thuật cải tiến để nâng cao hiệu quả, bao gồm xương sống Neural Architecture Search (NAS), RepGFPN hiệu quả và ZeroHead. Những lựa chọn kiến trúc này góp phần vào tốc độ và giảm nhu cầu tính toán, khiến nó trở thành lựa chọn tuyệt vời cho các ứng dụng thời gian thực và triển khai biên.
Hiệu suất
DAMO- YOLO vượt trội về tốc độ suy luận, cung cấp hiệu suất rất nhanh trên nhiều nền tảng phần cứng khác nhau. Mặc dù độ chính xác của nó thấp hơn một chút so với RTDETRv2, nhưng nó cung cấp sự cân bằng hấp dẫn giữa tốc độ và độ chính xác, đặc biệt là đối với các ứng dụng yêu cầu xử lý nhanh.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Tốc độ cao : Được tối ưu hóa để suy luận cực nhanh, lý tưởng cho các hệ thống thời gian thực.
- Hiệu quả : Kích thước mô hình nhỏ hơn và yêu cầu tính toán thấp hơn khiến nó phù hợp với các thiết bị biên.
- Khả năng mở rộng : Được thiết kế để có khả năng mở rộng và thích ứng với nhiều tình huống triển khai khác nhau.
Điểm yếu:
- Độ chính xác : Mặc dù chính xác, nhưng nó có thể không đạt được điểm mAP cao nhất như RTDETRv2, đặc biệt là trong các tình huống đòi hỏi độ chính xác cao nhất.
- Hiểu biết theo ngữ cảnh : Do tập trung vào CNN nên mô hình này có thể không nắm bắt được ngữ cảnh toàn cầu hiệu quả bằng các mô hình dựa trên máy biến áp trong các cảnh có độ phức tạp cao.
Các trường hợp sử dụng
DAMO- YOLO rất phù hợp cho các ứng dụng mà tốc độ và hiệu quả là tối quan trọng và cần triển khai trên phần cứng ít mạnh hơn:
- Giám sát video thời gian thực : Lý tưởng cho các ứng dụng như hệ thống báo động an ninh cần phát hiện ngay lập tức.
- Điện toán biên : Hoàn hảo để triển khai trên các thiết bị biên như Raspberry Pi và NVIDIA Jetson .
- Ứng dụng xử lý nhanh : Thích hợp cho robot ( ROS Quickstart ) và các ứng dụng khác đòi hỏi phải ra quyết định nhanh chóng.
- Triển khai trên thiết bị di động : Đủ hiệu quả cho các ứng dụng di động và môi trường có tài nguyên hạn chế.
Bảng so sánh mô hình
Người mẫu | kích thước (pixel) | giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (M) | FLOP (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Phần kết luận
Cả RTDETRv2 và DAMO- YOLO là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình có những ưu điểm riêng biệt. RTDETRv2 nổi bật khi độ chính xác tối đa là ưu tiên hàng đầu và có sẵn các tài nguyên tính toán. DAMO- YOLO là lựa chọn ưu tiên cho các ứng dụng yêu cầu xử lý thời gian thực và triển khai hiệu quả, đặc biệt là trên các thiết bị biên.
Đối với người dùng đang cân nhắc các lựa chọn khác, Ultralytics cung cấp nhiều mẫu mã đa dạng, bao gồm:
- YOLO11 : Mới nhất trong YOLO loạt, cân bằng tốc độ và độ chính xác. Tìm hiểu thêm về YOLO11 .
- YOLOv8 và YOLOv9 : Các thế hệ trước cung cấp nhiều sự đánh đổi về tốc độ và độ chính xác, được trình bày chi tiết trong " Ultralytics YOLOv8 tròn một tuổi: Một năm đột phá và đổi mới " và YOLOv9 .
- YOLO -NAS : Các mô hình được thiết kế thông qua Neural Architecture Search để có hiệu suất tối ưu. Xem YOLO -NAS của Deci AI - Mô hình phát hiện đối tượng hiện đại .
- FastSAM và MobileSAM : Để phân đoạn phiên bản theo thời gian thực, hãy xem FastSAM và MobileSAM .
Sự lựa chọn giữa RTDETRv2, DAMO- YOLO , hoặc khác Ultralytics các mô hình phải dựa trên nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân nhắc cẩn thận sự cân bằng giữa độ chính xác, tốc độ và tài nguyên có sẵn. Để biết thêm chi tiết và hướng dẫn triển khai, hãy tham khảo Tài liệu Ultralytics và kho lưu trữ GitHub Ultralytics .