RTDETRv2 so với YOLOv9: So sánh kỹ thuật để phát hiện đối tượng
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp nhiều loại mô hình khác nhau, bao gồm YOLO loạt sản phẩm được biết đến với tốc độ và hiệu quả, và RT-DETR loạt, nhấn mạnh độ chính xác cao. Trang này cung cấp so sánh kỹ thuật chi tiết giữa RTDETRv2 và YOLOv9 , hai mô hình phát hiện đối tượng tiên tiến, để hỗ trợ bạn đưa ra lựa chọn sáng suốt.
RTDETRv2: Độ chính xác cao được cung cấp bởi máy biến áp
RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến do Baidu phát triển, được biết đến với độ chính xác và hiệu suất thời gian thực đặc biệt. Được xuất bản trên arXiv vào ngày 17 tháng 4 năm 2023 và có mã trên GitHub , RTDETRv2 được biên soạn bởi Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu. Nó tận dụng kiến trúc Vision Transformer (ViT) để đạt được khả năng định vị và phân loại đối tượng chính xác, khiến nó phù hợp với các ứng dụng đòi hỏi khắt khe.
Kiến trúc và các tính năng chính
Kiến trúc của RTDETRv2 được xây dựng dựa trên Vision Transformers, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Điều này khác biệt đáng kể so với Convolutional Neural Networks (CNN) truyền thống và cho phép RTDETRv2 cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, dẫn đến việc trích xuất tính năng được cải thiện và độ chính xác vượt trội, đặc biệt là trong các cảnh phức tạp. Thiết kế dựa trên transformer cho phép phát hiện không có neo, đơn giản hóa quá trình phát hiện và có khả năng cải thiện khả năng khái quát hóa.
Số liệu hiệu suất
RTDETRv2 cho thấy hiệu suất mạnh mẽ, đặc biệt là trong mAP. Như được nêu chi tiết trong bảng so sánh, biến thể RTDETRv2-x đạt được mAPval50-95 là 54,3. Tốc độ suy luận cũng cạnh tranh, với RTDETRv2-s đạt 5,03 ms trên TensorRT , làm cho nó khả thi cho các ứng dụng thời gian thực khi sử dụng phần cứng có khả năng như NVIDIA GPU T4. Để hiểu sâu hơn về đánh giá hiệu suất, hãy tham khảo hướng dẫn YOLO Performance Metrics của chúng tôi.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Độ chính xác cao: Kiến trúc máy biến áp cung cấp độ chính xác phát hiện đối tượng tuyệt vời, rất quan trọng cho các ứng dụng yêu cầu độ chính xác.
- Có khả năng thời gian thực: Đạt được tốc độ suy luận cạnh tranh, đặc biệt khi được tối ưu hóa với TensorRT và chạy trên phần cứng phù hợp.
- Hiểu biết về bối cảnh toàn cầu: Vision Transformers nắm bắt hiệu quả bối cảnh toàn cầu, mang lại khả năng phát hiện mạnh mẽ trong các môi trường phức tạp.
Điểm yếu:
- Kích thước mô hình lớn hơn: Các mô hình RTDETRv2, đặc biệt là các biến thể lớn hơn như RTDETRv2-x, có số lượng tham số và FLOP đáng kể, đòi hỏi nhiều tài nguyên tính toán hơn.
- Giới hạn tốc độ suy luận: Mặc dù có thể đạt được thời gian thực, tốc độ suy luận có thể chậm hơn so với các mô hình dựa trên CNN được tối ưu hóa cao như YOLOv9, đặc biệt là trên các thiết bị có nguồn lực hạn chế.
Các trường hợp sử dụng lý tưởng
RTDETRv2 lý tưởng cho các ứng dụng đòi hỏi độ chính xác cao và có sẵn các nguồn tài nguyên tính toán. Bao gồm:
- Xe tự hành: Để có nhận thức chính xác và đáng tin cậy về môi trường. Khám phá thêm về AI trong xe tự lái .
- Chụp ảnh y tế: Để phát hiện chính xác các bất thường trong hình ảnh y tế, hỗ trợ chẩn đoán. Tìm hiểu về AI trong chăm sóc sức khỏe .
- Robot: Cho phép robot tương tác và điều khiển các vật thể trong môi trường phức tạp một cách chính xác. Hiểu vai trò của AI trong ngành robot .
- Phân tích hình ảnh độ phân giải cao: Để phân tích chi tiết các hình ảnh lớn, chẳng hạn như trong hình ảnh vệ tinh hoặc kiểm tra công nghiệp. Xem cách Phân tích hình ảnh vệ tinh bằng Thị giác máy tính .
YOLOv9: Thông tin Gradient có thể lập trình để đạt hiệu quả và độ chính xác
YOLOv9 ( Bạn chỉ nhìn một lần 9 ) là một mô hình phát hiện đối tượng tiên tiến từ công ty nổi tiếng Ultralytics YOLO gia đình. Được giới thiệu trên arXiv vào ngày 2024-02-21, YOLOv9 được biên soạn bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan, với mã có sẵn trên GitHub . YOLOv9 giới thiệu các kỹ thuật Thông tin Gradient có thể lập trình (PGI) và GELAN, nâng cao cả độ chính xác và hiệu quả đào tạo so với trước đây YOLO phiên bản.
Kiến trúc và các tính năng chính
YOLOv9 xây dựng dựa trên hiệu quả của trước đó YOLO mô hình trong khi kết hợp các cải tiến kiến trúc mới. Nó sử dụng GELAN (Mạng tổng hợp lớp hiệu quả tổng quát) để tối ưu hóa kiến trúc mạng và PGI nhằm duy trì tính toàn vẹn của thông tin gradient, giải quyết tình trạng mất thông tin trong quá trình truyền bá mạng sâu. Những cải tiến này dẫn đến độ chính xác được cải thiện và đào tạo hiệu quả hơn. YOLOv9 duy trì đầu phát hiện không có neo và thiết kế một giai đoạn hợp lý, tập trung vào hiệu suất thời gian thực.
Số liệu hiệu suất
YOLOv9 đạt được sự cân bằng hấp dẫn giữa tốc độ và độ chính xác. Mô hình YOLOv9-e đạt được mAPval50-95 là 55,6, vượt trội hơn cả các mô hình RTDETRv2 lớn hơn về độ chính xác trong khi vẫn duy trì tốc độ suy luận cạnh tranh. Biến thể YOLOv9-t nhỏ hơn có tốc độ cực nhanh, đạt tốc độ suy luận 2,3 ms trên TensorRT , khiến nó phù hợp với các ứng dụng có độ trễ cực kỳ nhạy cảm.
Điểm mạnh và điểm yếu
Điểm mạnh:
- Độ chính xác và hiệu quả cao: PGI và GELAN góp phần nâng cao độ chính xác và sử dụng thông số hiệu quả.
- Tốc độ suy luận nhanh: Được tối ưu hóa cho hiệu suất thời gian thực, đặc biệt là các biến thể nhỏ hơn phù hợp cho việc triển khai biên.
- Đào tạo hiệu quả: PGI góp phần tạo nên quá trình đào tạo ổn định và hiệu quả hơn.
Điểm yếu:
- Bối cảnh toàn cầu thấp hơn: Kiến trúc dựa trên CNN có thể kém hiệu quả hơn trong việc nắm bắt các mối phụ thuộc tầm xa so với các mô hình dựa trên bộ chuyển đổi trong các cảnh rất phức tạp.
- Đánh đổi độ chính xác để lấy tốc độ: Mặc dù có độ chính xác cao, nhưng để đạt được tốc độ suy luận nhanh nhất có thể cần sử dụng các mô hình nhỏ hơn với độ chính xác giảm đôi chút so với các mô hình lớn nhất.
Các trường hợp sử dụng lý tưởng
YOLOv9 rất phù hợp cho các ứng dụng đòi hỏi sự cân bằng giữa độ chính xác cao và hiệu suất thời gian thực, đặc biệt là trong môi trường hạn chế về tài nguyên:
- Giám sát thời gian thực: Để giám sát hiệu quả và chính xác trong các hệ thống an ninh. Khám phá tầm nhìn máy tính để phòng chống trộm cắp .
- Điện toán biên: Triển khai trên các thiết bị biên có tài nguyên điện toán hạn chế. Tìm hiểu về Edge AI .
- Robot: Để có nhận thức nhanh và chính xác trong các hệ thống robot. Xem vai trò của AI trong robot .
- Tự động hóa công nghiệp: Dành cho các ứng dụng trong sản xuất yêu cầu phát hiện đối tượng theo thời gian thực để kiểm soát chất lượng và tối ưu hóa quy trình. Khám phá AI trong sản xuất .
Bảng so sánh mô hình
Người mẫu | kích cỡ (điểm ảnh) |
giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Phần kết luận
Cả RTDETRv2 và YOLOv9 đều là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình có thế mạnh riêng. RTDETRv2 vượt trội trong các tình huống ưu tiên độ chính xác tối đa và tận dụng kiến trúc máy biến áp để trích xuất tính năng mạnh mẽ, phù hợp với các ứng dụng có nhiều tài nguyên tính toán. Mặt khác, YOLOv9 lý tưởng khi hiệu suất và hiệu quả theo thời gian thực là tối quan trọng, cung cấp sự kết hợp hấp dẫn giữa độ chính xác và tốc độ, đặc biệt có lợi cho việc triển khai trên các thiết bị biên và hệ thống nhạy cảm với độ trễ.
Đối với người dùng quan tâm đến việc khám phá các mô hình khác, Ultralytics cung cấp nhiều lựa chọn, bao gồm:
- YOLOv8 : Mẫu YOLOv8 Ultralytics thế hệ trước, mang đến sự cân bằng giữa tốc độ và độ chính xác.
- YOLO11 : Để nâng cao hiệu quả và tốc độ, hãy cân nhắc sử dụng YOLO11 .
- FastSAM và MobileSAM : Đối với các tác vụ phân đoạn phiên bản thời gian thực, hãy khám phá FastSAM và MobileSAM .
Sự lựa chọn giữa RTDETRv2, YOLOv9 và các Ultralytics models phụ thuộc vào nhu cầu cụ thể của dự án, cân nhắc cẩn thận sự cân bằng giữa độ chính xác, tốc độ và tài nguyên có sẵn. Tham khảo Tài liệu Ultralytics và kho lưu trữ GitHub Ultralytics để biết thông tin chi tiết toàn diện và hướng dẫn triển khai.