YOLOv7 so với RTDETRv2: So sánh mô hình chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với các dự án thị giác máy tính. Trang này cung cấp so sánh kỹ thuật giữa YOLOv7 và RTDETRv2, hai mô hình tiên tiến, để giúp bạn đưa ra quyết định sáng suốt. Chúng tôi đi sâu vào sự khác biệt về kiến trúc, số liệu hiệu suất và ứng dụng lý tưởng của chúng.
Người mẫu | kích cỡ (điểm ảnh) |
giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv7: Chuyên gia hiệu quả thời gian thực
YOLOv7, được giới thiệu vào tháng 7 năm 2022 bởi các tác giả Chien-Yao Wang, Alexey Bochkovskiy và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Academia Sinica, Đài Loan, được ca ngợi vì tốc độ và hiệu quả trong các nhiệm vụ phát hiện đối tượng. Nó tinh chỉnh kiến trúc của YOLO mô hình, ưu tiên suy luận nhanh mà không làm giảm đáng kể độ chính xác.
Kiến trúc và các tính năng chính
Kiến trúc của YOLOv7 được xây dựng dựa trên Mạng nơ-ron tích chập (CNN) và kết hợp một số tính năng chính để tối ưu hóa hiệu suất:
- E-ELAN (Mạng tổng hợp lớp hiệu quả mở rộng): Nâng cao hiệu quả trích xuất tính năng, cho phép mô hình học hiệu quả hơn.
- Điều chỉnh mô hình: Sử dụng các kỹ thuật điều chỉnh mô hình phức hợp để điều chỉnh độ sâu và chiều rộng của mô hình, cho phép linh hoạt cho các nhu cầu về hiệu suất và tài nguyên tính toán khác nhau.
- Đào tạo đầu phụ: Sử dụng đầu mất phụ trong quá trình đào tạo để đào sâu hơn quá trình học mạng và cải thiện độ chính xác tổng thể.
Những lựa chọn kiến trúc này cho phép YOLOv7 đạt được sự cân bằng mạnh mẽ giữa tốc độ và độ chính xác, khiến nó phù hợp với các ứng dụng thời gian thực. Để biết thêm chi tiết, hãy tham khảo bài báo YOLOv7 trên Arxiv và kho lưu trữ GitHub chính thức của YOLOv7 .
Số liệu hiệu suất
YOLOv7 được thiết kế để vượt trội trong các tình huống mà độ trễ thấp là rất quan trọng. Hiệu suất của nó được đặc trưng bởi:
- mAPval50-95 : Đạt tới 53,1% mAP trên tập dữ liệu COCO.
- Tốc độ suy luận (T4 TensorRT10) : Nhanh tới 6,84 ms, cho phép xử lý theo thời gian thực.
- Kích thước mô hình (tham số) : Bắt đầu từ 36,9 triệu tham số, mang đến kích thước mô hình nhỏ gọn để triển khai hiệu quả.
Các trường hợp sử dụng và điểm mạnh
YOLOv7 đặc biệt phù hợp với các ứng dụng yêu cầu phát hiện đối tượng theo thời gian thực trên các thiết bị có tài nguyên hạn chế, bao gồm:
- Robot: Cung cấp khả năng nhận thức nhanh để điều hướng và tương tác với robot.
- Giám sát: Cho phép giám sát và phân tích thời gian thực trong các hệ thống an ninh. Xem cách YOLOv8 có thể tăng cường hệ thống báo động an ninh .
- Thiết bị biên: Triển khai trên các thiết bị biên có sức mạnh tính toán hạn chế, chẳng hạn như NVIDIA Jetson hoặc Raspberry Pi .
Điểm mạnh chính của nó là tốc độ và kích thước mô hình tương đối nhỏ, khiến nó có thể triển khai cao trên nhiều nền tảng phần cứng khác nhau. Khám phá thêm về kiến trúc và khả năng của YOLOv7 trong Tài liệu YOLOv7 .
RTDETRv2: Độ chính xác với hiệu suất máy biến áp
RTDETRv2 (Real-Time Detection Transformer phiên bản 2), được giới thiệu vào tháng 7 năm 2024 bởi các tác giả Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu từ Baidu, có cách tiếp cận khác bằng cách tích hợp Vision Transformers (ViT) để phát hiện đối tượng. Không giống như YOLO Nền tảng CNN của RTDETRv2 tận dụng các bộ biến áp để nắm bắt bối cảnh hình ảnh toàn cầu, có khả năng mang lại độ chính xác cao hơn, đồng thời vẫn duy trì hiệu suất theo thời gian thực.
Kiến trúc và các tính năng chính
Kiến trúc của RTDETRv2 được định nghĩa bởi:
- Xương sống Vision Transformer (ViT): Sử dụng bộ mã hóa biến áp để xử lý toàn bộ hình ảnh, nắm bắt các mối quan hệ phụ thuộc tầm xa, rất quan trọng để hiểu các cảnh phức tạp.
- Trích xuất tính năng CNN lai: Kết hợp CNN để trích xuất tính năng ban đầu với các lớp chuyển đổi để tích hợp ngữ cảnh toàn cầu một cách hiệu quả.
- Phát hiện không cần neo: Đơn giản hóa quy trình phát hiện bằng cách loại bỏ nhu cầu sử dụng hộp neo được xác định trước, tăng cường tính linh hoạt của mô hình và giảm độ phức tạp.
Thiết kế dựa trên máy biến áp này cho phép RTDETRv2 có khả năng đạt được độ chính xác cao hơn, đặc biệt là trong các môi trường phức tạp và lộn xộn. Tìm hiểu thêm về Vision Transformers từ trang thuật ngữ Vision Transformer (ViT) của chúng tôi. Bài báo RTDETRv2 có sẵn trên Arxiv và kho lưu trữ GitHub chính thức cung cấp thông tin chi tiết về việc triển khai.
Số liệu hiệu suất
RTDETRv2 ưu tiên độ chính xác trong khi vẫn duy trì tốc độ cạnh tranh, cung cấp các số liệu hiệu suất sau:
- mAPval50-95 : Đạt tới 54,3% mAPval50-95, thể hiện độ chính xác cao trong việc phát hiện đối tượng.
- Tốc độ suy luận (T4 TensorRT10) : Bắt đầu từ 5,03 ms, đảm bảo khả năng thời gian thực trên phần cứng phù hợp.
- Kích thước mô hình (tham số) : Bắt đầu từ 20M tham số, cung cấp nhiều kích thước mô hình khác nhau cho các nhu cầu triển khai khác nhau.
Các trường hợp sử dụng và điểm mạnh
RTDETRv2 lý tưởng cho các ứng dụng đòi hỏi độ chính xác cao và có sẵn các nguồn lực tính toán:
- Xe tự hành: Cung cấp nhận thức môi trường đáng tin cậy và chính xác để điều hướng an toàn. Khám phá AI trong xe tự lái cho các ứng dụng liên quan.
- Chụp ảnh y tế: Cho phép phát hiện chính xác các bất thường trong hình ảnh y tế để hỗ trợ chẩn đoán và lập kế hoạch điều trị. Tìm hiểu thêm về AI trong các ứng dụng chăm sóc sức khỏe .
- Phân tích hình ảnh có độ phân giải cao: Các nhiệm vụ yêu cầu phân tích chi tiết các hình ảnh lớn, chẳng hạn như phân tích hình ảnh vệ tinh hoặc kiểm tra công nghiệp.
Điểm mạnh của RTDETRv2 nằm ở kiến trúc máy biến áp, giúp trích xuất tính năng mạnh mẽ và độ chính xác cao hơn, giúp nó trở nên tuyệt vời cho các tác vụ phát hiện phức tạp. Chi tiết hơn có trong RT-DETR GitHub README .
Phần kết luận
Cả YOLOv7 và RTDETRv2 đều là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình có thế mạnh riêng. YOLOv7 vượt trội trong các ứng dụng thời gian thực đòi hỏi tốc độ và hiệu quả, trong khi RTDETRv2 ưu tiên độ chính xác thông qua kiến trúc dựa trên bộ biến đổi của nó. Lựa chọn của bạn phải phù hợp với các yêu cầu cụ thể của dự án—tốc độ cho các tác vụ nhạy cảm với thời gian hoặc độ chính xác cho phân tích chi tiết.
Để biết thêm các so sánh và mô hình khác, bạn cũng có thể quan tâm: