YOLOv5 so với RTDETRv2: So sánh kỹ thuật chi tiết
Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp nhiều mô hình khác nhau để giải quyết các nhu cầu khác nhau của dự án. Trang này cung cấp so sánh kỹ thuật giữa Ultralytics YOLOv5 và RTDETRv2 , nhấn mạnh sự khác biệt về kiến trúc, chuẩn hiệu suất và tính phù hợp của chúng đối với các ứng dụng khác nhau.
YOLOv5 : Tối ưu hóa cho tốc độ và hiệu quả
Ultralytics YOLOv5 là máy phát hiện vật thể một giai đoạn được áp dụng rộng rãi và nổi tiếng vì tốc độ suy luận nhanh và hiệu quả hoạt động. YOLOv5 Kiến trúc của 'bao gồm:
- Xương sống: CSPDarknet53, chịu trách nhiệm trích xuất tính năng.
- Cổ: PANet, được sử dụng để hợp nhất tính năng.
- Cái đầu: YOLOv5 đầu, được thiết kế cho nhiệm vụ phát hiện.
YOLOv5 có nhiều kích cỡ (n, s, m, l, x), cung cấp cho người dùng các tùy chọn để cân bằng tốc độ và độ chính xác dựa trên các yêu cầu cụ thể của họ.
Điểm mạnh:
- Tốc độ suy luận: YOLOv5 có tốc độ vượt trội, là lựa chọn tuyệt vời cho các ứng dụng thời gian thực như hệ thống báo động an ninh .
- Hiệu quả: YOLOv5 Các mô hình nhỏ gọn, đòi hỏi ít tài nguyên tính toán hơn, phù hợp để triển khai ở biên như Raspberry Pi và NVIDIA Jetson .
- Tính linh hoạt: Có thể thích ứng với nhiều môi trường phần cứng khác nhau, bao gồm cả các thiết bị có nguồn lực hạn chế.
- Tính thân thiện với người dùng: Được ghi chép đầy đủ và dễ dàng triển khai bằng cách sử dụng Ultralytics Gói Python và Ultralytics HUB .
Điểm yếu:
- Đánh đổi về độ chính xác: Mặc dù đạt được độ chính xác cao, các mô hình lớn hơn như RTDETRv2 có thể cung cấp mAP vượt trội, đặc biệt là trong các tình huống phức tạp.
Các trường hợp sử dụng lý tưởng:
- Các tình huống phát hiện đối tượng theo thời gian thực bao gồm giám sát video và AI trong quản lý giao thông .
- Điện toán biên và triển khai di động.
- Các ứng dụng yêu cầu xử lý nhanh, chẳng hạn như robot ( ROS Quickstart ) và xe tự hành .
RTDETRv2: Máy biến áp phát hiện thời gian thực có độ chính xác cao
RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến ưu tiên độ chính xác cao và hiệu suất thời gian thực. Nó được giới thiệu trong một bài báo có tiêu đề " RT-DETRv2: Cải thiện đường cơ sở với Bag-of-Freebies cho Real-Time Detection Transformer " vào ngày 2023-04-17 của các tác giả Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu từ Baidu. Được xây dựng trên kiến trúc Vision Transformer (ViT), RTDETRv2 vượt trội trong các ứng dụng đòi hỏi định vị và phân loại đối tượng chính xác.
Kiến trúc và các tính năng chính:
RTDETRv2 tận dụng kiến trúc dựa trên bộ biến đổi, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Cách tiếp cận này cho phép mô hình cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, dẫn đến việc trích xuất tính năng nâng cao và cải thiện độ chính xác, đặc biệt là trong các cảnh phức tạp.
Điểm mạnh:
- Độ chính xác vượt trội: Kiến trúc biến áp cung cấp độ chính xác phát hiện đối tượng được cải thiện, đặc biệt là trong các môi trường phức tạp như đã được chứng minh trong các tình huống như vision-ai-in-crowd-management .
- Khả năng thời gian thực: Đạt được tốc độ suy luận cạnh tranh, đặc biệt khi sử dụng khả năng tăng tốc phần cứng như NVIDIA GPU T4.
- Trích xuất tính năng mạnh mẽ: Vision Transformers nắm bắt hiệu quả bối cảnh toàn cầu và các chi tiết phức tạp, có lợi trong các ứng dụng như sử dụng thị giác máy tính để phân tích hình ảnh vệ tinh .
Điểm yếu:
- Kích thước mô hình lớn hơn: Các mô hình RTDETRv2, đặc biệt là các biến thể lớn hơn, có số lượng tham số và FLOP cao hơn YOLOv5 , đòi hỏi nhiều tài nguyên tính toán hơn.
- Tốc độ suy luận: Mặc dù có khả năng theo thời gian thực, tốc độ suy luận có thể thấp hơn so với tốc độ nhanh nhất YOLOv5 các mẫu máy, đặc biệt là trên các thiết bị có công suất yếu.
Các trường hợp sử dụng lý tưởng:
RTDETRv2 phù hợp tối ưu cho các ứng dụng mà độ chính xác là tối quan trọng và tài nguyên tính toán là đủ. Bao gồm:
- Lái xe tự động: Để có nhận thức chính xác và đáng tin cậy về môi trường bằng AI trên xe tự lái .
- Robot: Cho phép robot tương tác chính xác với môi trường xung quanh, điều cần thiết cho các nhiệm vụ được thảo luận trong " Từ thuật toán đến tự động hóa: Vai trò của AI trong robot ".
- Chụp ảnh y tế: Để phát hiện bất thường chính xác, hỗ trợ chẩn đoán như được nêu trong AI trong chăm sóc sức khỏe và có khả năng hữu ích trong các lĩnh vực như sử dụng yolo11 để phát hiện khối u trong chụp ảnh y tế .
- Phân tích hình ảnh độ phân giải cao: Các ứng dụng yêu cầu phân tích chi tiết các hình ảnh lớn, như hình ảnh vệ tinh hoặc kiểm tra công nghiệp, như được thấy trong cải tiến sản xuất bằng thị giác máy tính .
Bảng so sánh mô hình
Người mẫu | kích cỡ (điểm ảnh) |
giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Phần kết luận
Cả RTDETRv2 và YOLOv5 là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình được thiết kế cho các ưu tiên riêng biệt. RTDETRv2 được ưa chuộng khi độ chính xác là tối quan trọng và có sẵn các nguồn lực tính toán. Ngược lại, YOLOv5 vượt trội trong các tình huống đòi hỏi hiệu suất và hiệu quả theo thời gian thực, đặc biệt là trên các nền tảng có nguồn lực hạn chế.
Đối với người dùng khám phá các mô hình khác, Ultralytics cung cấp một mô hình sở thú rộng lớn, bao gồm:
- YOLOv8 và YOLO11 : Những người kế nhiệm YOLOv5 , mang lại những tiến bộ hơn nữa về hiệu suất và hiệu quả như đã nêu trong " Ultralytics YOLOv8 tròn một tuổi: Một năm đột phá và đổi mới " và " Ultralytics YOLO11 đã ra mắt: Xác định lại những gì có thể trong AI ".
- YOLO -NAS : Các mô hình được thiết kế với Neural Architecture Search để tối ưu hóa hiệu suất ( YOLO -NAS của Deci AI ).
- FastSAM và MobileSAM : Dành cho các tác vụ phân đoạn phiên bản thời gian thực ( FastSAM và MobileSAM ).
Lựa chọn giữa RTDETRv2, YOLOv5 , hoặc khác Ultralytics mô hình phải dựa trên nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân nhắc cẩn thận sự cân bằng giữa độ chính xác, tốc độ và tính khả dụng của tài nguyên. Tham khảo Tài liệu Ultralytics và kho lưu trữ GitHub để biết thông tin chi tiết toàn diện và hướng dẫn triển khai.