Bỏ qua nội dung

YOLOv5 so với RTDETRv2: So sánh kỹ thuật chi tiết

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp nhiều mô hình khác nhau để giải quyết các nhu cầu khác nhau của dự án. Trang này cung cấp so sánh kỹ thuật giữa Ultralytics YOLOv5RTDETRv2 , nhấn mạnh sự khác biệt về kiến trúc, chuẩn hiệu suất và tính phù hợp của chúng đối với các ứng dụng khác nhau.

YOLOv5 : Tối ưu hóa cho tốc độ và hiệu quả

Ultralytics YOLOv5 là máy phát hiện vật thể một giai đoạn được áp dụng rộng rãi và nổi tiếng vì tốc độ suy luận nhanh và hiệu quả hoạt động. YOLOv5 Kiến trúc của 'bao gồm:

  • Xương sống: CSPDarknet53, chịu trách nhiệm trích xuất tính năng.
  • Cổ: PANet, được sử dụng để hợp nhất tính năng.
  • Cái đầu: YOLOv5 đầu, được thiết kế cho nhiệm vụ phát hiện.

YOLOv5 có nhiều kích cỡ (n, s, m, l, x), cung cấp cho người dùng các tùy chọn để cân bằng tốc độ và độ chính xác dựa trên các yêu cầu cụ thể của họ.

Điểm mạnh:

  • Tốc độ suy luận: YOLOv5 có tốc độ vượt trội, là lựa chọn tuyệt vời cho các ứng dụng thời gian thực như hệ thống báo động an ninh .
  • Hiệu quả: YOLOv5 Các mô hình nhỏ gọn, đòi hỏi ít tài nguyên tính toán hơn, phù hợp để triển khai ở biên như Raspberry PiNVIDIA Jetson .
  • Tính linh hoạt: Có thể thích ứng với nhiều môi trường phần cứng khác nhau, bao gồm cả các thiết bị có nguồn lực hạn chế.
  • Tính thân thiện với người dùng: Được ghi chép đầy đủ và dễ dàng triển khai bằng cách sử dụng Ultralytics Gói PythonUltralytics HUB .

Điểm yếu:

  • Đánh đổi về độ chính xác: Mặc dù đạt được độ chính xác cao, các mô hình lớn hơn như RTDETRv2 có thể cung cấp mAP vượt trội, đặc biệt là trong các tình huống phức tạp.

Các trường hợp sử dụng lý tưởng:

Tìm hiểu thêm về YOLOv5

RTDETRv2: Máy biến áp phát hiện thời gian thực có độ chính xác cao

RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến ưu tiên độ chính xác cao và hiệu suất thời gian thực. Nó được giới thiệu trong một bài báo có tiêu đề " RT-DETRv2: Cải thiện đường cơ sở với Bag-of-Freebies cho Real-Time Detection Transformer " vào ngày 2023-04-17 của các tác giả Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu từ Baidu. Được xây dựng trên kiến trúc Vision Transformer (ViT), RTDETRv2 vượt trội trong các ứng dụng đòi hỏi định vị và phân loại đối tượng chính xác.

Kiến trúc và các tính năng chính:

RTDETRv2 tận dụng kiến trúc dựa trên bộ biến đổi, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Cách tiếp cận này cho phép mô hình cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, dẫn đến việc trích xuất tính năng nâng cao và cải thiện độ chính xác, đặc biệt là trong các cảnh phức tạp.

Điểm mạnh:

  • Độ chính xác vượt trội: Kiến trúc biến áp cung cấp độ chính xác phát hiện đối tượng được cải thiện, đặc biệt là trong các môi trường phức tạp như đã được chứng minh trong các tình huống như vision-ai-in-crowd-management .
  • Khả năng thời gian thực: Đạt được tốc độ suy luận cạnh tranh, đặc biệt khi sử dụng khả năng tăng tốc phần cứng như NVIDIA GPU T4.
  • Trích xuất tính năng mạnh mẽ: Vision Transformers nắm bắt hiệu quả bối cảnh toàn cầu và các chi tiết phức tạp, có lợi trong các ứng dụng như sử dụng thị giác máy tính để phân tích hình ảnh vệ tinh .

Điểm yếu:

  • Kích thước mô hình lớn hơn: Các mô hình RTDETRv2, đặc biệt là các biến thể lớn hơn, có số lượng tham số và FLOP cao hơn YOLOv5 , đòi hỏi nhiều tài nguyên tính toán hơn.
  • Tốc độ suy luận: Mặc dù có khả năng theo thời gian thực, tốc độ suy luận có thể thấp hơn so với tốc độ nhanh nhất YOLOv5 các mẫu máy, đặc biệt là trên các thiết bị có công suất yếu.

Các trường hợp sử dụng lý tưởng:

RTDETRv2 phù hợp tối ưu cho các ứng dụng mà độ chính xác là tối quan trọng và tài nguyên tính toán là đủ. Bao gồm:

Tìm hiểu thêm về RTDETRv2

Bảng so sánh mô hình

Người mẫu kích cỡ
(điểm ảnh)
giá trị mAP
50-95
Tốc độ
CPU ONNX
(bệnh đa xơ cứng)
Tốc độ
T4 TensorRT10
(bệnh đa xơ cứng)
tham số
(Nam)
Thất bại
(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOv5n 640 28.0 73.6 1.12 2.6 7.7
YOLOv5s 640 37.4 120.7 1.92 9.1 24.0
YOLOv5m 640 45.4 233.9 4.03 25.1 64.2
YOLOv5l 640 49.0 408.4 6.61 53.2 135.0
YOLOv5x 640 50.7 763.2 11.89 97.2 246.4

Phần kết luận

Cả RTDETRv2 và YOLOv5 là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình được thiết kế cho các ưu tiên riêng biệt. RTDETRv2 được ưa chuộng khi độ chính xác là tối quan trọng và có sẵn các nguồn lực tính toán. Ngược lại, YOLOv5 vượt trội trong các tình huống đòi hỏi hiệu suất và hiệu quả theo thời gian thực, đặc biệt là trên các nền tảng có nguồn lực hạn chế.

Đối với người dùng khám phá các mô hình khác, Ultralytics cung cấp một mô hình sở thú rộng lớn, bao gồm:

Lựa chọn giữa RTDETRv2, YOLOv5 , hoặc khác Ultralytics mô hình phải dựa trên nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân nhắc cẩn thận sự cân bằng giữa độ chính xác, tốc độ và tính khả dụng của tài nguyên. Tham khảo Tài liệu Ultralyticskho lưu trữ GitHub để biết thông tin chi tiết toàn diện và hướng dẫn triển khai.

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 1 tháng

Bình luận