YOLOv5 so với RTDETRv2: So sánh mô hình chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp một bộ các mô hình được thiết kế riêng cho nhiều nhu cầu khác nhau, bao gồm Ultralytics YOLOv5 hiệu quả cao và so sánh nó với các kiến trúc khác như RTDETRv2. Trang này cung cấp một so sánh kỹ thuật giữa YOLOv5 và RTDETRv2, nêu bật sự khác biệt về kiến trúc, số liệu hiệu suất, phương pháp đào tạo và ứng dụng lý tưởng của chúng.
YOLOv5 : Tốc độ và Hiệu quả
Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 2020-06-26
GitHub: https://github.com/ ultralytics / yolov5
Tài liệu: https://docs. ultralytics .com/models/ yolov5 /
Ultralytics YOLOv5 là một máy dò vật thể một giai đoạn được sử dụng rộng rãi và được ca ngợi vì tốc độ suy luận và hiệu quả hoạt động vượt trội. Được phát triển bởi Ultralytics , nó đã trở thành chuẩn mực cho các nhiệm vụ phát hiện đối tượng theo thời gian thực.
Ngành kiến trúc
YOLOv5 sử dụng kiến trúc dựa trên CNN được tối ưu hóa cho tốc độ:
- Xương sống: CSPDarknet53 để trích xuất tính năng hiệu quả.
- Cổ: PANet để kết hợp tính năng hiệu quả trên nhiều thang đo.
- Cái đầu: YOLOv5 đầu phát hiện để dự đoán và phân loại hộp giới hạn. Có nhiều kích cỡ (n, s, m, l, x), cho phép người dùng lựa chọn sự cân bằng tốt nhất giữa tốc độ và độ chính xác cho nhu cầu cụ thể của họ.
Điểm mạnh
YOLOv5 mang lại những lợi thế đáng kể, đặc biệt đối với các nhà phát triển đang tìm kiếm triển khai thực tế:
- Dễ sử dụng: Mang đến trải nghiệm người dùng hợp lý với API đơn giản, tài liệu hướng dẫn chi tiết và nhiều hướng dẫn .
- Hệ sinh thái được bảo trì tốt: Lợi ích từ hệ sinh thái Ultralytics tích hợp, bao gồm phát triển tích cực, hỗ trợ cộng đồng mạnh mẽ thông qua GitHub và Discord, cập nhật thường xuyên và các nền tảng như Ultralytics HUB để đào tạo và triển khai không cần viết mã.
- Cân bằng hiệu suất: Đạt được sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác, phù hợp với nhiều tình huống thực tế khác nhau.
- Yêu cầu về bộ nhớ: Thông thường yêu cầu bộ nhớ thấp hơn (đặc biệt là CUDA bộ nhớ trong quá trình đào tạo) so với các mô hình dựa trên máy biến áp như RTDETRv2.
- Hiệu quả đào tạo: Cung cấp quy trình đào tạo hiệu quả, hội tụ nhanh hơn và trọng số được đào tạo sẵn có trên các tập dữ liệu như COCO .
- Tính linh hoạt: Mặc dù chủ yếu tập trung vào phát hiện, YOLOv5 kho lưu trữ cũng hỗ trợ phân đoạn phiên bản và nhiệm vụ phân loại hình ảnh .
Điểm yếu
- Độ chính xác: Mặc dù có độ chính xác cao, các mô hình lớn hơn, phức tạp hơn như RTDETRv2-x có thể đạt được mAP cao hơn một chút trên các tập dữ liệu khó, mặc dù phải đánh đổi bằng tốc độ và tài nguyên.
Các trường hợp sử dụng lý tưởng
YOLOv5 xuất sắc trong:
- Phát hiện vật thể theo thời gian thực: Giám sát video, hệ thống báo động an ninh và AI trong quản lý giao thông .
- Điện toán biên: Triển khai trên các thiết bị có tài nguyên hạn chế như Raspberry Pi và NVIDIA Jetson .
- Ứng dụng di động: Các mô hình nhẹ phù hợp để triển khai trên thiết bị di động.
- Tạo mẫu nhanh: Thiết lập và đào tạo nhanh cho nhiều tác vụ thị giác máy tính khác nhau.
RTDETRv2: Phát hiện thời gian thực có độ chính xác cao
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 2023-04-17 (Ban đầu RT-DETR ), 2024-07-24 (cải tiến RT-DETRv2)
Nguồn: https://arxiv.org/abs/2304.08069 , https://arxiv.org/abs/2407.17140
GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
Tài liệu: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch#readme
RTDETRv2 (Real-Time Detection Transformer v2) là một bộ phát hiện vật thể hiện đại tận dụng sức mạnh của Vision Transformers (ViT) để đạt được độ chính xác cao trong khi vẫn duy trì hiệu suất thời gian thực.
Ngành kiến trúc
RTDETRv2 sử dụng phương pháp kết hợp:
- Xương sống: Thông thường là CNN (giống như các biến thể ResNet) để trích xuất tính năng ban đầu.
- Encoder-Decoder: Cấu trúc mã hóa-giải mã dựa trên Transformer sử dụng cơ chế tự chú ý để nắm bắt bối cảnh toàn cục trong các đặc điểm hình ảnh. Điều này cho phép mô hình hiểu rõ hơn mối quan hệ giữa các vật thể ở xa và các cảnh phức tạp.
Điểm mạnh
- Độ chính xác cao: Kiến trúc máy biến áp cho phép RTDETRv2 đạt được điểm mAP tuyệt vời, đặc biệt là trên các tập dữ liệu phức tạp với các đối tượng dày đặc hoặc nhỏ.
- Khả năng thời gian thực: Được tối ưu hóa để cung cấp tốc độ suy luận cạnh tranh, đặc biệt khi được tăng tốc bằng các công cụ như NVIDIA TensorRT .
- Trích xuất tính năng mạnh mẽ: Nắm bắt hiệu quả bối cảnh toàn cầu, mang lại hiệu suất tốt hơn trong các tình huống khó khăn như che khuất.
Điểm yếu
- Chi phí tính toán: Nói chung có số lượng tham số và FLOP cao hơn so với YOLOv5 , đòi hỏi nhiều tài nguyên tính toán quan trọng hơn ( GPU bộ nhớ, khả năng xử lý).
- Độ phức tạp khi đào tạo: Đào tạo các mô hình dựa trên bộ chuyển đổi có thể tốn nhiều tài nguyên hơn và có khả năng chậm hơn so với đào tạo các mô hình dựa trên CNN như YOLOv5 .
- Tốc độ suy luận: Mặc dù có khả năng thời gian thực trên phần cứng mạnh mẽ, nhưng nó có thể chậm hơn tốc độ nhanh nhất YOLOv5 các biến thể, đặc biệt là trên CPU hoặc các thiết bị biên yếu hơn.
- Hệ sinh thái: Thiếu hệ sinh thái thống nhất, rộng lớn, công cụ (như Ultralytics HUB) và sự hỗ trợ rộng rãi của cộng đồng được cung cấp bởi Ultralytics vì YOLO mô hình.
Các trường hợp sử dụng lý tưởng
RTDETRv2 phù hợp nhất cho các ứng dụng đòi hỏi độ chính xác cao và có đủ tài nguyên tính toán:
- Lái xe tự động: Nhận thức chính xác cho AI trong xe tự lái .
- Hình ảnh y tế: Phát hiện bất thường chi tiết trong AI trong chăm sóc sức khỏe .
- Phân tích hình ảnh độ phân giải cao: Phân tích hình ảnh vệ tinh hoặc dữ liệu kiểm tra công nghiệp ( cải thiện sản xuất bằng công nghệ thị giác máy tính ).
- Hiểu bối cảnh phức tạp: Bối cảnh có nhiều vật thể nhỏ hoặc bị che khuất.
So sánh hiệu suất: YOLOv5 so với RTDETRv2
Người mẫu | kích cỡ (điểm ảnh) |
giá trị mAP 50-95 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Bảng này nêu bật những sự đánh đổi:
- Các mô hình YOLOv5 (đặc biệt là n/s/m) cung cấp tốc độ suy luận nhanh hơn đáng kể trên cả hai CPU Và GPU ( TensorRT ) với số lượng tham số và FLOP thấp hơn nhiều, khiến chúng trở nên lý tưởng cho các môi trường hạn chế về tài nguyên.
- Các mô hình RTDETRv2 đạt được điểm mAP đỉnh cao hơn (đặc biệt là các biến thể l/x) nhưng đi kèm với độ trễ tăng lên và các yêu cầu tính toán. Đáng chú ý, RTDETRv2-s/m cung cấp độ chính xác cạnh tranh với YOLOv5l/x với khả năng nhanh hơn TensorRT tốc độ nhưng thiếu báo cáo CPU hiệu suất.
Đào tạo và Hệ sinh thái
Ultralytics YOLOv5 nổi bật với tính dễ đào tạo và hệ sinh thái toàn diện. Đào tạo dễ dàng bằng cách sử dụng CLI hoặc Python API, được hỗ trợ bởi tài liệu và hướng dẫn mở rộng. Ultralytics hệ sinh thái cung cấp các công cụ như Ultralytics HUB để đào tạo và triển khai đơn giản hóa, hỗ trợ cộng đồng tích cực và tích hợp liền mạch với các công cụ như Weights & Biases và ClearML . Hơn nữa, YOLOv5 Kiến trúc CNN của 's thường yêu cầu ít hơn GPU bộ nhớ và tốc độ đào tạo nhanh hơn so với mô hình máy biến áp.
RTDETRv2 , mặc dù mạnh mẽ, liên quan đến việc đào tạo một kiến trúc máy biến áp phức tạp hơn. Điều này thường đòi hỏi nhiều tài nguyên tính toán đáng kể hơn (đặc biệt là cao GPU bộ nhớ) và thời gian đào tạo có khả năng dài hơn. Trong khi kho lưu trữ GitHub cung cấp các tập lệnh đào tạo, hệ sinh thái xung quanh và cấu trúc hỗ trợ ít rộng rãi hơn so với những hệ sinh thái và cấu trúc hỗ trợ được cung cấp bởi Ultralytics .
Phần kết luận
Cả hai YOLOv5 và RTDETRv2 là các mô hình phát hiện đối tượng có khả năng, nhưng chúng phục vụ cho các mục đích ưu tiên khác nhau.
- Ultralytics YOLOv5 là lựa chọn được khuyến nghị cho các ứng dụng đòi hỏi tốc độ cao, hiệu quả, dễ sử dụng và tính linh hoạt khi triển khai , đặc biệt là trên các thiết bị biên hoặc nơi tài nguyên tính toán bị hạn chế. Hệ sinh thái mạnh mẽ và yêu cầu đào tạo thấp hơn giúp các nhà phát triển và nhà nghiên cứu dễ tiếp cận.
- RTDETRv2 phù hợp khi độ chính xác tối đa là ưu tiên hàng đầu và có đủ tài nguyên tính toán (bao gồm GPU mạnh mẽ để đào tạo và suy luận).
Đối với hầu hết các ứng dụng thực tế, YOLOv5 cung cấp sự cân bằng tuyệt vời và thường vượt trội về hiệu suất, tốc độ và khả năng sử dụng, được hỗ trợ bởi sự hỗ trợ và công cụ mạnh mẽ của Ultralytics hệ sinh thái.
Khám phá các mô hình khác
Nếu bạn đang khám phá các giải pháp thay thế, hãy xem xét các mô hình khác trong Ultralytics hệ sinh thái:
- YOLOv8 : Người kế nhiệm YOLOv5 , mang lại độ chính xác và tốc độ được cải thiện trong nhiều tác vụ khác nhau bao gồm phát hiện, phân đoạn, tạo dáng và theo dõi.
- YOLOv10 : Có những cải tiến như đào tạo không cần NMS để nâng cao hiệu quả hơn nữa.
- YOLO11 : Thế hệ mới nhất từ Ultralytics , mở rộng ranh giới của hiệu suất và hiệu quả.
Việc so sánh các mô hình như YOLOv8 với RTDETRv2 hoặc YOLOv10 với RTDETRv2 có thể cung cấp thêm thông tin chi tiết về mô hình phù hợp nhất cho dự án của bạn.