Bỏ qua nội dung

YOLOv10 so với RTDETRv2: So sánh kỹ thuật để phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là một quyết định quan trọng đối với các dự án thị giác máy tính. Ultralytics cung cấp một bộ các mô hình phù hợp với nhiều nhu cầu khác nhau, từ hiệu quả Ultralytics YOLO loạt đến độ chính xác cao RT-DETR loạt sản phẩm. Trang này cung cấp thông tin so sánh kỹ thuật chi tiết giữa YOLOv10RTDETRv2 , hai mô hình tiên tiến để phát hiện vật thể, nhằm hỗ trợ bạn đưa ra lựa chọn sáng suốt.

RTDETRv2: Phát hiện thời gian thực có độ chính xác cao

RTDETRv2 ( Real-Time Detection Transformer v2 ) là một mô hình phát hiện đối tượng tiên tiến ưu tiên độ chính xác cao và hiệu suất thời gian thực. Được Baidu phát triển và trình bày chi tiết trong bài báo Arxiv của họ phát hành vào tháng 7 năm 2024, RTDETRv2 xây dựng dựa trên kiến trúc Vision Transformer (ViT) để đạt được kết quả tiên tiến trong các tình huống đòi hỏi định vị và phân loại đối tượng chính xác.

Kiến trúc và các tính năng chính

Kiến trúc của RTDETRv2 tận dụng sức mạnh của bộ biến đổi, cho phép nó nắm bắt bối cảnh toàn cục trong hình ảnh thông qua các cơ chế tự chú ý. Phương pháp tiếp cận dựa trên bộ biến đổi này cho phép mô hình cân nhắc tầm quan trọng của các vùng hình ảnh khác nhau, dẫn đến việc trích xuất tính năng nâng cao và cải thiện độ chính xác, đặc biệt là trong các cảnh phức tạp. Không giống như Mạng nơ-ron tích chập (CNN) truyền thống, RTDETRv2 vượt trội trong việc hiểu bối cảnh rộng hơn của hình ảnh, góp phần vào khả năng phát hiện mạnh mẽ của nó. Kho lưu trữ GitHub RT-DETR cung cấp thêm thông tin chi tiết về việc triển khai của nó.

Số liệu hiệu suất

RTDETRv2 cho thấy điểm mAP ấn tượng, đặc biệt là với các biến thể lớn hơn như RTDETRv2-x đạt được mAPval50-95 là 54,3. Tốc độ suy luận cũng cạnh tranh, khiến nó phù hợp với các ứng dụng thời gian thực khi sử dụng khả năng tăng tốc phần cứng như NVIDIA GPU T4. Bảng so sánh bên dưới cung cấp thông tin chi tiết về số liệu hiệu suất trên các biến thể RTDETRv2 và YOLO10 khác nhau.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Độ chính xác cao: Kiến trúc máy biến áp giúp phát hiện vật thể có độ chính xác cao.
  • Khả năng thời gian thực: Đạt được tốc độ suy luận cạnh tranh, đặc biệt là với khả năng tăng tốc phần cứng từ các công cụ suy luận như TensorRT .
  • Trích xuất tính năng hiệu quả: Vision Transformers có khả năng nắm bắt bối cảnh toàn cầu và các chi tiết phức tạp trong hình ảnh một cách khéo léo.

Điểm yếu:

  • Kích thước mô hình lớn hơn: Các mô hình như RTDETRv2-x có số lượng tham số lớn hơn và FLOP cao hơn so với các mô hình nhỏ hơn YOLO các mô hình đòi hỏi nhiều tài nguyên tính toán hơn.
  • Giới hạn tốc độ suy luận: Mặc dù có khả năng theo thời gian thực, tốc độ suy luận có thể chậm hơn tốc độ nhanh nhất YOLO các mô hình, đặc biệt là trên các thiết bị có nguồn lực hạn chế.

Các trường hợp sử dụng lý tưởng

RTDETRv2 lý tưởng cho các ứng dụng đòi hỏi độ chính xác cao và có đủ tài nguyên tính toán. Bao gồm:

  • Xe tự hành: Để có nhận thức chính xác và đáng tin cậy về môi trường, rất quan trọng đối với sự an toàn và điều hướng trong AI trên xe tự lái .
  • Robot: Cho phép robot tương tác chính xác với các vật thể trong môi trường phức tạp, nâng cao khả năng của AI trong lĩnh vực robot .
  • Chụp ảnh y tế: Phát hiện chính xác các bất thường trong hình ảnh y tế, hỗ trợ chẩn đoán và cải thiện hiệu quả của AI trong chăm sóc sức khỏe .
  • Phân tích hình ảnh độ phân giải cao: Các ứng dụng yêu cầu phân tích chi tiết các hình ảnh lớn, chẳng hạn như hình ảnh vệ tinh hoặc kiểm tra công nghiệp, tương tự như sử dụng Thị giác máy tính để phân tích hình ảnh vệ tinh .

Tìm hiểu thêm về RTDETRv2

YOLOv10: Phát hiện đối tượng hiệu quả và linh hoạt

YOLOv10 ( Bạn chỉ nhìn một lần 10 ) là phiên bản mới nhất trong Ultralytics YOLO loạt, nổi tiếng về tốc độ và hiệu quả trong việc phát hiện đối tượng. Được giới thiệu vào tháng 5 năm 2024 bởi các tác giả từ Đại học Thanh Hoa, như được nêu chi tiết trong bài báo Arxiv của họ, YOLOv10 xây dựng dựa trên YOLO phiên bản, nâng cao cả độ chính xác và hiệu suất trong khi vẫn duy trì lợi thế thời gian thực của nó. Kho lưu trữ GitHub chính thức cung cấp PyTorch thực hiện.

Kiến trúc và các tính năng chính

YOLOv10 tiếp tục YOLO truyền thống phát hiện đối tượng một giai đoạn, tập trung vào hiệu quả và tốc độ hợp lý hóa. Nó kết hợp các cải tiến và tối ưu hóa kiến trúc để giảm sự dư thừa tính toán và cải thiện độ chính xác. Một tính năng chính là cách tiếp cận không cần NMS, cho phép triển khai đầu cuối và giảm độ trễ suy luận. Điều này làm cho YOLOv10 đặc biệt có lợi cho các ứng dụng thời gian thực và triển khai trên các thiết bị hạn chế về tài nguyên.

Số liệu hiệu suất

YOLOv10 đạt được sự cân bằng giữa tốc độ và độ chính xác, cung cấp nhiều kích thước mô hình khác nhau từ YOLOv10n đến YOLOv10x. Mặc dù hơi kém RTDETRv2 về độ chính xác cao nhất, YOLOv10 lại vượt trội về tốc độ suy luận và hiệu quả. Ví dụ, YOLOv10n đạt tốc độ suy luận nhanh 1,56ms trên TensorRT , làm cho nó trở nên lý tưởng cho các ứng dụng nhạy cảm với độ trễ. Hướng dẫn YOLO Performance Metrics cung cấp thêm bối cảnh về các số liệu này.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Hiệu quả và tốc độ cao: Được tối ưu hóa để suy luận nhanh, rất quan trọng cho các ứng dụng thời gian thực và triển khai biên.
  • Tính linh hoạt: Có nhiều kích cỡ (n, s, m, b, l, x) mang lại hiệu suất và khả năng sử dụng tài nguyên có thể mở rộng.
  • Đào tạo không cần NMS: Cho phép triển khai toàn diện và giảm độ trễ suy luận.
  • Kích thước mô hình nhỏ hơn: Số lượng tham số và FLOP thấp hơn so với RTDETRv2, phù hợp với môi trường có hạn chế về tài nguyên.

Điểm yếu:

  • Độ chính xác thấp hơn so với RTDETRv2: Mặc dù có độ chính xác cao, nhưng có thể không đạt đến độ chính xác hàng đầu của RTDETRv2 trong các tình huống phức tạp.
  • Đánh đổi tiềm ẩn: Việc đạt được tốc độ cực cao có thể liên quan đến việc đánh đổi một chút về độ chính xác so với các mô hình lớn hơn, tốn nhiều tính toán hơn.

Các trường hợp sử dụng lý tưởng

Hiệu quả và tốc độ của YOLOv10 khiến nó trở thành lựa chọn tuyệt vời cho các ứng dụng yêu cầu phát hiện đối tượng theo thời gian thực, đặc biệt là trên các thiết bị có tài nguyên hạn chế. Bao gồm:

Tìm hiểu thêm về YOLO10

Bảng so sánh mô hình

Người mẫu kích cỡ
(điểm ảnh)
giá trị mAP
50-95
Tốc độ
CPU ONNX
(bệnh đa xơ cứng)
Tốc độ
T4 TensorRT10
(bệnh đa xơ cứng)
tham số
(Nam)
Thất bại
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Phần kết luận

Cả RTDETRv2 và YOLOv10 đều là các mô hình phát hiện đối tượng mạnh mẽ, mỗi mô hình được thiết kế cho các ưu tiên khác nhau. RTDETRv2 vượt trội khi cần độ chính xác hàng đầu và có sẵn các tài nguyên tính toán, khiến nó phù hợp với các ứng dụng phức tạp và quan trọng. Ngược lại, YOLOv10 là lựa chọn ưu tiên khi hiệu suất, hiệu quả và triển khai theo thời gian thực trên các nền tảng hạn chế tài nguyên là tối quan trọng.

Đối với người dùng đang khám phá các tùy chọn khác, Ultralytics cung cấp một vườn thú mô hình đa dạng, bao gồm các mô hình có sự đánh đổi tốc độ-độ chính xác khác nhau:

Cuối cùng, sự lựa chọn giữa RTDETRv2 và YOLOv10, hoặc các lựa chọn khác Ultralytics mô hình, phụ thuộc vào nhu cầu cụ thể của dự án thị giác máy tính của bạn, cân bằng cẩn thận giữa độ chính xác, tốc độ và hạn chế về tài nguyên. Tham khảo Tài liệu Ultralyticskho lưu trữ GitHub để biết thông tin toàn diện và hướng dẫn triển khai.

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 1 tháng

Bình luận