Bỏ qua nội dung

YOLOv10 so với DAMO- YOLO : So sánh kỹ thuật chi tiết về phát hiện đối tượng

Việc lựa chọn mô hình phát hiện đối tượng tối ưu là rất quan trọng đối với các ứng dụng thị giác máy tính, với các mô hình khác nhau đáng kể về độ chính xác, tốc độ và hiệu quả. Trang này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv10 và DAMO- YOLO , hai mô hình tiên tiến trong bối cảnh phát hiện đối tượng. Chúng tôi sẽ khám phá kiến trúc, chuẩn hiệu suất và các ứng dụng phù hợp của chúng để hướng dẫn quy trình lựa chọn mô hình của bạn.

YOLOv10

YOLOv10 là sự phát triển mới nhất trong YOLO series, nổi tiếng với khả năng phát hiện đối tượng theo thời gian thực. Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa và ra mắt vào ngày 23-05-2024 ( bản in trước arXiv arXiv:2405.14458 ), YOLOv10 được thiết kế để đạt hiệu quả đầu cuối và hiệu suất nâng cao. PyTorch bản triển khai có sẵn trên GitHub .

Kiến trúc và các tính năng chính

YOLOv10 giới thiệu một số cải tiến tập trung vào việc hợp lý hóa kiến trúc và cải thiện sự cân bằng giữa tốc độ và độ chính xác, hướng tới đào tạo không cần NMS và thiết kế mô hình hiệu quả. Những điểm nổi bật chính về kiến trúc bao gồm:

  • Đào tạo không cần NMS : Sử dụng các nhiệm vụ kép nhất quán để đào tạo mà không cần NMS (NMS), giúp giảm chi phí xử lý hậu kỳ và độ trễ suy luận.
  • Thiết kế toàn diện hướng đến hiệu quả và độ chính xác : Tối ưu hóa toàn diện các thành phần mô hình khác nhau để giảm thiểu sự dư thừa tính toán và tăng cường khả năng phát hiện.
  • Cấu trúc mạng và xương sống : Các lớp trích xuất tính năng được tinh chỉnh và cấu trúc mạng hợp lý để cải thiện hiệu quả tham số và xử lý nhanh hơn.

Số liệu hiệu suất

YOLOv10 cung cấp hiệu suất tiên tiến trên nhiều quy mô mô hình khác nhau, cung cấp nhiều tùy chọn để phù hợp với các nhu cầu tính toán khác nhau. Các số liệu hiệu suất trên tập dữ liệu COCO bao gồm:

  • mAP : Đạt được Độ chính xác trung bình cạnh tranh (mAP) trên tập dữ liệu xác thực COCO. Ví dụ, YOLOv10-S đạt được 46,7% giá trị mAP 50-95 .
  • Tốc độ suy luận : Cung cấp tốc độ suy luận ấn tượng, với YOLOv10-N đạt thời gian suy luận 1,56ms trên T4 TensorRT10.
  • Kích thước mô hình : Có nhiều kích thước (N, S, M, B, L, X) với kích thước mô hình dao động từ thông số 2,3M cho YOLOv10-N đến 56,9M cho YOLOv10-X.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Hiệu suất thời gian thực : Được tối ưu hóa về tốc độ và hiệu quả, lý tưởng cho các ứng dụng thời gian thực.
  • Độ chính xác cao : Đạt được độ chính xác tiên tiến, đặc biệt là với các biến thể mô hình lớn hơn như YOLOv10-X.
  • Hiệu quả toàn diện : Thiết kế không có NMS giúp giảm độ trễ và đơn giản hóa việc triển khai.
  • Tính linh hoạt : Thích hợp cho nhiều tác vụ phát hiện đối tượng khác nhau và có thể tương thích với nhiều nền tảng phần cứng khác nhau, bao gồm các thiết bị biên như Raspberry PiNVIDIA Jetson .
  • Dễ sử dụng : Tích hợp với Ultralytics Gói Python đơn giản hóa quy trình đào tạo, xác thực và triển khai.

Điểm yếu:

  • Mô hình mới nổi : Là một mô hình gần đây, sự hỗ trợ của cộng đồng và trọng số được đào tạo trước trong các hệ sinh thái rộng hơn có thể vẫn đang phát triển so với các mô hình đã được thiết lập lâu đời hơn.
  • Đánh đổi : Các mô hình nhỏ hơn ưu tiên tốc độ, có khả năng đánh đổi độ chính xác so với các biến thể lớn hơn hoặc các mô hình phức tạp hơn.

Các trường hợp sử dụng

YOLOv10 rất phù hợp cho các ứng dụng yêu cầu phát hiện đối tượng chính xác, tốc độ cao, chẳng hạn như:

Tìm hiểu thêm về YOLOv10

DAMO- YOLO

DAMO- YOLO , do Alibaba Group phát triển, là một mô hình phát hiện đối tượng hiệu suất cao được giới thiệu vào năm 2022 ( bản in trước arXiv arXiv:2211.15444v2 ). Nó được thiết kế để nhanh và chính xác, kết hợp một số kỹ thuật tiên tiến để phát hiện đối tượng hiệu quả. Triển khai chính thức và tài liệu có sẵn trên GitHub .

Kiến trúc và các tính năng chính

DAMO- YOLO tích hợp một số thành phần cải tiến để đạt được sự cân bằng giữa tốc độ và độ chính xác:

  • Mạng xương sống NAS : Sử dụng Tìm kiếm kiến trúc nơ-ron (NAS) để thiết kế mạng xương sống hiệu quả được tối ưu hóa cho các tác vụ phát hiện đối tượng.
  • RepGFPN hiệu quả : Sử dụng Mạng kim tự tháp tính năng Gradient được tham số hóa lại (RepGFPN) để hợp nhất tính năng hiệu quả và biểu diễn tính năng đa tỷ lệ.
  • ZeroHead : Đầu phát hiện nhẹ được thiết kế để giảm thiểu chi phí tính toán trong khi vẫn duy trì độ chính xác phát hiện.
  • AlignedOTA : Sử dụng Aligned Optimal Transport Assignment (AlignedOTA) để cải thiện việc gán nhãn trong quá trình đào tạo, nâng cao hiệu suất phát hiện.
  • Cải tiến chưng cất : Kết hợp các kỹ thuật chưng cất kiến thức để nâng cao hiệu suất mô hình hơn nữa.

Số liệu hiệu suất

DAMO- YOLO Các mẫu có nhiều kích cỡ khác nhau (Nhỏ, Nhỏ, Trung bình, Lớn) để đáp ứng các nhu cầu hiệu suất khác nhau. Các chỉ số hiệu suất chính bao gồm:

  • mAP : Đạt được mAP cao trên các tập dữ liệu chuẩn như COCO. DAMO- YOLO - Ví dụ, lớn đạt 50,8% mAP val 50-95 .
  • Tốc độ suy luận : Cung cấp tốc độ suy luận nhanh, phù hợp với các ứng dụng thời gian thực, với DAMO- YOLO -Tiny đạt thời gian suy luận 2,32ms trên T4 TensorRT10.
  • Kích thước mô hình : Kích thước mô hình khác nhau, mang lại sự linh hoạt cho các kịch bản triển khai khác nhau, từ 8,5M tham số cho DAMO- YOLO -Nhỏ đến 42,1M cho DAMO- YOLO -Lớn.

Điểm mạnh và điểm yếu

Điểm mạnh:

  • Độ chính xác cao : Đạt được độ chính xác phát hiện tuyệt vời thông qua những cải tiến về kiến trúc và kỹ thuật đào tạo tiên tiến.
  • Suy luận nhanh : Được thiết kế để tăng tốc độ, mang lại hiệu suất suy luận hiệu quả phù hợp với các hệ thống thời gian thực.
  • Thiết kế hiệu quả : Kết hợp xương sống NAS và đầu đọc nhẹ để tối ưu hóa hiệu quả tính toán.
  • Bộ tính năng toàn diện : Tích hợp nhiều kỹ thuật tiên tiến như RepGFPN và AlignedOTA để có hiệu suất mạnh mẽ.

Điểm yếu:

  • Độ phức tạp : Việc tích hợp NAS và nhiều thành phần tiên tiến có thể gây ra sự phức tạp trong việc tùy chỉnh và sửa đổi.
  • Yêu cầu về tài nguyên : DAMO lớn hơn YOLO các mô hình có thể yêu cầu tài nguyên tính toán đáng kể so với các giải pháp thay thế cực kỳ nhẹ.

Các trường hợp sử dụng

DAMO- YOLO rất phù hợp cho các ứng dụng đòi hỏi độ chính xác và tốc độ cao trong việc phát hiện đối tượng, chẳng hạn như:

Tìm hiểu thêm về DAMO- YOLO

Người mẫu kích cỡ
(điểm ảnh)
giá trị mAP
50-95
Tốc độ
CPU ONNX
(bệnh đa xơ cứng)
Tốc độ
T4 TensorRT10
(bệnh đa xơ cứng)
tham số
(Nam)
Thất bại
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLO 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Người dùng cũng có thể quan tâm đến việc so sánh YOLOv10 và DAMO- YOLO với các mô hình khác trong Ultralytics YOLO gia đình và hơn thế nữa:

📅 Được tạo ra cách đây 1 năm ✏️ Đã cập nhật cách đây 1 tháng

Bình luận