YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực
YOLOv10, được xây dựng trên Ultralytics Python Các nhà nghiên cứu tại Đại học Thanh Hoa giới thiệu một cách tiếp cận mới để phát hiện đối tượng theo thời gian thực, giải quyết cả những thiếu sót về kiến trúc mô hình và xử lý hậu kỳ được tìm thấy trong quá trình xử lý trước YOLO Phiên bản. Bằng cách loại bỏ triệt tiêu không tối đa (NMS) và tối ưu hóa các thành phần mô hình khác nhau, YOLOv10 đạt được hiệu suất hiện đại với chi phí tính toán giảm đáng kể. Các thử nghiệm mở rộng chứng minh sự đánh đổi độ chính xác-độ trễ vượt trội của nó trên nhiều quy mô mô hình.
Tổng quan
Phát hiện đối tượng theo thời gian thực nhằm mục đích dự đoán chính xác các loại đối tượng và vị trí trong hình ảnh với độ trễ thấp. Các YOLO Series đã đi đầu trong nghiên cứu này do sự cân bằng giữa hiệu suất và hiệu quả. Tuy nhiên, sự phụ thuộc vào NMS và sự thiếu hiệu quả trong kiến trúc đã cản trở hiệu suất tối ưu. YOLOv10 giải quyết những vấn đề này bằng cách giới thiệu các nhiệm vụ kép nhất quán để đào tạo không có NMS và chiến lược thiết kế mô hình dựa trên độ chính xác hiệu quả toàn diện.
Kiến trúc
Kiến trúc của YOLOv10 được xây dựng dựa trên những thế mạnh của trước đó YOLO mô hình trong khi giới thiệu một số cải tiến quan trọng. Kiến trúc mô hình bao gồm các thành phần sau:
- Xương sống: Chịu trách nhiệm trích xuất tính năng, xương sống trong YOLOv10 sử dụng phiên bản nâng cao của CSPNet (Mạng một phần giai đoạn chéo) để cải thiện luồng gradient và giảm dự phòng tính toán.
- Neck: The neck is designed to aggregate features from different scales and passes them to the head. It includes PAN (Path Aggregation Network) layers for effective multi-scale feature fusion.
- Đầu một-nhiều: Tạo nhiều dự đoán cho mỗi đối tượng trong quá trình đào tạo để cung cấp tín hiệu giám sát phong phú và cải thiện độ chính xác của việc học.
- Đầu một-một: Tạo một dự đoán tốt nhất cho mỗi đối tượng trong quá trình suy luận để loại bỏ nhu cầu về NMS, do đó giảm độ trễ và cải thiện hiệu quả.
Các tính năng chính
- Đào tạo không có NMS: Sử dụng các bài tập kép nhất quán để loại bỏ nhu cầu về NMS, giảm độ trễ suy luận.
- Thiết kế mô hình toàn diện: Tối ưu hóa toàn diện các thành phần khác nhau từ cả góc độ hiệu quả và độ chính xác, bao gồm đầu phân loại nhẹ, lấy mẫu tách kênh không gian và thiết kế khối hướng dẫn xếp hạng.
- Khả năng mô hình nâng cao: Kết hợp các kết cấu hạt nhân lớn và các mô-đun tự chú ý một phần để cải thiện hiệu suất mà không có chi phí tính toán đáng kể.
Biến thể mô hình
YOLOv10 có nhiều quy mô mô hình khác nhau để phục vụ cho các nhu cầu ứng dụng khác nhau:
- YOLOv10-N: Phiên bản Nano cho môi trường cực kỳ hạn chế về tài nguyên.
- YOLOv10-S: Phiên bản nhỏ cân bằng giữa tốc độ và độ chính xác.
- YOLOv10-M: Phiên bản trung bình cho mục đích sử dụng chung.
- YOLOv10-B: Phiên bản cân bằng với chiều rộng tăng lên cho độ chính xác cao hơn.
- YOLOv10-L: Phiên bản lớn cho độ chính xác cao hơn với chi phí tăng tài nguyên tính toán.
- YOLOv10-X: Phiên bản cực lớn cho độ chính xác và hiệu suất tối đa.
Hiệu năng
YOLOv10 vượt trội so với trước đó YOLO các phiên bản và các mô hình hiện đại khác về độ chính xác và hiệu quả. Ví dụ: YOLOv10-S nhanh hơn 1,8 lần so với RT-DETR-R18 với AP tương tự trên tập dữ liệu COCO và YOLOv10-B có độ trễ ít hơn 46% và tham số ít hơn 25% so với YOLOv9-C với cùng hiệu suất.
Mẫu | Kích thước đầu vào | APval | FLOP (G) | Độ trễ (ms) |
---|---|---|---|---|
YOLOv10-N | 640 | 38.5 | 6.7 | 1.84 |
YOLOv10-S | 640 | 46.3 | 21.6 | 2.49 |
YOLOv10-M | 640 | 51.1 | 59.1 | 4.74 |
YOLOv10-B | 640 | 52.5 | 92.0 | 5.74 |
YOLOv10-L | 640 | 53.2 | 120.3 | 7.28 |
YOLOv10-X | 640 | 54.4 | 160.4 | 10.70 |
Độ trễ được đo bằng TensorRT FP16 trên GPU T4.
Phương pháp luận
Nhiệm vụ kép nhất quán để đào tạo không có NMS
YOLOv10 sử dụng phân công nhãn kép, kết hợp các chiến lược một-nhiều và một-một trong quá trình đào tạo để đảm bảo giám sát phong phú và triển khai đầu cuối hiệu quả. Chỉ số phù hợp nhất quán điều chỉnh sự giám sát giữa cả hai chiến lược, nâng cao chất lượng dự đoán trong quá trình suy luận.
Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện
Cải tiến hiệu quả
- Đầu phân loại nhẹ: Giảm chi phí tính toán của đầu phân loại bằng cách sử dụng các kết cấu có thể tách theo chiều sâu.
- Lấy mẫu tách rời kênh không gian: Tách rời giảm không gian và điều chế kênh để giảm thiểu mất thông tin và chi phí tính toán.
- Thiết kế khối hướng dẫn xếp hạng: Điều chỉnh thiết kế khối dựa trên dự phòng giai đoạn nội tại, đảm bảo sử dụng tham số tối ưu.
Cải tiến độ chính xác
- Large-Kernel Convolution: Mở rộng trường tiếp nhận để tăng cường khả năng trích xuất tính năng.
- Tự chú ý một phần (PSA): Kết hợp các mô-đun tự chú ý để cải thiện việc học đại diện toàn cầu với chi phí tối thiểu.
Thử nghiệm và kết quả
YOLOv10 đã được thử nghiệm rộng rãi trên các tiêu chuẩn tiêu chuẩn như COCO, thể hiện hiệu suất và hiệu quả vượt trội. Mô hình đạt được kết quả hiện đại trên các biến thể khác nhau, cho thấy những cải tiến đáng kể về độ trễ và độ chính xác so với các phiên bản trước và các máy dò hiện đại khác.
So sánh
So với các máy dò hiện đại khác:
- YOLOv10-S / X nhanh hơn 1,8× / 1,3× RT-DETR-R18 / R101 với độ chính xác tương tự
- YOLOv10-B có thông số ít hơn 25% và độ trễ thấp hơn 46% so với YOLOv9-C ở cùng độ chính xác
- YOLOv10-L / X vượt trội hơn YOLOv8-L / X x 0,3 AP / 0,5 AP với các thông số ít hơn 1,8× / 2,3×
Dưới đây là so sánh chi tiết các biến thể YOLOv10 với các mẫu hiện đại khác:
Mẫu | Tham số (M) | FLOP (G) | APval (%) | Độ trễ (ms) | Độ trễ (Chuyển tiếp) (ms) |
---|---|---|---|---|---|
YOLOv6-3.0-N | 4.7 | 11.4 | 37.0 | 2.69 | 1.76 |
Vàng-YOLO-N | 5.6 | 12.1 | 39.6 | 2.92 | 1.82 |
YOLOv8-N | 3.2 | 8.7 | 37.3 | 6.16 | 1.77 |
YOLOv10-N | 2.3 | 6.7 | 39.5 | 1.84 | 1.79 |
YOLOv6-3.0-S | 18.5 | 45.3 | 44.3 | 3.42 | 2.35 |
Vàng-YOLO-S | 21.5 | 46.0 | 45.4 | 3.82 | 2.73 |
YOLOv8-S | 11.2 | 28.6 | 44.9 | 7.07 | 2.33 |
YOLOv10-S | 7.2 | 21.6 | 46.8 | 2.49 | 2.39 |
RT-DETR-R18 | 20.0 | 60.0 | 46.5 | 4.58 | 4.49 |
YOLOv6-3.0-M | 34.9 | 85.8 | 49.1 | 5.63 | 4.56 |
Vàng-YOLO-M | 41.3 | 87.5 | 49.8 | 6.38 | 5.45 |
YOLOv8-M | 25.9 | 78.9 | 50.6 | 9.50 | 5.09 |
YOLOv10-M | 15.4 | 59.1 | 51.3 | 4.74 | 4.63 |
YOLOv6-3.0-L | 59.6 | 150.7 | 51.8 | 9.02 | 7.90 |
Vàng-YOLO-L | 75.1 | 151.7 | 51.8 | 10.65 | 9.78 |
YOLOv8-L | 43.7 | 165.2 | 52.9 | 12.39 | 8.06 |
RT-DETR-R50 | 42.0 | 136.0 | 53.1 | 9.20 | 9.07 |
YOLOv10-L | 24.4 | 120.3 | 53.4 | 7.28 | 7.21 |
YOLOv8-X | 68.2 | 257.8 | 53.9 | 16.86 | 12.83 |
RT-DETR-R101 | 76.0 | 259.0 | 54.3 | 13.71 | 13.58 |
YOLOv10-X | 29.5 | 160.4 | 54.4 | 10.70 | 10.60 |
Ví dụ sử dụng
Để dự đoán hình ảnh mới với YOLOv10:
Ví dụ
Để đào tạo YOLOv10 trên tập dữ liệu tùy chỉnh:
Ví dụ
Các tác vụ và chế độ được hỗ trợ
The YOLOv10 models series offers a range of models, each optimized for high-performance Object Detection. These models cater to varying computational needs and accuracy requirements, making them versatile for a wide array of applications.
Mẫu | Tên tập tin | Nhiệm vụ | Suy luận | Xác nhận | Đào tạo | Xuất khẩu |
---|---|---|---|---|---|---|
YOLOv10 | yolov10n.pt yolov10s.pt yolov10m.pt yolov10l.pt yolov10x.pt |
Phát hiện đối tượng | ✅ | ✅ | ✅ | ✅ |
Exporting YOLOv10
Due to the new operations introduced with YOLOv10, not all export formats provided by Ultralytics are currently supported. The following table outlines which formats have been successfully converted using Ultralytics for YOLOv10. Feel free to open a pull request if you're able to provide a contribution change for adding export support of additional formats for YOLOv10.
Export Format | Supported |
---|---|
TorchScript | ✅ |
ONNX | ✅ |
OpenVINO | ✅ |
TensorRT | ✅ |
CoreML | ❌ |
TF SavedModel | ❌ |
TF GraphDef | ❌ |
TF Lite | ❌ |
TF Cạnh TPU | ❌ |
TF.Js | ❌ |
PaddlePaddle | ❌ |
NCNN | ❌ |
Kết thúc
YOLOv10 đặt ra một tiêu chuẩn mới trong việc phát hiện đối tượng thời gian thực bằng cách giải quyết những thiếu sót của trước đó YOLO các phiên bản và kết hợp các chiến lược thiết kế sáng tạo. Khả năng cung cấp độ chính xác cao với chi phí tính toán thấp làm cho nó trở thành một lựa chọn lý tưởng cho một loạt các ứng dụng trong thế giới thực.
Trích dẫn và xác nhận
Chúng tôi xin ghi nhận các tác giả YOLOv10 từ Đại học Thanh Hoa vì những nghiên cứu sâu rộng và những đóng góp đáng kể cho Ultralytics khuôn khổ:
Để triển khai chi tiết, đổi mới kiến trúc và kết quả thử nghiệm, vui lòng tham khảo tài liệu nghiên cứu YOLOv10 và kho lưu trữ GitHub của nhóm Đại học Thanh Hoa.