Bỏ để qua phần nội dung

YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực

YOLOv10, được xây dựng trên Ultralytics Python Các nhà nghiên cứu tại Đại học Thanh Hoa giới thiệu một cách tiếp cận mới để phát hiện đối tượng theo thời gian thực, giải quyết cả những thiếu sót về kiến trúc mô hình và xử lý hậu kỳ được tìm thấy trong quá trình xử lý trước YOLO Phiên bản. Bằng cách loại bỏ triệt tiêu không tối đa (NMS) và tối ưu hóa các thành phần mô hình khác nhau, YOLOv10 đạt được hiệu suất hiện đại với chi phí tính toán giảm đáng kể. Các thử nghiệm mở rộng chứng minh sự đánh đổi độ chính xác-độ trễ vượt trội của nó trên nhiều quy mô mô hình.

YOLOv10 phân công kép nhất quán để đào tạo không có NMS

Tổng quan

Phát hiện đối tượng theo thời gian thực nhằm mục đích dự đoán chính xác các loại đối tượng và vị trí trong hình ảnh với độ trễ thấp. Các YOLO Series đã đi đầu trong nghiên cứu này do sự cân bằng giữa hiệu suất và hiệu quả. Tuy nhiên, sự phụ thuộc vào NMS và sự thiếu hiệu quả trong kiến trúc đã cản trở hiệu suất tối ưu. YOLOv10 giải quyết những vấn đề này bằng cách giới thiệu các nhiệm vụ kép nhất quán để đào tạo không có NMS và chiến lược thiết kế mô hình dựa trên độ chính xác hiệu quả toàn diện.

Kiến trúc

Kiến trúc của YOLOv10 được xây dựng dựa trên những thế mạnh của trước đó YOLO mô hình trong khi giới thiệu một số cải tiến quan trọng. Kiến trúc mô hình bao gồm các thành phần sau:

  1. Xương sống: Chịu trách nhiệm trích xuất tính năng, xương sống trong YOLOv10 sử dụng phiên bản nâng cao của CSPNet (Mạng một phần giai đoạn chéo) để cải thiện luồng gradient và giảm dự phòng tính toán.
  2. Neck: The neck is designed to aggregate features from different scales and passes them to the head. It includes PAN (Path Aggregation Network) layers for effective multi-scale feature fusion.
  3. Đầu một-nhiều: Tạo nhiều dự đoán cho mỗi đối tượng trong quá trình đào tạo để cung cấp tín hiệu giám sát phong phú và cải thiện độ chính xác của việc học.
  4. Đầu một-một: Tạo một dự đoán tốt nhất cho mỗi đối tượng trong quá trình suy luận để loại bỏ nhu cầu về NMS, do đó giảm độ trễ và cải thiện hiệu quả.

Các tính năng chính

  1. Đào tạo không có NMS: Sử dụng các bài tập kép nhất quán để loại bỏ nhu cầu về NMS, giảm độ trễ suy luận.
  2. Thiết kế mô hình toàn diện: Tối ưu hóa toàn diện các thành phần khác nhau từ cả góc độ hiệu quả và độ chính xác, bao gồm đầu phân loại nhẹ, lấy mẫu tách kênh không gian và thiết kế khối hướng dẫn xếp hạng.
  3. Khả năng mô hình nâng cao: Kết hợp các kết cấu hạt nhân lớn và các mô-đun tự chú ý một phần để cải thiện hiệu suất mà không có chi phí tính toán đáng kể.

Biến thể mô hình

YOLOv10 có nhiều quy mô mô hình khác nhau để phục vụ cho các nhu cầu ứng dụng khác nhau:

  • YOLOv10-N: Phiên bản Nano cho môi trường cực kỳ hạn chế về tài nguyên.
  • YOLOv10-S: Phiên bản nhỏ cân bằng giữa tốc độ và độ chính xác.
  • YOLOv10-M: Phiên bản trung bình cho mục đích sử dụng chung.
  • YOLOv10-B: Phiên bản cân bằng với chiều rộng tăng lên cho độ chính xác cao hơn.
  • YOLOv10-L: Phiên bản lớn cho độ chính xác cao hơn với chi phí tăng tài nguyên tính toán.
  • YOLOv10-X: Phiên bản cực lớn cho độ chính xác và hiệu suất tối đa.

Hiệu năng

YOLOv10 vượt trội so với trước đó YOLO các phiên bản và các mô hình hiện đại khác về độ chính xác và hiệu quả. Ví dụ: YOLOv10-S nhanh hơn 1,8 lần so với RT-DETR-R18 với AP tương tự trên tập dữ liệu COCO và YOLOv10-B có độ trễ ít hơn 46% và tham số ít hơn 25% so với YOLOv9-C với cùng hiệu suất.

Mẫu Kích thước đầu vào APval FLOP (G) Độ trễ (ms)
YOLOv10-N 640 38.5 6.7 1.84
YOLOv10-S 640 46.3 21.6 2.49
YOLOv10-M 640 51.1 59.1 4.74
YOLOv10-B 640 52.5 92.0 5.74
YOLOv10-L 640 53.2 120.3 7.28
YOLOv10-X 640 54.4 160.4 10.70

Độ trễ được đo bằng TensorRT FP16 trên GPU T4.

Phương pháp luận

Nhiệm vụ kép nhất quán để đào tạo không có NMS

YOLOv10 sử dụng phân công nhãn kép, kết hợp các chiến lược một-nhiều và một-một trong quá trình đào tạo để đảm bảo giám sát phong phú và triển khai đầu cuối hiệu quả. Chỉ số phù hợp nhất quán điều chỉnh sự giám sát giữa cả hai chiến lược, nâng cao chất lượng dự đoán trong quá trình suy luận.

Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện

Cải tiến hiệu quả

  1. Đầu phân loại nhẹ: Giảm chi phí tính toán của đầu phân loại bằng cách sử dụng các kết cấu có thể tách theo chiều sâu.
  2. Lấy mẫu tách rời kênh không gian: Tách rời giảm không gian và điều chế kênh để giảm thiểu mất thông tin và chi phí tính toán.
  3. Thiết kế khối hướng dẫn xếp hạng: Điều chỉnh thiết kế khối dựa trên dự phòng giai đoạn nội tại, đảm bảo sử dụng tham số tối ưu.

Cải tiến độ chính xác

  1. Large-Kernel Convolution: Mở rộng trường tiếp nhận để tăng cường khả năng trích xuất tính năng.
  2. Tự chú ý một phần (PSA): Kết hợp các mô-đun tự chú ý để cải thiện việc học đại diện toàn cầu với chi phí tối thiểu.

Thử nghiệm và kết quả

YOLOv10 đã được thử nghiệm rộng rãi trên các tiêu chuẩn tiêu chuẩn như COCO, thể hiện hiệu suất và hiệu quả vượt trội. Mô hình đạt được kết quả hiện đại trên các biến thể khác nhau, cho thấy những cải tiến đáng kể về độ trễ và độ chính xác so với các phiên bản trước và các máy dò hiện đại khác.

So sánh

So sánh YOLOv10 với máy dò đối tượng SOTA

So với các máy dò hiện đại khác:

  • YOLOv10-S / X nhanh hơn 1,8× / 1,3× RT-DETR-R18 / R101 với độ chính xác tương tự
  • YOLOv10-B có thông số ít hơn 25% và độ trễ thấp hơn 46% so với YOLOv9-C ở cùng độ chính xác
  • YOLOv10-L / X vượt trội hơn YOLOv8-L / X x 0,3 AP / 0,5 AP với các thông số ít hơn 1,8× / 2,3×

Dưới đây là so sánh chi tiết các biến thể YOLOv10 với các mẫu hiện đại khác:

Mẫu Tham số (M) FLOP (G) APval (%) Độ trễ (ms) Độ trễ (Chuyển tiếp) (ms)
YOLOv6-3.0-N 4.7 11.4 37.0 2.69 1.76
Vàng-YOLO-N 5.6 12.1 39.6 2.92 1.82
YOLOv8-N 3.2 8.7 37.3 6.16 1.77
YOLOv10-N 2.3 6.7 39.5 1.84 1.79
YOLOv6-3.0-S 18.5 45.3 44.3 3.42 2.35
Vàng-YOLO-S 21.5 46.0 45.4 3.82 2.73
YOLOv8-S 11.2 28.6 44.9 7.07 2.33
YOLOv10-S 7.2 21.6 46.8 2.49 2.39
RT-DETR-R18 20.0 60.0 46.5 4.58 4.49
YOLOv6-3.0-M 34.9 85.8 49.1 5.63 4.56
Vàng-YOLO-M 41.3 87.5 49.8 6.38 5.45
YOLOv8-M 25.9 78.9 50.6 9.50 5.09
YOLOv10-M 15.4 59.1 51.3 4.74 4.63
YOLOv6-3.0-L 59.6 150.7 51.8 9.02 7.90
Vàng-YOLO-L 75.1 151.7 51.8 10.65 9.78
YOLOv8-L 43.7 165.2 52.9 12.39 8.06
RT-DETR-R50 42.0 136.0 53.1 9.20 9.07
YOLOv10-L 24.4 120.3 53.4 7.28 7.21
YOLOv8-X 68.2 257.8 53.9 16.86 12.83
RT-DETR-R101 76.0 259.0 54.3 13.71 13.58
YOLOv10-X 29.5 160.4 54.4 10.70 10.60

Ví dụ sử dụng

Để dự đoán hình ảnh mới với YOLOv10:

Ví dụ

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()
# Load a COCO-pretrained YOLOv10n model and run inference on the 'bus.jpg' image
yolo detect predict model=yolov10n.pt source=path/to/bus.jpg

Để đào tạo YOLOv10 trên tập dữ liệu tùy chỉnh:

Ví dụ

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Build a YOLOv10n model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov10n.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv10n model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov10n.yaml source=path/to/bus.jpg

Các tác vụ và chế độ được hỗ trợ

The YOLOv10 models series offers a range of models, each optimized for high-performance Object Detection. These models cater to varying computational needs and accuracy requirements, making them versatile for a wide array of applications.

Mẫu Tên tập tin Nhiệm vụ Suy luận Xác nhận Đào tạo Xuất khẩu
YOLOv10 yolov10n.pt yolov10s.pt yolov10m.pt yolov10l.pt yolov10x.pt Phát hiện đối tượng

Exporting YOLOv10

Due to the new operations introduced with YOLOv10, not all export formats provided by Ultralytics are currently supported. The following table outlines which formats have been successfully converted using Ultralytics for YOLOv10. Feel free to open a pull request if you're able to provide a contribution change for adding export support of additional formats for YOLOv10.

Export Format Supported
TorchScript
ONNX
OpenVINO
TensorRT
CoreML
TF SavedModel
TF GraphDef
TF Lite
TF Cạnh TPU
TF.Js
PaddlePaddle
NCNN

Kết thúc

YOLOv10 đặt ra một tiêu chuẩn mới trong việc phát hiện đối tượng thời gian thực bằng cách giải quyết những thiếu sót của trước đó YOLO các phiên bản và kết hợp các chiến lược thiết kế sáng tạo. Khả năng cung cấp độ chính xác cao với chi phí tính toán thấp làm cho nó trở thành một lựa chọn lý tưởng cho một loạt các ứng dụng trong thế giới thực.

Trích dẫn và xác nhận

Chúng tôi xin ghi nhận các tác giả YOLOv10 từ Đại học Thanh Hoa vì những nghiên cứu sâu rộng và những đóng góp đáng kể cho Ultralytics khuôn khổ:

@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

Để triển khai chi tiết, đổi mới kiến trúc và kết quả thử nghiệm, vui lòng tham khảo tài liệu nghiên cứu YOLOv10 và kho lưu trữ GitHub của nhóm Đại học Thanh Hoa.



Created 2024-05-25, Updated 2024-06-24
Authors: RizwanMunawar (3), Burhan-Q (1), glenn-jocher (3)

Ý kiến