Bỏ để qua phần nội dung

YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực

YOLOv10, được xây dựng trên Ultralytics Python Các nhà nghiên cứu tại Đại học Thanh Hoa giới thiệu một cách tiếp cận mới để phát hiện đối tượng theo thời gian thực, giải quyết cả những thiếu sót về kiến trúc mô hình và xử lý hậu kỳ được tìm thấy trong quá trình xử lý trước YOLO Phiên bản. Bằng cách loại bỏ triệt tiêu không tối đa (NMS) và tối ưu hóa các thành phần mô hình khác nhau, YOLOv10 đạt được hiệu suất hiện đại với chi phí tính toán giảm đáng kể. Các thử nghiệm mở rộng chứng minh sự đánh đổi độ chính xác-độ trễ vượt trội của nó trên nhiều quy mô mô hình.

YOLOv10 phân công kép nhất quán để đào tạo không có NMS

Tổng quan

Phát hiện đối tượng theo thời gian thực nhằm mục đích dự đoán chính xác các loại đối tượng và vị trí trong hình ảnh với độ trễ thấp. Các YOLO Series đã đi đầu trong nghiên cứu này do sự cân bằng giữa hiệu suất và hiệu quả. Tuy nhiên, sự phụ thuộc vào NMS và sự thiếu hiệu quả trong kiến trúc đã cản trở hiệu suất tối ưu. YOLOv10 giải quyết những vấn đề này bằng cách giới thiệu các nhiệm vụ kép nhất quán để đào tạo không có NMS và chiến lược thiết kế mô hình dựa trên độ chính xác hiệu quả toàn diện.

Kiến trúc

Kiến trúc của YOLOv10 được xây dựng dựa trên những thế mạnh của trước đó YOLO mô hình trong khi giới thiệu một số cải tiến quan trọng. Kiến trúc mô hình bao gồm các thành phần sau:

  1. Xương sống: Chịu trách nhiệm trích xuất tính năng, xương sống trong YOLOv10 sử dụng phiên bản nâng cao của CSPNet (Mạng một phần giai đoạn chéo) để cải thiện luồng gradient và giảm dự phòng tính toán.
  2. Cổ: Cổ được thiết kế để tổng hợp các đặc điểm từ các vảy khác nhau và truyền chúng đến đầu. Nó bao gồm các lớp PAN (Mạng tổng hợp đường dẫn) để hợp nhất tính năng đa quy mô hiệu quả.
  3. Đầu một-nhiều: Tạo nhiều dự đoán cho mỗi đối tượng trong quá trình đào tạo để cung cấp tín hiệu giám sát phong phú và cải thiện độ chính xác của việc học.
  4. Đầu một-một: Tạo một dự đoán tốt nhất cho mỗi đối tượng trong quá trình suy luận để loại bỏ nhu cầu về NMS, do đó giảm độ trễ và cải thiện hiệu quả.

Các tính năng chính

  1. Đào tạo không có NMS: Sử dụng các bài tập kép nhất quán để loại bỏ nhu cầu về NMS, giảm độ trễ suy luận.
  2. Thiết kế mô hình toàn diện: Tối ưu hóa toàn diện các thành phần khác nhau từ cả góc độ hiệu quả và độ chính xác, bao gồm đầu phân loại nhẹ, lấy mẫu tách kênh không gian và thiết kế khối hướng dẫn xếp hạng.
  3. Khả năng mô hình nâng cao: Kết hợp các kết cấu hạt nhân lớn và các mô-đun tự chú ý một phần để cải thiện hiệu suất mà không có chi phí tính toán đáng kể.

Biến thể mô hình

YOLOv10 có nhiều quy mô mô hình khác nhau để phục vụ cho các nhu cầu ứng dụng khác nhau:

  • YOLOv10-N: Phiên bản Nano cho môi trường cực kỳ hạn chế về tài nguyên.
  • YOLOv10-S: Phiên bản nhỏ cân bằng giữa tốc độ và độ chính xác.
  • YOLOv10-M: Phiên bản trung bình cho mục đích sử dụng chung.
  • YOLOv10-B: Phiên bản cân bằng với chiều rộng tăng lên cho độ chính xác cao hơn.
  • YOLOv10-L: Phiên bản lớn cho độ chính xác cao hơn với chi phí tăng tài nguyên tính toán.
  • YOLOv10-X: Phiên bản cực lớn cho độ chính xác và hiệu suất tối đa.

Hiệu năng

YOLOv10 vượt trội so với trước đó YOLO các phiên bản và các mô hình hiện đại khác về độ chính xác và hiệu quả. Ví dụ: YOLOv10-S nhanh hơn 1,8 lần so với RT-DETR-R18 với AP tương tự trên tập dữ liệu COCO và YOLOv10-B có độ trễ ít hơn 46% và tham số ít hơn 25% so với YOLOv9-C với cùng hiệu suất.

Mẫu Kích thước đầu vào APval FLOP (G) Độ trễ (ms)
YOLOv10-N 640 38.5 6.7 1.84
YOLOv10-S 640 46.3 21.6 2.49
YOLOv10-M 640 51.1 59.1 4.74
YOLOv10-B 640 52.5 92.0 5.74
YOLOv10-L 640 53.2 120.3 7.28
YOLOv10-X 640 54.4 160.4 10.70

Độ trễ được đo bằng TensorRT FP16 trên GPU T4.

Phương pháp luận

Nhiệm vụ kép nhất quán để đào tạo không có NMS

YOLOv10 sử dụng phân công nhãn kép, kết hợp các chiến lược một-nhiều và một-một trong quá trình đào tạo để đảm bảo giám sát phong phú và triển khai đầu cuối hiệu quả. Chỉ số phù hợp nhất quán điều chỉnh sự giám sát giữa cả hai chiến lược, nâng cao chất lượng dự đoán trong quá trình suy luận.

Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện

Cải tiến hiệu quả

  1. Đầu phân loại nhẹ: Giảm chi phí tính toán của đầu phân loại bằng cách sử dụng các kết cấu có thể tách theo chiều sâu.
  2. Lấy mẫu tách rời kênh không gian: Tách rời giảm không gian và điều chế kênh để giảm thiểu mất thông tin và chi phí tính toán.
  3. Thiết kế khối hướng dẫn xếp hạng: Điều chỉnh thiết kế khối dựa trên dự phòng giai đoạn nội tại, đảm bảo sử dụng tham số tối ưu.

Cải tiến độ chính xác

  1. Large-Kernel Convolution: Mở rộng trường tiếp nhận để tăng cường khả năng trích xuất tính năng.
  2. Tự chú ý một phần (PSA): Kết hợp các mô-đun tự chú ý để cải thiện việc học đại diện toàn cầu với chi phí tối thiểu.

Thử nghiệm và kết quả

YOLOv10 đã được thử nghiệm rộng rãi trên các tiêu chuẩn tiêu chuẩn như COCO, thể hiện hiệu suất và hiệu quả vượt trội. Mô hình đạt được kết quả hiện đại trên các biến thể khác nhau, cho thấy những cải tiến đáng kể về độ trễ và độ chính xác so với các phiên bản trước và các máy dò hiện đại khác.

So sánh

So sánh YOLOv10 với máy dò đối tượng SOTA

So với các máy dò hiện đại khác:

  • YOLOv10-S / X nhanh hơn 1,8× / 1,3× RT-DETR-R18 / R101 với độ chính xác tương tự
  • YOLOv10-B có thông số ít hơn 25% và độ trễ thấp hơn 46% so với YOLOv9-C ở cùng độ chính xác
  • YOLOv10-L / X vượt trội hơn YOLOv8-L / X x 0,3 AP / 0,5 AP với các thông số ít hơn 1,8× / 2,3×

Dưới đây là so sánh chi tiết các biến thể YOLOv10 với các mẫu hiện đại khác:

Mẫu Tham số (M) FLOP (G) APval (%) Độ trễ (ms) Độ trễ (Chuyển tiếp) (ms)
YOLOv6-3.0-N 4.7 11.4 37.0 2.69 1.76
Vàng-YOLO-N 5.6 12.1 39.6 2.92 1.82
YOLOv8-N 3.2 8.7 37.3 6.16 1.77
YOLOv10-N 2.3 6.7 39.5 1.84 1.79
YOLOv6-3.0-S 18.5 45.3 44.3 3.42 2.35
Vàng-YOLO-S 21.5 46.0 45.4 3.82 2.73
YOLOv8-S 11.2 28.6 44.9 7.07 2.33
YOLOv10-S 7.2 21.6 46.8 2.49 2.39
RT-DETR-R18 20.0 60.0 46.5 4.58 4.49
YOLOv6-3.0-M 34.9 85.8 49.1 5.63 4.56
Vàng-YOLO-M 41.3 87.5 49.8 6.38 5.45
YOLOv8-M 25.9 78.9 50.6 9.50 5.09
YOLOv10-M 15.4 59.1 51.3 4.74 4.63
YOLOv6-3.0-L 59.6 150.7 51.8 9.02 7.90
Vàng-YOLO-L 75.1 151.7 51.8 10.65 9.78
YOLOv8-L 43.7 165.2 52.9 12.39 8.06
RT-DETR-R50 42.0 136.0 53.1 9.20 9.07
YOLOv10-L 24.4 120.3 53.4 7.28 7.21
YOLOv8-X 68.2 257.8 53.9 16.86 12.83
RT-DETR-R101 76.0 259.0 54.3 13.71 13.58
YOLOv10-X 29.5 160.4 54.4 10.70 10.60

Ví dụ sử dụng

Đến sớm

Các Ultralytics nhóm đang tích cực làm việc để chính thức tích hợp các mẫu YOLOv10 vào ultralytics gói. Sau khi tích hợp hoàn tất, các ví dụ sử dụng được hiển thị bên dưới sẽ có đầy đủ chức năng. Vui lòng theo dõi bằng cách theo dõi phương tiện truyền thông xã hội của chúng tôi và Kho lưu trữ GitHub để cập nhật mới nhất về tích hợp YOLOv10. Chúng tôi đánh giá cao sự kiên nhẫn và phấn khích của bạn! 🚀

Để dự đoán hình ảnh mới với YOLOv10:

from ultralytics import YOLO

# Load a pretrained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()

Để đào tạo YOLOv10 trên tập dữ liệu tùy chỉnh:

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Kết thúc

YOLOv10 đặt ra một tiêu chuẩn mới trong việc phát hiện đối tượng thời gian thực bằng cách giải quyết những thiếu sót của trước đó YOLO các phiên bản và kết hợp các chiến lược thiết kế sáng tạo. Khả năng cung cấp độ chính xác cao với chi phí tính toán thấp làm cho nó trở thành một lựa chọn lý tưởng cho một loạt các ứng dụng trong thế giới thực.

Trích dẫn và xác nhận

Chúng tôi xin ghi nhận các tác giả YOLOv10 từ Đại học Thanh Hoa vì những nghiên cứu sâu rộng và những đóng góp đáng kể cho Ultralytics khuôn khổ:

@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

Để triển khai chi tiết, đổi mới kiến trúc và kết quả thử nghiệm, vui lòng tham khảo tài liệu nghiên cứu YOLOv10 và kho lưu trữ GitHub của nhóm Đại học Thanh Hoa.



Created 2024-05-25, Updated 2024-06-10
Authors: glenn-jocher (3), RizwanMunawar (2)

Ý kiến