YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực

YOLOv10, được xây dựng trên Ultralytics Python Các nhà nghiên cứu tại Đại học Thanh Hoa giới thiệu một cách tiếp cận mới để phát hiện đối tượng theo thời gian thực, giải quyết cả những thiếu sót về kiến trúc mô hình và xử lý hậu kỳ được tìm thấy trong quá trình xử lý trước YOLO Phiên bản. Bằng cách loại bỏ triệt tiêu không tối đa (NMS) và tối ưu hóa các thành phần mô hình khác nhau, YOLOv10 đạt được hiệu suất hiện đại với chi phí tính toán giảm đáng kể. Các thử nghiệm mở rộng chứng minh sự đánh đổi độ chính xác-độ trễ vượt trội của nó trên nhiều quy mô mô hình.

YOLOv10 phân công kép nhất quán để đào tạo không có NMS

Tổng quan

Phát hiện đối tượng theo thời gian thực nhằm mục đích dự đoán chính xác các loại đối tượng và vị trí trong hình ảnh với độ trễ thấp. Các YOLO Series đã đi đầu trong nghiên cứu này do sự cân bằng giữa hiệu suất và hiệu quả. Tuy nhiên, sự phụ thuộc vào NMS và sự thiếu hiệu quả trong kiến trúc đã cản trở hiệu suất tối ưu. YOLOv10 giải quyết những vấn đề này bằng cách giới thiệu các nhiệm vụ kép nhất quán để đào tạo không có NMS và chiến lược thiết kế mô hình dựa trên độ chính xác hiệu quả toàn diện.

Kiến trúc

Kiến trúc của YOLOv10 được xây dựng dựa trên những thế mạnh của trước đó YOLO mô hình trong khi giới thiệu một số cải tiến quan trọng. Kiến trúc mô hình bao gồm các thành phần sau:

Xương sống: Chịu trách nhiệm trích xuất tính năng, xương sống trong YOLOv10 sử dụng phiên bản nâng cao của CSPNet (Mạng một phần giai đoạn chéo) để cải thiện luồng gradient và giảm dự phòng tính toán.
Cổ: Cổ được thiết kế để tổng hợp các đặc điểm từ các vảy khác nhau và truyền chúng đến đầu. Nó bao gồm các lớp PAN (Mạng tổng hợp đường dẫn) để hợp nhất tính năng đa quy mô hiệu quả.
Đầu một-nhiều: Tạo nhiều dự đoán cho mỗi đối tượng trong quá trình đào tạo để cung cấp tín hiệu giám sát phong phú và cải thiện độ chính xác của việc học.
Đầu một-một: Tạo một dự đoán tốt nhất cho mỗi đối tượng trong quá trình suy luận để loại bỏ nhu cầu về NMS, do đó giảm độ trễ và cải thiện hiệu quả.

Các tính năng chính

Đào tạo không có NMS: Sử dụng các bài tập kép nhất quán để loại bỏ nhu cầu về NMS, giảm độ trễ suy luận.
Thiết kế mô hình toàn diện: Tối ưu hóa toàn diện các thành phần khác nhau từ cả góc độ hiệu quả và độ chính xác, bao gồm đầu phân loại nhẹ, lấy mẫu tách kênh không gian và thiết kế khối hướng dẫn xếp hạng.
Khả năng mô hình nâng cao: Kết hợp các kết cấu hạt nhân lớn và các mô-đun tự chú ý một phần để cải thiện hiệu suất mà không có chi phí tính toán đáng kể.

Biến thể mô hình

YOLOv10 có nhiều quy mô mô hình khác nhau để phục vụ cho các nhu cầu ứng dụng khác nhau:

YOLOv10-N: Phiên bản Nano cho môi trường cực kỳ hạn chế về tài nguyên.
YOLOv10-S: Phiên bản nhỏ cân bằng giữa tốc độ và độ chính xác.
YOLOv10-M: Phiên bản trung bình cho mục đích sử dụng chung.
YOLOv10-B: Phiên bản cân bằng với chiều rộng tăng lên cho độ chính xác cao hơn.
YOLOv10-L: Phiên bản lớn cho độ chính xác cao hơn với chi phí tăng tài nguyên tính toán.
YOLOv10-X: Phiên bản cực lớn cho độ chính xác và hiệu suất tối đa.

Hiệu năng

YOLOv10 vượt trội so với trước đó YOLO các phiên bản và các mô hình hiện đại khác về độ chính xác và hiệu quả. Ví dụ: YOLOv10-S nhanh hơn 1,8 lần so với RT-DETR-R18 với AP tương tự trên tập dữ liệu COCO và YOLOv10-B có độ trễ ít hơn 46% và tham số ít hơn 25% so với YOLOv9-C với cùng hiệu suất.

Mẫu	Kích thước đầu vào	AP^val	FLOP (G)	Độ trễ (ms)
YOLOv10-N	640	38.5	6.7	1.84
YOLOv10-S	640	46.3	21.6	2.49
YOLOv10-M	640	51.1	59.1	4.74
YOLOv10-B	640	52.5	92.0	5.74
YOLOv10-L	640	53.2	120.3	7.28
YOLOv10-X	640	54.4	160.4	10.70

Độ trễ được đo bằng TensorRT FP16 trên T4 GPU.

Phương pháp luận

Nhiệm vụ kép nhất quán để đào tạo không có NMS

YOLOv10 sử dụng phân công nhãn kép, kết hợp các chiến lược một-nhiều và một-một trong quá trình đào tạo để đảm bảo giám sát phong phú và triển khai đầu cuối hiệu quả. Chỉ số phù hợp nhất quán điều chỉnh sự giám sát giữa cả hai chiến lược, nâng cao chất lượng dự đoán trong quá trình suy luận.

Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện

Cải tiến hiệu quả

Đầu phân loại nhẹ: Giảm chi phí tính toán của đầu phân loại bằng cách sử dụng các kết cấu có thể tách theo chiều sâu.
Lấy mẫu tách rời kênh không gian: Tách rời giảm không gian và điều chế kênh để giảm thiểu mất thông tin và chi phí tính toán.
Thiết kế khối hướng dẫn xếp hạng: Điều chỉnh thiết kế khối dựa trên dự phòng giai đoạn nội tại, đảm bảo sử dụng tham số tối ưu.

Cải tiến độ chính xác

Large-Kernel Convolution: Mở rộng trường tiếp nhận để tăng cường khả năng trích xuất tính năng.
Tự chú ý một phần (PSA): Kết hợp các mô-đun tự chú ý để cải thiện việc học đại diện toàn cầu với chi phí tối thiểu.

Thử nghiệm và kết quả

YOLOv10 đã được thử nghiệm rộng rãi trên các tiêu chuẩn tiêu chuẩn như COCO, thể hiện hiệu suất và hiệu quả vượt trội. Mô hình đạt được kết quả hiện đại trên các biến thể khác nhau, cho thấy những cải tiến đáng kể về độ trễ và độ chính xác so với các phiên bản trước và các máy dò hiện đại khác.

So sánh

So sánh YOLOv10 với máy dò đối tượng SOTA

So với các máy dò hiện đại khác:

YOLOv10-S / X nhanh hơn 1,8× / 1,3× RT-DETR-R18 / R101 với độ chính xác tương tự
YOLOv10-B có thông số ít hơn 25% và độ trễ thấp hơn 46% so với YOLOv9-C ở cùng độ chính xác
YOLOv10-L / X vượt trội hơn YOLOv8-L / X x 0,3 AP / 0,5 AP với các thông số ít hơn 1,8× / 2,3×

Dưới đây là so sánh chi tiết các biến thể YOLOv10 với các mẫu hiện đại khác:

Mẫu	Tham số ^(M)	Flops ^(G)	bản đồ^Val 50-95	Trễ ^(Cô)	Độ trễ chuyển tiếp ^(Cô)
YOLOv6-3.0-N	4.7	11.4	37.0	2.69	1.76
Vàng-YOLO-N	5.6	12.1	39.6	2.92	1.82
YOLOv8-N	3.2	8.7	37.3	6.16	1.77
YOLOv10-N	2.3	6.7	39.5	1.84	1.79

YOLOv6-3.0-S	18.5	45.3	44.3	3.42	2.35
Vàng-YOLO-S	21.5	46.0	45.4	3.82	2.73
YOLOv8-S	11.2	28.6	44.9	7.07	2.33
YOLOv10-S	7.2	21.6	46.8	2.49	2.39

RT-DETR-R18	20.0	60.0	46.5	4.58	4.49
YOLOv6-3.0-M	34.9	85.8	49.1	5.63	4.56
Vàng-YOLO-M	41.3	87.5	49.8	6.38	5.45
YOLOv8-M	25.9	78.9	50.6	9.50	5.09
YOLOv10-M	15.4	59.1	51.3	4.74	4.63

YOLOv6-3.0-L	59.6	150.7	51.8	9.02	7.90
Vàng-YOLO-L	75.1	151.7	51.8	10.65	9.78
YOLOv8-L	43.7	165.2	52.9	12.39	8.06
RT-DETR-R50	42.0	136.0	53.1	9.20	9.07
YOLOv10-L	24.4	120.3	53.4	7.28	7.21

YOLOv8-X	68.2	257.8	53.9	16.86	12.83
RT-DETR-R101	76.0	259.0	54.3	13.71	13.58
YOLOv10-X	29.5	160.4	54.4	10.70	10.60

Ví dụ sử dụng

Để dự đoán hình ảnh mới với YOLOv10:

Ví dụ

PythonCLI

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()

# Load a COCO-pretrained YOLOv10n model and run inference on the 'bus.jpg' image
yolo detect predict model=yolov10n.pt source=path/to/bus.jpg

Để đào tạo YOLOv10 trên tập dữ liệu tùy chỉnh:

Ví dụ

PythonCLI

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Build a YOLOv10n model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov10n.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv10n model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov10n.yaml source=path/to/bus.jpg

Các tác vụ và chế độ được hỗ trợ

Dòng mô hình YOLOv10 cung cấp một loạt các mô hình, mỗi mô hình được tối ưu hóa để Phát hiện đối tượng hiệu suất cao. Các mô hình này phục vụ cho các nhu cầu tính toán và yêu cầu độ chính xác khác nhau, làm cho chúng linh hoạt cho một loạt các ứng dụng.

Mẫu	Tên tập tin	Nhiệm vụ	Suy luận	Xác nhận	Đào tạo	Xuất khẩu
YOLOv10	`yolov10n.pt` `yolov10s.pt` `yolov10m.pt` `yolov10l.pt` `yolov10x.pt`	Phát hiện đối tượng	✅	✅	✅	✅

Xuất YOLOv10

Do các hoạt động mới được giới thiệu với YOLOv10, không phải tất cả các định dạng xuất được cung cấp bởi Ultralytics hiện đang được hỗ trợ. Bảng sau đây phác thảo các định dạng đã được chuyển đổi thành công bằng cách sử dụng Ultralytics cho YOLOv10. Vui lòng mở yêu cầu kéo nếu bạn có thể cung cấp thay đổi đóng góp để thêm hỗ trợ xuất các định dạng bổ sung cho YOLOv10.

Định dạng xuất	Hỗ trợ
TorchScript	✅
ONNX	✅
OpenVINO	✅
TensorRT	✅
CoreML	❌
TF SavedModel	✅
TF GraphDef	✅
TF Lite	✅
TF Cạnh TPU	❌
TF.Js	❌
PaddlePaddle	❌
NCNN	❌

Kết thúc

YOLOv10 đặt ra một tiêu chuẩn mới trong việc phát hiện đối tượng thời gian thực bằng cách giải quyết những thiếu sót của trước đó YOLO các phiên bản và kết hợp các chiến lược thiết kế sáng tạo. Khả năng cung cấp độ chính xác cao với chi phí tính toán thấp làm cho nó trở thành một lựa chọn lý tưởng cho một loạt các ứng dụng trong thế giới thực.

Trích dẫn và xác nhận

Chúng tôi xin ghi nhận các tác giả YOLOv10 từ Đại học Thanh Hoa vì những nghiên cứu sâu rộng và những đóng góp đáng kể cho Ultralytics khuôn khổ:

BibTeX

@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

Để triển khai chi tiết, đổi mới kiến trúc và kết quả thử nghiệm, vui lòng tham khảo tài liệu nghiên cứu YOLOv10 và kho lưu trữ GitHub của nhóm Đại học Thanh Hoa.

FAQ

YOLOv10 là gì và nó khác với trước đây như thế nào YOLO Phiên bản?

YOLOv10, được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, giới thiệu một số cải tiến quan trọng để phát hiện đối tượng thời gian thực. Nó loại bỏ nhu cầu triệt tiêu không tối đa (NMS) bằng cách sử dụng các nhiệm vụ kép nhất quán trong quá trình đào tạo và tối ưu hóa các thành phần mô hình để có hiệu suất vượt trội với chi phí tính toán giảm. Để biết thêm chi tiết về kiến trúc và các tính năng chính của nó, hãy xem phần tổng quan về YOLOv10 .

Làm cách nào để bắt đầu chạy suy luận bằng YOLOv10?

Để dễ suy luận, bạn có thể sử dụng Ultralytics YOLO Python thư viện hoặc giao diện dòng lệnh (CLI). Dưới đây là ví dụ về dự đoán hình ảnh mới bằng YOLOv10:

Ví dụ

PythonCLI

from ultralytics import YOLO

# Load the pre-trained YOLOv10-N model
model = YOLO("yolov10n.pt")
results = model("image.jpg")
results[0].show()

yolo detect predict model=yolov10n.pt source=path/to/image.jpg

Để biết thêm ví dụ sử dụng, hãy truy cập phần Ví dụ sử dụng của chúng tôi.

YOLOv10 cung cấp những biến thể mô hình nào và các trường hợp sử dụng của chúng là gì?

YOLOv10 cung cấp một số biến thể mô hình để phục vụ cho các trường hợp sử dụng khác nhau:

YOLOv10-N: Thích hợp cho môi trường cực kỳ hạn chế về tài nguyên
YOLOv10-S: Cân bằng tốc độ và độ chính xác
YOLOv10-M: Sử dụng cho mục đích chung
YOLOv10-B: Độ chính xác cao hơn với chiều rộng tăng
YOLOv10-L: Độ chính xác cao với chi phí tài nguyên tính toán
YOLOv10-X: Độ chính xác và hiệu suất tối đa

Mỗi biến thể được thiết kế cho các nhu cầu tính toán và yêu cầu độ chính xác khác nhau, làm cho chúng linh hoạt cho nhiều ứng dụng khác nhau. Khám phá phần Model Variants để biết thêm thông tin.

Cách tiếp cận không có NMS trong YOLOv10 cải thiện hiệu suất như thế nào?

YOLOv10 loại bỏ nhu cầu triệt tiêu không tối đa (NMS) trong quá trình suy luận bằng cách sử dụng các bài tập kép nhất quán để đào tạo. Cách tiếp cận này làm giảm độ trễ suy luận và nâng cao hiệu quả dự đoán. Kiến trúc cũng bao gồm một đầu một-một để suy luận, đảm bảo rằng mỗi đối tượng có được một dự đoán tốt nhất duy nhất. Để được giải thích chi tiết, hãy xem phần Bài tập kép nhất quán cho Đào tạo không có NMS .

Tôi có thể tìm các tùy chọn xuất cho các kiểu máy YOLOv10 ở đâu?

YOLOv10 hỗ trợ một số định dạng xuất, bao gồm TorchScript, ONNX, OpenVINOvà TensorRT. Tuy nhiên, không phải tất cả các định dạng xuất đều được cung cấp bởi Ultralytics hiện đang được hỗ trợ cho YOLOv10 do hoạt động mới. Để biết chi tiết về các định dạng được hỗ trợ và hướng dẫn xuất, hãy truy cập phần Xuất YOLOv10 .

Điểm chuẩn hiệu suất cho các mẫu YOLOv10 là gì?

YOLOv10 vượt trội so với trước đó YOLO các phiên bản và các mô hình hiện đại khác cả về độ chính xác và hiệu quả. Ví dụ: YOLOv10-S nhanh hơn 1,8 lần so với RT-DETR-R18 với AP tương tự trên tập dữ liệu COCO. YOLOv10-B hiển thị độ trễ ít hơn 46% và thông số ít hơn 25% so với YOLOv9-C với cùng hiệu suất. Điểm chuẩn chi tiết có thể được tìm thấy trong phần So sánh .

Đã tạo 2024-05-25, Cập nhật 2024-07-24
Tác giả: hasanghaffari93 (1), glenn-jocher (5), zhixuwei (1), abirami-vina (1), RizwanMunawar (3), Burhan-Q (1)

YOLOv10: Phát hiện đối tượng end-to-end theo thời gian thực

Tổng quan

Kiến trúc

Các tính năng chính

Biến thể mô hình

Hiệu năng

Phương pháp luận

Nhiệm vụ kép nhất quán để đào tạo không có NMS

Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện

Cải tiến hiệu quả

Cải tiến độ chính xác

Thử nghiệm và kết quả

So sánh

Ví dụ sử dụng

Các tác vụ và chế độ được hỗ trợ

Xuất YOLOv10

Kết thúc

Trích dẫn và xác nhận

FAQ

YOLOv10 là gì và nó khác với trước đây như thế nào YOLO Phiên bản?

Làm cách nào để bắt đầu chạy suy luận bằng YOLOv10?

YOLOv10 cung cấp những biến thể mô hình nào và các trường hợp sử dụng của chúng là gì?

Cách tiếp cận không có NMS trong YOLOv10 cải thiện hiệu suất như thế nào?

Tôi có thể tìm các tùy chọn xuất cho các kiểu máy YOLOv10 ở đâu?

Điểm chuẩn hiệu suất cho các mẫu YOLOv10 là gì?

Ý kiến