YOLOv10 so với YOLOv9 : So sánh kỹ thuật toàn diện

Cảnh quan phát hiện đối tượng đã phát triển nhanh chóng, với các lần lặp lại liên tiếp của YOLO Kiến trúc (Bạn Chỉ Nhìn Một Lần) đang mở rộng ranh giới giữa tốc độ và độ chính xác. Hai trong số những đóng góp quan trọng nhất gần đây cho lĩnh vực này là YOLOv10 và YOLOv9 . Mặc dù cả hai mô hình đều đạt hiệu suất tiên tiến trên tập dữ liệu COCO , nhưng chúng lại khác biệt đáng kể về triết lý thiết kế và mục tiêu kiến trúc.

YOLOv10 ưu tiên độ trễ thấp và hiệu quả đầu cuối bằng cách loại bỏ nhu cầu triệt tiêu không tối đa ( NMS ), trong khi YOLOv9 tập trung vào việc tối đa hóa khả năng lưu giữ và độ chính xác của thông tin thông qua Thông tin Gradient Lập trình (PGI). Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết để giúp các nhà phát triển và nhà nghiên cứu lựa chọn mô hình tối ưu cho các ứng dụng thị giác máy tính của họ.

YOLOv10 : Bộ phát hiện thời gian thực đầu cuối

Được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đại diện cho một sự thay đổi mô hình trong YOLO dòng dõi. Đổi mới chính của nó là loại bỏ bước xử lý hậu kỳ NMS (Non-Maximum Suppression) , vốn theo truyền thống là nút thắt cho độ trễ suy luận.

Chi tiết kỹ thuật:

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức: Đại học Thanh Hoa
Ngày: 2024-05-23
Arxiv:Real-Time End-to-End Object Detection
GitHub: THU-MIG/yolov10

Kiến trúc và các cải tiến chính

YOLOv10 đạt được hiệu quả thông qua sự kết hợp giữa Nhiệm vụ kép nhất quán và Thiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện .

NMS - Đào tạo miễn phí: Truyền thống YOLO các mô hình dựa vào NMS để lọc ra các hộp giới hạn trùng lặp. YOLOv10 sử dụng chiến lược gán kép trong quá trình huấn luyện mô hình . Nhánh một-nhiều cung cấp tín hiệu giám sát phong phú cho việc học, trong khi nhánh một-một đảm bảo mô hình tạo ra một dự đoán tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận. Điều này cho phép triển khai mô hình mà không cần NMS , giảm đáng kể độ trễ suy luận .
Tối ưu hóa mô hình: Kiến trúc bao gồm các đầu phân loại nhẹ, giảm mẫu tách rời kênh không gian và thiết kế khối hướng dẫn theo thứ hạng. Các tính năng này giúp giảm thiểu sự dư thừa tính toán và sử dụng bộ nhớ, giúp mô hình đạt hiệu suất cao trên phần cứng có tài nguyên hạn chế.

Lợi thế về hiệu quả

Việc loại bỏ NMS TRONG YOLOv10 đặc biệt có lợi cho việc triển khai biên. Trên các thiết bị mà CPU do tài nguyên khan hiếm, việc tránh chi phí tính toán để sắp xếp và lọc hàng nghìn hộp ứng viên có thể giúp tăng tốc đáng kể.

Tìm hiểu thêm về YOLOv10

YOLOv9 : Làm chủ việc lưu giữ thông tin

Được giới thiệu vào tháng 2 năm 2024 bởi Chien-Yao Wang và Hong-Yuan Mark Liao, YOLOv9 nhắm vào vấn đề "nút thắt thông tin" vốn có trong mạng nơ-ron sâu. Khi dữ liệu đi qua các lớp liên tiếp (trích xuất đặc trưng), thông tin quan trọng có thể bị mất, dẫn đến độ chính xác giảm, đặc biệt đối với các dữ liệu nhỏ hoặc khó xử lý. detect các vật thể.

Chi tiết kỹ thuật:

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica
Ngày: 2024-02-21
Arxiv:Learning What You Want to Learn Using Programmable Gradient Information
GitHub: WongKinYiu/yolov9

Kiến trúc và các cải tiến chính

YOLOv9 giới thiệu các khái niệm mới để đảm bảo mạng lưu giữ và sử dụng càng nhiều thông tin đầu vào càng tốt.

Thông tin Gradient Lập trình (PGI): PGI cung cấp một khung giám sát phụ trợ tạo ra các gradient đáng tin cậy để cập nhật trọng số mạng. Điều này đảm bảo các lớp sâu nhận được thông tin đầu vào đầy đủ, giảm thiểu vấn đề gradient biến mất và cải thiện khả năng hội tụ.
Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Kiến trúc mới này thay thế ELAN thông thường được sử dụng trong các phiên bản trước. GELAN tối ưu hóa việc sử dụng tham số và hiệu suất tính toán (FLOP), cho phép YOLOv9 để đạt được độ chính xác cao hơn với kích thước mô hình tương đương với các mô hình tiền nhiệm.

Hiểu biết sâu sắc về học tập

YOLOv9 Việc tập trung vào việc lưu giữ thông tin khiến nó có khả năng đặc biệt mạnh mẽ trong việc phát hiện các đối tượng trong các cảnh phức tạp, nơi mà các chi tiết đặc điểm có thể bị mất trong quá trình lấy mẫu xuống ở xương sống .

Tìm hiểu thêm về YOLOv9

Chỉ số hiệu suất: Tốc độ so với Độ chính xác

Việc lựa chọn giữa hai mô hình này thường phụ thuộc vào sự đánh đổi giữa tốc độ suy luận thô và độ chính xác phát hiện. Bảng dưới đây nêu bật sự khác biệt về hiệu suất giữa các thang đo mô hình khác nhau.

Phân tích:

Độ trễ: YOLOv10 luôn vượt trội YOLOv9 về độ trễ, đặc biệt là ở các kích thước mô hình nhỏ hơn (N và S). Ví dụ, YOLOv10n đạt tốc độ suy luận là 1,56 ms trên TensorRT , nhanh hơn đáng kể so với các mô hình tương đương.
Độ chính xác: YOLOv9 vượt trội về độ chính xác ở phân khúc cao hơn. Mô hình YOLOv9e đạt được 55.6% mAP đáng kể, khiến nó trở thành lựa chọn vượt trội cho các ứng dụng mà độ chính xác là tối quan trọng.
Hiệu quả: YOLOv10 cung cấp độ chính xác tuyệt vời trên mỗi tham số. YOLOv10b đạt 52,7% mAP có độ trễ thấp hơn YOLOv9c , chứng minh tính hiệu quả của thiết kế toàn diện của nó.

Mô hình	Kích thước ^(pixels)	mAP ^{giá trị 50-95}	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Các trường hợp sử dụng lý tưởng

Hiểu được điểm mạnh của từng mô hình giúp bạn lựa chọn công cụ phù hợp cho mục tiêu dự án cụ thể của mình.

Khi nào nên chọn YOLOv10

Triển khai AI Edge: Các ứng dụng chạy trên các thiết bị như NVIDIA Jetson hoặc Raspberry Pi được hưởng lợi từ NMS -thiết kế miễn phí, giúp giảm CPU trên không.
Phân tích video tần số cao: Các tình huống yêu cầu xử lý luồng video có FPS cao, chẳng hạn như giám sát giao thông hoặc phân tích thể thao.
Robot thời gian thực: Hệ thống tự động dựa vào vòng phản hồi có độ trễ thấp để điều hướng và tránh chướng ngại vật .

Khi nào nên chọn YOLOv9

Kiểm tra độ chính xác cao: Kiểm soát chất lượng công nghiệp khi bỏ sót lỗi (kết quả âm tính giả) sẽ tốn kém.
Phát hiện vật thể nhỏ: Ứng dụng liên quan đến phân tích hình ảnh vệ tinh hoặc hình ảnh y tế khi vật thể có kích thước nhỏ và ít đặc điểm.
Cảnh phức tạp: Môi trường có nhiều sự che khuất hoặc lộn xộn, trong đó cần lưu giữ thông tin tối đa để phân biệt các đối tượng.

Sử dụng với Ultralytics

Một trong những lợi thế đáng kể của việc sử dụng các mô hình này là sự tích hợp của chúng vào Ultralytics hệ sinh thái. Cả hai YOLOv10 Và YOLOv9 có thể được sử dụng thông qua cùng một thống nhất Python API và Giao diện dòng lệnh ( CLI ), đơn giản hóa quy trình làm việc từ đào tạo đến triển khai .

Python Ví dụ

Đoạn mã sau đây trình bày cách tải và chạy suy luận với cả hai mô hình bằng cách sử dụng ultralytics gói.

from ultralytics import YOLO

# Load a YOLOv10 model (NMS-free, high speed)
model_v10 = YOLO("yolov10n.pt")

# Load a YOLOv9 model (High accuracy)
model_v9 = YOLO("yolov9c.pt")

# Run inference on an image
# The API remains consistent regardless of the underlying architecture
results_v10 = model_v10("https://ultralytics.com/images/bus.jpg")
results_v9 = model_v9("https://ultralytics.com/images/bus.jpg")

# Print results
for r in results_v10:
    print(f"YOLOv10 Detections: {r.boxes.shape[0]}")

for r in results_v9:
    print(f"YOLOv9 Detections: {r.boxes.shape[0]}")

Các Ultralytics Lợi thế

Lựa chọn Ultralytics cho các dự án thị giác máy tính của bạn mang lại nhiều lợi ích không chỉ dừng lại ở kiến trúc mô hình:

Dễ sử dụng: API thân thiện với người dùng cho phép bạn chuyển đổi giữa YOLOv9 , YOLOv10 và các mô hình khác như YOLO11 chỉ bằng cách thay đổi tên tệp trọng số.
Cân bằng hiệu suất: Ultralytics việc triển khai được tối ưu hóa để đạt hiệu suất thực tế, cân bằng giữa tốc độ và độ chính xác.
Hiệu quả đào tạo: Khung hỗ trợ các tính năng như độ chính xác hỗn hợp tự động (AMP) và đa GPU đào tạo, giúp việc đào tạo các mô hình tùy chỉnh trên tập dữ liệu của riêng bạn trở nên dễ dàng hơn.
Yêu cầu về bộ nhớ: Ultralytics các mô hình thường sử dụng ít bộ nhớ hơn so với các giải pháp thay thế dựa trên máy biến áp, tạo điều kiện thuận lợi cho việc đào tạo trên GPU cấp tiêu dùng.

Kết luận

Cả YOLOv10 và YOLOv9 đều là những cột mốc quan trọng trong lĩnh vực phát hiện đối tượng. YOLOv10 rõ ràng là lựa chọn hàng đầu cho các ứng dụng ưu tiên tốc độ và hiệu quả, nhờ vào tính năng cải tiến của nó. NMS -kiến trúc tự do. Ngược lại, YOLOv9 vẫn là lựa chọn mạnh mẽ cho các tình huống đòi hỏi độ chính xác và khả năng lưu giữ thông tin cao nhất có thể.

Đối với các nhà phát triển đang tìm kiếm giải pháp mới nhất và linh hoạt nhất, chúng tôi cũng khuyên bạn nên khám phá YOLO11 . YOLO11 dựa trên thế mạnh của những phiên bản tiền nhiệm, mang lại sự cân bằng tinh tế giữa tốc độ, độ chính xác và các tính năng cho các nhiệm vụ phát hiện, phân đoạn và ước tính tư thế.

Khám phá các Mô hình Khác

Ultralytics YOLO11 - Mô hình hiện đại nhất mới nhất.
Ultralytics YOLOv8 - Một mô hình linh hoạt và hoàn thiện cho các tác vụ thị giác khác nhau.
RT-DETR - Một detector dựa trên transformer cho các ứng dụng có độ chính xác cao.

YOLOv10 so với YOLOv9 : So sánh kỹ thuật toàn diện

YOLOv10 : Bộ phát hiện thời gian thực đầu cuối

Kiến trúc và các cải tiến chính

YOLOv9 : Làm chủ việc lưu giữ thông tin

Kiến trúc và các cải tiến chính

Chỉ số hiệu suất: Tốc độ so với Độ chính xác

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOv10

Khi nào nên chọn YOLOv9

Sử dụng với Ultralytics

Python Ví dụ

Các Ultralytics Lợi thế

Kết luận

Khám phá các Mô hình Khác

Bình luận