Chuyển đến nội dung

YOLOv10 so với YOLOv9 : So sánh kỹ thuật toàn diện

Cảnh quan phát hiện đối tượng đã phát triển nhanh chóng, với các lần lặp lại liên tiếp của YOLO Kiến trúc (Bạn Chỉ Nhìn Một Lần) đang mở rộng ranh giới giữa tốc độ và độ chính xác. Hai trong số những đóng góp quan trọng nhất gần đây cho lĩnh vực này là YOLOv10YOLOv9 . Mặc dù cả hai mô hình đều đạt hiệu suất tiên tiến trên tập dữ liệu COCO , nhưng chúng lại khác biệt đáng kể về triết lý thiết kế và mục tiêu kiến trúc.

YOLOv10 ưu tiên độ trễ thấp và hiệu quả đầu cuối bằng cách loại bỏ nhu cầu triệt tiêu không tối đa ( NMS ), trong khi YOLOv9 tập trung vào việc tối đa hóa khả năng lưu giữ và độ chính xác của thông tin thông qua Thông tin Gradient Lập trình (PGI). Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết để giúp các nhà phát triển và nhà nghiên cứu lựa chọn mô hình tối ưu cho các ứng dụng thị giác máy tính của họ.

YOLOv10 : Bộ phát hiện thời gian thực đầu cuối

Được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đại diện cho một sự thay đổi mô hình trong YOLO dòng dõi. Đổi mới chính của nó là loại bỏ bước xử lý hậu kỳ NMS (Non-Maximum Suppression) , vốn theo truyền thống là nút thắt cho độ trễ suy luận.

Chi tiết kỹ thuật:

Kiến trúc và các cải tiến chính

YOLOv10 đạt được hiệu quả thông qua sự kết hợp giữa Nhiệm vụ kép nhất quánThiết kế mô hình hướng đến hiệu quả - độ chính xác toàn diện .

  1. NMS - Đào tạo miễn phí: Truyền thống YOLO các mô hình dựa vào NMS để lọc ra các hộp giới hạn trùng lặp. YOLOv10 sử dụng chiến lược gán kép trong quá trình huấn luyện mô hình . Nhánh một-nhiều cung cấp tín hiệu giám sát phong phú cho việc học, trong khi nhánh một-một đảm bảo mô hình tạo ra một dự đoán tốt nhất duy nhất cho mỗi đối tượng trong quá trình suy luận. Điều này cho phép triển khai mô hình mà không cần NMS , giảm đáng kể độ trễ suy luận .
  2. Tối ưu hóa mô hình: Kiến trúc bao gồm các đầu phân loại nhẹ, giảm mẫu tách rời kênh không gian và thiết kế khối hướng dẫn theo thứ hạng. Các tính năng này giúp giảm thiểu sự dư thừa tính toán và sử dụng bộ nhớ, giúp mô hình đạt hiệu suất cao trên phần cứng có tài nguyên hạn chế.

Lợi thế về hiệu quả

Việc loại bỏ NMS TRONG YOLOv10 đặc biệt có lợi cho việc triển khai biên. Trên các thiết bị mà CPU do tài nguyên khan hiếm, việc tránh chi phí tính toán để sắp xếp và lọc hàng nghìn hộp ứng viên có thể giúp tăng tốc đáng kể.

Tìm hiểu thêm về YOLOv10

YOLOv9 : Làm chủ việc lưu giữ thông tin

Được giới thiệu vào tháng 2 năm 2024 bởi Chien-Yao Wang và Hong-Yuan Mark Liao, YOLOv9 nhắm vào vấn đề "nút thắt thông tin" vốn có trong mạng nơ-ron sâu. Khi dữ liệu đi qua các lớp liên tiếp (trích xuất đặc trưng), thông tin quan trọng có thể bị mất, dẫn đến độ chính xác giảm, đặc biệt đối với các dữ liệu nhỏ hoặc khó xử lý. detect các vật thể.

Chi tiết kỹ thuật:

Kiến trúc và các cải tiến chính

YOLOv9 giới thiệu các khái niệm mới để đảm bảo mạng lưu giữ và sử dụng càng nhiều thông tin đầu vào càng tốt.

  1. Thông tin Gradient Lập trình (PGI): PGI cung cấp một khung giám sát phụ trợ tạo ra các gradient đáng tin cậy để cập nhật trọng số mạng. Điều này đảm bảo các lớp sâu nhận được thông tin đầu vào đầy đủ, giảm thiểu vấn đề gradient biến mất và cải thiện khả năng hội tụ.
  2. Mạng tổng hợp lớp hiệu quả tổng quát (GELAN): Kiến trúc mới này thay thế ELAN thông thường được sử dụng trong các phiên bản trước. GELAN tối ưu hóa việc sử dụng tham số và hiệu suất tính toán (FLOP), cho phép YOLOv9 để đạt được độ chính xác cao hơn với kích thước mô hình tương đương với các mô hình tiền nhiệm.

Hiểu biết sâu sắc về học tập

YOLOv9 Việc tập trung vào việc lưu giữ thông tin khiến nó có khả năng đặc biệt mạnh mẽ trong việc phát hiện các đối tượng trong các cảnh phức tạp, nơi mà các chi tiết đặc điểm có thể bị mất trong quá trình lấy mẫu xuống ở xương sống .

Tìm hiểu thêm về YOLOv9

Chỉ số hiệu suất: Tốc độ so với Độ chính xác

Việc lựa chọn giữa hai mô hình này thường phụ thuộc vào sự đánh đổi giữa tốc độ suy luận thô và độ chính xác phát hiện. Bảng dưới đây nêu bật sự khác biệt về hiệu suất giữa các thang đo mô hình khác nhau.

Phân tích:

  • Độ trễ: YOLOv10 luôn vượt trội YOLOv9 về độ trễ, đặc biệt là ở các kích thước mô hình nhỏ hơn (N và S). Ví dụ, YOLOv10n đạt tốc độ suy luận là 1,56 ms trên TensorRT , nhanh hơn đáng kể so với các mô hình tương đương.
  • Sự chính xác: YOLOv9 vượt trội về độ chính xác ở dải tần số cao. Model YOLOv9e đạt mAP đáng kinh ngạc 55,6% , khiến nó trở thành lựa chọn ưu việt cho các ứng dụng đòi hỏi độ chính xác tối quan trọng.
  • Hiệu quả: YOLOv10 cung cấp độ chính xác tuyệt vời trên mỗi tham số. YOLOv10b đạt 52,7% mAP có độ trễ thấp hơn YOLOv9c , chứng minh tính hiệu quả của thiết kế toàn diện của nó.
Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Các trường hợp sử dụng lý tưởng

Hiểu được điểm mạnh của từng mô hình giúp bạn lựa chọn công cụ phù hợp cho mục tiêu dự án cụ thể của mình.

Khi nào nên chọn YOLOv10

  • Triển khai AI Edge: Các ứng dụng chạy trên các thiết bị như NVIDIA Jetson hoặc Raspberry Pi được hưởng lợi từ NMS -thiết kế miễn phí, giúp giảm CPU trên không.
  • Phân tích video tần số cao: Các tình huống yêu cầu xử lý luồng video có FPS cao, chẳng hạn như giám sát giao thông hoặc phân tích thể thao.
  • Robot thời gian thực: Hệ thống tự động dựa vào vòng phản hồi có độ trễ thấp để điều hướng và tránh chướng ngại vật .

Khi nào nên chọn YOLOv9

  • Kiểm tra độ chính xác cao: Kiểm soát chất lượng công nghiệp khi bỏ sót lỗi (kết quả âm tính giả) sẽ tốn kém.
  • Phát hiện vật thể nhỏ: Ứng dụng liên quan đến phân tích hình ảnh vệ tinh hoặc hình ảnh y tế khi vật thể có kích thước nhỏ và ít đặc điểm.
  • Cảnh phức tạp: Môi trường có nhiều sự che khuất hoặc lộn xộn, trong đó cần lưu giữ thông tin tối đa để phân biệt các đối tượng.

Sử dụng với Ultralytics

Một trong những lợi thế đáng kể của việc sử dụng các mô hình này là sự tích hợp của chúng vào Ultralytics hệ sinh thái. Cả hai YOLOv10 Và YOLOv9 có thể được sử dụng thông qua cùng một thống nhất Python API và Giao diện dòng lệnh ( CLI ), đơn giản hóa quy trình làm việc từ đào tạo đến triển khai .

Python Ví dụ

Đoạn mã sau đây trình bày cách tải và chạy suy luận với cả hai mô hình bằng cách sử dụng ultralytics gói.

from ultralytics import YOLO

# Load a YOLOv10 model (NMS-free, high speed)
model_v10 = YOLO("yolov10n.pt")

# Load a YOLOv9 model (High accuracy)
model_v9 = YOLO("yolov9c.pt")

# Run inference on an image
# The API remains consistent regardless of the underlying architecture
results_v10 = model_v10("https://ultralytics.com/images/bus.jpg")
results_v9 = model_v9("https://ultralytics.com/images/bus.jpg")

# Print results
for r in results_v10:
    print(f"YOLOv10 Detections: {r.boxes.shape[0]}")

for r in results_v9:
    print(f"YOLOv9 Detections: {r.boxes.shape[0]}")

Các Ultralytics Lợi thế

Lựa chọn Ultralytics cho các dự án thị giác máy tính của bạn mang lại nhiều lợi ích không chỉ dừng lại ở kiến trúc mô hình:

  • Dễ sử dụng: API thân thiện với người dùng cho phép bạn chuyển đổi giữa YOLOv9 , YOLOv10 và các mô hình khác như YOLO11 chỉ bằng cách thay đổi tên tệp trọng số.
  • Cân bằng hiệu suất: Ultralytics việc triển khai được tối ưu hóa để đạt hiệu suất thực tế, cân bằng giữa tốc độ và độ chính xác.
  • Hiệu quả đào tạo: Khung hỗ trợ các tính năng như độ chính xác hỗn hợp tự động (AMP) và đa GPU đào tạo, giúp việc đào tạo các mô hình tùy chỉnh trên tập dữ liệu của riêng bạn trở nên dễ dàng hơn.
  • Yêu cầu về bộ nhớ: Ultralytics các mô hình thường sử dụng ít bộ nhớ hơn so với các giải pháp thay thế dựa trên máy biến áp, tạo điều kiện thuận lợi cho việc đào tạo trên GPU cấp tiêu dùng.

Kết luận

Cả YOLOv10YOLOv9 đều là những cột mốc quan trọng trong lĩnh vực phát hiện đối tượng. YOLOv10 rõ ràng là lựa chọn hàng đầu cho các ứng dụng ưu tiên tốc độ và hiệu quả, nhờ vào tính năng cải tiến của nó. NMS -kiến trúc tự do. Ngược lại, YOLOv9 vẫn là lựa chọn mạnh mẽ cho các tình huống đòi hỏi độ chính xác và khả năng lưu giữ thông tin cao nhất có thể.

Đối với các nhà phát triển đang tìm kiếm giải pháp mới nhất và linh hoạt nhất, chúng tôi cũng khuyên bạn nên khám phá YOLO11 . YOLO11 dựa trên thế mạnh của những phiên bản tiền nhiệm, mang lại sự cân bằng tinh tế giữa tốc độ, độ chính xác và các tính năng cho các nhiệm vụ phát hiện, phân đoạn và ước tính tư thế.

Khám phá các Mô hình Khác

  • Ultralytics YOLO11 - Mẫu máy hiện đại mới nhất.
  • Ultralytics YOLOv8 - Một mô hình linh hoạt và hoàn thiện cho nhiều nhiệm vụ thị giác khác nhau.
  • RT-DETR - Máy dò dựa trên máy biến áp cho các ứng dụng có độ chính xác cao.

Bình luận