Chuyển đến nội dung

YOLOv10 so với YOLOv9 Nâng cao khả năng phát hiện đối tượng trong thời gian thực

Năm 2024 đánh dấu một thời kỳ đổi mới nhanh chóng trong lĩnh vực phát hiện đối tượng , với sự ra mắt của hai kiến ​​trúc quan trọng: YOLOv10YOLOv9 . Mặc dù cả hai mô hình đều hướng đến việc vượt qua giới hạn về tốc độ và độ chính xác, nhưng chúng đạt được điều này thông qua các triết lý kiến ​​trúc khác biệt về cơ bản.

YOLOv10 tập trung vào việc loại bỏ độ trễ suy luận do xử lý hậu kỳ gây ra thông qua một NMS -thiết kế miễn phí, trong khi YOLOv9 Nhấn mạnh việc lưu giữ thông tin trong mạng nơ-ron sâu bằng cách sử dụng Thông tin Gradient có thể lập trình (PGI).

So sánh hiệu suất

Bảng sau đây cung cấp cái nhìn chi tiết về cách các mô hình này so sánh với các tiêu chuẩn đánh giá thông thường. Dữ liệu nêu bật sự đánh đổi giữa hiệu quả tham số, tốc độ suy luận và độ chính xác phát hiện ( mAP ).

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: Tiên phong End-to-End

YOLOv10 , được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa , thể hiện sự chuyển dịch hướng tới xử lý từ đầu đến cuối. Được phát hành vào ngày 23 tháng 5 năm 2024 bởi Ao Wang, Hui Chen và các đồng nghiệp, nó giải quyết nút thắt cổ chai của phương pháp loại bỏ cực đại không đồng nhất (Non-Maximum Suppression). NMS ).

Tìm hiểu thêm về YOLOv10

Các tính năng kiến trúc chính

  • NMS - Đào tạo miễn phí: Bằng cách áp dụng các nhiệm vụ kép nhất quán, YOLOv10 loại bỏ sự cần thiết của NMS Trong quá trình suy luận, điều này giúp giảm độ trễ và đơn giản hóa quy trình triển khai, đặc biệt là đối với các ứng dụng điện toán biên .
  • Thiết kế hiệu quả toàn diện: Kiến trúc tối ưu hóa các thành phần khác nhau để giảm chi phí tính toán (FLOPs) trong khi vẫn duy trì khả năng cao.
  • Độ trễ được cải thiện: Như thể hiện trong bảng, YOLOv10 Các mô hình này thường có thời gian suy luận ngắn hơn so với các mô hình khác. YOLOv9 Các sản phẩm tương ứng với mức độ chính xác tương đương.

Để biết thêm chi tiết kỹ thuật, bạn có thể tham khảo bài báo YOLOv10 trên arXiv .

YOLOv9 Nắm vững luồng thông tin

YOLOv9 , được Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Hàn lâm Khoa học Trung Quốc công bố vào ngày 21 tháng 2 năm 2024 , tập trung vào vấn đề lý thuyết về sự mất mát thông tin trong mạng nơ-ron sâu.

Tìm hiểu thêm về YOLOv9

Các tính năng kiến trúc chính

  • Kiến trúc GELAN: Mạng tổng hợp lớp hiệu quả tổng quát kết hợp những ưu điểm của CSPNet và ELAN để tối đa hóa việc sử dụng tham số.
  • Thông tin độ dốc có thể lập trình (PGI): Cơ chế giám sát phụ trợ này đảm bảo các lớp sâu giữ lại thông tin quan trọng để phát hiện chính xác, giúp mô hình hoạt động hiệu quả cao đối với các tác vụ đòi hỏi độ chính xác cao.
  • Độ chính xác cao: Mô hình YOLOv9e đạt được độ chính xác ấn tượng. mAP Giá trị val là 55,6%, vượt trội hơn nhiều sản phẩm cùng loại về độ chính xác phát hiện thuần túy.

Để tìm hiểu sâu hơn, hãy đọc bài báo YOLOv9 trên arXiv .

Huấn luyện và Dễ sử dụng

Cả hai mô hình đều được tích hợp hoàn toàn vào hệ thống. Ultralytics Hệ sinh thái này cung cấp trải nghiệm thống nhất và liền mạch cho các nhà phát triển. Cho dù bạn đang sử dụng YOLOv10 hoặc YOLOv9 API Python Ultralytics giúp đơn giản hóa sự phức tạp của các quy trình huấn luyện, tăng cường dữ liệu và ghi nhật ký.

Ví dụ mã

Huấn luyện mô hình trên tập dữ liệu tùy chỉnh hoặc bộ dữ liệu chuẩn như... COCO8 Rất đơn giản. Khung phần mềm tự động xử lý sự khác biệt về kiến ​​trúc.

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Hiệu quả bộ nhớ

Ultralytics YOLO Các mô hình được thiết kế để tối ưu hóa việc sử dụng bộ nhớ GPU . So với các kiến ​​trúc dựa trên Transformer hoặc các mô hình phát hiện cũ hơn, chúng cho phép kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng, giúp AI tiên tiến trở nên dễ tiếp cận hơn với nhiều người.

Các trường hợp sử dụng lý tưởng

Lựa chọn giữa YOLOv10 Và YOLOv9 Điều này thường phụ thuộc vào các ràng buộc cụ thể của môi trường triển khai của bạn.

Khi nào nên chọn YOLOv10

  • Ràng buộc độ trễ thấp: Nếu ứng dụng của bạn chạy trên thiết bị di động hoặc hệ thống nhúng, nơi mỗi mili giây đều quan trọng, thì... NMS - Thiết kế miễn phí của YOLOv10 mang lại một lợi thế đáng kể.
  • Triển khai đơn giản: Loại bỏ các bước xử lý hậu kỳ giúp đơn giản hóa việc xuất sang các định dạng như ONNX hoặc TensorRT , giảm nguy cơ không tương thích với các nhà mạng.
  • Video thời gian thực: Lý tưởng cho việc quản lý giao thông hoặc các dây chuyền sản xuất tốc độ cao, nơi năng suất là yếu tố then chốt.

Khi nào nên chọn YOLOv9

  • Độ chính xác tối đa: Đối với các ứng dụng nghiên cứu hoặc các tình huống mà độ chính xác là tối quan trọng (ví dụ: phân tích hình ảnh y tế ), kiến ​​trúc được tăng cường PGI của YOLOv9e mang lại kết quả vượt trội.
  • Phát hiện vật thể nhỏ: Khả năng bảo toàn đặc trưng phong phú của GELAN giúp... YOLOv9 Đặc biệt hiệu quả trong việc phát hiện các vật thể nhỏ hoặc bị che khuất trong ảnh chụp từ trên không .
  • Các cảnh phức tạp: Trong môi trường có nhiều chi tiết hình ảnh rối mắt, thông tin về độ dốc có thể lập trình giúp mô hình phân biệt các đặc điểm quan trọng hiệu quả hơn.

Tương lai đã đến: YOLO26

Trong khi YOLOv9 Và YOLOv10 Với vai trò là những công cụ mạnh mẽ, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. Ultralytics Mới đây, YOLO26 đã được ra mắt, một mô hình tổng hợp những tính năng tốt nhất của các thế hệ trước đồng thời giới thiệu những tối ưu hóa mang tính đột phá.

Tìm hiểu thêm về YOLO26

YOLO26 là lựa chọn được khuyến nghị cho các dự án mới, mang lại sự cân bằng vượt trội giữa tốc độ, độ chính xác và tính linh hoạt.

Tại sao nên nâng cấp lên YOLO26?

  • NMS từ đầu đến cuối - Miễn phí: Giống như YOLOv10 YOLO26 là hệ thống end-to-end hoàn chỉnh. Nó loại bỏ... NMS Xử lý hậu kỳ, đảm bảo suy luận nhanh hơn và quy trình triển khai đơn giản hơn.
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM) (cụ thể là Kimi K2 của Moonshot AI), YOLO26 sử dụng sự kết hợp của... SGD và trình tối ưu hóa Muon. Điều này giúp quá trình huấn luyện ổn định hơn đáng kể và hội tụ nhanh hơn.
  • Loại bỏ DFL: Bằng cách loại bỏ hiện tượng suy hao tiêu điểm phân tán (Distribution Focal Loss - DFL), YOLO26 đơn giản hóa kiến ​​trúc mô hình, giúp việc xuất dữ liệu dễ dàng hơn và tương thích với nhiều thiết bị biên/công suất thấp hơn.
  • Bước nhảy vọt về hiệu suất: Các tối ưu hóa nhắm mục tiêu cụ thể vào CPU Khả năng suy luận này mang lại tốc độ nhanh hơn tới 43% so với các thế hệ trước, biến nó thành một công cụ mạnh mẽ cho trí tuệ nhân tạo biên (edge ​​AI) .
  • Tính linh hoạt trong công việc: Khác với các phiên bản v9 và v10 tập trung vào phát hiện, YOLO26 bao gồm các cải tiến chuyên biệt cho tất cả các tác vụ:
    • Phân đoạn: Hàm mất mát phân đoạn ngữ nghĩa mới và nguyên mẫu đa tỷ lệ.
    • Tư thế: Ước lượng logarit xác suất dư (RLE) cho các điểm đặc trưng có độ chính xác cao.
    • OBB: Phương pháp tính toán góc mất mát chuyên biệt để xử lý các vấn đề về ranh giới trong các tác vụ Hộp giới hạn định hướng (Oriented Bounding Box ).

Quy trình làm việc được tối ưu hóa với Ultralytics Nền tảng

Các nhà phát triển có thể tận dụng Nền tảng Ultralytics (trước đây là HUB) để quản lý toàn bộ vòng đời của các mô hình YOLO26 của họ. Từ việc chú thích tập dữ liệu đến huấn luyện trên đám mây và triển khai đến các thiết bị biên, Nền tảng cung cấp một giao diện thống nhất giúp đẩy nhanh thời gian đưa sản phẩm ra thị trường.

Kết luận

Cả YOLOv10YOLOv9 đều đại diện cho những cột mốc quan trọng trong lịch sử phát hiện đối tượng. YOLOv10 đã chứng minh rằng NMS Các kiến ​​trúc không phụ thuộc vào bộ nhớ có thể đạt được hiệu năng tiên tiến nhất, trong khi YOLOv9 Điều này đã chứng minh tầm quan trọng của luồng thông tin gradient trong các mạng nơ-ron sâu.

Tuy nhiên, đối với các nhà phát triển đang tìm kiếm giải pháp mạnh mẽ, linh hoạt và có khả năng đáp ứng nhu cầu trong tương lai, YOLO26 nổi bật như một lựa chọn hàng đầu. Bằng cách kết hợp... NMS Với thiết kế không cần cấu hình phức tạp, trình tối ưu hóa MuSGD mang tính cách mạng và khả năng hỗ trợ nhiều tác vụ, YOLO26 mang đến sự cân bằng hiệu năng tốt nhất cho các ứng dụng thị giác máy tính hiện đại.

  • YOLO11 - Phiên bản tiền nhiệm mạnh mẽ của YOLO26, nổi tiếng về tính ổn định.
  • YOLOv8 - Một phần mềm kinh điển đa năng được sử dụng rộng rãi trong công nghiệp.
  • RT-DETR - Bộ dò thời gian thực dựa trên biến áp.

Bình luận