Chuyển đến nội dung

YOLOv9 so với YOLOv10 Phân tích chuyên sâu về mặt kỹ thuật sự phát triển của công nghệ phát hiện đối tượng trong thời gian thực:

Lĩnh vực thị giác máy tính thời gian thực đã chứng kiến ​​những bước tiến vượt bậc, phần lớn nhờ vào việc các nhà nghiên cứu liên tục đẩy mạnh giới hạn hiệu suất-hiệu quả. Khi phân tích sự phát triển của các mô hình thị giác tiên tiến nhất, YOLOv9YOLOv10 đại diện cho hai cột mốc quan trọng. Được phát hành vào đầu năm 2024, cả hai mô hình đều giới thiệu các thiết kế kiến ​​trúc mang tính đột phá để giải quyết những thách thức lâu dài trong mạng nơ-ron sâu, từ tắc nghẽn thông tin đến độ trễ xử lý hậu kỳ.

Bản so sánh kỹ thuật toàn diện này sẽ khám phá kiến ​​trúc, các chỉ số hiệu năng và các kịch bản triển khai lý tưởng của chúng, giúp bạn định hướng trong việc giải quyết sự phức tạp của hệ sinh thái phát hiện đối tượng hiện đại.

Nguồn gốc mô hình và những đột phá kiến ​​trúc

Hiểu rõ nguồn gốc và nền tảng lý thuyết của các mô hình này là điều vô cùng quan trọng để lựa chọn kiến ​​trúc phù hợp cho dự án thị giác máy tính cụ thể của bạn.

YOLOv9 Nắm vững luồng thông tin

Được giới thiệu vào ngày 21 tháng 2 năm 2024, YOLOv9 Bài viết này giải quyết vấn đề lý thuyết về sự mất mát thông tin khi dữ liệu truyền qua mạng nơ-ron sâu.

YOLOv9 Giới thiệu Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN) , giúp tối đa hóa việc sử dụng tham số bằng cách kết hợp thế mạnh của CSPNet và ELAN. Hơn nữa, nó sử dụng Thông tin Độ dốc Có thể Lập trình (PGI) , một cơ chế giám sát phụ trợ đảm bảo các lớp sâu giữ lại thông tin không gian quan trọng. Điều này làm cho YOLOv9 Đặc biệt mạnh mẽ đối với các tác vụ đòi hỏi độ chính xác chi tiết cao, chẳng hạn như phân tích hình ảnh y tế hoặc giám sát từ xa.

Tìm hiểu thêm về YOLOv9

YOLOv10 Hiệu quả đầu cuối theo thời gian thực

Được phát hành ngay sau đó vào ngày 23 tháng 5 năm 2024, YOLOv10 Tái cấu trúc quy trình triển khai bằng cách loại bỏ một trong những nút thắt gây độ trễ khét tiếng nhất trong phát hiện đối tượng: Loại bỏ các đối tượng không phải là cực đại (Non-Maximum Suppression) NMS ).

YOLOv10 Sử dụng phương pháp gán nhiệm vụ kép nhất quán trong quá trình huấn luyện, cho phép thiết kế không phụ thuộc vào NMS . Điều này loại bỏ chi phí xử lý hậu kỳ trong quá trình suy luận, giảm đáng kể độ trễ. Kết hợp với thiết kế mô hình toàn diện hướng đến hiệu quả và độ chính xác, YOLOv10 Nó đạt được sự cân bằng vượt trội, giảm thiểu chi phí tính toán (FLOPs) trong khi vẫn duy trì độ chính xác cạnh tranh, khiến nó trở nên rất hấp dẫn cho các ứng dụng điện toán biên .

Tìm hiểu thêm về YOLOv10

So sánh hiệu năng và số liệu

Khi so sánh hiệu năng của hai "cỗ máy" mạnh mẽ này trên hệ điều hành MS tiêu chuẩn. COCO Với tập dữ liệu này, sẽ xuất hiện những sự đánh đổi rõ rệt giữa độ chính xác thuần túy và độ trễ suy luận.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Phân tích dữ liệu

  1. Độ trễ so với độ chính xác: YOLOv10 Các mô hình thường cung cấp tốc độ suy luận vượt trội. Ví dụ, YOLOv10s đạt được 46,7%. mAP chỉ với 2,66ms trên TensorRT so với YOLOv9s, vốn cần 3,54ms để đạt được tỷ lệ gần như tương đương là 46,8%. mAP .
  2. Độ chính xác hàng đầu: Đối với các kịch bản nghiên cứu đòi hỏi độ chính xác phát hiện tối đa, YOLOv9e vẫn là một lựa chọn đáng gờm, đạt độ chính xác ấn tượng 55,6%. mAP Kiến trúc PGI của nó đảm bảo các đặc điểm tinh tế được trích xuất một cách đáng tin cậy.
  3. Hiệu quả: YOLOv10 Vượt trội về hiệu suất FLOPs . Điều này trực tiếp dẫn đến mức tiêu thụ điện năng thấp hơn, một chỉ số quan trọng đối với các thiết bị chạy bằng pin sử dụng mô hình AI thị giác .

Mẹo triển khai

Nếu bạn đang triển khai trên CPU hoặc phần cứng biên có tài nguyên hạn chế như Raspberry Pi, YOLOv10 'S NMS Kiến trúc không phụ thuộc thường mang lại quy trình mượt mà hơn bằng cách loại bỏ các bước xử lý hậu kỳ không xác định.

Cái Ultralytics Ưu điểm: Đào tạo và hệ sinh thái

Mặc dù sự khác biệt về kiến ​​trúc rất quan trọng, nhưng hệ sinh thái phần mềm xung quanh lại ảnh hưởng rất lớn đến sự thành công của dự án. Cả hai YOLOv9 Và YOLOv10 được tích hợp hoàn toàn vào hệ sinh thái Ultralytics , mang đến trải nghiệm phát triển vượt trội.

Dễ sử dụng và hiệu quả bộ nhớ

Không giống như các kiến ​​trúc dựa trên bộ chuyển đổi phức tạp thường gặp phải vấn đề phình to bộ nhớ, Ultralytics YOLO Các mô hình được thiết kế để tối ưu hóa việc sử dụng bộ nhớ GPU . Điều này cho phép các nhà nghiên cứu sử dụng kích thước lô lớn hơn trên phần cứng cấp người tiêu dùng, giúp cho trí tuệ nhân tạo tiên tiến trở nên dễ tiếp cận hơn.

Sự thống nhất Python API đơn giản hóa các vấn đề phức tạp liên quan đến tăng cường dữ liệutinh chỉnh siêu tham số . Bạn có thể dễ dàng chuyển đổi giữa các kiến ​​trúc chỉ bằng cách thay đổi chuỗi trong tệp trọng số.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Cho dù bạn cần ghi nhật ký số liệu vào MLflow hay xuất sang TensorRT để triển khai phần cứng tốc độ cao, thì... Ultralytics Nền tảng xử lý việc này một cách tự nhiên.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các mô hình này phụ thuộc vào các ràng buộc triển khai của bạn:

  • Hãy chọn YOLOv9 nếu: Bạn đang thực hiện các tác vụ phát hiện vật thể nhỏ , chẳng hạn như ảnh chụp từ máy bay không người lái hoặc phát hiện các khối u nhỏ , trong đó khả năng giữ lại đặc điểm của kiến ​​trúc GELAN mang lại độ chính xác cao nhất.
  • Hãy chọn YOLOv10 nếu: Mục tiêu chính của bạn là suy luận thời gian thực trên các thiết bị biên. NMS - Thiết kế không cần khe cắm thẻ nhớ khiến nó trở nên hoàn hảo cho robot tự hành, giám sát giao thông thời gian thực và hệ thống giám sát thông minh .

Đảm bảo tương lai: Chuyển đổi sang YOLO26

Trong khi YOLOv8 , YOLOv9 , Và YOLOv10 Với những mô hình xuất sắc này, các nhà phát triển muốn xây dựng các giải pháp AI hiện đại nên cân nhắc Ultralytics YOLO26 , được phát hành vào tháng 1 năm 2026.

YOLO26 là sự tổng hợp hoàn hảo của các thế hệ trước, kết hợp những ưu điểm tốt nhất của chúng. YOLOv9 độ chính xác của và YOLOv10 hiệu quả của nó.

Những đổi mới chính của YOLO26

  • Hệ NMS từ đầu đến cuối - Thiết kế miễn phí: Xây dựng dựa trên nền tảng đã được thiết lập bởi YOLOv10 YOLO26 loại bỏ một cách tự nhiên NMS Xử lý hậu kỳ để đơn giản hóa việc triển khai.
  • MuSGD Optimizer: Một sự kết hợp của... SGD và Muon, mang đến những cải tiến đột phá trong đào tạo LLM cho thị giác máy tính, giúp đạt được sự hội tụ cực kỳ ổn định và nhanh chóng.
  • Tăng tốc độ suy luận CPU lên đến 43%: Được tối ưu hóa đặc biệt cho điện toán biên và các thiết bị không có GPU chuyên dụng.
  • Loại bỏ DFL: Hiện tượng suy hao tiêu điểm phân bố (Distribution Focal Loss - DFL) đã được loại bỏ để đơn giản hóa việc xuất mô hình và tăng khả năng tương thích với các thiết bị công suất thấp.
  • ProgLoss + STAL: Các hàm mất mát được cải tiến này mang lại những cải thiện đáng kể trong việc nhận dạng, so khớp hoặc vượt trội các đối tượng nhỏ. YOLOv9 khả năng của nó.

Đối với các nhà nghiên cứu đang đánh giá các kiến ​​trúc cũ, RT-DETRYOLO11 cũng là những lựa chọn thay thế được ghi chép đầy đủ. Ultralytics hệ sinh thái. Tuy nhiên, để đạt được tính linh hoạt tối đa trong tất cả các tác vụ xử lý hình ảnh, việc chuyển sang YOLO26 trên Nền tảng Ultralytics đảm bảo bạn đang tận dụng tối đa công nghệ AI xử lý hình ảnh mã nguồn mở hàng đầu.


Bình luận