Chuyển đến nội dung

YOLOv9 so với YOLOX: So sánh kỹ thuật toàn diện

Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định quan trọng ảnh hưởng đến hiệu quả, độ chính xác và khả năng mở rộng của các ứng dụng thị giác máy tính. Hướng dẫn này cung cấp so sánh kỹ thuật chi tiết giữa YOLOv9 , một mô hình tiên tiến được giới thiệu vào năm 2024, và YOLOX, một bộ phát hiện không cần neo hiệu suất cao được phát hành vào năm 2021.

YOLOv9 : Khắc phục tình trạng mất thông tin trong mạng sâu

YOLOv9 đại diện cho bước tiến đáng kể trong việc phát hiện đối tượng theo thời gian thực, được thiết kế để giải quyết thách thức cơ bản về mất thông tin khi dữ liệu đi qua mạng nơ-ron sâu.

Tác giả: Chien-Yao Wang, Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc, Đài Loan
Ngày: 2024-02-21
Arxiv: arXiv:2402.13616
GitHub: WongKinYiu/yolov9
Tài liệu: ultralytics

Kiến trúc và Đổi mới

Sự đổi mới cốt lõi của YOLOv9 nằm ở hai thành phần chính: Thông tin Gradient có thể lập trình (PGI)Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) .

  • Thông tin Gradient Lập trình (PGI): Trong các mạng sâu, dữ liệu đầu vào quan trọng thường bị mất trong quá trình trích xuất đặc trưng, một hiện tượng được gọi là nút thắt cổ chai thông tin. PGI cung cấp một tín hiệu giám sát phụ trợ đảm bảo việc tạo gradient đáng tin cậy, cho phép mô hình học các đặc trưng hiệu quả hơn mà không làm tăng chi phí suy luận.
  • GELAN: Thiết kế kiến trúc này tối ưu hóa việc sử dụng tham số và hiệu quả tính toán. Bằng cách khái quát hóa khái niệm Mạng Tổng hợp Lớp Hiệu quả (ELAN), GELAN cho phép xếp chồng linh hoạt các khối tính toán, tạo ra một mô hình vừa nhẹ vừa nhanh.

Những đổi mới này cho phép YOLOv9 để đạt được hiệu suất hàng đầu trên tập dữ liệu COCO , vượt trội hơn các lần lặp trước về cả độ chính xác và hiệu quả tham số.

Tìm hiểu thêm về YOLOv9

YOLOX: Tiêu chuẩn không có neo

YOLOX được giới thiệu để thu hẹp khoảng cách giữa nghiên cứu hàn lâm và ứng dụng công nghiệp, phổ biến phương pháp tiếp cận không có mỏ neo trong YOLO loạt.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức: Megvii
Ngày: 18-07-2021
Arxiv: arXiv:2107.08430
GitHub: Megvii-BaseDetection/YOLOX
Tài liệu: yolox.readthedocs.io

Các đặc điểm kiến trúc chính

YOLOX khác biệt so với trước đó YOLO phiên bản bằng cách loại bỏ hộp neo và sử dụng cấu trúc đầu tách rời .

  • Thiết kế không neo: Các máy dò truyền thống dựa vào các hộp neo được xác định trước, đòi hỏi phải điều chỉnh theo kinh nghiệm và phân cụm. YOLOX coi việc phát hiện đối tượng như một bài toán dự đoán điểm, đơn giản hóa thiết kế và cải thiện khả năng khái quát hóa trên nhiều hình dạng đối tượng khác nhau.
  • Đầu tách rời: Các tác vụ phân loại và hồi quy được xử lý trong các nhánh riêng biệt (đầu). Sự tách biệt này cho phép mô hình tối ưu hóa độc lập cho từng tác vụ, dẫn đến hội tụ nhanh hơn và độ chính xác cao hơn.
  • SimOTA: Chiến lược gán nhãn nâng cao giúp gán động các mẫu dương tính vào các đối tượng thực tế, giúp tăng cường hiệu suất hơn nữa.

Phân tích hiệu suất: Số liệu và tiêu chuẩn

Khi phân tích hiệu suất, YOLOv9 thể hiện một lợi thế rõ ràng phù hợp với kiến trúc mới hơn. Bằng cách tận dụng PGI và GELAN, YOLOv9 đạt được Độ chính xác trung bình cao hơn ( mAP ) trong khi vẫn duy trì hoặc giảm tải tính toán (FLOP) so với YOLOX.

Bảng dưới đây nêu bật sự khác biệt về hiệu suất. Đáng chú ý, YOLOv9 -C đạt được hiệu suất cao hơn đáng kể. mAP (53,0%) so với YOLOX-L (49,7%) với số lượng tham số ít hơn một nửa (25,3M so với 54,2M). Hiệu quả này làm cho YOLOv9 một lựa chọn vượt trội cho các ứng dụng bị hạn chế bởi tài nguyên phần cứng nhưng đòi hỏi độ chính xác cao.

Mô hìnhKích thước
(pixels)
mAP giá trị
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Tốc độ và hiệu quả

Trong khi YOLOX giới thiệu tốc độ ấn tượng vào năm 2021, YOLOv9 đẩy giới hạn lên một tầm cao mới. Mẫu YOLOv9 -T (Tiny) mang đến sự cân bằng vượt trội, đạt 38,3% mAP với chỉ 2,0 triệu tham số, rất phù hợp cho các ứng dụng di động và nhúng. Ngược lại, YOLOX-Nano nhỏ hơn nhưng độ chính xác lại giảm đáng kể (25,8%). mAP ).

Hiệu quả đào tạo

YOLOv9 lợi ích từ các công thức đào tạo hiện đại và tối ưu hóa Ultralytics trình huấn luyện, thường dẫn đến sự hội tụ nhanh hơn và sử dụng ít bộ nhớ hơn trong quá trình huấn luyện so với các kiến trúc cũ hơn.

Các trường hợp sử dụng lý tưởng

Việc lựa chọn giữa các mô hình này phụ thuộc vào yêu cầu cụ thể của dự án bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là lựa chọn được khuyến nghị cho hầu hết các ứng dụng thị giác máy tính hiện đại do tỷ lệ chính xác/hiệu quả vượt trội.

  • Trí tuệ nhân tạo biên thời gian thực: Triển khai trên các thiết bị như NVIDIA Jetson nơi FLOPs là quan trọng. YOLOv9 Kiến trúc nhẹ của nó tối đa hóa thông lượng.
  • Kiểm tra độ chính xác cao: Kiểm soát chất lượng công nghiệp, nơi phát hiện các lỗi nhỏ là rất quan trọng. mAP của YOLOv9 -E đảm bảo ghi lại được những chi tiết nhỏ nhất.
  • Hệ thống tự động: Robot và máy bay không người lái cần độ trễ thấp. YOLOv9 Cấu trúc đồ thị được tối ưu hóa đảm bảo suy luận nhanh mà không ảnh hưởng đến khả năng phát hiện.

Khi nào nên cân nhắc YOLOX

YOLOX vẫn là ứng cử viên mạnh mẽ cho các quy trình làm việc cũ hoặc so sánh nghiên cứu cụ thể.

  • Nghiên cứu học thuật: Đầu tách rời và thiết kế không có mỏ neo khiến nó trở thành cơ sở kinh điển để nghiên cứu các nguyên tắc cơ bản về phát hiện vật thể.
  • Triển khai kế thừa: Nếu cơ sở hạ tầng hiện có được tối ưu hóa mạnh mẽ cho kiến trúc YOLOX cụ thể (ví dụ: tùy chỉnh TensorRT (các plugin được xây dựng riêng cho đầu YOLOX), việc duy trì mô hình cũ có thể tiết kiệm chi phí trong ngắn hạn.

Các Ultralytics Lợi thế

Nhận nuôi YOLOv9 thông qua Ultralytics hệ sinh thái cung cấp những lợi thế riêng biệt so với các triển khai độc lập. Ultralytics Khung được thiết kế để hợp lý hóa toàn bộ vòng đời của Hoạt động học máy (MLOps) .

  • Dễ sử dụng: Ultralytics Python API cho phép bạn tải, đào tạo và triển khai các mô hình chỉ bằng một vài dòng mã.
  • Hệ sinh thái được duy trì tốt: Các bản cập nhật thường xuyên đảm bảo khả năng tương thích với các phiên bản mới nhất của PyTorch , ONNX , Và CUDA .
  • Tính linh hoạt: Mặc dù YOLOX chủ yếu là một máy dò đối tượng, Ultralytics Khung hỗ trợ nhiều tác vụ bao gồm ước tính tư thế , phân đoạnphân loại , cho phép bạn dễ dàng chuyển đổi kiến trúc hoặc tác vụ trong cùng một cơ sở mã.
  • Hiệu quả bộ nhớ: Ultralytics các mô hình được tối ưu hóa cho việc sử dụng bộ nhớ, ngăn ngừa lỗi Hết bộ nhớ (OOM) thường gặp khi đào tạo các mô hình phức tạp dựa trên Transformer hoặc các bộ dò cũ chưa được tối ưu hóa.

Ví dụ về mã: Chạy YOLOv9

Chạy suy luận với YOLOv9 là đơn giản bằng cách sử dụng Ultralytics bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 compact model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Tính linh hoạt xuất khẩu

YOLOv9 các mô hình được đào tạo với Ultralytics có thể dễ dàng xuất sang các định dạng như TensorRT , OpenVINOCoreML để có khả năng triển khai linh hoạt tối đa.

Kết luận và Đề xuất

Trong khi YOLOX đóng vai trò then chốt trong việc thúc đẩy phát hiện không neo, YOLOv9 vẫn là lựa chọn ưu việt cho các phát triển hiện tại. Kiến trúc PGI và GELAN tiên tiến của nó mang lại độ chính xác cao hơn với ít tham số hơn, giải quyết vấn đề tắc nghẽn thông tin vốn là hạn chế của các mạng sâu trước đây.

Đối với các nhà phát triển đang tìm kiếm hiệu suất và tính năng mới nhất, chúng tôi cũng khuyên bạn nên khám phá YOLO11 , công cụ tinh chỉnh hơn nữa các khái niệm này để đạt được tốc độ và tính linh hoạt cao hơn trên nhiều tác vụ thị giác. Tuy nhiên, để so sánh trực tiếp với YOLOX, YOLOv9 cung cấp lộ trình nâng cấp hấp dẫn giúp giảm chi phí tính toán đồng thời tăng cường độ tin cậy phát hiện.

Khám phá các Mô hình Khác

Mở rộng kiến thức của bạn bằng cách so sánh các mô hình hàng đầu khác trong Ultralytics hệ sinh thái:


Bình luận