YOLOX so với... YOLOv9 Sự tiến hóa của phát hiện đối tượng hiệu năng cao

Trong lĩnh vực thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn mô hình phát hiện đối tượng phù hợp là rất quan trọng để cân bằng giữa độ chính xác, tốc độ và độ phức tạp triển khai. Bài so sánh này khám phá hai cột mốc quan trọng trong lĩnh vực này. YOLO Họ hàng của YOLOX bao gồm: một bộ dò không cần neo mạnh mẽ được phát hành năm 2021, và YOLOv9 , một kiến trúc năm 2024 giới thiệu Thông tin Gradient có thể lập trình (PGI) để giữ lại các đặc điểm vượt trội.

YOLOX: Người tiên phong không neo

YOLOX đại diện cho một sự thay đổi lớn trong... YOLO Dòng sản phẩm này được cải tiến bằng cách chuyển từ các cơ chế dựa trên neo sang thiết kế không neo . Sự đơn giản hóa này đã loại bỏ nhu cầu điều chỉnh hộp neo thủ công, giúp mô hình thích ứng tốt hơn với các tập dữ liệu và tỷ lệ khung hình đa dạng. Bằng cách kết hợp đầu đọc tách rời và chiến lược gán nhãn SimOTA tiên tiến, YOLOX đã đạt được kết quả vượt trội ngay khi ra mắt, thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp.

Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
Tổ chức:Megvii
Ngày: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

Tìm hiểu thêm về YOLOX

Các tính năng kiến trúc chính

Cơ chế không cần neo: Loại bỏ sự phức tạp của việc phân cụm hộp neo, giảm số lượng tham số thiết kế và cải thiện khả năng khái quát hóa.
Phân tách đầu xử lý: Tách biệt nhiệm vụ phân loại và hồi quy thành các nhánh khác nhau, giải quyết xung đột giữa hai mục tiêu này và cải thiện tốc độ hội tụ.
Phân bổ nhãn SimOTA: Một chiến lược phân bổ nhãn động xem quá trình huấn luyện như một bài toán vận chuyển tối ưu, gán dữ liệu thực tế cho các dự đoán hiệu quả hơn so với phương pháp tĩnh. IoU ngưỡng.

YOLOv9 : Gradient có thể lập trình cho học sâu

YOLOv9 giải quyết vấn đề cơ bản về mất mát thông tin trong mạng nơ-ron sâu. Khi mạng trở nên sâu hơn, thông tin đặc trưng thiết yếu có thể biến mất trong quá trình lan truyền tiến. YOLOv9 Phương pháp này giới thiệu Thông tin Độ dốc Lập trình được (PGI) và Mạng Tổng hợp Lớp Hiệu quả Tổng quát (GELAN) để bảo toàn dữ liệu quan trọng xuyên suốt các lớp mạng. Điều này dẫn đến những cải tiến đáng kể về độ chính xác phát hiện, đặc biệt đối với các mô hình nhẹ, đồng thời vẫn duy trì hiệu quả cao.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica
Ngày: 2024-02-21
Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
GitHub:WongKinYiu/yolov9
Tài liệu:Tài liệu Ultralytics YOLOv9

Tìm hiểu thêm về YOLOv9

Các tính năng kiến trúc chính

Kiến trúc GELAN: Kết hợp các nguyên tắc thiết kế của CSPNet và ELAN để tối đa hóa hiệu quả tham số và tốc độ tính toán, cho phép mô hình hoạt động hiệu quả trên nhiều phần cứng khác nhau.
Thông tin độ dốc có thể lập trình (PGI): Một khung giám sát phụ trợ tạo ra các độ dốc đáng tin cậy để cập nhật trọng số mạng, đảm bảo nhánh chính học được các đặc trưng đầy đủ ngay cả trong các kiến trúc rất sâu.
Chức năng đảo ngược: Giảm thiểu vấn đề tắc nghẽn thông tin bằng cách đảm bảo dữ liệu có thể được tái tạo hiệu quả, bảo toàn thông tin ngữ nghĩa giữa các lớp.

So sánh hiệu suất

Khi đánh giá các mô hình này, YOLOv9 thường cho hiệu quả vượt trội hơn YOLOX về tỷ lệ độ chính xác trên số tham số. Trong khi YOLOX-x đạt được mAP khá tốt là 51,1% , thì YOLOv9c mới hơn đã vượt trội hơn với 53,0% mAP trong khi sử dụng ít tham số hơn đáng kể (25,3 triệu so với 99,1 triệu) và ít năng lượng tính toán hơn. Hiệu quả này làm cho YOLOv9 Đây là ứng cử viên sáng giá hơn cho các ứng dụng thời gian thực, nơi tài nguyên phần cứng bị hạn chế nhưng độ chính xác cao lại được yêu cầu.

Tuy nhiên, YOLOX vẫn rất phù hợp với các thiết bị biên thế hệ cũ. Thiết kế đơn giản, không cần neo của nó đôi khi dễ tối ưu hóa hơn cho các chipset di động hoặc kiến trúc NPU cụ thể, vốn có thể không hỗ trợ đầy đủ các phép tổng hợp lớp phức tạp được tìm thấy trong các mô hình mới hơn như GELAN.

Số liệu chi tiết

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Điểm nổi bật về hiệu quả

Lưu ý rằng YOLOv9c đạt độ chính xác cao hơn (53,0%). mAP ) lớn hơn YOLOX-x (51,1%) mAP Trong khi sử dụng ít hơn khoảng 75% tham số . Điều này chứng tỏ sự tiến bộ nhanh chóng về hiệu quả kiến trúc trong ba năm giữa hai phiên bản này.

Huấn luyện và dễ sử dụng với Ultralytics

Yếu tố khác biệt quan trọng đối với các nhà phát triển là hệ sinh thái xung quanh mô hình. YOLOv9 được tích hợp đầy đủ vào hệ sinh thái đó. Ultralytics Hệ sinh thái, mang lại lợi thế đáng kể về khả năng sử dụng.

Lợi thế của Ultralytics

Sử dụng Ultralytics Python API cho phép bạn truy cập các mô hình hiện đại nhất với cú pháp thống nhất. Bạn không cần phải sao chép các kho lưu trữ phức tạp hoặc tự biên dịch các toán tử C++, điều này thường là một trở ngại đối với các triển khai nghiên cứu gốc như YOLOX.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

Sự tích hợp này cung cấp:

Quy trình làm việc được tối ưu hóa: Chuyển đổi liền mạch giữa các tác vụ phát hiện , phân đoạn và ước lượng tư thế .
Hiệu quả bộ nhớ: Ultralytics Các quy trình huấn luyện được tối ưu hóa cho phần cứng người tiêu dùng, thường yêu cầu ít bộ nhớ GPU hơn so với các giải pháp thay thế dựa trên Transformer hoặc các cơ sở mã nghiên cứu chưa được tối ưu hóa.
Sẵn sàng triển khai: Các chức năng xuất tích hợp cho phép bạn chuyển đổi các mô hình đã được huấn luyện sang định dạng ONNX , TensorRT , v.v. CoreML , Và TFLite Chỉ với một lệnh duy nhất.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này phụ thuộc vào các ràng buộc triển khai cụ thể của bạn.

Phân tích bán lẻ tốc độ cao

Đối với môi trường bán lẻ yêu cầu nhận diện sản phẩm theo thời gian thực trên các thiết bị đầu cuối, YOLOv9 thường là lựa chọn tối ưu. Kiến trúc GELAN của nó cho phép thông lượng cao trên các thiết bị như... NVIDIA Jetson Orin Nano, cho phép các tính năng như thanh toán tự động hoặc phân tích hàng tồn kho trên kệ mà không gây ra độ trễ đáng kể.

Triển khai di động cũ

Trong các trường hợp liên quan đến phần cứng di động cũ hơn hoặc kiến trúc NPU cụ thể ưu tiên các mẫu tích chập đơn giản, YOLOX-Nano hoặc YOLOX-Tiny vẫn có thể được ưu tiên. Thiết kế thuần túy không có neo và không có các khối tổng hợp phức tạp đôi khi dễ lượng tử hóa và triển khai hơn trên các bộ vi điều khiển rất hạn chế hoặc hệ thống cũ. Android thiết bị.

Robot tự hành

Đối với các ứng dụng robot mà việc tối đa hóa độ chính xác là tối quan trọng để tránh va chạm, khả năng giữ lại đặc điểm vượt trội của YOLOv9e cung cấp một biên độ an toàn mà các mô hình cũ hơn không thể sánh kịp. Khung PGI đảm bảo rằng các chướng ngại vật nhỏ không bị mất trong quá trình trích xuất đặc điểm, điều này rất quan trọng đối với việc điều hướng trong môi trường phức tạp.

Tương lai: Hãy cùng bước vào YOLO26

Trong khi YOLOv9 Với hiệu năng vượt trội, lĩnh vực trí tuệ nhân tạo không ngừng phát triển. Mẫu YOLO26 mới ra mắt được xây dựng dựa trên nền tảng đó để mang đến sự cân bằng tối ưu giữa tốc độ và độ chính xác.

YOLO26 giới thiệu thiết kế hoàn toàn không cần NMS (Non-Maximum Suppression), loại bỏ hoàn toàn nhu cầu sử dụng Non-Maximum Suppression trong quá trình suy luận. Điều này giúp đơn giản hóa đáng kể quy trình triển khai và tăng tốc độ thực thi. Hơn nữa, bằng cách loại bỏ Distribution Focal Loss (DFL) và sử dụng trình tối ưu hóa MuSGD mới (một sự kết hợp của...) SGD (và Muon), YOLO26 đạt được tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, trở thành lựa chọn lý tưởng cho điện toán biên hiện đại.

Đối với các nhà phát triển đang tìm kiếm giải pháp tốt nhất tuyệt đối, chúng tôi khuyên bạn nên đánh giá YOLO26 cho dự án tiếp theo của mình để tận dụng những tiến bộ hiện đại nhất trong lĩnh vực thị giác máy tính .

Các mẫu tương tự để tham khảo

YOLO11 : Một phiên bản tiền nhiệm mạnh mẽ của YOLO26, mang đến tính linh hoạt tuyệt vời cho nhiều tác vụ xử lý hình ảnh khác nhau.
RT-DETR : Một thiết bị dò dựa trên biến áp, đồng thời cũng loại bỏ... NMS , lý tưởng cho các trường hợp ưu tiên độ chính xác cao hơn tốc độ suy luận thuần túy.
YOLOv10 : Phiên bản đầu tiên YOLO mô hình để giới thiệu NMS - Mô hình đào tạo miễn phí, đóng vai trò là cầu nối đến kiến trúc YOLO26 hiện đại.

YOLOX so với... YOLOv9 Sự tiến hóa của phát hiện đối tượng hiệu năng cao

YOLOX: Người tiên phong không neo

Các tính năng kiến trúc chính

YOLOv9 : Gradient có thể lập trình cho học sâu

Các tính năng kiến trúc chính

So sánh hiệu suất

Số liệu chi tiết

Huấn luyện và dễ sử dụng với Ultralytics

Lợi thế của Ultralytics

Các ứng dụng thực tế

Phân tích bán lẻ tốc độ cao

Triển khai di động cũ

Robot tự hành

Tương lai: Hãy cùng bước vào YOLO26

Các mẫu tương tự để tham khảo

Bình luận