Chuyển đến nội dung

YOLOv9 So sánh giữa YOLOX và YOLOX: Sự tiến hóa về kiến ​​trúc và so sánh kỹ thuật.

Bài phân tích chi tiết này so sánh YOLOv9 , nổi tiếng với công nghệ Thông tin Gradient Lập trình (PGI) đột phá, với YOLOX , một bộ phát hiện đối tượng không cần neo tiên phong. Chúng tôi sẽ khám phá những khác biệt về kiến ​​trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn lựa chọn mô hình phù hợp cho các dự án thị giác máy tính của mình.

So sánh Các chỉ số Hiệu suất

Bảng sau đây so sánh các chỉ số hiệu suất chính. YOLOv9 nhìn chung thể hiện tỷ lệ độ chính xác trên hiệu năng tính toán vượt trội, đặc biệt là ở các phiên bản nhỏ hơn, vốn rất quan trọng cho việc triển khai ở biên mạng.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 , được các nhà nghiên cứu từ Viện Hàn lâm Khoa học Trung Quốc công bố vào tháng 2 năm 2024, giới thiệu những cải tiến kiến ​​trúc quan trọng nhằm giải quyết vấn đề "nút thắt cổ chai thông tin" trong mạng nơ-ron sâu.

Tìm hiểu thêm về YOLOv9

Các Đổi Mới Kiến Trúc Chính

  • Thông tin độ dốc lập trình được (PGI): PGI là một khung giám sát phụ trợ tạo ra các độ dốc đáng tin cậy để cập nhật các tham số mạng. Nó đảm bảo rằng thông tin ngữ nghĩa quan trọng không bị mất khi dữ liệu đi qua các lớp sâu, một vấn đề thường gặp trong các mô hình nhẹ.
  • Kiến trúc GELAN: Mạng tổng hợp lớp hiệu quả tổng quát (GELAN) kết hợp những ưu điểm tốt nhất của CSPNet và ELAN. Nó ưu tiên hiệu quả tham số và tốc độ suy luận, cho phép YOLOv9 Để đạt được độ chính xác cao hơn với số phép tính FLOP ít hơn so với các thế hệ trước.
  • Tính linh hoạt: Không giống như các phiên bản trước đây chỉ giới hạn ở khả năng phát hiện, YOLOv9 Hỗ trợ phân đoạn đối tượngphân đoạn toàn cảnh một cách tự nhiên, biến nó thành một lựa chọn linh hoạt cho các tác vụ thị giác phức tạp.

Đào tạo được tối ưu hóa với Ultralytics

YOLOv9 được tích hợp hoàn toàn vào Ultralytics hệ sinh thái. Bạn có thể huấn luyện mô hình trên dữ liệu tùy chỉnh với thiết lập tối thiểu, tận dụng các tính năng nâng cao như độ chính xác hỗn hợp tự động và đa lớp. GPU ủng hộ.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLOX: Người tiên phong không neo

YOLOX , được Megvii ra mắt năm 2021, là một mô hình mang tính đột phá, đã thay đổi... YOLO Mô hình hướng tới thiết kế không cần neo. Nó đơn giản hóa quy trình huấn luyện và cải thiện hiệu suất bằng cách tách rời đầu phát hiện.

Tìm hiểu thêm về YOLOX

Các tính năng kiến trúc chính

  • Cơ chế không cần neo: Bằng cách loại bỏ các hộp neo được xác định trước, YOLOX loại bỏ nhu cầu điều chỉnh neo thủ công (phân cụm) và giảm độ phức tạp của đầu dò.
  • Phân tách đầu xử lý: YOLOX tách biệt nhiệm vụ phân loại và hồi quy thành các nhánh khác nhau. Việc tách biệt này giải quyết xung đột giữa hai nhiệm vụ, dẫn đến sự hội tụ nhanh hơn và độ chính xác cao hơn.
  • Gán nhãn SimOTA: YOLOX sử dụng SimOTA (Simplified Optimal Transport Assignment), một chiến lược gán nhãn động tự động khớp các đối tượng thực tế với các dự đoán dựa trên quan điểm tối ưu hóa toàn cục.

Phân tích So sánh

Dễ sử dụng và hệ sinh thái

Một trong những yếu tố khác biệt quan trọng nhất là hệ sinh thái. YOLOv9 , như một phần của... Ultralytics Khung phần mềm này cung cấp trải nghiệm thống nhất và thân thiện với người dùng. Các nhà phát triển được hưởng lợi từ:

  • API nhất quán: Cho dù bạn đang sử dụng YOLOv9 , YOLO11 Cho dù là YOLO26 hay YOLO26 , các lệnh dùng để huấn luyện, xác thực và suy luận vẫn giống nhau.
  • Tài liệu đầy đủ: Ultralytics Cung cấp hướng dẫn chi tiết về điều chỉnh siêu tham số , xuất mô hình và các chiến lược triển khai.
  • Bảo trì thường xuyên: Các bản cập nhật thường xuyên đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất và CUDA tài xế.

Ngược lại, YOLOX thường yêu cầu thiết lập thủ công hơn, bao gồm sao chép kho lưu trữ và quản lý các phụ thuộc cụ thể, điều này có thể là rào cản đối với việc tạo mẫu nhanh.

Hiệu suất và Hiệu quả

  • Sự chính xác: YOLOv9 thường hoạt động tốt hơn YOLOX về mAP trên các kích thước mô hình tương đương. Ví dụ, YOLOv9m đạt được mAP 51,4% so với 46,9% của YOLOX-m , mặc dù có ít tham số hơn (20,0 triệu so với 25,3 triệu).
  • Tốc độ suy luận: Mặc dù YOLOX đại diện cho một bước đột phá về tốc độ vào năm 2021, nhưng các kiến ​​trúc hiện đại như GELAN trong YOLOv9 đã đẩy hiệu suất lên cao hơn nữa. YOLOv9t chạy ở tốc độ 2,3ms trên T4. GPU Điều này khiến nó rất phù hợp cho các ứng dụng thời gian thực.
  • Hiệu quả bộ nhớ: Ultralytics Các mô hình được tối ưu hóa để giảm thiểu việc sử dụng bộ nhớ GPU trong quá trình huấn luyện. Điều này cho phép các nhà nghiên cứu huấn luyện các kích thước lô lớn hơn hoặc các mô hình phức tạp hơn trên phần cứng cấp người tiêu dùng so với các kiến ​​trúc cũ hơn hoặc các mô hình dựa trên Transformer như RT-DETR .

Các Trường hợp Sử dụng

  • Hãy chọn YOLOv9 nếu: Bạn cần độ chính xác hàng đầu, yêu cầu hỗ trợ phân đoạn hoặc muốn quy trình triển khai đơn giản nhất có thể thông qua... Ultralytics API. Công ty này nổi trội trong lĩnh vực kiểm tra công nghiệp và hệ thống tự động.
  • Hãy chọn YOLOX nếu: Bạn đang bảo trì các hệ thống cũ được xây dựng trên nền tảng mã nguồn YOLOX hoặc cần hành vi cụ thể của phần đầu không có neo của nó để phục vụ cho việc so sánh nghiên cứu.

Nhìn về phía trước: Sức mạnh của YOLO26

Trong khi YOLOv9 Mặc dù vẫn là một lựa chọn tuyệt vời, lĩnh vực thị giác máy tính đang phát triển nhanh chóng. YOLO26 mới ra mắt được xây dựng dựa trên những ưu điểm của các phiên bản tiền nhiệm để mang đến giải pháp ưu tiên xử lý dữ liệu tại cạnh tối ưu.

Tìm hiểu thêm về YOLO26

YOLO26 giới thiệu một số tính năng mang tính cách mạng:

  • Giải pháp NMS từ đầu đến cuối - Không cần: Bằng cách loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximum Suppression) NMS ), YOLO26 đơn giản hóa việc triển khai và giảm sự biến động về độ trễ, một khái niệm được tiên phong trong YOLOv10 .
  • Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ quá trình huấn luyện LLM, bộ tối ưu hóa lai này đảm bảo sự hội tụ ổn định và mạnh mẽ trên nhiều kích thước lô khác nhau.
  • ProgLoss + STAL: Các hàm mất mát tiên tiến này cải thiện đáng kể khả năng phát hiện vật thể nhỏ, giúp YOLO26 trở nên lý tưởng cho ảnh chụp từ trên không và các ứng dụng máy bay không người lái.
  • Suy luận CPU nhanh hơn 43%: Với việc loại bỏ Distribution Focal Loss (DFL), YOLO26 được tối ưu hóa đặc biệt cho CPU -Chỉ các thiết bị biên như Raspberry Pi.

Đang chạy YOLO26 trong Python

Trải nghiệm tốc độ của thế hệ mới nhất chỉ với vài dòng mã:

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Kết luận

Cả hai YOLOv9 YOLOX và YOLOX đã có những đóng góp đáng kể cho việc phát hiện đối tượng. YOLOX đã phổ biến phương pháp phát hiện không cần neo, đơn giản hóa không gian thiết kế cho các mô hình tương lai. Tuy nhiên, YOLOv9 tận dụng những tiến bộ kiến ​​trúc hiện đại như PGI và GELAN để mang lại độ chính xác và hiệu quả vượt trội.

Dành cho các nhà phát triển đang tìm kiếm sự cân bằng tốt nhất giữa hiệu năng, tính dễ sử dụng và khả năng đáp ứng nhu cầu trong tương lai. Ultralytics Các mô hình như YOLOv9YOLO26 tiên tiến là những lựa chọn được khuyến nghị. Chúng cung cấp một nền tảng mạnh mẽ để giải quyết nhiều thách thức khác nhau, từ hình ảnh y tế đến giám sát thành phố thông minh .

Các mô hình liên quan

Nếu bạn đang tìm hiểu về các kiến ​​trúc phát hiện đối tượng, bạn cũng có thể quan tâm đến:

  • YOLO11 : Một phiên bản tiền nhiệm mạnh mẽ của YOLO26, nổi tiếng về độ ổn định.
  • RT-DETR : Một thiết bị dò dựa trên biến áp, cung cấp độ chính xác cao nhưng đòi hỏi nhiều tài nguyên hơn.
  • YOLOv8 : Một mô hình rất phổ biến đã giới thiệu một khung thống nhất cho việc phát hiện, phân đoạn và xác định tư thế.

Bình luận