Chuyển đến nội dung

YOLOv9 so với YOLOv7 Khám phá sự tiến hóa của công nghệ phát hiện đối tượng tiên tiến nhất.

Trong lĩnh vực thị giác máy tính đang phát triển nhanh chóng, việc cập nhật những kiến ​​trúc mới nhất là rất quan trọng để xây dựng các ứng dụng hiệu quả và chính xác. Bài so sánh này đi sâu vào hai cột mốc quan trọng trong lĩnh vực này. YOLO Dòng dõi của (You Only Look Once): YOLOv9 , được giới thiệu vào đầu năm 2024 với các kỹ thuật tối ưu hóa gradient mới, và YOLOv7 , chuẩn mực năm 2022 cho việc phát hiện đối tượng trong thời gian thực. Cả hai mô hình đều đã định hình nên lĩnh vực phát hiện đối tượng , mang lại những thế mạnh độc đáo cho cả nhà nghiên cứu và nhà phát triển.

Điểm chuẩn hiệu suất

Bảng sau đây nêu bật các chỉ số hiệu suất của YOLOv9 Và YOLOv7 trên tập dữ liệu COCO . Trong khi đó YOLOv7 Đặt ra tiêu chuẩn cao về tốc độ và độ chính xác trong năm 2022. YOLOv9 Giới thiệu những cải tiến về kiến ​​trúc giúp đẩy các giới hạn này tiến xa hơn, đặc biệt là về hiệu quả tham số.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: Thông tin Gradient có thể lập trình

YOLOv9 Nó thể hiện sự thay đổi trong cách các kiến ​​trúc học sâu quản lý luồng thông tin. Được phát hành vào tháng 2 năm 2024 bởi Chien-Yao Wang và Hong-Yuan Mark Liao, nó giải quyết vấn đề "nút thắt cổ chai thông tin" nơi dữ liệu bị mất khi truyền qua các lớp sâu.

Các Đổi Mới Kiến Trúc Chính

Sự đổi mới cốt lõi của YOLOv9 PGI (Programmable Gradient Information) là một phương pháp hiệu quả. PGI cung cấp một khung giám sát phụ trợ, đảm bảo nhánh chính giữ lại thông tin đặc trưng quan trọng trong suốt quá trình huấn luyện. Điều này được bổ sung bởi kiến ​​trúc GELAN (Generalized Efficient Layer Aggregation Network) , giúp tối ưu hóa việc sử dụng tham số vượt trội so với các phương pháp trước đây như CSPNet.

Tìm hiểu thêm về YOLOv9

YOLOv7: Túi quà tặng có thể huấn luyện

YOLOv7 Được thiết kế để trở thành công cụ phát hiện vật thể thời gian thực nhanh nhất và chính xác nhất khi ra mắt vào tháng 7 năm 2022. Nó đã giới thiệu một số "túi quà tặng miễn phí" - các phương pháp tối ưu hóa giúp cải thiện độ chính xác mà không làm tăng chi phí suy luận.

Các Đổi Mới Kiến Trúc Chính

YOLOv7 Tập trung vào E-ELAN (Extended Efficient Layer Aggregation Network) , cho phép mạng học được nhiều đặc điểm đa dạng hơn bằng cách kiểm soát các đường dẫn gradient ngắn nhất và dài nhất. Nó cũng tiên phong trong các kỹ thuật điều chỉnh tỷ lệ mô hình, đồng thời điều chỉnh độ sâu và độ rộng, giúp nó thích ứng cao với các hạn chế phần cứng khác nhau.

Tìm hiểu thêm về YOLOv7

Phân tích so sánh: Kiến trúc và các trường hợp sử dụng

Độ chính xác và khả năng duy trì tính năng

YOLOv9 thường có hiệu suất vượt trội YOLOv7 Trong các tình huống yêu cầu phát hiện các vật thể nhỏ hoặc bị che khuất, khung PGI đảm bảo rằng độ dốc không bị pha loãng, điều này đặc biệt có lợi cho việc phân tích hình ảnh y tế, nơi việc bỏ sót một bất thường nhỏ có thể rất nghiêm trọng. YOLOv7 Đây vẫn là lựa chọn mạnh mẽ cho việc phát hiện mục đích chung, nhưng có thể gặp khó khăn hơn một chút với các điểm nghẽn thông tin cực độ trong các mạng nơ-ron rất sâu.

Tốc độ và hiệu quả suy luận

Mặc dù cả hai mô hình đều được thiết kế cho các ứng dụng thời gian thực, YOLOv9 Nó mang lại sự cân bằng tốt hơn giữa số lượng tham số và độ chính xác. Ví dụ, YOLOv9c đạt được độ chính xác tương tự như YOLOv7x nhưng với số lượng tham số (25,3 triệu so với 71,3 triệu) và số phép tính FLOPs ít hơn đáng kể. Điều này làm cho YOLOv9 Thích hợp hơn để triển khai trên các thiết bị có băng thông bộ nhớ bị hạn chế, chẳng hạn như camera AI biên .

Tính linh hoạt triển khai

Ultralytics Các mẫu xe này nổi tiếng về tính di động. Cả hai YOLOv9 Và YOLOv7 có thể dễ dàng xuất sang các định dạng như ONNXTensorRT bằng cách sử dụng Ultralytics Python API, giúp đơn giản hóa quy trình từ nghiên cứu đến sản xuất.

Hiệu quả huấn luyện

Một lợi thế lớn của Ultralytics Hệ sinh thái là sự tối ưu hóa việc sử dụng bộ nhớ trong quá trình huấn luyện. YOLOv9 , được tích hợp nguyên bản vào Ultralytics Nó mang lại lợi ích từ các trình tải dữ liệu hiệu quả và quản lý bộ nhớ. Điều này cho phép các nhà phát triển huấn luyện các mô hình cạnh tranh trên các GPU cấp người tiêu dùng (ví dụ: RTX 3060 hoặc 4070) mà không gặp phải lỗi Hết bộ nhớ (Out-Of-Memory - OOM) thường gặp với các kiến ​​trúc nặng về transformer hoặc các kho lưu trữ chưa được tối ưu hóa.

Các ứng dụng thực tế

Việc lựa chọn giữa các mô hình này thường phụ thuộc vào môi trường triển khai cụ thể.

  • Xe tự hành: YOLOv7 đã được thử nghiệm rộng rãi trong các kịch bản lái xe tự hành , chứng minh độ tin cậy của nó trong việc phát hiện người đi bộ và biển báo giao thông ở tốc độ khung hình cao.
  • Hình ảnh y tế: YOLOv9 vượt trội trong lĩnh vực hình ảnh y tế , chẳng hạn như phát hiện khối u hoặc gãy xương, nơi việc bảo toàn chi tiết nhỏ xuyên suốt các lớp sâu là vô cùng quan trọng.
  • Phân tích bán lẻ: Đối với quản lý tồn kho , YOLOv9 cung cấp độ chính xác cao trong việc đếm các mặt hàng được xếp san sát nhau trên kệ, tận dụng khả năng tích hợp tính năng vượt trội của nó.
  • Thành phố thông minh: Hệ thống giám sát giao thông được hưởng lợi từ tính ổn định và tốc độ đã được chứng minh của YOLOv7 , yếu tố thiết yếu cho việc quản lý giao thông theo thời gian thực .

Lợi thế của Ultralytics

Sử dụng một trong hai mô hình trong Ultralytics Hệ sinh thái mang lại những lợi ích khác biệt so với các triển khai độc lập:

  1. Dễ sử dụng: API thống nhất cho phép bạn chuyển đổi giữa các hệ thống khác nhau. YOLOv7 , YOLOv9 và các mẫu mới hơn chỉ với một dòng mã.
  2. Hệ sinh thái được duy trì tốt: Sự hỗ trợ tích cực từ cộng đồng và các bản cập nhật thường xuyên đảm bảo khả năng tương thích với các phiên bản PyTorch mới nhất. CUDA tài xế.
  3. Tính linh hoạt: Vượt xa khả năng phát hiện, Ultralytics Khung phần mềm hỗ trợ các tác vụ phân đoạn đối tượng , ước lượng tư thếhộp giới hạn định hướng (OBB) , cho phép bạn mở rộng phạm vi dự án mà không cần học các công cụ mới.

Ví dụ mã: Huấn luyện với Ultralytics

Việc huấn luyện cả hai mô hình đều diễn ra suôn sẻ. Dưới đây là cách bạn có thể huấn luyện một mô hình: YOLOv9 Mô hình trên tập dữ liệu tùy chỉnh:

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Đảm bảo tương lai với YOLO26

Trong khi YOLOv9 Và YOLOv7 Mặc dù vẫn là những công cụ mạnh mẽ, lĩnh vực này đang phát triển nhanh chóng. Phiên bản YOLO26 mới nhất, được phát hành vào tháng 1 năm 2026, đại diện cho công nghệ thị giác máy tính tiên tiến nhất hiện nay.

YOLO26 sở hữu thiết kế hoàn toàn không cần NMS , loại bỏ độ trễ xử lý hậu kỳ giúp triển khai đơn giản hơn. Nó loại bỏ hiện tượng mất tiêu điểm phân tán (DFL) để cải thiện khả năng tương thích ở biên và giới thiệu trình tối ưu hóa MuSGD — một sự kết hợp giữa... SGD và Muon được lấy cảm hứng từ quá trình huấn luyện LLM—mang lại sự ổn định chưa từng có. Với các hàm mất mát chuyên dụng như ProgLoss + STAL , YOLO26 cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, trở thành lựa chọn được khuyến nghị cho các ứng dụng hiệu năng cao mới.

Tìm hiểu thêm về YOLO26

Đối với những ai đang tìm kiếm các lựa chọn khác, các mẫu như YOLO11RT-DETR cũng cung cấp những ưu điểm độc đáo cho các trường hợp sử dụng cụ thể. Ultralytics Bác sĩ.


Bình luận