Chuyển đến nội dung

YOLOv9 so với YOLOv8 Phân tích chuyên sâu về công nghệ nhận diện đối tượng hiện đại

Lĩnh vực thị giác máy tính thời gian thực đã phát triển vượt bậc trong vài năm qua, với mỗi mô hình mới đều đẩy mạnh giới hạn lý thuyết về những gì có thể thực hiện được trên cả thiết bị biên và máy chủ đám mây. Khi so sánh kiến ​​trúc YOLOv9 mới hơn với khung Ultralytics YOLOv8 rất phổ biến, các nhà phát triển thường phải đối mặt với sự lựa chọn giữa các lộ trình gradient lý thuyết tiên tiến và một hệ sinh thái đã được kiểm chứng qua thực tế và sẵn sàng cho sản xuất.

Hướng dẫn toàn diện này so sánh hai "ông lớn" này, phân tích những cải tiến về kiến ​​trúc, chỉ số hiệu năng và kịch bản triển khai lý tưởng để giúp bạn chọn được mô hình phù hợp cho dự án trí tuệ nhân tạo tiếp theo của mình.

Thông số kỹ thuật và tác giả

Việc hiểu rõ nguồn gốc của các mẫu xe này cung cấp bối cảnh thiết yếu cho những lựa chọn thiết kế tương ứng của chúng.

YOLOv9 được biên soạn bởi Chien-Yao Wang và Hong-Yuan Mark Liao tại Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Đài Loan. YOLOv9 Dự án được phát hành vào ngày 21 tháng 2 năm 2024. Nghiên cứu cốt lõi tập trung vào việc giải quyết nút thắt thông tin trong mạng nơ-ron sâu. Bạn có thể tìm hiểu bài báo nghiên cứu gốc về YOLOv9 trên Arxiv hoặc xem mã nguồn trong kho lưu trữ GitHub chính thức YOLOv9 .

Tìm hiểu thêm về YOLOv9

Ultralytics YOLOv8 được phát triển bởi Glenn Jocher, Ayush Chaurasia và Jing Qiu tại Ultralytics , YOLOv8 Được ra mắt vào ngày 10 tháng 1 năm 2023, Ultralytics đã khẳng định vị thế là tiêu chuẩn ngành về tính linh hoạt, cung cấp API thống nhất cho vô số các tác vụ xử lý hình ảnh. Mã nguồn được duy trì trong kho lưu trữ GitHub chính Ultralytics , đảm bảo cập nhật liên tục và ổn định lâu dài.

Tìm hiểu thêm về YOLOv8

Đổi mới Kiến trúc

YOLOv9: Thông tin Gradient có thể lập trình

Đặc điểm nổi bật của YOLOv9 Điểm nổi bật của nó là việc giới thiệu Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN). Khi mạng nơ-ron tích chập trở nên sâu hơn, chúng thường mất thông tin đặc trưng quan trọng trong quá trình truyền tiến. PGI giải quyết nút thắt thông tin này bằng cách giữ lại các gradient chính xác được sử dụng để cập nhật trọng số, đảm bảo trích xuất đặc trưng đáng tin cậy. Kiến trúc này tối đa hóa hiệu quả tham số, cho phép YOLOv9 Để đạt được độ chính xác cao với số lượng phép toán dấu phẩy động (FLOP) ít hơn.

YOLOv8 : Chú ngựa thồ đa năng

YOLOv8 đã giới thiệu một cơ chế phát hiện không cần neo được tinh giản, giúp giảm số lượng dự đoán hộp và tăng tốc độ loại bỏ cực đại cục bộ (Non-Maximum Suppression). NMS ) trong quá trình xử lý hậu kỳ. Mô-đun C2f (Cross-Stage Partial Bottleneck with two convolutions) của nó cải thiện luồng gradient trên toàn mạng so với các mô hình cũ hơn. Quan trọng hơn, YOLOv8 Được thiết kế với mục tiêu đa năng , hỗ trợ sẵn các chức năng phát hiện đối tượng, phân đoạn đối tượng , ước lượng tư thế , phân loại hình ảnh và trích xuất hộp giới hạn định hướng (OBB) ngay từ đầu.

Tích hợp hệ sinh thái

Trong khi YOLOv9 Cung cấp các chỉ số phát hiện thô vượt trội, việc tích hợp chúng một cách tự nhiên vào các quy trình phức tạp có thể là một thách thức. Tận dụng YOLOv9 thông qua Ultralytics Khung phần mềm này giúp thu hẹp khoảng cách đó, cung cấp quyền truy cập vào các công cụ xuất và triển khai mạnh mẽ của chúng tôi.

Cân bằng hiệu suất và các tiêu chuẩn đánh giá

Sự đánh đổi giữa tốc độ và độ chính xác là yếu tố quan trọng nhất khi triển khai các mô hình thị giác máy tính. Dưới đây là bảng so sánh chi tiết về kích thước mô hình, độ trễ và độ chính xác trung bình (Average Precision) được đánh giá trên tập dữ liệu COCO chuẩn.

Mô hìnhKích thước
(pixels)
mAPval
50-95
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

Khi phân tích các số liệu, YOLOv9 Thể hiện tỷ lệ tham số trên độ chính xác đáng kể. Mô hình YOLOv9c đạt được tỷ lệ ấn tượng 53,0%. mAP Chỉ sử dụng 25,3 triệu tham số. Tuy nhiên, YOLOv8 duy trì ưu thế đáng kể về yêu cầu bộ nhớ và tốc độ suy luận trên các bộ tăng tốc phần cứng, đặc biệt là với YOLOv8n Biến thể này có thời gian phản hồi là 1,47ms trên thiết lập NVIDIA TensorRT .

Lợi thế Hệ sinh thái Ultralytics

Một yếu tố quan trọng cần xem xét khi lựa chọn kiến ​​trúc là tính dễ sử dụng và hệ sinh thái phần mềm xung quanh. Việc quản lý các phụ thuộc, viết trình tải dữ liệu tùy chỉnh và xử lý các tập lệnh xuất phức tạp có thể làm chậm quá trình phát triển. Sự tích hợp Ultralytics Hệ sinh thái đơn giản hóa những phức tạp này.

Cho dù bạn lựa chọn YOLOv8 hoặc YOLOv9 (điều này được hỗ trợ đầy đủ trong phạm vi...) Ultralytics (với thư viện này), bạn sẽ được hưởng lợi từ API thống nhất, các kỹ thuật tăng cường dữ liệu tự động và việc xuất định dạng ONNX được đơn giản hóa. Hơn nữa, Ultralytics Các kiến ​​trúc này thường có hiệu quả huấn luyện được tối ưu hóa cao, tránh được sự tốn kém đáng kể. CUDA Hiện tượng phình to bộ nhớ thường gặp ở các mô hình dựa trên Transformer có kích thước lớn.

Ví dụ mã huấn luyện

Huấn luyện một trong hai mô hình bằng cách sử dụng Python API này rất đơn giản và chỉ cần một vài dòng mã.

from ultralytics import YOLO

# Load the preferred model (swap 'yolov9c.pt' with 'yolov8n.pt' as needed)
model = YOLO("yolov8n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance metrics
metrics = model.val()

# Export to ONNX for production deployment
model.export(format="onnx")

Các trường hợp sử dụng và Khuyến nghị

Lựa chọn giữa YOLOv9 Và YOLOv8 Điều này phụ thuộc vào các yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.

Khi nào nên chọn YOLOv9

YOLOv9 là một lựa chọn tốt cho:

  • Nghiên cứu về tắc nghẽn thông tin: Các dự án học thuật nghiên cứu kiến ​​trúc Thông tin Gradient có thể lập trình (PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (GELAN).
  • Nghiên cứu tối ưu hóa dòng gradient: Nghiên cứu tập trung vào việc hiểu và giảm thiểu sự mất mát thông tin trong các lớp mạng sâu trong quá trình huấn luyện.
  • Đánh giá hiệu năng phát hiện độ chính xác cao: Các kịch bản trong đó YOLOv9 mạnh mẽ COCO Hiệu năng chuẩn là cần thiết để làm điểm tham chiếu cho việc so sánh kiến ​​trúc.

Khi nào nên chọn YOLOv8

YOLOv8 được khuyến nghị cho:

  • Triển khai đa nhiệm linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh để phát hiện , phân đoạn , phân loạiước tính tư thế trong phạm vi... Ultralytics hệ sinh thái.
  • Hệ thống sản xuất hiện có: Môi trường sản xuất hiện tại đã được xây dựng trên hệ thống này. YOLOv8 kiến trúc với các quy trình triển khai ổn định, đã được kiểm thử kỹ lưỡng.
  • Hỗ trợ cộng đồng và hệ sinh thái rộng rãi: Các ứng dụng được hưởng lợi từ YOLOv8 Hệ thống này có các hướng dẫn chi tiết, tích hợp với bên thứ ba và nguồn lực cộng đồng năng động.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

  • NMS - Triển khai biên không cần can thiệp: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của quá trình xử lý hậu kỳ loại bỏ cực đại không cần can thiệp (Non-Maximum Suppression).
  • Môi trường chỉ sử dụng CPU : Các thiết bị không có bộ xử lý chuyên dụng. GPU khả năng tăng tốc, trong đó YOLO26 nhanh hơn tới 43%. CPU Suy luận mang lại lợi thế quyết định.
  • Phát hiện vật thể nhỏ: Các tình huống đầy thách thức như ảnh chụp từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL giúp tăng đáng kể độ chính xác trong việc phát hiện các vật thể siêu nhỏ.

Hướng tới tương lai: Sự ra mắt của YOLO26

Trong khi YOLOv8 Và YOLOv9 Cả hai đều vô cùng mạnh mẽ, và lĩnh vực thị giác máy tính đang phát triển rất nhanh. Đối với các triển khai hiện đại, chúng tôi đặc biệt khuyên dùng Ultralytics YOLO26 , được phát hành vào tháng 1 năm 2026.

YOLO26 đại diện cho một sự thay đổi mang tính đột phá trong cách thức hoạt động của các bộ phát hiện đối tượng trong môi trường sản xuất. Nó sở hữu thiết kế hoàn toàn không cần hệ quản lý mạng ( NMS ), loại bỏ hiệu quả độ trễ và hành vi không xác định của quá trình xử lý hậu kỳ. Để hỗ trợ tốt hơn cho phần cứng biên và phần cứng công suất thấp, YOLO26 tích hợp khả năng loại bỏ hoàn toàn hiện tượng mất tiêu điểm phân tán (DFL Removal ), giúp việc xuất dữ liệu sang thiết bị di động trở nên đơn giản hơn đáng kể.

Hơn nữa, YOLO26 sử dụng trình tối ưu hóa MuSGD đột phá, một sự kết hợp giữa... SGD và Muon mang lại sự ổn định huấn luyện ở cấp độ LLM cho các tác vụ thị giác, dẫn đến sự hội tụ nhanh hơn đáng kể. Với khả năng suy luận CPU nhanh hơn tới 43% và sự tích hợp của ProgLoss + STAL để cải thiện đáng kể khả năng nhận dạng vật thể nhỏ, YOLO26 là sự lựa chọn không thể bàn cãi cho các sáng kiến ​​doanh nghiệp mới.

Tìm hiểu thêm về YOLO26

Kiến trúc thay thế

Tùy thuộc vào các hạn chế về phần cứng của bạn, bạn cũng có thể quan tâm đến việc so sánh các mô hình này với Ultralytics YOLO11 cho các tác vụ đa năng cân bằng, hoặc khám phá các mô hình dựa trên transformer như RT-DETR cho nghiên cứu chuyên biệt có độ chính xác cao.

Các ứng dụng và trường hợp sử dụng trong thực tế

Sự lựa chọn giữa YOLOv8 Và YOLOv9 Điều này phần lớn phụ thuộc vào các ràng buộc của dự án và phần cứng mục tiêu của bạn.

  • Chăm sóc sức khỏe và hình ảnh y tế: Khi mỗi pixel đều quan trọng, chẳng hạn như trong các hệ thống phát hiện khối u , YOLOv9 Kiến trúc GELAN của hệ thống này bảo toàn các chi tiết nhỏ một cách đặc biệt tốt, giảm thiểu sai sót âm tính giả trong các chẩn đoán quan trọng.
  • Phân tích bán lẻ và tồn kho: Dành cho các hệ thống siêu thị thông minh theo dõi các kệ hàng được sắp xếp dày đặc, YOLOv9 cung cấp những thứ cần thiết mAP Để phân tách các mục chồng chéo một cách đáng tin cậy.
  • Thành phố thông minh và giám sát giao thông: Trong lĩnh vực hậu cần và quản lý giao thông tốc độ cao, độ trễ cực thấp và độ bền đã được chứng minh của YOLOv8 Điều này làm cho nó trở nên lý tưởng để theo dõi phương tiện trên nhiều luồng camera cùng lúc.
  • Triển khai trên thiết bị biên: Nếu bạn đang triển khai trên các thiết bị có tài nguyên hạn chế như Raspberry Pi hoặc phần cứng di động , các khối C2f được tối ưu hóa cao sẽ đáp ứng được nhu cầu. YOLOv8 (và CPU Các tối ưu hóa của YOLO26) cung cấp một quy trình suy luận mượt mà hơn nhiều và tiết kiệm pin hơn.

Bình luận