YOLOv9 so với YOLOv8 Kiến trúc, Hiệu năng và Ứng dụng

Sự phát triển của các mô hình phát hiện đối tượng tiếp tục tăng tốc, cung cấp cho các nhà phát triển những công cụ ngày càng tinh vi hơn cho các tác vụ thị giác máy tính. Hai trong số những đóng góp quan trọng nhất cho lĩnh vực này là YOLOv9 , được phát triển bởi các nhà nghiên cứu tại Academia Sinica, và YOLOv8 của Ultralytics . Mặc dù cả hai mô hình đều nâng cao trình độ hiện tại, nhưng chúng sử dụng các chiến lược kiến trúc khác nhau và phục vụ các nhu cầu triển khai khác nhau.

Hướng dẫn này cung cấp sự so sánh kỹ thuật chuyên sâu về... YOLOv9 Và YOLOv8 Phân tích kiến trúc, số liệu hiệu năng và phương pháp đào tạo của chúng để giúp bạn chọn công cụ phù hợp cho ứng dụng của mình.

Tổng quan mô hình

Trước khi đi sâu vào các thông số kỹ thuật, điều cần thiết là phải hiểu nguồn gốc và triết lý thiết kế chính đằng sau hai kiến trúc mạnh mẽ này.

YOLOv9: Thông tin Gradient có thể lập trình

Được phát hành vào tháng 2 năm 2024 bởi Chien-Yao Wang và Hong-Yuan Mark Liao từ Viện Khoa học Thông tin, Viện Hàn lâm Khoa học Trung Quốc. YOLOv9 Bài viết tập trung vào việc giải quyết vấn đề mất mát thông tin trong mạng nơ-ron sâu. Các tác giả giới thiệu hai cải tiến cốt lõi: Thông tin Gradient có thể lập trình (Programmable Gradient Information - PGI) và Mạng tổng hợp lớp hiệu quả tổng quát (Generalized Efficient Layer Aggregation Network - GELAN) .

PGI: Giải quyết vấn đề "nút thắt cổ chai thông tin" nơi dữ liệu bị mất khi truyền qua các lớp sâu. Nó cung cấp sự giám sát bổ trợ để đảm bảo nhánh chính giữ lại thông tin đặc trưng quan trọng.
GELAN: Một kiến trúc gọn nhẹ tối ưu hóa hiệu quả tham số, kết hợp những ưu điểm tốt nhất của CSPNet và ELAN để tối đa hóa việc lập kế hoạch đường dẫn gradient.

Tìm hiểu thêm về YOLOv9

YOLOv8 Tiêu chuẩn về khả năng sử dụng và tốc độ

Được khởi xướng bởi Ultralytics vào tháng 1 năm 2023, YOLOv8 Nó nhanh chóng trở thành tiêu chuẩn ngành cho việc phát hiện vật thể theo thời gian thực. Nó giới thiệu đầu phát hiện không cần neo và một kiến trúc xương sống mới được thiết kế cho tốc độ và độ chính xác. Vượt xa các số liệu thô, YOLOv8 Nhấn mạnh trải nghiệm của nhà phát triển, cung cấp một khung thống nhất cho việc phát hiện , phân đoạn , phân loại và ước tính tư thế .

Thiết kế Không neo: Giảm số lượng dự đoán hộp, tăng tốc Non-Maximum Suppression (NMS).
Tăng cường khả năng ghép ảnh: Các thuật toán huấn luyện nâng cao giúp cải thiện khả năng chống chịu trước các nền tảng đa dạng.
Tích hợp hệ sinh thái: Tích hợp liền mạch với các công cụ triển khai, xuất khẩu và theo dõi.

Tìm hiểu thêm về YOLOv8

So sánh hiệu suất

Khi lựa chọn mô hình để sản xuất, cần cân nhắc sự đánh đổi giữa tốc độ suy luận và độ chính xác phát hiện ( mAP (Điều này rất quan trọng). Bảng dưới đây nêu bật hiệu năng trên tập dữ liệu COCO , một chuẩn mực thông thường cho việc phát hiện đối tượng.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Những Điểm Chính

Sự chính xác: YOLOv9 thường đạt được kết quả cao hơn mAP Điểm số ở các thang đo mô hình tương tự. Kiến trúc GELAN nắm bắt hiệu quả các đặc điểm phức tạp, khiến nó trở thành ứng cử viên sáng giá cho nghiên cứu học thuật, nơi mà từng phần trăm điểm chính xác đều quan trọng.
Tốc độ: YOLOv8 thể hiện tốc độ suy luận vượt trội, đặc biệt là trên GPU phần cứng ( TensorRT Các mô-đun C2f được tối ưu hóa và đầu đọc không cần neo cho phép xử lý nhanh hơn, điều này rất quan trọng đối với suy luận thời gian thực trong luồng video.
Hiệu quả: Trong khi YOLOv9 có ít tham số hơn trong một số cấu hình. Ultralytics Các mô hình thường có mức sử dụng bộ nhớ thấp hơn trong quá trình huấn luyện. Hiệu quả này cho phép các nhà phát triển huấn luyện YOLOv8 trên phần cứng dành cho người tiêu dùng với ít hơn CUDA so sánh bộ nhớ với các kiến trúc nghiên cứu phức tạp hơn.

Huấn luyện và Dễ sử dụng

Trải nghiệm người dùng thường quyết định tốc độ chuyển đổi của một dự án từ ý tưởng đến triển khai. Ở đây, sự khác biệt về hỗ trợ hệ sinh thái trở nên rõ ràng.

Lợi thế của Ultralytics

Ultralytics các mô hình, bao gồm YOLOv8 và YOLO26 mới hơn, được xây dựng trên một nền tảng thống nhất. Python gói này đảm bảo API nhất quán, cho phép các nhà phát triển chuyển đổi giữa các phiên bản mô hình hoặc tác vụ chỉ với một dòng mã.

Đặc điểm của Ultralytics Hệ sinh thái bao gồm:

MLOps tự động: Hỗ trợ tích hợp cho Comet và MLflow để theo dõi thí nghiệm.
Xuất file đơn giản: Xuất file chỉ với một cú nhấp chuột sang các định dạng như ONNX , OpenVINO và... CoreML Dành cho việc triển khai trên thiết bị di động và biên.
Tài liệu hướng dẫn chi tiết: Một thư viện khổng lồ các tài liệu hướng dẫn bao gồm mọi thứ từ tinh chỉnh siêu tham số đến tăng cường dữ liệu .

from ultralytics import YOLO

# Load a model (YOLOv8 or YOLOv9)
model = YOLO("yolov8n.pt")  # Switch to 'yolov9c.pt' instantly

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for deployment
model.export(format="onnx")

YOLOv9 Triển khai

Trong khi YOLOv9 được hỗ trợ trong Ultralytics Gói này được sử dụng để thuận tiện, trong khi phiên bản gốc dựa trên các tập lệnh và tệp cấu hình riêng biệt. Người dùng chuyển từ mã nguồn gốc có thể thấy... Ultralytics Việc tích hợp giúp đơn giản hóa đáng kể quy trình làm việc của họ, loại bỏ nhu cầu quản lý cấu trúc thư mục phức tạp hoặc tải xuống trọng số theo cách thủ công.

Quy trình làm việc tinh gọn

Sử dụng YOLOv9 thông qua ultralytics Gói này cung cấp quyền truy cập vào tất cả các lợi ích của hệ sinh thái, bao gồm: Trung tâm sự tích hợp và Explorer API này không có sẵn trong kho lưu trữ độc lập.

Các trường hợp sử dụng thực tế

Việc lựa chọn mô hình phù hợp phụ thuộc rất nhiều vào các yêu cầu cụ thể của ứng dụng của bạn.

Các kịch bản lý tưởng cho YOLOv9

Hình ảnh y tế: Trong các nhiệm vụ như phát hiện khối u não hoặc phân tích tia X, Thông tin độ dốc lập trình được (PGI) giúp giữ lại các chi tiết kết cấu quan trọng mà nếu không sẽ bị mất đi, đảm bảo độ chính xác chẩn đoán cao.
Phát hiện vật thể nhỏ: Kiến trúc GELAN vượt trội trong việc bảo toàn đặc điểm, giúp YOLOv9 Thích hợp để phát hiện các vật thể nhỏ trong ảnh chụp từ trên không độ phân giải cao hoặc dữ liệu từ máy bay không người lái.
Đánh giá chuẩn mực học thuật: Các nhà nghiên cứu hướng đến việc công bố những kết quả tiên tiến nhất sẽ được hưởng lợi từ mức độ cao này. mAP trần nhà được cung cấp bởi phần lớn hơn YOLOv9 - Các mẫu E.

Các kịch bản lý tưởng cho YOLOv8

Phân tích dữ liệu bán lẻ: Dành cho các ứng dụng như thanh toán tự động hoặc lập bản đồ nhiệt trong cửa hàng, YOLOv8 Cung cấp tốc độ cần thiết để xử lý nhiều nguồn cấp dữ liệu camera cùng lúc mà không cần phần cứng đắt tiền.
Hệ thống nhúng: Khả năng tương thích của mô hình với TFLite và Edge TPU Điều này làm cho nó trở nên hoàn hảo để chạy trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson.
Robot học: Trong môi trường năng động, nơi độ trễ là yếu tố quan trọng đối với việc điều hướng và tránh chướng ngại vật, khả năng suy luận nhanh chóng của... YOLOv8 Đảm bảo robot có thể phản ứng trong thời gian thực.

Tương lai: YOLO26

Trong khi YOLOv9 Và YOLOv8 Đây là những lựa chọn tuyệt vời, và lĩnh vực này vẫn tiếp tục phát triển. Các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất nên cân nhắc YOLO26 . Được phát hành vào tháng 1 năm 2026, nó đại diện cho một bước tiến đáng kể về hiệu quả và hiệu suất.

YOLO26 giới thiệu một số tính năng đột phá:

Hệ thống quản lý NMS đầu cuối - Miễn phí: Bằng cách loại bỏ cơ chế loại bỏ các kết quả không tối đa (Non-Maximum Suppression), YOLO26 đơn giản hóa quá trình triển khai và giảm đáng kể độ trễ, một kỹ thuật được cải tiến từ YOLOv10 .
Trình tối ưu hóa MuSGD: Một trình tối ưu hóa lai kết hợp SGD và Muon, mang lại những cải tiến về tính ổn định trong quá trình huấn luyện đã thấy ở các mô hình LLM cho lĩnh vực thị giác máy tính.
Tính linh hoạt được nâng cao: Những cải tiến chuyên biệt dành cho hộp giới hạn định hướng (OBB) và ước lượng tư thế giúp nó trở thành công cụ linh hoạt nhất cho các tác vụ thị giác phức tạp.
Tối ưu hóa cho điện toán biên: Với khả năng xử lý suy luận CPU nhanh hơn tới 43% so với các thế hệ trước, sản phẩm này được thiết kế đặc biệt cho điện toán biên và các ứng dụng di động.

Đối với các dự án mới, việc đánh giá YOLO26 song song với... YOLOv8 Và YOLOv9 Điều này đặc biệt được khuyến nghị để đảm bảo bạn đang tận dụng tối đa những tiến bộ mới nhất trong việc nâng cao hiệu quả của trí tuệ nhân tạo.

Tìm hiểu thêm về YOLO26

Kết luận

Cả hai YOLOv9 Và YOLOv8 Mang lại những lợi thế riêng biệt. YOLOv9 Cung cấp kiến trúc mạnh mẽ để tối đa hóa độ chính xác thông qua quản lý thông tin độ dốc tiên tiến, đồng thời YOLOv8 Mang đến sự cân bằng tuyệt vời giữa tốc độ, tính dễ sử dụng và hỗ trợ hệ sinh thái.

Dành cho các nhà phát triển đang tìm kiếm trải nghiệm liền mạch với tài liệu đầy đủ và sự hỗ trợ từ cộng đồng, Ultralytics các mô hình—bao gồm YOLOv8 và YOLO26 mới—vẫn là sự lựa chọn hàng đầu. Khả năng chuyển đổi liền mạch giữa phát hiện , phân đoạn và phân loại trong một khung phần mềm duy nhất giúp các nhóm xây dựng các giải pháp AI phức tạp nhanh hơn và đáng tin cậy hơn.

Khám phá toàn bộ các mô hình và bắt đầu huấn luyện ngay hôm nay bằng cách sử dụng Nền tảng Ultralytics , cách đơn giản nhất để chú thích, huấn luyện và triển khai các mô hình thị giác máy tính của bạn.