YOLO11 so với YOLOv9 Khám phá chuyên sâu về Kiến trúc và Hiệu suất

Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, ảnh hưởng đến tốc độ, độ chính xác và khả năng mở rộng của các ứng dụng thị giác máy tính của bạn. Hướng dẫn này cung cấp một so sánh kỹ thuật toàn diện giữa YOLO11 , phiên bản mạnh mẽ hơn từ... Ultralytics và YOLOv9 , một kiến trúc nổi tiếng với Thông tin Gradient có thể lập trình (PGI).

Cả hai mô hình đều thể hiện những bước tiến đáng kể trong lịch sử các mô hình thị giác , tuy nhiên chúng phục vụ những nhu cầu hơi khác nhau trong lĩnh vực phát triển trí tuệ nhân tạo.

Tổng quan mô hình

YOLO11

YOLO11 được xây dựng dựa trên nền tảng vững chắc của các phiên bản trước. Ultralytics Khung công nghệ này tinh chỉnh sự cân bằng giữa hiệu quả tính toán và độ chính xác phát hiện. Nó được thiết kế như một mô hình đa năng, sẵn sàng cho sản xuất, tích hợp liền mạch với các quy trình MLOps hiện đại.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: Tháng 9 năm 2024
Trọng tâm: Tốc độ xử lý tức thời, dễ sử dụng, hỗ trợ nhiều tác vụ (Phát hiện, Phân đoạn, Phân loại, Tạo dáng, OBB).

Tìm hiểu thêm về YOLO11

YOLOv9

YOLOv9 đã giới thiệu các khái niệm mới như GELAN (Generalized Efficient Layer Aggregation Network) và PGI để giải quyết vấn đề mất mát thông tin trong mạng nơ-ron sâu. Mặc dù đạt được độ chính xác cao trên các bộ dữ liệu học thuật, nhưng nó thường yêu cầu nhiều tài nguyên tính toán hơn để huấn luyện.

Tác giả: Chien-Yao Wang và Hong-Yuan Mark Liao
Tổ chức: Viện Khoa học Thông tin, Academia Sinica, Đài Loan
Ngày: Tháng 2 năm 2024
Trọng tâm: Tối ưu hóa hiệu quả tham số và giảm tắc nghẽn thông tin trong mạng CNN sâu.

Tìm hiểu thêm về YOLOv9

Phân tích hiệu suất

Khi đánh giá các mô hình này, sự cân bằng giữa độ trễ (tốc độ) và mAP (độ chính xác) là yếu tố tối quan trọng. Ultralytics các kỹ sư đã tối ưu hóa YOLO11 Để mang lại hiệu suất vượt trội cho cả thiết bị biên và GPU.

So sánh các chỉ số chính

Bảng sau đây nêu bật sự khác biệt về hiệu năng trên... COCO tập dữ liệu. Hãy chú ý cách YOLO11 Đạt được độ chính xác tương đương hoặc tốt hơn với độ trễ thấp hơn đáng kể, một yếu tố quan trọng đối với các ứng dụng suy luận thời gian thực .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Giải thích dữ liệu

Trong khi YOLOv9e đạt đến giới hạn cao nhất về độ chính xác (55,6%) mAP Tuy nhiên, điều này phải trả giá bằng tốc độ xử lý (16,77ms so với 11,3ms của YOLO11x). Đối với hầu hết các ứng dụng thương mại, dòng YOLO11 mang đến "điểm tối ưu" thực tế hơn, cung cấp độ chính xác cao ở tốc độ đủ để xử lý các luồng video có tốc độ khung hình cao.

Sự khác biệt về kiến trúc

Sự khác biệt cơ bản nằm ở triết lý thiết kế của chúng. YOLOv9 tập trung vào những cải tiến lý thuyết chuyên sâu về dòng chảy gradient, trong khi YOLO11 Tập trung vào kỹ thuật thực tiễn cho việc triển khai và tính linh hoạt.

YOLOv9 : PGI và GELAN

YOLOv9 Nó sử dụng Thông tin Gradient có thể lập trình (PGI) để ngăn ngừa sự mất mát thông tin ngữ nghĩa khi dữ liệu đi qua các lớp sâu. Về cơ bản, nó cung cấp một nhánh giám sát phụ trợ trong quá trình huấn luyện và được loại bỏ trong quá trình suy luận. Kết hợp với kiến trúc GELAN , nó cho phép mô hình vừa nhẹ vừa chính xác. Điều này làm cho nó trở thành một chủ đề hấp dẫn đối với những người nghiên cứu về tìm kiếm kiến trúc mạng nơ-ron và dòng gradient.

YOLO11 : C3k2 và C2PSA tinh chế

YOLO11 giới thiệu khối C3k2 , một sự cải tiến của nút thắt cổ chai CSP được sử dụng trong các phiên bản trước, được tối ưu hóa cho GPU Nó cũng tích hợp C2PSA (Cross-Stage Partial with Spatial Attention) , giúp tăng cường khả năng tập trung vào các đặc điểm quan trọng trong các cảnh phức tạp. Kiến trúc này được tinh chỉnh đặc biệt để giảm FLOPs mà không làm giảm khả năng trích xuất đặc điểm, dẫn đến các chỉ số tốc độ ấn tượng như đã thấy ở trên.

Hiệu quả huấn luyện và hệ sinh thái

Một trong những ưu điểm quan trọng nhất của việc lựa chọn một Ultralytics Mô hình này là hệ sinh thái xung quanh.

Dễ sử dụng và tài liệu hướng dẫn

Đào tạo YOLO11 Yêu cầu mã mẫu tối thiểu. Ultralytics Python API chuẩn hóa quy trình, giúp ngay cả người mới bắt đầu cũng có thể tiếp cận được. Ngược lại, trong khi YOLOv9 Nếu được hỗ trợ, việc triển khai gốc của nó có thể liên quan đến các tệp cấu hình phức tạp hơn và thiết lập thủ công.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 with just one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Yêu cầu bộ nhớ

Ultralytics Các mô hình này nổi tiếng về hiệu quả sử dụng bộ nhớ. YOLO11 được tối ưu hóa để huấn luyện trên phần cứng cấp người tiêu dùng với tài nguyên hạn chế. CUDA bộ nhớ. Đây là một lợi thế rõ rệt so với nhiều mô hình dựa trên Transformer hoặc các kiến trúc cũ hơn thường bị phình to bộ nhớ trong các bước lan truyền ngược.

Tính linh hoạt trên nhiều tác vụ

Trong khi YOLOv9 YOLO11 chủ yếu là một công cụ phát hiện đối tượng, nhưng lại là một công cụ đa nhiệm mạnh mẽ. Trong cùng một môi trường, bạn có thể chuyển đổi liền mạch giữa:

Tương lai của Trí tuệ nhân tạo thị giác: YOLO26

Dành cho các nhà phát triển đang tìm kiếm công nghệ tiên tiến nhất, Ultralytics đã phát hành YOLO26 . Mô hình này đại diện cho thế hệ AI thị giác tiếp theo, kết hợp những bài học từ cả hai lĩnh vực. YOLO11 Và YOLOv10 .

YOLO26 sở hữu thiết kế hoàn toàn không cần NMS (Non-Maximum Suppression), loại bỏ nhu cầu xử lý hậu kỳ bằng NMS. Điều này giúp suy luận nhanh hơn và quy trình triển khai đơn giản hơn. Nó cũng sử dụng trình tối ưu hóa MuSGD , một sự kết hợp giữa... SGD và Muon, đảm bảo động lực huấn luyện ổn định tương tự như trong huấn luyện Mô hình Ngôn ngữ Lớn (LLM). Với các hàm mất mát được tối ưu hóa như ProgLoss + STAL , YOLO26 vượt trội trong việc phát hiện các đối tượng nhỏ , trở thành lựa chọn hàng đầu cho năm 2026 và những năm tiếp theo.

Tìm hiểu thêm về YOLO26

Các trường hợp sử dụng lý tưởng

Khi nào nên chọn YOLOv9

Nghiên cứu học thuật: Tuyệt vời để nghiên cứu các giới hạn lý thuyết về khả năng lưu giữ thông tin của mạng nơ-ron tích chập (CNN) và lập trình gradient.
Phân tích ảnh tĩnh: Trong các trường hợp như chụp ảnh y tế (ví dụ: phát hiện khối u ), tốc độ suy luận không phải là yếu tố quan trọng hàng đầu mà cần phải trích xuất tối đa chi tiết từ một khung hình duy nhất.

Khi nào nên chọn YOLO11

Triển khai AI tại biên: Lý tưởng cho các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi xuất các định dạng như TensorRT Và TFLite Chúng rất cần thiết.
Sản xuất thương mại: Dành cho phân tích bán lẻ , giám sát thành phố thông minh hoặc kiểm soát chất lượng sản xuất, nơi độ tin cậy, tốc độ và hỗ trợ là yếu tố then chốt.
Các quy trình phức tạp: Khi ứng dụng của bạn yêu cầu nhiều tác vụ xử lý hình ảnh (ví dụ: phát hiện người và sau đó ước tính tư thế của họ) bằng một API duy nhất, thống nhất.

Kết luận

Cả hai YOLO11 Và YOLOv9 Các công cụ khác cũng rất hữu ích trong kho vũ khí của kỹ sư thị giác máy tính. Tuy nhiên, đối với hầu hết các ứng dụng thực tế, YOLO11 (và YOLO26 mới hơn) mang lại sự cân bằng vượt trội giữa tốc độ, độ chính xác và trải nghiệm của nhà phát triển. Được hỗ trợ bởi cộng đồng Ultralytics năng động và các bản cập nhật thường xuyên, nó đảm bảo các dự án của bạn luôn hiệu quả và có khả năng đáp ứng nhu cầu trong tương lai.

Để tìm hiểu sâu hơn, bạn cũng có thể quan tâm đến việc so sánh các mô hình này với RT-DETR để phát hiện dựa trên transformer hoặc khám phá kiến trúc YOLOv10 nhẹ.