YOLO11 so với YOLOv8 So sánh kỹ thuật toàn diện các mô hình thị giác thời gian thực

Lĩnh vực thị giác máy tính đã chứng kiến những tiến bộ vượt bậc với sự phát triển không ngừng của các kiến trúc phát hiện đối tượng. Khi đánh giá các mô hình để triển khai thực tế, các nhà phát triển thường so sánh điểm mạnh của Ultralytics YOLO11 và người tiền nhiệm rất thành công của nó, Ultralytics YOLOv8 . Cả hai mô hình đều đã thiết lập các tiêu chuẩn ngành về tốc độ, độ chính xác và trải nghiệm của nhà phát triển, nhưng chúng phục vụ cho các vòng đời dự án và ngưỡng hiệu năng hơi khác nhau.

Hướng dẫn này cung cấp phân tích chuyên sâu về kiến trúc, phương pháp đào tạo và các trường hợp sử dụng lý tưởng của chúng để giúp bạn lựa chọn giải pháp tốt nhất cho các sáng kiến trí tuệ nhân tạo của mình.

Đổi mới Kiến trúc

Sự chuyển đổi từ YOLOv8 ĐẾN YOLO11 Đã giới thiệu một số cải tiến kiến trúc quan trọng nhằm tối đa hóa hiệu quả trích xuất đặc trưng đồng thời giảm thiểu chi phí tính toán.

Kiến trúc YOLO11

YOLO11 Đây là một bước tiến đáng kể trong việc tối ưu hóa việc sử dụng tham số. Nó thay thế các mô-đun C2f truyền thống bằng các khối C3k2 tiên tiến, giúp tăng cường khả năng xử lý đặc trưng không gian mà không làm tăng số lượng tham số. Ngoài ra, YOLO11 Mô hình này giới thiệu module C2PSA (Cross-Stage Partial Spatial Attention) vào cấu trúc chính của nó. Cơ chế chú ý này cho phép mô hình tập trung vào các vùng quan trọng, cải thiện đáng kể khả năng phát hiện vật thể nhỏ và xử lý các trường hợp che khuất phức tạp.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO11

Tìm hiểu thêm về YOLO11

Kiến trúc YOLOv8

Được ra mắt một năm trước đó, YOLOv8 Nó tiên phong trong việc chuyển đổi sang đầu phát hiện không cần neo, giúp loại bỏ nhu cầu điều chỉnh thủ công các hộp neo và đơn giản hóa công thức tính tổn thất. Kiến trúc của nó dựa nhiều vào khối C2f, một thiết kế đã cân bằng thành công độ sâu mạng và luồng gradient, làm cho nó cực kỳ mạnh mẽ trong nhiều ứng dụng thị giác máy tính .

Tác giả: Glenn Jocher, Ayush Chaurasia, và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2023-01-10
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLOv8

Tìm hiểu thêm về YOLOv8

Triết lý Thiết kế

Trong khi YOLOv8 đã đặt nền tảng cho việc phát hiện không cần neo trong Ultralytics hệ sinh thái, YOLO11 Phương pháp này đã được tinh chỉnh bằng các cơ chế chú ý không gian, đạt được độ chính xác cao hơn với ít tài nguyên tính toán hơn.

Hiệu năng và điểm chuẩn

Khi triển khai các mô hình lên các thiết bị biên như Raspberry Pi hoặc các máy chủ hiệu năng cao chạy NVIDIA TensorRT , việc hiểu rõ sự đánh đổi giữa tốc độ và độ chính xác là vô cùng quan trọng. Bảng dưới đây minh họa điều đó. YOLO11 luôn vượt trội YOLOv8 trên tất cả các biến thể kích thước.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Phân tích các chỉ số

YOLO11 đạt được độ chính xác trung bình cao hơn đáng kể ( mAP đồng thời giảm cả số lượng tham số và số phép toán dấu phẩy động (FLOPs). Ví dụ, mô hình YOLO11m yêu cầu ít hơn 22% tham số so với... YOLOv8m nhưng mang lại hiệu quả cao hơn 1,3% mAP trên tập dữ liệu COCO . Hơn nữa, CPU Tốc độ suy luận khi xuất sang định dạng ONNX cho thấy rằng YOLO11 Nó nhanh hơn đáng kể, khiến nó trở thành lựa chọn tuyệt vời cho các hệ thống thiếu khả năng tăng tốc GPU chuyên dụng.

Lợi thế Hệ sinh thái Ultralytics

Bất kể bạn lựa chọn điều gì. YOLO11 hoặc YOLOv8 Cả hai mô hình đều được hưởng lợi từ sự toàn diện Ultralytics hệ sinh thái này giúp đơn giản hóa đáng kể vòng đời của máy học.

Dễ sử dụng và API đơn giản

Hàm ultralytics Python Gói này cung cấp một API được đơn giản hóa, cho phép các kỹ sư và nhà nghiên cứu huấn luyện, xác thực và xuất mô hình chỉ với một vài dòng mã. Điều này giúp loại bỏ những phức tạp thường gặp khi thiết lập môi trường học sâu. PyTorch.

Hiệu quả đào tạo và yêu cầu về bộ nhớ

Không giống như các Vision Transformer hạng nặng (như RT-DETR ), Ultralytics YOLO Các mô hình này nổi tiếng với khả năng sử dụng bộ nhớ thấp trong quá trình huấn luyện. Hiệu quả bộ nhớ này cho phép các nhà phát triển huấn luyện các mạng lưới tiên tiến trên GPU cấp độ người tiêu dùng hoặc môi trường đám mây như Google Colab mà không gặp phải lỗi hết bộ nhớ.

Tính linh hoạt trong các nhiệm vụ thị giác

Cả YOLO11 và YOLOv8 đều là những mô hình học đa nhiệm thực thụ. Ngoài detect đối tượng bằng hộp giới hạn tiêu chuẩn, chúng còn hỗ trợ nguyên bản segmentation thể hiện, phân loại hình ảnh, ước tính tư thế người và Hộp giới hạn định hướng (OBB) cho ảnh hàng không.

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO11 và YOLOv8 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO11

YOLO11 là một lựa chọn tốt cho:

Triển khai biên sản xuất: Các ứng dụng thương mại trên các thiết bị như Raspberry Pi hoặc NVIDIA Jetson, nơi độ tin cậy và việc bảo trì tích cực là tối quan trọng.
Ứng dụng thị giác đa nhiệm: Các dự án yêu cầu detect, segmentation, ước tính tư thế, và OBB trong một framework thống nhất duy nhất.
Tạo mẫu và triển khai nhanh: Các nhóm cần chuyển nhanh từ thu thập dữ liệu sang sản xuất bằng cách sử dụng API Python của Ultralytics được tối ưu hóa.

Khi nào nên chọn YOLOv8

YOLOv8 được khuyến nghị cho:

Triển khai đa tác vụ linh hoạt: Các dự án yêu cầu một mô hình đã được chứng minh cho detection, segmentation, classification và ước tính tư thế trong hệ sinh thái Ultralytics.
Hệ thống sản xuất đã được thiết lập: Các môi trường sản xuất hiện có đã được xây dựng trên kiến trúc YOLOv8 với các pipeline triển khai ổn định, đã được kiểm thử kỹ lưỡng.
Hỗ trợ cộng đồng và hệ sinh thái rộng lớn: Các ứng dụng hưởng lợi từ các hướng dẫn mở rộng của YOLOv8, tích hợp bên thứ ba và tài nguyên cộng đồng tích cực.

Khi nào nên lựa chọn Ultralytics (YOLO26)

Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm dành cho nhà phát triển:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Ví dụ mã: Bắt đầu

Triển khai và huấn luyện một mô hình Ultralytics cực kỳ trực quan. Ví dụ sau đây minh họa cách tải một mô hình YOLO11 đã được huấn luyện trước, tinh chỉnh nó trên một tập dữ liệu tùy chỉnh và xuất nó để triển khai trên thiết bị biên sử dụng Apple CoreML:

from ultralytics import YOLO

# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently with optimized memory requirements
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the validation performance
metrics = model.val()

# Run real-time inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to CoreML for fast mobile deployment
export_path = model.export(format="coreml")

Nâng cấp liền mạch

Vì API của Ultralytics được chuẩn hóa, việc nâng cấp một pipeline cũ từ YOLOv8 lên YOLO11 thường chỉ yêu cầu thay đổi chuỗi trọng số từ "yolov8n.pt" đến "yolo11n.pt".

Hướng tới tương lai: Đỉnh cao của Trí tuệ nhân tạo biên với YOLO26

Trong khi YOLO11 Đại diện cho một kiến trúc hoàn thiện và có khả năng cao, tốc độ đổi mới AI vẫn tiếp tục diễn ra nhanh chóng. Đối với các nhà phát triển bắt đầu các dự án mới và yêu cầu hiệu năng tiên tiến nhất, Ultralytics YOLO26 (phát hành tháng 1 năm 2026) là sự lựa chọn tối ưu.

YOLO26 vượt qua các giới hạn của thị giác máy tính với một số tính năng đột phá:

Thiết kế không NMS đầu cuối: Dựa trên các khái niệm được khám phá trong YOLOv10, YOLO26 loại bỏ xử lý hậu kỳ Non-Maximum Suppression (NMS) một cách tự nhiên, giúp độ trễ thấp hơn và dễ dự đoán hơn trên tất cả các phần cứng triển khai.
Suy luận CPU nhanh hơn tới 43%: Bằng cách loại bỏ hoàn toàn nhánh Distribution Focal Loss (DFL), YOLO26 được tối ưu hóa đặc biệt cho các thiết bị điện toán biên thiếu GPU mạnh mẽ.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (LLM), YOLO26 sử dụng một trình tối ưu hóa MuSGD lai, đảm bảo quá trình huấn luyện hội tụ nhanh chóng và ổn định đáng kể.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể siêu nhỏ và bị che khuất nhiều, điều này thiết yếu cho robot học tự hành và phân tích dựa trên drone.

Cho dù bạn tin tưởng vào độ tin cậy đã được chứng minh của YOLOv8 , kiến trúc tối ưu của YOLO11 Hoặc với các khả năng thế hệ tiếp theo của YOLO26, Nền tảng Ultralytics đảm bảo bạn có các công cụ cần thiết để đưa các ứng dụng AI xử lý hình ảnh của mình từ ý tưởng đến sản xuất một cách liền mạch. Hãy khám phá các tích hợp mở rộng có sẵn để kết nối các mô hình của bạn với quy trình làm việc doanh nghiệp và bảng điều khiển phân tích.