YOLO11 so với YOLOv6 -3.0: So sánh kỹ thuật toàn diện

Lĩnh vực thị giác máy tính phát triển nhanh chóng, và việc lựa chọn kiến trúc mô hình phù hợp là một quyết định quan trọng đối với những người thực hành máy học. Hai cột mốc quan trọng trong sự phát triển của phát hiện đối tượng thời gian thực là YOLO11 và YOLOv6 -3.0 . Mặc dù cả hai mô hình đều cung cấp khả năng ấn tượng trong việc trích xuất thông tin chi tiết từ dữ liệu hình ảnh, nhưng chúng được phát triển với các mục tiêu chính và triết lý thiết kế khác nhau.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu, so sánh kiến trúc, các chỉ số hiệu suất và các kịch bản triển khai lý tưởng của chúng để giúp bạn đưa ra quyết định sáng suốt cho dự án AI tiếp theo của mình.

Tổng quan về mô hình

Trước khi đi sâu vào các điểm chuẩn kỹ thuật, sẽ hữu ích nếu hiểu rõ nguồn gốc và trọng tâm cốt lõi của từng mô hình.

Ultralytics YOLO11

Được phát triển nguyên bản trong hệ sinh thái Ultralytics, YOLO11 được thiết kế để cung cấp trải nghiệm phát triển liền mạch, từ đầu đến cuối. Nó không chỉ nhấn mạnh tốc độ thô mà còn cả tính linh hoạt đa nhiệm, dễ sử dụng và tích hợp với các quy trình triển khai hiện đại.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO11

Tìm hiểu thêm về YOLO11

Meituan YOLOv6-3.0

YOLOv6 - Phiên bản 3.0 được thiết kế riêng cho các ứng dụng công nghiệp có sẵn bộ xử lý đồ họa (GPU) chuyên dụng. Nó được tối ưu hóa mạnh mẽ cho việc triển khai TensorRT , tập trung vào việc tối đa hóa thông lượng trong môi trường được kiểm soát.

Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức:Meituan
Ngày: 2023-01-13
Arxiv:2301.05586
GitHub:Kho lưu trữ YOLOv6 của Meituan
Tài liệu:Tài liệu YOLOv6

Tìm hiểu thêm về YOLOv6

Sự khác biệt về kiến trúc

Kiến trúc nền tảng quyết định cách thức mô hình học hỏi và mở rộng quy mô. Cả hai framework đều mang đến những cải tiến độc đáo cho mô hình kinh điển. YOLO công thức.

YOLO11 Được xây dựng dựa trên nhiều năm nghiên cứu để mang đến một kiến trúc cực kỳ hiệu quả về mặt tham số. Nó có một hệ thống xương sống tiên tiến và một bộ xử lý đa năng có khả năng xử lý nhiều tác vụ thị giác máy tính khác nhau — chẳng hạn như phân đoạn đối tượng và ước lượng tư thế — mà không cần phải thay đổi cấu trúc lớn. Hơn nữa, YOLO11 Nó tự hào có yêu cầu bộ nhớ CUDA cực thấp trong quá trình huấn luyện, điều này tạo nên sự khác biệt so với các mô hình transformer cồng kềnh hơn như RT-DETR .

Ngược lại, YOLOv6-3.0 sử dụng mô-đun Bi-directional Concatenation (BiC) và chiến lược Anchor-Aided Training (AAT). Các cơ chế này được thiết kế để cải thiện độ chính xác định vị. Kiến trúc chủ yếu được tách rời và lượng tử hóa mạnh mẽ để ưu tiên suy luận mô hình INT8, biến nó thành một đối thủ mạnh cho các dây chuyền sản xuất tốc độ cao chạy các ngăn xếp GPU cũ.

Lựa chọn Framework phù hợp

Nếu dự án của bạn yêu cầu tạo mẫu nhanh, hỗ trợ nhiều tác vụ khác nhau (như phân đoạn hoặc phân loại) và triển khai trên nhiều phần cứng khác nhau ( CPU , Bờ rìa TPU , Mobile), Ultralytics Khung phần mềm này mang lại trải nghiệm phát triển mượt mà hơn đáng kể.

Hiệu suất và số liệu

Khi đánh giá các mô hình, độ chính xác trung bình ( mAP ) và tốc độ suy luận là vô cùng quan trọng. Bảng sau so sánh hiệu suất của YOLO11 chống lại YOLOv6 -3.0 trên nhiều quy mô mô hình khác nhau. Các chỉ số hoạt động tốt nhất được in đậm .

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Như đã chứng minh, YOLO11 luôn đạt được độ chính xác cao hơn (mAP) với ít tham số và FLOPs hơn đáng kể trên các cấp độ tương đương. Hiệu quả tham số này trực tiếp dẫn đến yêu cầu bộ nhớ thấp hơn trong cả quá trình huấn luyện mô hình và suy luận.

Lợi thế của Ultralytics

Việc lựa chọn một mô hình không chỉ xoay quanh các chỉ số thô; nó còn liên quan đến toàn bộ vòng đời học máy. Các mô hình Ultralytics mang lại lợi thế rõ rệt cho cả nhà phát triển và nhà nghiên cứu.

Dễ sử dụng: API Python của Ultralytics cho phép bạn huấn luyện, xác thực và xuất mô hình chỉ với vài dòng mã. Không cần phải cấu hình thủ công các cây phụ thuộc phức tạp.
Hệ sinh thái được duy trì tốt: Ultralytics cung cấp một hệ sinh thái thống nhất nhận được các bản cập nhật thường xuyên. Bằng cách sử dụng Nền tảng Ultralytics, các nhà phát triển có quyền truy cập vào chú thích tập dữ liệu cộng tác, đào tạo trên đám mây và giám sát mô hình liền mạch.
Tính linh hoạt: Không giống như YOLOv6-3.0, vốn chủ yếu là một bộ detect hộp giới hạn, YOLO11 hỗ trợ tự nhiên phân loại ảnh và hộp giới hạn định hướng (OBB), cho phép bạn hợp nhất ngăn xếp công nghệ của mình.
Hiệu quả huấn luyện: Tận dụng các tối ưu hóa hiện đại và tự động phân lô, YOLO11 huấn luyện hiệu quả trên phần cứng cấp người tiêu dùng, dân chủ hóa quyền truy cập vào AI thị giác tiên tiến.

Ví dụ mã: Huấn luyện và Suy luận

Làm việc với Ultralytics Mô hình này rất trực quan. Dưới đây là một ví dụ hoàn chỉnh có thể chạy được, minh họa cách huấn luyện và chạy suy luận bằng cách sử dụng mô hình này. Ultralytics bưu kiện.

from ultralytics import YOLO

# Load a pre-trained YOLO11 small model
model = YOLO("yolo11s.pt")

# Train the model efficiently on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image from the web
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export the model to ONNX format for easy deployment
model.export(format="onnx")

Các trường hợp sử dụng lý tưởng

Hiểu rõ ưu điểm của từng mẫu máy sẽ giúp bạn chọn được công cụ phù hợp nhất cho công việc.

Khi nào nên chọn YOLOv6-3.0: Nếu bạn duy trì một hệ thống công nghiệp kế thừa được xây dựng rõ ràng xung quanh các pipeline TensorRT 7.x/8.x cụ thể và phần cứng của bạn hoàn toàn bao gồm các GPU NVIDIA T4 hoặc A100 chuyên dụng cho tự động hóa sản xuất tốc độ cao, YOLOv6 vẫn là một công cụ khả thi và mạnh mẽ.

Khi nào nên chọn YOLO11: Đối với hầu hết các ứng dụng hiện đại, YOLO11 là lựa chọn vượt trội. Cho dù bạn đang xây dựng các giải pháp sản xuất thông minh, triển khai AI biên trên các thiết bị Raspberry Pi, hay thực hiện các tác vụ đa nhiệm như detect và segment hình ảnh y tế, YOLO11 cung cấp sự cân bằng tối ưu giữa tốc độ, độ chính xác và tính linh hoạt trong triển khai.

Hướng tới tương lai: YOLO26 tiên tiến

Trong khi YOLO11 Đây là một bước tiến vượt bậc. Ultralytics YOLO26 không ngừng vượt qua những giới hạn của thị giác máy tính. Được ra mắt vào tháng 1 năm 2026, dòng sản phẩm YOLO26 mới là sản phẩm tiên tiến nhất hiện nay và là mẫu được khuyến nghị cho tất cả các dự án mới.

YOLO26 giới thiệu một số tính năng đột phá được thiết kế đặc biệt để giải quyết những thách thức triển khai hiện đại:

Thiết kế không NMS đầu cuối: Dựa trên các khái niệm được tiên phong bởi YOLOv10, YOLO26 là một mô hình đầu cuối tự nhiên. Nó loại bỏ hoàn toàn xử lý hậu kỳ Non-Maximum Suppression (NMS), giúp các quy trình triển khai nhanh hơn và đơn giản hơn đáng kể.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss, YOLO26 đơn giản hóa phần đầu mạng, nâng cao đáng kể khả năng tương thích với các thiết bị Internet of Things (IoT) và thiết bị biên tiêu thụ ít điện năng.
Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những đổi mới trong huấn luyện mô hình ngôn ngữ lớn (LLM) (chẳng hạn như Kimi K2 của Moonshot AI), YOLO26 sử dụng một trình tối ưu hóa Muon-SGD lai, đảm bảo sự ổn định huấn luyện vượt trội và hội tụ nhanh hơn.
Tăng tốc suy luận trên CPU lên đến 43%: Đối với các ứng dụng chạy mà không có bộ tăng tốc GPU chuyên dụng, YOLO26 đã được tối ưu hóa mạnh mẽ để đạt thông lượng CPU thô cao.
ProgLoss + STAL: Các hàm mất mát tiên tiến này mang lại những cải tiến đáng kể trong việc nhận diện vật thể nhỏ, điều này rất quan trọng cho hình ảnh drone và giám sát trên không.
Cải tiến chuyên biệt theo tác vụ: YOLO26 bao gồm các cải tiến tùy chỉnh trên tất cả các tác vụ, chẳng hạn như tạo mẫu đa tỷ lệ cho segment và Ước tính Log-Likelihood Dư (RLE) cho ước tính tư thế.

Nếu bạn đang bắt đầu một dự án thị giác máy tính mới, việc tận dụng Nền tảng Ultralytics để huấn luyện mô hình YOLO26 sẽ đảm bảo ứng dụng của bạn được xây dựng trên kiến trúc hiệu quả, chính xác và có khả năng đáp ứng nhu cầu trong tương lai nhất hiện có.

Đối với các nhà phát triển quan tâm đến việc tìm hiểu về phát hiện từ vựng mở, bạn cũng có thể xem tài liệu của chúng tôi trên YOLO -World .