YOLO26 so với YOLO11: So sánh kỹ thuật dành cho các kỹ sư thị giác máy tính
Bối cảnh của phát hiện đối tượng thời gian thực và thị giác máy tính tiếp tục phát triển nhanh chóng. Ultralytics vẫn luôn đi đầu trong sự phát triển này, không ngừng vượt qua các giới hạn về tốc độ, độ chính xác và tính dễ sử dụng. Bài so sánh kỹ thuật này đi sâu vào các tiến bộ kiến trúc, chỉ số hiệu suất và các trường hợp sử dụng lý tưởng cho YOLO26 và YOLO11, hỗ trợ các nhà phát triển và nhà nghiên cứu trong việc lựa chọn mô hình tối ưu cho nhu cầu triển khai của họ.
Tóm tắt điều hành
YOLO26, ra mắt vào tháng 1 năm 2026, đại diện cho công nghệ tiên tiến nhất (SOTA) trong dòng YOLO. Nó giới thiệu một kiến trúc end-to-end (không NMS) nguyên bản, được tinh gọn cho triển khai biên và tối ưu hóa cho hiệu suất CPU. YOLO11, phiên bản tiền nhiệm từ tháng 9 năm 2024, vẫn là một lựa chọn mạnh mẽ và đáng tin cậy, mặc dù YOLO26 vượt trội hơn về tốc độ suy luận, đặc biệt trên phần cứng không có GPU, và sự đơn giản về kiến trúc.
Đối với hầu hết các dự án mới, YOLO26 là lựa chọn được khuyến nghị nhờ sự cân bằng vượt trội giữa tốc độ và độ chính xác cùng với quy trình triển khai được đơn giản hóa.
Sự tiến hóa kiến trúc
Sự chuyển đổi từ YOLO11 sang YOLO26 bao gồm những thay đổi cấu trúc đáng kể nhằm giảm độ trễ và độ phức tạp trong khi vẫn duy trì độ chính xác cao.
YOLO26: Tinh gọn và End-to-End
YOLO26 đánh dấu một sự thay đổi mô hình bằng cách áp dụng thiết kế end-to-end nguyên bản. Không giống như các mô hình YOLO truyền thống dựa vào Non-Maximum Suppression (NMS) để lọc các hộp giới hạn chồng chéo, YOLO26 loại bỏ hoàn toàn bước này. Bước đột phá này, lần đầu tiên được tiên phong trong YOLOv10, đơn giản hóa quy trình triển khai và giảm độ trễ suy luận, làm cho nó đặc biệt có lợi cho các ứng dụng thời gian thực.
Các đổi mới kiến trúc chính trong YOLO26 bao gồm:
- Loại bỏ DFL: Mô-đun Distribution Focal Loss (DFL) đã được loại bỏ. Sự đơn giản hóa này tăng cường khả năng tương thích với thiết bị biên và tăng tốc xuất sang các định dạng như ONNX và TensorRT bằng cách loại bỏ các phép toán phức tạp có thể gây tắc nghẽn cho bộ xử lý công suất thấp.
- Bộ tối ưu hóa MuSGD: Lấy cảm hứng từ các kỹ thuật huấn luyện mô hình ngôn ngữ lớn (LLM), YOLO26 sử dụng một bộ tối ưu hóa lai kết hợp SGD và Muon (từ Kimi K2 của Moonshot AI). Điều này mang lại động lực huấn luyện ổn định hơn và hội tụ nhanh hơn.
- ProgLoss + STAL: Cân bằng mất mát tiến bộ (ProgLoss) và Gán nhãn nhận biết mục tiêu nhỏ (STAL) cải thiện đáng kể hiệu suất trên các đối tượng nhỏ, một yếu tố quan trọng đối với hình ảnh từ máy bay không người lái và viễn thám.
YOLO11: Tiền thân Mạnh mẽ
YOLO11 được xây dựng dựa trên khối C3k2 và các mô-đun SPPF (Spatial Pyramid Pooling - Fast) để mang lại hiệu quả cao. Nó sử dụng một khối C2PSA tinh chỉnh với cơ chế chú ý để tăng cường trích xuất đặc trưng. Mặc dù rất hiệu quả, việc nó phụ thuộc vào xử lý hậu kỳ NMS gây ra một chi phí tính toán nhỏ trong quá trình suy luận so với phương pháp end-to-end của YOLO26.
Tại sao End-to-End quan trọng
Việc loại bỏ NMS trong YOLO26 có nghĩa là đầu ra của mô hình yêu cầu ít mã xử lý hậu kỳ hơn. Điều này giảm thiểu rủi ro lỗi triển khai và đảm bảo độ trễ nhất quán, vì thời gian suy luận không dao động dựa trên số lượng đối tượng được detect.
Điểm chuẩn hiệu suất
Bảng sau đây nêu bật sự khác biệt về hiệu suất giữa hai mô hình trên tập dữ liệu COCO. YOLO26 thể hiện những lợi thế rõ ràng về cả độ chính xác (mAP) và tốc độ suy luận trên CPU.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Phân tích các chỉ số
- Tốc độ suy luận trên CPU: YOLO26n nhanh hơn khoảng 43% trên CPU so với YOLO11n (38.9ms so với 56.1ms). Điều này làm cho YOLO26 trở thành lựa chọn vượt trội cho việc triển khai trên Raspberry Pi, thiết bị di động và các CPU tiêu chuẩn.
- Độ chính xác (mAP): Trên tất cả các thang đo, YOLO26 luôn đạt được Mean Average Precision cao hơn. Mô hình 'nano' cho thấy một bước nhảy vọt đáng kể từ 39.5 lên 40.9 mAP, mang lại chất lượng detect tốt hơn ở tốc độ cao hơn.
- Hiệu quả mô hình: YOLO26 thường yêu cầu ít tham số và FLOP hơn để đạt hiệu suất tốt hơn, minh họa những cải thiện về hiệu quả từ việc cắt tỉa kiến trúc và loại bỏ đầu DFL.
Huấn luyện và Tối ưu hóa
Cả hai mô hình đều hưởng lợi từ hệ sinh thái Ultralytics mạnh mẽ, giúp việc huấn luyện trở nên dễ tiếp cận và hiệu quả.
- Dễ sử dụng: Cả YOLO26 và YOLO11 đều chia sẻ cùng một API Python hợp nhất và giao diện CLI. Việc chuyển đổi giữa chúng đơn giản như việc thay đổi chuỗi mô hình từ
yolo11n.ptđếnyolo26n.pt. - Hiệu quả huấn luyện: Bộ tối ưu hóa MuSGD của YOLO26 giúp ổn định quá trình huấn luyện, có khả năng giảm số epoch cần thiết để đạt hội tụ. Điều này giúp tiết kiệm chi phí tính toán và thời gian, đặc biệt đối với các tập dữ liệu lớn như ImageNet.
- Yêu cầu bộ nhớ: Các mô hình Ultralytics nổi tiếng với việc sử dụng ít bộ nhớ so với các giải pháp thay thế dựa trên transformer. YOLO26 tối ưu hóa hơn nữa điều này bằng cách loại bỏ các phép tính đầu ra dư thừa, cho phép kích thước batch lớn hơn trên các GPU phổ thông.
Ví dụ huấn luyện
Dưới đây là cách bạn có thể huấn luyện mô hình YOLO26 mới nhất bằng cách sử dụng gói python của Ultralytics:
from ultralytics import YOLO
# Load the YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Tính linh hoạt của tác vụ và Các trường hợp sử dụng
Cả hai dòng mô hình đều hỗ trợ nhiều tác vụ thị giác máy tính, bao gồm detect, segment, phân loại, ước tính tư thế và detect đối tượng định hướng (obb).
Các trường hợp sử dụng lý tưởng cho YOLO26
- Điện toán biên: Với tốc độ CPU nhanh hơn tới 43%, YOLO26 hoàn hảo cho các thiết bị IoT, camera thông minh và ứng dụng di động nơi không có tài nguyên GPU.
- detect đối tượng nhỏ: Nhờ ProgLoss và STAL, YOLO26 vượt trội trong các kịch bản như giám sát trên không, kiểm tra chất lượng và hình ảnh y tế nơi việc detect các chi tiết nhỏ là rất quan trọng.
- Robot học thời gian thực: Thiết kế không NMS đảm bảo độ trễ xác định, rất quan trọng cho các vòng điều khiển trong điều hướng tự động và thao tác robot.
Các trường hợp sử dụng lý tưởng cho YOLO11
- Hệ thống kế thừa: Đối với các quy trình làm việc đã được tối ưu hóa cho kiến trúc YOLO11 hoặc nơi các pipeline hậu xử lý cụ thể được mã hóa cứng xung quanh đầu ra NMS, YOLO11 vẫn là một lựa chọn ổn định và được hỗ trợ.
- Suy luận GPU đa năng: Trên các GPU trung tâm dữ liệu mạnh mẽ (như T4), YOLO11 hoạt động cạnh tranh, làm cho nó phù hợp cho xử lý batch phía máy chủ nơi độ trễ CPU ít được quan tâm hơn.
Hệ sinh thái và Hỗ trợ
Một trong những lợi thế mạnh mẽ nhất khi sử dụng các mô hình Ultralytics là hệ sinh thái xung quanh. Cả YOLO26 và YOLO11 đều được tích hợp đầy đủ vào Nền tảng Ultralytics, cho phép quản lý mô hình, trực quan hóa và triển khai liền mạch.
- Tài liệu: Các hướng dẫn toàn diện bao gồm mọi thứ từ chú thích dữ liệu đến xuất mô hình.
- Cộng đồng: Một cộng đồng sôi nổi trên GitHub và Discord đảm bảo các nhà phát triển có quyền truy cập vào hỗ trợ và kiến thức chia sẻ.
- Tích hợp: Cả hai mô hình đều hỗ trợ xuất dễ dàng sang các định dạng như ONNX, OpenVINO và TensorRT, tạo điều kiện triển khai trên các môi trường phần cứng đa dạng.
Kết luận
Mặc dù YOLO11 vẫn là một mô hình có khả năng cao, YOLO26 đại diện cho một bước tiến đáng kể về hiệu quả và sự đơn giản trong kiến trúc. Thiết kế end-to-end, độ trễ CPU giảm và độ chính xác được cải thiện trên các đối tượng nhỏ khiến nó trở thành lựa chọn vượt trội cho các ứng dụng thị giác máy tính hiện đại. Cho dù bạn đang triển khai trên biên hay huấn luyện trên đám mây, YOLO26 mang lại sự cân bằng tốt nhất giữa hiệu suất và khả năng sử dụng hiện có.
Chi tiết mô hình
YOLO26
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub | Tài liệu
YOLO11
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2024-09-27
GitHub | Tài liệu
Các nhà phát triển tìm kiếm các lựa chọn khác cũng có thể khám phá YOLOv10 cho các khái niệm end-to-end trước đó hoặc YOLO-World cho các tác vụ detect từ vựng mở.