YOLO11 so với YOLO26: Sự tiến hóa của AI thị giác thời gian thực
Lĩnh vực thị giác máy tính đang phát triển nhanh chóng, và Ultralytics tiếp tục dẫn đầu với các mô hình detect đối tượng tiên tiến nhất. So sánh này khám phá sự tiến hóa kiến trúc, các chỉ số hiệu suất và ứng dụng thực tế của YOLO11, ra mắt vào cuối năm 2024, và YOLO26 đột phá, ra mắt vào tháng 1 năm 2026. Mặc dù cả hai mô hình đều đại diện cho đỉnh cao của AI thị giác tại thời điểm ra mắt tương ứng, YOLO26 giới thiệu những thay đổi kiến trúc đáng kể, định nghĩa lại hiệu quả và tốc độ cho triển khai biên.
Tổng quan mô hình
YOLO11
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2024-09-27
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO11
YOLO11 đánh dấu một sự cải tiến đáng kể trong dòng YOLO, giảm 22% tham số so với YOLOv8 đồng thời cải thiện độ chính xác detect. Nó giới thiệu một thiết kế kiến trúc nâng cao, cân bằng giữa tốc độ và độ chính xác, biến nó thành một lựa chọn đáng tin cậy cho các tác vụ thị giác máy tính đa dạng, từ detect đối tượng đến phân đoạn thể hiện.
YOLO26
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu YOLO26
YOLO26 đại diện cho một sự thay đổi mô hình với thiết kế end-to-end không NMS nguyên bản, loại bỏ nhu cầu xử lý hậu kỳ Non-Maximum Suppression. Đổi mới này, lần đầu tiên được tiên phong trong YOLOv10, đơn giản hóa đáng kể quy trình triển khai và giảm độ trễ. YOLO26 được tối ưu hóa đặc biệt cho điện toán biên, mang lại tốc độ suy luận CPU nhanh hơn tới 43% và kết hợp các kỹ thuật huấn luyện mới như Trình tối ưu hóa MuSGD—một sự kết hợp giữa SGD và Muon, lấy cảm hứng từ những đổi mới trong huấn luyện LLM.
Lợi thế độ trễ End-to-End
Bằng cách loại bỏ bước NMS, YOLO26 cung cấp thời gian suy luận nhất quán bất kể số lượng đối tượng được detect trong một cảnh. Điều này rất quan trọng đối với các ứng dụng thời gian thực như lái xe tự hành, nơi các đỉnh xử lý hậu kỳ có thể gây ra sự chậm trễ nguy hiểm.
So sánh hiệu suất
Bảng dưới đây nêu bật những cải tiến về hiệu suất của YOLO26 so với YOLO11. Lưu ý những cải thiện đáng kể về tốc độ CPU, khiến YOLO26 đặc biệt phù hợp cho các thiết bị không có GPU chuyên dụng, như Raspberry Pi hoặc điện thoại di động.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Tìm hiểu sâu về kiến trúc
Kiến trúc YOLO11
YOLO11 được xây dựng dựa trên khái niệm backbone CSPNet, tinh chỉnh các lớp trích xuất đặc trưng để thu thập chi tiết hạt mịn hơn. Nó sử dụng một đầu detect không neo tiêu chuẩn và dựa vào Distribution Focal Loss (DFL) để tinh chỉnh hồi quy hộp giới hạn. Mặc dù rất hiệu quả, việc phụ thuộc vào NMS có nghĩa là tốc độ suy luận có thể dao động dựa trên mật độ cảnh, một nút thắt cổ chai phổ biến trong giám sát thành phố thông minh.
Kiến trúc YOLO26
YOLO26 giới thiệu một số thay đổi triệt để được thiết kế để đạt hiệu quả và ổn định:
- End-to-End không NMS: Mô hình dự đoán một tập hợp cố định các hộp giới hạn với khớp một-đối-một trong quá trình huấn luyện, loại bỏ bước NMS heuristic trong quá trình suy luận.
- Loại bỏ DFL: Distribution Focal Loss đã được loại bỏ để đơn giản hóa quá trình xuất sang các định dạng như ONNX và TensorRT, nâng cao khả năng tương thích với các thiết bị biên công suất thấp.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ Kimi K2 của Moonshot AI và huấn luyện Mô hình Ngôn ngữ Lớn (LLM), trình tối ưu hóa lai này kết hợp SGD và Muon để đảm bảo hội tụ nhanh hơn và các lần huấn luyện ổn định hơn, giảm thiểu các "đột biến mất mát" thường thấy trong huấn luyện thị giác quy mô lớn.
- ProgLoss + STAL: Các hàm mất mát mới (Progressive Loss và Soft-Target Assignment Loss) nhắm mục tiêu cụ thể vào nhận dạng đối tượng nhỏ, cung cấp một sự thúc đẩy lớn cho phân tích hình ảnh trên không và cảm biến IoT.
Tính linh hoạt của tác vụ
Cả hai mô hình đều hỗ trợ một loạt các tác vụ trong hệ sinh thái Ultralytics, đảm bảo các nhà phát triển có thể chuyển đổi mô hình mà không cần viết lại các pipeline của họ.
- Phát hiện: Phát hiện hộp giới hạn tiêu chuẩn.
- Phân đoạn: Mặt nạ cấp độ pixel. YOLO26 bổ sung một hàm mất mát phân đoạn ngữ nghĩa cụ thể và proto đa tỷ lệ để có chất lượng mặt nạ tốt hơn.
- Phân loại: Phân loại toàn bộ hình ảnh.
- Ước tính tư thế: Phát hiện điểm khóa. YOLO26 sử dụng Ước tính Log-Likelihood Phần dư (RLE) để đạt độ chính xác cao hơn trong các tư thế phức tạp, mang lại lợi ích cho phân tích thể thao.
- OBB (Hộp giới hạn định hướng): Các hộp xoay cho đối tượng trên không hoặc có góc nghiêng. YOLO26 có hàm mất mát góc chuyên biệt để giải quyết các vấn đề gián đoạn ranh giới thường gặp trong ảnh vệ tinh.
Huấn luyện và Sử dụng
Một trong những đặc điểm nổi bật của hệ sinh thái Ultralytics là API thống nhất. Dù bạn đang sử dụng YOLO11 hay nâng cấp lên YOLO26, mã vẫn gần như giống hệt, giúp giảm thiểu nợ kỹ thuật.
Ví dụ Python
Dưới đây là cách bạn có thể huấn luyện mô hình YOLO26 mới bằng giao diện quen thuộc tương tự như YOLO11. Ví dụ này minh họa việc huấn luyện trên tập dữ liệu COCO8, một tập dữ liệu nhỏ gồm 8 ảnh, hoàn hảo để thử nghiệm.
from ultralytics import YOLO
# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model
# The MuSGD optimizer is handled automatically internally for YOLO26 models
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device="cpu", # Use '0' for GPU
)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
Ví dụ CLI
Giao diện dòng lệnh cũng được tinh gọn tương tự, cho phép thử nghiệm nhanh chóng và đánh giá hiệu năng mô hình.
# Train YOLO26n on the COCO8 dataset
yolo train model=yolo26n.pt data=coco8.yaml epochs=100 imgsz=640
# Export to ONNX for simplified edge deployment
yolo export model=yolo26n.pt format=onnx
Các trường hợp sử dụng lý tưởng
Chọn YOLO11 nếu:
- Bạn có một pipeline sản xuất hiện có đã được tinh chỉnh cao cho YOLO11 và không thể dành thời gian xác thực cho một kiến trúc mới.
- Phần cứng triển khai của bạn có các tối ưu hóa cụ thể cho cấu trúc lớp của YOLO11 mà chưa được cập nhật cho YOLO26.
Chọn YOLO26 nếu:
- Triển khai trên thiết bị biên là rất quan trọng: Việc loại bỏ NMS và DFL khiến YOLO26 trở thành lựa chọn vượt trội cho ứng dụng Android/iOS và các hệ thống nhúng nơi chu kỳ CPU là quý giá.
- Phát hiện vật thể nhỏ: Các hàm ProgLoss và STAL giúp nó tốt hơn đáng kể trong việc xác định sâu bệnh trong nông nghiệp hoặc các vật thể ở xa trong cảnh quay từ drone.
- Tính ổn định khi huấn luyện: Nếu bạn đang huấn luyện trên các tập dữ liệu tùy chỉnh lớn và đã gặp phải các vấn đề phân kỳ, bộ tối ưu hóa MuSGD trong YOLO26 mang lại một lộ trình huấn luyện ổn định hơn.
- Xuất đơn giản nhất: Kiến trúc end-to-end xuất sạch hơn sang các định dạng như CoreML và TensorRT mà không yêu cầu các plugin NMS bên ngoài phức tạp.
Đối với các nhà phát triển quan tâm đến việc khám phá các tùy chọn khác trong gia đình Ultralytics, các mô hình như YOLOv10 (tiền thân của YOLO end-to-end) hoặc YOLO-World (để phát hiện từ vựng mở) cũng được hỗ trợ đầy đủ.
Kết luận
Mặc dù YOLO11 vẫn là một mô hình mạnh mẽ và có khả năng cao, YOLO26 thiết lập một tiêu chuẩn mới cho những gì có thể đạt được trong thị giác máy tính thời gian thực. Bằng cách tích hợp động lực huấn luyện lấy cảm hứng từ LLM và đơn giản hóa pipeline suy luận thông qua thiết kế không NMS, Ultralytics đã tạo ra một mô hình không chỉ chính xác hơn mà còn dễ triển khai hơn đáng kể trong thế giới thực.
Hệ sinh thái Ultralytics đảm bảo việc nâng cấp diễn ra liền mạch. Với yêu cầu bộ nhớ thấp hơn trong quá trình huấn luyện và tốc độ CPU nhanh hơn trong quá trình suy luận, YOLO26 là điểm khởi đầu được khuyến nghị cho tất cả các dự án mới vào năm 2026.