YOLOv10 so với YOLO26: Phân tích so sánh
Trong bối cảnh detect đối tượng thời gian thực đang phát triển nhanh chóng, các nhà phát triển và nhà nghiên cứu không ngừng tìm kiếm sự cân bằng tối ưu giữa tốc độ suy luận, độ chính xác và tính linh hoạt trong triển khai. Hai cột mốc quan trọng trong hành trình này là YOLOv10, được phát triển bởi Đại học Thanh Hoa, và YOLO26 kế nhiệm, mô hình chủ lực mới nhất từ Ultralytics.
Mặc dù cả hai mô hình đều ủng hộ xu hướng kiến trúc end-to-end, nhưng chúng khác biệt đáng kể về triển khai, hỗ trợ hệ sinh thái và các ứng dụng mục tiêu. Phân tích này sẽ đi sâu vào những thay đổi kiến trúc, các chỉ số hiệu suất và những cân nhắc thực tế khi lựa chọn giữa hai công cụ AI thị giác mạnh mẽ này.
Tổng quan mô hình
YOLOv10: Tiên phong End-to-End
Được phát hành vào tháng 5 năm 2024 bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 đã gây chú ý khi giới thiệu chiến lược gán kép nhất quán cho quá trình huấn luyện không NMS. Kiến trúc này nhằm mục đích loại bỏ bước hậu xử lý non-maximum suppression (NMS), vốn là một nút thắt về độ trễ trong các phiên bản YOLO trước đây.
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức:Đại học Thanh Hoa
- Ngày: 23 tháng 5 năm 2024
- Đổi mới chính: Gán kép nhất quán cho huấn luyện không NMS và thiết kế mô hình toàn diện theo hướng hiệu quả-độ chính xác.
YOLO26: Tiêu chuẩn mới cho AI biên (Edge AI)
Được Ultralytics phát hành vào tháng 1 năm 2026, YOLO26 tinh chỉnh khái niệm end-to-end do YOLOv10 tiên phong nhưng xây dựng lại framework với trọng tâm là triển khai trên thiết bị biên, ổn định huấn luyện và tương thích phần cứng. Nó loại bỏ các thành phần cũ như Distribution Focal Loss (DFL) để hợp lý hóa khả năng xuất và giới thiệu các kỹ thuật tối ưu hóa lấy cảm hứng từ LLM.
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 14 tháng 1 năm 2026
- Đổi mới chính: Loại bỏ DFL, bộ tối ưu hóa MuSGD (lai giữa SGD/Muon) và hỗ trợ end-to-end nguyên bản trên năm tác vụ thị giác máy tính.
Sự khác biệt về kiến trúc
Sự chuyển đổi từ YOLOv10 sang YOLO26 thể hiện một sự dịch chuyển từ đổi mới học thuật sang độ bền cấp độ sản xuất.
Thiết kế End-to-End và NMS
Cả hai mô hình đều có chung mục tiêu loại bỏ NMS. YOLOv10 đã giới thiệu khái niệm gán nhãn kép—sử dụng gán một-nhiều để giám sát phong phú trong quá trình huấn luyện và gán một-một cho suy luận.
YOLO26 áp dụng thiết kế end-to-end không NMS nguyên bản này, nhưng tối ưu hóa việc triển khai để đảm bảo tích hợp liền mạch với hệ sinh thái Ultralytics. Bằng cách tạo ra các dự đoán trực tiếp mà không cần hậu xử lý, cả hai mô hình đều giảm sự biến động độ trễ, điều này rất quan trọng đối với các ứng dụng thời gian thực như phương tiện tự hành và robot.
Hàm mất mát và Tối ưu hóa
Một điểm khác biệt lớn nằm ở cách các mô hình được huấn luyện.
- YOLOv10 tập trung vào thiết kế kiến trúc theo hướng hiệu quả-độ chính xác, tối ưu hóa các thành phần cụ thể để giảm chi phí tính toán.
- YOLO26 giới thiệu bộ tối ưu hóa MuSGD, một sự kết hợp giữa SGD và bộ tối ưu hóa Muon (lấy cảm hứng từ Kimi K2 của Moonshot AI). Điều này mang các kỹ thuật tối ưu hóa từ huấn luyện Mô hình Ngôn ngữ Lớn (LLM) vào thị giác máy tính, giúp hội tụ nhanh hơn và ổn định hơn. Ngoài ra, YOLO26 sử dụng ProgLoss và STAL (Small-Target-Aware Label Assignment), đặc biệt nhắm đến việc cải thiện nhận dạng vật thể nhỏ.
Đơn giản và Khả năng xuất
YOLO26 thực hiện một bước đi táo bạo bằng cách loại bỏ Distribution Focal Loss (DFL). Mặc dù DFL đã giúp cải thiện độ chính xác của hộp giới hạn trong các thế hệ trước, nhưng nó thường làm phức tạp quá trình xuất sang các định dạng như ONNX hoặc TensorRT, đặc biệt đối với các thiết bị biên. Việc loại bỏ DFL trong YOLO26 giúp đơn giản hóa biểu đồ mô hình, làm cho nó nhanh hơn tới 43% khi suy luận trên CPU so với các phiên bản tiền nhiệm, khiến nó cực kỳ hiệu quả cho điện toán biên.
So sánh hiệu suất
Bảng sau đây nêu bật các chỉ số hiệu suất của cả hai mô hình. Trong khi YOLOv10 mang lại hiệu suất mạnh mẽ, YOLO26 thể hiện tốc độ vượt trội, đặc biệt trong môi trường CPU, và độ chính xác được nâng cao ở các mô hình lớn hơn.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Những Điểm Chính
- Hiệu quả CPU: YOLO26 cung cấp tốc độ suy luận CPU đã được xác minh, tối ưu hóa cao, rất quan trọng đối với các thiết bị thiếu GPU chuyên dụng, như Raspberry Pi hoặc máy tính xách tay tiêu chuẩn.
- Cải thiện độ chính xác: Nhìn chung, YOLO26 đạt được điểm mAP cao hơn, với những bước nhảy vọt đáng kể ở các biến thể trung bình (m), lớn (l) và cực lớn (x).
- Hiệu quả tham số: Trong khi YOLOv10 hướng đến số lượng tham số thấp, YOLO26 tối ưu hóa FLOPs và kiến trúc để mang lại mAP tốt hơn trên mỗi đơn vị tính toán trong các kịch bản thực tế.
Hệ sinh thái và Dễ sử dụng
Khi lựa chọn một mô hình để đưa vào sản xuất, hệ sinh thái xung quanh cũng quan trọng như chính kiến trúc đó.
Lợi thế của Ultralytics
YOLO26 hưởng lợi từ hệ sinh thái Ultralytics trưởng thành. Điều này bao gồm:
- API thống nhất: Một giao diện Python và CLI nhất quán cho huấn luyện, xác thực và triển khai.
- Tài liệu: Các hướng dẫn chi tiết về tích hợp với các công cụ như Weights & Biases, Comet và Roboflow.
- Tính linh hoạt: Không giống như YOLOv10, vốn chủ yếu tập trung vào detect, YOLO26 hỗ trợ nguyên bản Instance Segmentation, Pose Estimation, Oriented Bounding Boxes (OBB) và Classification trong cùng một framework.
- Hỗ trợ: Hỗ trợ cộng đồng tích cực qua GitHub, Discord và Diễn đàn Cộng đồng Ultralytics.
Tính linh hoạt tác vụ
Nếu dự án của bạn yêu cầu nhiều hơn chỉ là các hộp giới hạn—chẳng hạn như hiểu tư thế cơ thể (Pose) hoặc segment các vật thể không đều (Segmentation)—YOLO26 cung cấp các khả năng này ngay lập tức với cùng một API đơn giản.
Hiệu quả huấn luyện
Các mô hình YOLO26 thường yêu cầu ít bộ nhớ hơn trong quá trình huấn luyện so với các kiến trúc nặng về transformer. Việc giới thiệu bộ tối ưu hóa MuSGD còn giúp ổn định hơn các lần chạy huấn luyện, giảm khả năng xảy ra các lỗi mất mát phân kỳ hoặc lỗi "NaN" có thể gây khó khăn cho các mô hình thử nghiệm. Người dùng có thể dễ dàng bắt đầu huấn luyện chỉ với một lệnh:
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="custom_dataset.yaml", epochs=100, imgsz=640)
Các Trường hợp Sử dụng
Khi nào nên chọn YOLOv10
YOLOv10 vẫn là một lựa chọn mạnh mẽ cho các nhà nghiên cứu học thuật đặc biệt điều tra giới hạn lý thuyết của thiết kế hướng đến hiệu quả-độ chính xác hoặc những người muốn xây dựng dựa trên nghiên cứu gán kép ban đầu. Số lượng tham số thấp của nó trong phiên bản 'nano' rất ấn tượng đối với các điểm chuẩn lý thuyết bị hạn chế cao.
Khi nào nên chọn YOLO26
YOLO26 là lựa chọn được khuyến nghị cho các nhà phát triển, kỹ sư và doanh nghiệp xây dựng các ứng dụng thực tế.
- Triển khai biên: Việc loại bỏ DFL và tối ưu hóa cho suy luận trên CPU làm cho nó lý tưởng cho ứng dụng di động và thiết bị IoT.
- Các kịch bản phức tạp: Hàm ProgLoss và STAL mang lại lợi thế rõ rệt trong các kịch bản liên quan đến vật thể nhỏ, chẳng hạn như hình ảnh từ drone hoặc phân tích vệ tinh.
- Yêu cầu đa tác vụ: Các dự án có thể cần segment hoặc ước tính tư thế (pose estimation) sau này có thể duy trì trong cùng một codebase mà không cần chuyển đổi thư viện.
- Tính ổn định trong sản xuất: Hỗ trợ xuất mạnh mẽ cho ONNX, TensorRT, CoreML và OpenVINO đảm bảo rằng mô hình bạn huấn luyện là mô hình bạn có thể triển khai.
Kết luận
Mặc dù YOLOv10 đã giới thiệu khả năng detect không NMS đầy thú vị đến đông đảo người dùng, YOLO26 đã tinh chỉnh và đưa công nghệ này vào hoạt động. Bằng cách kết hợp thiết kế end-to-end với các bộ tối ưu hóa tiên tiến lấy cảm hứng từ LLM, tính linh hoạt trong tác vụ và sự hỗ trợ mạnh mẽ của nền tảng Ultralytics, YOLO26 nổi bật như một lựa chọn vượt trội cho phát triển thị giác máy tính thực tế, hiệu suất cao vào năm 2026.
Đối với các nhà phát triển muốn khám phá các tùy chọn tiên tiến tương tự, mô hình YOLO11 cũng mang lại hiệu suất tuyệt vời và vẫn được hỗ trợ đầy đủ cho các quy trình làm việc cũ.