Link to this sectionSo sánh YOLOv10 và YOLO26#
Bối cảnh thị giác máy tính đã chứng kiến những bước tiến đáng kể trong những năm gần đây, chuyển dịch từ các kiến trúc phức tạp, nặng về hậu xử lý sang các model end-to-end tinh gọn. Bản so sánh kỹ thuật này đi sâu vào hai cột mốc quan trọng trong hành trình đó: bước đột phá mang tính học thuật của YOLOv10 và YOLO26 tiên tiến, sẵn sàng cho doanh nghiệp. Bằng cách kiểm tra kiến trúc, phương pháp huấn luyện và khả năng triển khai thực tế của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi xây dựng ứng dụng AI thị giác tiếp theo của mình.
Link to this sectionYOLOv10: Tiên phong trong phát hiện đối tượng End-to-End#
Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al. Tổ chức: Đại học Thanh Hoa Ngày: 23-05-2024 Liên kết: Bài báo arXiv | Kho lưu trữ GitHub
Được phát hành vào giữa năm 2024, YOLOv10 đại diện cho một bước nhảy vọt đáng kể trong nghiên cứu thị giác máy tính học thuật bằng cách giải quyết một trong những nút thắt dai dẳng nhất trong phát hiện đối tượng thời gian thực: Non-Maximum Suppression (NMS). Các detector đối tượng truyền thống phụ thuộc nhiều vào NMS để lọc bỏ các bounding box dư thừa, gây ra độ trễ biến thiên trong quá trình inference và làm phức tạp việc triển khai tại edge.
Nhóm nghiên cứu từ Đại học Thanh Hoa đã giới thiệu chiến lược gán kép nhất quán cho huấn luyện không cần NMS. Điều này cho phép model dự đoán chính xác các bounding box mà không cần bước lọc hậu xử lý, trực tiếp cải thiện độ trễ inference và giảm rào cản khi triển khai trên các phần cứng tăng tốc. Mặc dù rất hiệu quả cho các tác vụ phát hiện tiêu chuẩn, model chủ yếu tập trung vào dự đoán bounding box và thiếu sự hỗ trợ bản địa cho các tác vụ phức tạp hơn như phân đoạn thực thể (instance segmentation) hay ước tính tư thế (pose estimation).
Link to this sectionYOLO26: Tiêu chuẩn mới cho Edge và Cloud Vision AI#
Tác giả: Glenn Jocher và Jing Qiu Tổ chức: Ultralytics Ngày: 14-01-2026 Liên kết: Kho lưu trữ GitHub | Nền tảng Ultralytics
Dựa trên các khái niệm không cần NMS đã được tiên phong trước đó, YOLO26 mới được phát hành đại diện cho đỉnh cao của hiệu suất và tính linh hoạt. Được thiết kế cho cả nghiên cứu học thuật và triển khai cấp doanh nghiệp, model tích hợp sẵn thiết kế end-to-end không cần NMS, loại bỏ hoàn toàn hậu xử lý NMS để triển khai nhanh hơn, đơn giản hơn trên tất cả các phần cứng được hỗ trợ.
YOLO26 giới thiệu một số cải tiến kiến trúc mang tính đột phá. Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa đáng kể quy trình xuất model và tăng cường khả năng tương thích với các thiết bị edge tiêu thụ năng lượng thấp. Kết hợp với những thay đổi cấu trúc này, YOLO26 đạt được inference CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn vượt trội cho các ứng dụng IoT và robot nơi không có sẵn khả năng tăng tốc GPU.
Hơn nữa, sự ổn định trong huấn luyện và tốc độ hội tụ đã được cách mạng hóa thông qua việc sử dụng MuSGD Optimizer, một mô hình lai giữa SGD và Muon lấy cảm hứng từ các kỹ thuật huấn luyện LLM. Kết hợp với các hàm mất mát (loss function) tiên tiến như ProgLoss + STAL, YOLO26 tự hào với những cải tiến đáng chú ý trong việc nhận diện đối tượng nhỏ. Nó cũng giới thiệu các cải tiến cụ thể cho từng tác vụ, bao gồm tạo mẫu đa quy mô cho phân đoạn, Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế, và một hàm mất mát góc chuyên dụng để giải quyết các vấn đề biên trong phát hiện Oriented Bounding Box (OBB).
Đối với các nhóm muốn mở rộng quy mô quy trình làm việc thị giác máy tính của mình, Nền tảng Ultralytics cung cấp khả năng tích hợp liền mạch với YOLO26, cung cấp các tính năng gán nhãn dữ liệu trực quan, huấn luyện đám mây tự động và các tùy chọn triển khai chỉ bằng một cú nhấp chuột mà không cần cơ sở hạ tầng MLOps phức tạp.
Link to this sectionSo sánh hiệu suất kỹ thuật#
Khi đánh giá các model này, sự cân bằng giữa độ chính xác, kích thước model và tốc độ inference là rất quan trọng. Bảng dưới đây làm nổi bật hiệu suất của cả hai dòng model trên nhiều quy mô khác nhau, được đánh giá trên tập dữ liệu COCO tiêu chuẩn.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Dữ liệu chứng minh rõ ràng ưu thế tiến hóa của kiến trúc mới hơn. YOLO26 đạt được mAP (mean Average Precision) cao hơn trên tất cả các phân khúc kích thước trong khi vẫn duy trì tốc độ inference rất cạnh tranh. Việc loại bỏ DFL trong YOLO26 đặc biệt góp phần vào hiệu suất CPU ONNX vượt trội của nó, một chỉ số mà các thế hệ trước thường gặp khó khăn.
Link to this sectionPhương pháp huấn luyện và Hệ sinh thái#
Một model chỉ hữu ích khi hệ sinh thái hỗ trợ nó đủ mạnh. Mặc dù YOLOv10 cung cấp một bản triển khai học thuật xuất sắc dựa trên PyTorch, nó thường yêu cầu cấu hình thủ công cho các tác vụ vượt ra ngoài phát hiện cơ bản.
Ngược lại, YOLO26 được tích hợp hoàn toàn vào hệ sinh thái Ultralytics được bảo trì tốt. Điều này đảm bảo yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện so với các model dựa trên Transformer như RT-DETR, cho phép các nhà nghiên cứu huấn luyện các mạng thần kinh hiện đại trên phần cứng cấp người dùng. Sự dễ sử dụng là không gì sánh bằng, cung cấp một API thống nhất xử lý tự động việc tăng cường dữ liệu (data augmentation), tinh chỉnh siêu tham số và ghi nhật ký.
Link to this sectionVí dụ mã: Huấn luyện YOLO26#
Việc huấn luyện một model đa năng, có độ chính xác cao chỉ cần vài dòng mã Python:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")Link to this sectionCác Ứng dụng Thực tế và Trường hợp Sử dụng#
Việc chọn đúng kiến trúc phụ thuộc hoàn toàn vào các ràng buộc triển khai.
Link to this sectionĐiện toán Edge tốc độ cao#
Đối với các ứng dụng yêu cầu triển khai nhanh trên vi điều khiển, robot hoặc thiết bị di động cũ, tốc độ inference CPU nhanh hơn 43% của YOLO26 khiến nó trở thành lựa chọn dứt khoát. Kiến trúc không cần NMS, không cần DFL của nó chuyển đổi liền mạch sang các định dạng như OpenVINO và TensorRT, lý tưởng cho phân tích video thời gian thực trong cơ sở hạ tầng thành phố thông minh.
Link to this sectionThị giác đa tác vụ nâng cao#
Trong khi YOLOv10 vượt trội trong phát hiện bounding box thuần túy, các dự án yêu cầu hiểu biết trực quan phong phú phải dựa vào YOLO26. Từ instance segmentation trong hình ảnh y tế đến pose estimation chính xác cho phân tích thể thao, YOLO26 cung cấp các hàm mất mát cụ thể cho từng tác vụ đảm bảo độ chính xác vượt trội trên các lĩnh vực đa dạng.
Nếu dự án của bạn yêu cầu phát hiện open-vocabulary mạnh mẽ, hãy cân nhắc khám phá YOLO-World. Đối với người dùng duy trì các quy trình cũ, YOLO11 vẫn là một giải pháp thay thế mạnh mẽ và được hỗ trợ đầy đủ trong khuôn khổ Ultralytics.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOv10 và YOLO26 phụ thuộc vào yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOv10#
YOLOv10 là một lựa chọn mạnh mẽ cho:
- Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
- Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
- Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.
Link to this sectionKhi nào nên chọn YOLO26#
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionKết luận#
Sự chuyển đổi từ YOLOv10 sang YOLO26 làm nổi bật một bước chuyển quan trọng từ mô hình chứng minh khái niệm trong học thuật sang các giải pháp doanh nghiệp sẵn sàng sản xuất. Bằng cách áp dụng thiết kế tiên phong không cần NMS và tăng cường nó với trình tối ưu hóa MuSGD, ProgLoss và khả năng tương thích edge được tinh giản, YOLO26 đặt ra một chuẩn mực mới cho những gì có thể thực hiện được trong thị giác máy tính thời gian thực. Đối với các nhà phát triển nhằm đạt được sự cân bằng tốt nhất giữa tốc độ, độ chính xác và khả năng sử dụng, YOLO26 nổi bật là khuyến nghị cuối cùng.