YOLOv10 so với YOLO26: Sự tiến hóa của nhận diện vật thể End-to-End
Bối cảnh thị giác máy tính đã chứng kiến những bước tiến đáng kể trong những năm gần đây, chuyển dịch từ các kiến trúc phức tạp, nặng về hậu xử lý sang các model end-to-end tinh gọn. Bản so sánh kỹ thuật này đi sâu vào hai cột mốc quan trọng trong hành trình đó: bước đột phá mang tính học thuật của YOLOv10 và YOLO26 hiện đại, sẵn sàng cho doanh nghiệp. Bằng cách kiểm tra kiến trúc, phương pháp huấn luyện và khả năng triển khai thực tế của chúng, các nhà phát triển có thể đưa ra quyết định sáng suốt khi xây dựng ứng dụng AI thị giác tiếp theo.
YOLOv10: Tiên phong trong nhận diện vật thể End-to-End
Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
Tổ chức: Tsinghua University
Ngày: 2024-05-23
Liên kết: arXiv Paper | GitHub Repository
Được phát hành vào giữa năm 2024, YOLOv10 đại diện cho một bước tiến đáng kể trong nghiên cứu thị giác máy tính học thuật bằng cách giải quyết một trong những điểm nghẽn dai dẳng nhất trong nhận diện vật thể thời gian thực: Non-Maximum Suppression (NMS). Các detector vật thể truyền thống phụ thuộc rất nhiều vào NMS để lọc bỏ các bounding box dư thừa, gây thêm độ trễ biến thiên trong quá trình inference và làm phức tạp hóa việc triển khai trên edge.
Nhóm nghiên cứu tại Tsinghua University đã giới thiệu một chiến lược gán kép nhất quán cho quá trình huấn luyện không cần NMS. Điều này cho phép model dự đoán bounding box chính xác mà không cần bước lọc hậu xử lý, trực tiếp cải thiện độ trễ inference và giảm rào cản khi triển khai trên các phần cứng tăng tốc. Mặc dù rất hiệu quả cho các tác vụ nhận diện tiêu chuẩn, model này chủ yếu tập trung vào dự đoán bounding box và thiếu sự hỗ trợ gốc cho các tác vụ phức tạp hơn như phân đoạn thực thể (instance segmentation) hoặc ước tính tư thế (pose estimation).
YOLO26: Tiêu chuẩn mới cho AI thị giác trên Edge và Cloud
Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
Liên kết: GitHub Repository | Ultralytics Platform
Dựa trên các khái niệm không cần NMS đã được tiên phong trước đó, YOLO26 mới được phát hành đại diện cho đỉnh cao của hiệu suất và tính linh hoạt. Được thiết kế cho cả nghiên cứu học thuật và triển khai cấp doanh nghiệp, nó tích hợp nguyên bản thiết kế end-to-end NMS-free, loại bỏ hoàn toàn hậu xử lý NMS để triển khai nhanh hơn, đơn giản hơn trên tất cả các phần cứng được hỗ trợ.
YOLO26 giới thiệu một số cải tiến kiến trúc mang tính đột phá. Việc loại bỏ Distribution Focal Loss (DFL) giúp đơn giản hóa đáng kể quy trình export của model và tăng cường khả năng tương thích với các thiết bị edge công suất thấp. Đi kèm với những thay đổi về cấu trúc này, YOLO26 đạt được tốc độ inference CPU nhanh hơn tới 43%, khiến nó trở thành một lựa chọn đặc biệt cho các ứng dụng IoT và robotics nơi GPU không khả dụng.
Hơn nữa, sự ổn định trong huấn luyện và tốc độ hội tụ đã được cách mạng hóa thông qua việc sử dụng MuSGD Optimizer, một sự kết hợp giữa SGD và Muon lấy cảm hứng từ các kỹ thuật huấn luyện LLM. Kết hợp với các hàm loss tiên tiến như ProgLoss + STAL, YOLO26 tự hào với những cải tiến đáng kể trong nhận diện vật thể nhỏ. Nó cũng giới thiệu các cải tiến cụ thể theo tác vụ, bao gồm multi-scale prototyping cho phân đoạn, Residual Log-Likelihood Estimation (RLE) cho ước tính tư thế, và một hàm loss góc chuyên biệt để giải quyết các vấn đề biên trong nhận diện Oriented Bounding Box (OBB).
Đối với các nhóm muốn mở rộng quy mô quy trình làm việc thị giác máy tính của họ, Ultralytics Platform cung cấp khả năng tích hợp liền mạch với YOLO26, cung cấp các tính năng gán nhãn dữ liệu trực quan, huấn luyện cloud tự động và các tùy chọn triển khai một cú nhấp chuột mà không yêu cầu cơ sở hạ tầng MLOps phức tạp.
So sánh hiệu suất kỹ thuật
Khi đánh giá các model này, sự cân bằng giữa độ chính xác, kích thước model và tốc độ inference là rất quan trọng. Bảng dưới đây làm nổi bật hiệu suất của cả hai dòng model qua nhiều thang đo khác nhau, được đánh giá trên tập dữ liệu tiêu chuẩn COCO dataset.
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Dữ liệu cho thấy rõ ràng lợi thế tiến hóa của kiến trúc mới hơn. YOLO26 đạt được mAP (mean Average Precision) cao hơn ở tất cả các cấp độ quy mô trong khi vẫn duy trì tốc độ inference có tính cạnh tranh cao. Việc loại bỏ DFL trong YOLO26 đặc biệt góp phần tạo nên hiệu suất CPU ONNX vượt trội của nó, một chỉ số mà các thế hệ trước thường gặp khó khăn.
Phương pháp huấn luyện và Hệ sinh thái
Một model chỉ hữu ích khi hệ sinh thái hỗ trợ nó đủ mạnh. Mặc dù YOLOv10 cung cấp một triển khai học thuật tuyệt vời dựa trên PyTorch, nó thường yêu cầu cấu hình thủ công cho các tác vụ vượt ra ngoài phạm vi nhận diện cơ bản.
Ngược lại, YOLO26 được tích hợp hoàn toàn vào hệ sinh thái Ultralytics được duy trì tốt. Điều này đảm bảo yêu cầu bộ nhớ thấp hơn đáng kể trong khi huấn luyện so với các model dựa trên transformer như RT-DETR, cho phép các nhà nghiên cứu huấn luyện các mạng hiện đại nhất trên phần cứng phổ thông. Sự dễ sử dụng là không gì sánh bằng, cung cấp một API thống nhất xử lý tự động việc tăng cường dữ liệu, điều chỉnh siêu tham số và ghi log.
Ví dụ mã: Huấn luyện YOLO26
Việc huấn luyện một model linh hoạt và độ chính xác cao chỉ yêu cầu vài dòng mã Python:
from ultralytics import YOLO
# Load the highly optimized YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model efficiently with automatic memory management
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
)
# Export natively to TensorRT without NMS complexities
model.export(format="engine")Các Ứng dụng Thực tế và Trường hợp Sử dụng
Việc chọn kiến trúc phù hợp phụ thuộc hoàn toàn vào các ràng buộc triển khai.
Tính toán Edge tốc độ cao
Đối với các ứng dụng yêu cầu triển khai nhanh trên vi điều khiển, robotics hoặc các thiết bị di động cũ, tốc độ inference CPU nhanh hơn 43% của YOLO26 khiến nó trở thành lựa chọn tối ưu. Kiến trúc không cần NMS và không cần DFL của nó chuyển đổi liền mạch sang các định dạng như OpenVINO và TensorRT, rất lý tưởng cho phân tích video thời gian thực trong cơ sở hạ tầng thành phố thông minh.
Thị giác đa tác vụ nâng cao
Trong khi YOLOv10 vượt trội trong việc nhận diện bounding box thuần túy, các dự án yêu cầu hiểu biết trực quan phong phú phải dựa vào YOLO26. Từ instance segmentation trong chẩn đoán hình ảnh y tế đến pose estimation chính xác cho phân tích thể thao, YOLO26 cung cấp các hàm loss đặc thù cho từng tác vụ, đảm bảo độ chính xác vượt trội trên nhiều lĩnh vực đa dạng.
Nếu dự án của bạn yêu cầu nhận diện từ vựng mở mạnh mẽ, hãy cân nhắc khám phá YOLO-World. Đối với người dùng duy trì các pipeline cũ, YOLO11 vẫn là một sự thay thế mạnh mẽ và được hỗ trợ đầy đủ trong khung làm việc của Ultralytics.
Các trường hợp sử dụng và khuyến nghị
Việc lựa chọn giữa YOLOv10 và YOLO26 phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và sở thích hệ sinh thái của bạn.
Khi nào nên chọn YOLOv10
YOLOv10 là lựa chọn mạnh mẽ cho:
- Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.
Khi nào nên chọn YOLO26
YOLO26 được khuyến nghị cho:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Kết luận
Sự chuyển đổi từ YOLOv10 sang YOLO26 làm nổi bật một sự thay đổi quan trọng từ bằng chứng khái niệm học thuật sang các giải pháp doanh nghiệp sẵn sàng cho sản xuất. Bằng cách áp dụng thiết kế tiên phong không cần NMS và tăng cường nó với MuSGD optimizer, ProgLoss và khả năng tương thích edge tinh gọn, YOLO26 đặt ra một tiêu chuẩn mới cho những gì có thể đạt được trong thị giác máy tính thời gian thực. Đối với các nhà phát triển đang hướng tới sự cân bằng tốt nhất giữa tốc độ, độ chính xác và khả năng sử dụng, YOLO26 nổi bật như là khuyến nghị cuối cùng.