YOLOv10 so với RTDETRv2: Đánh giá các bộ dò đối tượng thời gian thực end-to-end
Bối cảnh của computer vision đang phát triển với tốc độ chóng mặt, cùng với các kiến trúc mới liên tục xác định lại trạng thái kỹ thuật tiên tiến nhất trong lĩnh vực dò đối tượng thời gian thực. Hai cột mốc quan trọng trong quá trình tiến hóa này là YOLOv10 và RTDETRv2. Cả hai model đều hướng tới việc giải quyết nút thắt cơ bản trong các quy trình dò truyền thống bằng cách loại bỏ nhu cầu hậu xử lý Non-Maximum Suppression (NMS), tuy nhiên họ tiếp cận thách thức này từ các mô hình kiến trúc hoàn toàn khác biệt.
Bài so sánh kỹ thuật này cung cấp phân tích chuyên sâu về kiến trúc, phương pháp huấn luyện và các kịch bản triển khai lý tưởng để giúp các nhà phát triển và nghiên cứu lựa chọn công cụ phù hợp cho dự án vision AI tiếp theo của họ.
YOLOv10: Người tiên phong không cần NMS
Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 tập trung mạnh mẽ vào hiệu suất kiến trúc và loại bỏ các nút thắt hậu xử lý. Bằng cách giới thiệu các phép gán kép nhất quán cho việc huấn luyện không cần NMS, model đạt được hiệu suất cạnh tranh trong khi giảm đáng kể độ trễ suy luận.
Thông số kỹ thuật
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, và cộng sự.
- Tổ chức: Tsinghua University
- Ngày: 2024-05-23
- ArXiv: Bài báo về YOLOv10
- GitHub: THU-MIG/yolov10
- Tài liệu: Tài liệu YOLOv10
Kiến trúc và Phương pháp luận
Đột phá chính của YOLOv10 là thiết kế model dựa trên sự cân bằng tổng thể giữa hiệu suất và độ chính xác. Nó tối ưu hóa các thành phần khác nhau từ cả hai góc độ, giảm đáng kể gánh nặng tính toán. Chiến lược gán kép nhất quán cho phép model huấn luyện mà không cần dựa vào NMS, giúp quy trình triển khai end-to-end trở nên tinh gọn. Điều này đặc biệt có lợi khi xuất model sang các định dạng biên như ONNX hoặc TensorRT, nơi các thao tác hậu xử lý có thể gây ra độ trễ không mong muốn.
Điểm mạnh và Điểm yếu
Model sở hữu sự cân bằng tuyệt vời giữa tốc độ và độ chính xác, đặc biệt là trong các biến thể nhỏ hơn (N và S). Độ trễ tối thiểu khiến nó trở nên lý tưởng cho các môi trường biên tốc độ cao. Tuy nhiên, dù YOLOv10 vượt trội về tốc độ dò thô, nó vẫn là một model chuyên biệt chỉ dành cho dò đối tượng. Các nhóm yêu cầu instance segmentation hoặc pose estimation sẽ cần tìm đến các khung làm việc linh hoạt hơn.
RTDETRv2: Cải tiến Transformer dò đối tượng
Dựa trên Real-Time Detection Transformer gốc, RTDETRv2 tích hợp một "túi kỹ thuật" để cải thiện từ nền tảng cơ sở của nó, cho thấy rằng các transformer có thể cạnh tranh với CNN trong các kịch bản thời gian thực.
Thông số kỹ thuật
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- ArXiv: Bài báo về RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Tài liệu: Tài liệu RTDETRv2
Kiến trúc và Phương pháp luận
RTDETRv2 sử dụng kiến trúc lai, kết hợp một backbone Convolutional Neural Network (CNN) để trích xuất đặc trưng hình ảnh với một bộ encoder-decoder Transformer để hiểu cảnh quan toàn diện. Cơ chế self-attention của transformer cho phép model quan sát hình ảnh một cách toàn cục, giúp nó đạt hiệu quả cao trong việc xử lý các khung cảnh phức tạp, các đối tượng chồng chéo và đám đông dày đặc.
Điểm mạnh và Điểm yếu
Kiến trúc transformer cung cấp độ chính xác tuyệt vời, đặc biệt là ở quy mô tham số lớn hơn, và xuất ra các kết quả dò cuối cùng mà không cần NMS. Tuy nhiên, điều này đi kèm với một cái giá. Các model transformer truyền thống thường đòi hỏi nhiều bộ nhớ CUDA hơn đáng kể trong quá trình huấn luyện và có thể hội tụ chậm hơn so với các kiến trúc CNN thuần túy. Mặc dù RTDETRv2 đã cải thiện tốc độ suy luận, nhưng nhìn chung nó tiêu tốn nhiều bộ nhớ hơn so với các biến thể YOLO nhẹ.
So sánh hiệu năng
Việc đánh giá các số liệu hiệu suất cung cấp cái nhìn rõ ràng hơn về điểm mạnh của từng model. Bảng dưới đây làm nổi bật khả năng của chúng trên COCO dataset:
| Model | kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Khi phân tích dữ liệu, YOLOv10 duy trì ưu thế rõ rệt về hiệu quả tham số và tốc độ suy luận TensorRT trên các kích thước tương đương. RTDETRv2-x bắt kịp YOLOv10x khổng lồ về độ chính xác nhưng yêu cầu thêm gần 20 triệu tham số và FLOPs cao hơn đáng kể.
Các trường hợp sử dụng và khuyến nghị
Việc lựa chọn giữa YOLOv10 và RT-DETR phụ thuộc vào yêu cầu cụ thể của dự án, các ràng buộc triển khai và sở thích về hệ sinh thái của bạn.
Khi nào nên chọn YOLOv10
YOLOv10 là lựa chọn mạnh mẽ cho:
- Nhận diện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc nhận diện end-to-end mà không cần Non-Maximum Suppression, giảm bớt độ phức tạp khi triển khai.
- Cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng tốt giữa tốc độ suy luận và độ chính xác nhận diện trên nhiều quy mô mô hình khác nhau.
- Ứng dụng yêu cầu độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là rất quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.
Khi nào nên chọn RT-DETR
RT-DETR được khuyến nghị cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá các cơ chế chú ý và kiến trúc transformer cho việc phát hiện đối tượng end-to-end mà không cần NMS.
- Các tình huống có độ chính xác cao với độ trễ linh hoạt: Các ứng dụng nơi độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là điều có thể chấp nhận được.
- Phát hiện đối tượng lớn: Các cảnh có các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.
Khi nào nên chọn Ultralytics (YOLO26)
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu suất và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận ổn định, độ trễ thấp mà không cần sự phức tạp của việc hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ sử dụng CPU: Các thiết bị không có GPU tăng tốc chuyên dụng, nơi tốc độ suy luận trên CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Nhận diện đối tượng nhỏ: Các kịch bản thách thức như ảnh drone trên không hoặc phân tích cảm biến IoT nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng cực nhỏ.
Lợi thế từ Ultralytics: Hệ sinh thái và Đổi mới
Mặc dù YOLOv10 và RTDETRv2 cung cấp các khả năng dò đối tượng mạnh mẽ, việc chọn model thường phụ thuộc vào hệ sinh thái phần mềm đi kèm. Ultralytics Platform cung cấp một giao diện hợp nhất, liền mạch giúp trừu tượng hóa các sự phức tạp của deep learning.
Tiêu chuẩn mới: Ultralytics YOLO26
Đối với các nhà phát triển tìm kiếm hiệu suất tốt nhất tuyệt đối, Ultralytics YOLO26 đại diện cho đỉnh cao của những tiến bộ kiến trúc gần đây. Ra mắt vào đầu năm 2026, YOLO26 thừa hưởng Thiết kế End-to-End NMS-Free được tiên phong bởi YOLOv10, loại bỏ hoàn toàn hậu xử lý NMS để triển khai nhanh hơn và đơn giản hơn.
YOLO26 mang những cải tiến huấn luyện LLM vào computer vision thông qua MuSGD Optimizer (một sự kết hợp giữa SGD và Muon), dẫn đến việc huấn luyện ổn định hơn và hội tụ nhanh hơn. Nó cũng tự hào với tốc độ Suy luận CPU nhanh hơn tới 43%, khiến nó trở thành lựa chọn hàng đầu cho điện toán biên.
Hơn nữa, YOLO26 giới thiệu ProgLoss + STAL cho những cải tiến đáng kể trong việc nhận diện đối tượng nhỏ, và không giống như YOLOv10 chuyên biệt, nó cung cấp sự linh hoạt cực độ. Nó hỗ trợ bản địa object detection, segmentation, pose, và oriented bounding boxes (OBB) với các cải tiến đặc thù cho tác vụ như semantic segmentation loss và Residual Log-Likelihood Estimation (RLE) cho pose. Hơn nữa, việc loại bỏ Distribution Focal Loss (DFL) đảm bảo việc xuất model được đơn giản hóa và khả năng tương thích tốt hơn với các thiết bị tiêu thụ năng lượng thấp.
Dễ sử dụng và hiệu quả huấn luyện
Dù bạn đang thử nghiệm với các model thế hệ cũ như Ultralytics YOLO11 hay YOLO26 tiên tiến, Python API tinh gọn đảm bảo mức tiêu thụ bộ nhớ thấp hơn trong quá trình huấn luyện và các quy trình làm việc cực nhanh.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")Hệ sinh thái được duy trì tốt cung cấp các công cụ để dễ dàng hyperparameter tuning và tích hợp hoàn hảo với các giải pháp theo dõi mở rộng cùng model deployment options.
Kết luận
Cả YOLOv10 và RTDETRv2 đều đại diện cho những cột mốc đáng gờm trong nỗ lực đạt được dò đối tượng không cần NMS. RTDETRv2 chứng minh rằng các transformer có thể đạt được độ trễ thời gian thực với khả năng hiểu ngữ cảnh toàn cục xuất sắc, mặc dù yêu cầu bộ nhớ cao hơn. YOLOv10 cung cấp một giải pháp CNN nhanh và hiệu quả cao, được tùy chỉnh cho các tác vụ dò đối tượng bị hạn chế về tài nguyên.
Tuy nhiên, để có hiệu suất cân bằng, sự linh hoạt đa tác vụ và hệ sinh thái hoàn thiện nhất, các nhà phát triển được khuyến khích mạnh mẽ sử dụng Ultralytics YOLO26. Nó kết hợp một cách tuyệt đẹp những đổi mới kiến trúc của các tiền nhiệm với bộ công cụ mạnh mẽ, thân thiện với người dùng, giúp việc triển khai vision AI trở thành một hiện thực liền mạch.