Link to this sectionYOLOv10 so với RTDETRv2#
Bối cảnh của computer vision thay đổi với tốc độ chóng mặt, cùng các kiến trúc mới liên tục định nghĩa lại trạng thái tốt nhất trong phát hiện đối tượng thời gian thực. Hai cột mốc quan trọng trong quá trình phát triển này là YOLOv10 và RTDETRv2. Cả hai model đều hướng tới việc giải quyết điểm nghẽn cơ bản trong các pipeline phát hiện truyền thống bằng cách loại bỏ nhu cầu hậu xử lý Non-Maximum Suppression (NMS), tuy nhiên chúng tiếp cận thách thức này từ các mô hình kiến trúc hoàn toàn khác biệt.
Bài so sánh kỹ thuật này cung cấp phân tích chuyên sâu về kiến trúc, phương pháp huấn luyện và các kịch bản triển khai lý tưởng để giúp các nhà phát triển và nghiên cứu chọn đúng công cụ cho dự án vision AI tiếp theo của họ.
Link to this sectionYOLOv10: Người tiên phong không cần NMS#
Được phát triển bởi các nhà nghiên cứu tại Đại học Thanh Hoa, YOLOv10 tập trung mạnh mẽ vào hiệu quả kiến trúc và loại bỏ các điểm nghẽn hậu xử lý. Bằng cách giới thiệu cơ chế gán kép nhất quán (consistent dual assignments) cho huấn luyện không cần NMS, model đạt được hiệu suất cạnh tranh trong khi giảm đáng kể độ trễ suy luận.
Link to this sectionThông số kỹ thuật#
- Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
- Tổ chức: Đại học Thanh Hoa
- Ngày: 23-05-2024
- ArXiv: Bài báo YOLOv10
- GitHub: THU-MIG/yolov10
- Tài liệu: Tài liệu YOLOv10
Link to this sectionKiến trúc và phương pháp luận#
Bước đột phá chính của YOLOv10 là thiết kế model hướng tới sự cân bằng toàn diện giữa hiệu quả và độ chính xác. Nó tối ưu hóa các thành phần khác nhau từ cả hai góc độ, giảm đáng kể chi phí tính toán. Chiến lược gán kép nhất quán cho phép model huấn luyện mà không cần dựa vào NMS, dẫn đến pipeline triển khai end-to-end tinh gọn. Điều này đặc biệt có lợi khi xuất model sang các định dạng biên như ONNX hoặc TensorRT, nơi các thao tác hậu xử lý có thể gây ra độ trễ không mong muốn.
Link to this sectionĐiểm mạnh và điểm yếu#
Model tự hào về khả năng đánh đổi tốc độ-độ chính xác xuất sắc, đặc biệt ở các biến thể nhỏ hơn (N và S). Độ trễ tối thiểu của nó làm cho nó trở nên lý tưởng cho các môi trường biên tốc độ cao. Tuy nhiên, trong khi YOLOv10 vượt trội về tốc độ phát hiện thuần túy, nó vẫn là một model chuyên dụng chỉ dành cho phát hiện. Các đội ngũ yêu cầu instance segmentation hoặc pose estimation sẽ cần tìm đến các framework linh hoạt hơn.
Link to this sectionRTDETRv2: Cải tiến Detection Transformer#
Dựa trên Real-Time Detection Transformer gốc, RTDETRv2 kết hợp một "túi quà tặng" (bag of freebies) để cải thiện hiệu năng baseline, chứng minh rằng các Transformer có thể cạnh tranh với CNN trong các kịch bản thời gian thực.
Link to this sectionThông số kỹ thuật#
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- ArXiv: Bài báo RTDETRv2
- GitHub: lyuwenyu/RT-DETR
- Tài liệu: Tài liệu RTDETRv2
Link to this sectionKiến trúc và phương pháp luận#
RTDETRv2 sử dụng kiến trúc lai, kết hợp backbone mạng thần kinh tích chập (CNN) để trích xuất đặc trưng hình ảnh với một bộ encoder-decoder Transformer để hiểu bối cảnh toàn diện. Cơ chế self-attention của Transformer cho phép model quan sát hình ảnh một cách tổng thể, giúp nó đạt hiệu quả cao trong việc xử lý các cảnh phức tạp, đối tượng chồng lấp và đám đông dày đặc.
Link to this sectionĐiểm mạnh và điểm yếu#
Kiến trúc Transformer cung cấp độ chính xác tuyệt vời, đặc biệt ở các quy mô tham số lớn hơn, và xuất kết quả phát hiện cuối cùng mà không cần NMS. Tuy nhiên, điều này đi kèm với cái giá phải trả. Các model Transformer truyền thống thường yêu cầu bộ nhớ CUDA đáng kể hơn trong quá trình huấn luyện và có thể hội tụ chậm hơn so với các kiến trúc CNN thuần túy. Mặc dù RTDETRv2 đã cải thiện tốc độ suy luận, nhưng nhìn chung nó tiêu tốn nhiều bộ nhớ hơn so với các biến thể YOLO nhẹ.
Link to this sectionSo sánh hiệu năng#
Việc đánh giá các chỉ số hiệu suất cung cấp cái nhìn rõ ràng hơn về điểm mạnh của từng model. Bảng sau đây nêu bật khả năng của chúng trên bộ dữ liệu COCO:
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Khi phân tích dữ liệu, YOLOv10 duy trì ưu thế rõ rệt về hiệu quả tham số và tốc độ suy luận trên TensorRT ở các kích thước tương đương. RTDETRv2-x khớp với YOLOv10x khổng lồ về độ chính xác nhưng yêu cầu nhiều hơn gần 20 triệu tham số và FLOPs cao hơn đáng kể.
Link to this sectionCác trường hợp sử dụng và Khuyến nghị#
Việc lựa chọn giữa YOLOv10 và RT-DETR phụ thuộc vào yêu cầu dự án cụ thể, hạn chế triển khai và sở thích về hệ sinh thái của bạn.
Link to this sectionKhi nào nên chọn YOLOv10#
YOLOv10 là một lựa chọn mạnh mẽ cho:
- Phát hiện thời gian thực không cần NMS: Các ứng dụng hưởng lợi từ việc phát hiện đầu cuối (end-to-end) mà không cần NMS, giúp giảm độ phức tạp khi triển khai.
- Sự cân bằng giữa tốc độ và độ chính xác: Các dự án yêu cầu sự cân bằng mạnh mẽ giữa tốc độ suy luận và độ chính xác của phát hiện trên nhiều quy mô model khác nhau.
- Các ứng dụng có độ trễ nhất quán: Các kịch bản triển khai nơi thời gian suy luận có thể dự đoán được là yếu tố quan trọng, chẳng hạn như robotics hoặc các hệ thống tự hành.
Link to this sectionKhi nào nên chọn RT-DETR#
RT-DETR được khuyên dùng cho:
- Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
- Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
- Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.
Link to this sectionKhi nào nên chọn Ultralytics (YOLO26)#
Đối với hầu hết các dự án mới, Ultralytics YOLO26 cung cấp sự kết hợp tốt nhất giữa hiệu năng và trải nghiệm nhà phát triển:
- Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
- Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
- Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.
Link to this sectionLợi thế của Ultralytics: Hệ sinh thái và Đổi mới#
Trong khi YOLOv10 và RTDETRv2 cung cấp khả năng phát hiện mạnh mẽ, việc chọn model thường liên quan đến hệ sinh thái phần mềm xung quanh. Ultralytics Platform cung cấp một giao diện thống nhất, liền mạch giúp trừu tượng hóa các phức tạp của deep learning.
Link to this sectionTiêu chuẩn mới: Ultralytics YOLO26#
Đối với các nhà phát triển tìm kiếm hiệu suất tối ưu nhất, Ultralytics YOLO26 đại diện cho đỉnh cao của những tiến bộ kiến trúc gần đây. Được phát hành vào đầu năm 2026, YOLO26 kế thừa thiết kế End-to-End NMS-Free do YOLOv10 tiên phong, loại bỏ hoàn toàn hậu xử lý NMS để triển khai nhanh hơn, đơn giản hơn.
YOLO26 mang các cải tiến huấn luyện LLM vào computer vision thông qua trình tối ưu hóa MuSGD (sự kết hợp giữa SGD và Muon), giúp huấn luyện ổn định hơn và hội tụ nhanh hơn. Nó cũng đạt tốc độ suy luận trên CPU nhanh hơn tới 43%, biến nó thành lựa chọn hàng đầu cho điện toán biên.
Hơn nữa, YOLO26 giới thiệu ProgLoss + STAL mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ, và không giống như YOLOv10 chuyên dụng, nó cung cấp tính linh hoạt cực cao. Nó hỗ trợ bản địa phát hiện đối tượng, phân đoạn, pose, và oriented bounding boxes (OBB) với các cải tiến dành riêng cho từng tác vụ như loss phân đoạn ngữ nghĩa và Residual Log-Likelihood Estimation (RLE) cho pose. Hơn nữa, việc loại bỏ Distribution Focal Loss (DFL) đảm bảo xuất model đơn giản hóa và khả năng tương thích với thiết bị năng lượng thấp tốt hơn.
Link to this sectionDễ sử dụng và hiệu quả huấn luyện#
Cho dù bạn đang thử nghiệm với các model thế hệ cũ như Ultralytics YOLO11 hay YOLO26 tiên tiến, Python API tinh gọn đảm bảo mức sử dụng bộ nhớ thấp hơn trong khi huấn luyện và các workflow cực nhanh.
from ultralytics import RTDETR, YOLO
# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")Hệ sinh thái được duy trì tốt cung cấp các công cụ để dễ dàng điều chỉnh siêu tham số và tích hợp hoàn hảo với các giải pháp theo dõi mở rộng cùng các tùy chọn triển khai model.
Link to this sectionKết luận#
Cả YOLOv10 và RTDETRv2 đều đại diện cho những cột mốc đáng gờm trong hành trình tìm kiếm phát hiện đối tượng không cần NMS. RTDETRv2 chứng minh rằng các Transformer có thể đạt được độ trễ thời gian thực với khả năng hiểu bối cảnh toàn cầu xuất sắc, mặc dù yêu cầu bộ nhớ cao hơn. YOLOv10 cung cấp một giải pháp thay thế CNN hiệu quả, nhanh chóng, được thiết kế riêng cho các tác vụ phát hiện bị hạn chế về tài nguyên.
Tuy nhiên, để đạt được hiệu suất cân bằng, tính linh hoạt đa tác vụ và hệ sinh thái trưởng thành nhất, các nhà phát triển rất được khuyến khích tận dụng Ultralytics YOLO26. Nó kết hợp một cách tuyệt vời các đổi mới kiến trúc của những người tiền nhiệm với các công cụ mạnh mẽ, thân thiện với người dùng, giúp hiện thực hóa việc triển khai vision AI một cách liền mạch.