Link to this sectionRTDETRv2 so với YOLOX#
Bối cảnh thị giác máy tính (computer vision) đã phát triển nhanh chóng, mang đến cho các nhà phát triển và nhà nghiên cứu nhiều kiến trúc để lựa chọn khi xây dựng các hệ thống dựa trên thị giác. Hai cột mốc đáng chú ý trong hành trình này là RTDETRv2 dựa trên kiến trúc Transformer và YOLOX dựa trên CNN. Mặc dù cả hai mô hình đều đóng góp đáng kể vào lĩnh vực phát hiện đối tượng thời gian thực (real-time object detection), chúng đại diện cho các phương pháp tiếp cận cơ bản khác nhau để giải quyết các vấn đề nhận dạng hình ảnh.
Hướng dẫn toàn diện này khám phá các sắc thái kiến trúc, số liệu hiệu suất và các kịch bản triển khai lý tưởng cho cả hai mô hình. Hơn nữa, chúng ta sẽ xem xét cách các lựa chọn thay thế hiện đại như Ultralytics YOLO26 tiên tiến xây dựng dựa trên những nền tảng này để mang lại độ chính xác, hiệu quả và tính dễ sử dụng vượt trội.
Link to this sectionRTDETRv2: Transformer phát hiện thời gian thực#
Được giới thiệu như là phiên bản kế nhiệm của RT-DETR gốc, RTDETRv2 tận dụng kiến trúc Transformer để đạt được hiệu suất phát hiện đối tượng thời gian thực cao. Bằng cách loại bỏ nhu cầu sử dụng NMS (Non-Maximum Suppression), nó giúp đơn giản hóa quy trình inference.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 24-07-2024
- Liên kết: Arxiv Paper, Official GitHub, Documentation
Link to this sectionKiến trúc và Thiết kế#
RTDETRv2 dựa nhiều vào các cơ chế self-attention vốn có của các Transformer, cho phép mô hình nắm bắt bối cảnh toàn cầu trên toàn bộ hình ảnh. Sự hiểu biết tổng thể này cho phép nó dự đoán BBox và xác suất lớp trực tiếp. Nó giới thiệu các tính năng phát hiện đa quy mô (multi-scale detection) giúp nâng cao khả năng nhận dạng các đối tượng nhỏ trong môi trường phức tạp.
Mặc dù các Transformer vượt trội trong việc nắm bắt bối cảnh toàn cầu, cơ chế self-attention của chúng mở rộng theo cấp số nhân (quadratically) với độ dài chuỗi, thường dẫn đến mức tiêu thụ bộ nhớ CUDA cao hơn đáng kể trong quá trình huấn luyện so với các CNN truyền thống.
Link to this sectionĐiểm mạnh và điểm yếu#
Điểm mạnh chính của RTDETRv2 nằm ở thiết kế end-to-end tự nhiên. Bằng cách bỏ qua NMS, nó tránh được các sự cố trễ (latency spikes) thường liên quan đến các dự đoán chồng chéo dày đặc. Tuy nhiên, dấu chân tính toán nặng nề của các khối Transformer đồng nghĩa với việc nó đòi hỏi tài nguyên GPU đáng kể cho cả huấn luyện và triển khai. Điều này khiến nó ít lý tưởng hơn cho các thiết bị biên bị giới hạn tài nguyên hoặc phần cứng di động cũ.
Link to this sectionYOLOX: Tiên phong cho CNN không cần neo (Anchor-Free)#
Được phát triển để thu hẹp khoảng cách giữa nghiên cứu học thuật và ứng dụng công nghiệp, YOLOX đã giới thiệu một phần đầu (head) tách rời và thiết kế không cần neo vào dòng mô hình YOLO phổ biến.
- Tác giả: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, và Jian Sun
- Tổ chức: Megvii
- Ngày công bố: 18 tháng 7 năm 2021
- Liên kết: Arxiv Paper, Official GitHub, Documentation
Link to this sectionKiến trúc và Thiết kế#
YOLOX đánh dấu sự khác biệt so với các máy dò dựa trên neo truyền thống bằng cách dự đoán vị trí của các đối tượng trực tiếp mà không cần các hộp neo (anchor boxes) được xác định trước. Điều này giúp đơn giản hóa thiết kế của mạng và giảm số lượng tham số điều chỉnh heuristic cần thiết để đạt hiệu suất tối ưu. Ngoài ra, YOLOX sử dụng một head tách rời, tách biệt các tác vụ phân loại và hồi quy, giúp cải thiện tốc độ hội tụ trong quá trình huấn luyện.
Link to this sectionĐiểm mạnh và điểm yếu#
Bản chất không cần neo của YOLOX giúp nó có khả năng thích ứng cao với các tác vụ computer vision khác nhau và đơn giản hơn để huấn luyện trên các tập dữ liệu tùy chỉnh. Các biến thể nhẹ hơn của nó, chẳng hạn như YOLOX-Nano, rất phù hợp để triển khai trên vi điều khiển và các thiết bị IoT công suất thấp. Tuy nhiên, vì YOLOX ra đời trước cuộc cách mạng không cần NMS, nó vẫn dựa vào xử lý hậu kỳ (post-processing) truyền thống, điều này có thể gây ra ma sát khi triển khai và tăng độ trễ trong các cảnh dày đặc.
Link to this sectionSo sánh Hiệu năng và Chỉ số#
Khi so sánh các mô hình này, việc đánh giá tốc độ, độ chính xác và hiệu quả tham số là rất quan trọng để xác định mức độ phù hợp cho trường hợp sử dụng cụ thể của bạn. Bảng dưới đây phác thảo hiệu suất của các kích thước mô hình khác nhau trên tập dữ liệu COCO tiêu chuẩn.
| Mô hình | kích thước (pixel) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Như đã thấy trong dữ liệu, RTDETRv2 đạt độ chính xác tối đa cao hơn (54.3 mAP) trên biến thể lớn nhất so với YOLOXx. Tuy nhiên, YOLOX cung cấp các biến thể nhỏ và nhanh hơn đáng kể, chẳng hạn như YOLOXs, tự hào với số lượng tham số thấp hơn và tốc độ inference nhanh hơn trên GPU NVIDIA T4.
Link to this sectionLợi thế của Ultralytics: Sự ra đời của YOLO26#
Trong khi cả RTDETRv2 và YOLOX đều mang lại những lợi ích riêng biệt, các nhà phát triển hiện đại thường yêu cầu một giải pháp thống nhất kết hợp những ưu điểm tốt nhất của cả hai thế giới—độ chính xác cao, inference cực nhanh và một hệ sinh thái dễ tiếp cận. Ultralytics YOLO26 mới ra mắt đại diện cho đỉnh cao của sự phát triển này.
Link to this sectionNhững cải tiến chính của YOLO26#
- Thiết kế End-to-End không cần NMS: Dựa trên các khái niệm lần đầu tiên được tiên phong trong YOLOv10, YOLO26 hoạt động tự nhiên mà không cần NMS. Điều này mang lại khả năng inference mượt mà của RTDETRv2 mà không gặp phải các yêu cầu bộ nhớ khổng lồ của Transformer.
- Trình tối ưu hóa MuSGD: Lấy cảm hứng từ những cải tiến trong huấn luyện mô hình ngôn ngữ lớn (LLM), trình tối ưu hóa kết hợp MuSGD (pha trộn giữa SGD và Muon) giúp ổn định quá trình huấn luyện và tăng tốc đáng kể khả năng hội tụ.
- Inference trên CPU nhanh hơn tới 43%: Bằng cách loại bỏ có chiến lược mô-đun Distribution Focal Loss (DFL), YOLO26 được tối ưu hóa cụ thể cho tính toán biên (edge computing) và các thiết bị công suất thấp, giúp nó chạy nhanh hơn đáng kể trên CPU so với các phiên bản trước như YOLO11.
- ProgLoss + STAL: Các hàm mất mát (loss functions) tiên tiến này mang lại những cải tiến đáng kể trong nhận dạng đối tượng nhỏ, giải quyết một điểm đau phổ biến trong hình ảnh trên không và các robotics applications.
Link to this sectionTính linh hoạt và Hệ sinh thái vượt trội#
Ngoài hiệu suất thô, Ultralytics Platform cung cấp một hệ sinh thái toàn diện, từ zero đến sản xuất. Không giống như các kho lưu trữ học thuật tĩnh, các mô hình Ultralytics được bảo trì tích cực và hỗ trợ liền mạch nhiều tác vụ từ một API trực quan duy nhất. Cho dù bạn đang thực hiện Instance Segmentation, theo dõi các tư thế thông qua Pose Estimation, hay xử lý các đối tượng xoay với Oriented Bounding Boxes (OBB), quy trình làm việc vẫn hoàn toàn giống nhau.
Hơn nữa, các mô hình Ultralytics nổi tiếng với yêu cầu bộ nhớ thấp trong cả huấn luyện và inference, cho phép các nhà nghiên cứu chạy các batch size lớn hơn trên phần cứng cấp người dùng—một sự tương phản rõ rệt với dấu chân nặng nề của các kiến trúc dựa trên Transformer.
Link to this sectionVí dụ về mã nguồn đào tạo#
Sức mạnh của hệ sinh thái Ultralytics được thể hiện rõ nhất thông qua sự đơn giản của nó. Việc huấn luyện một mô hình YOLO26 hiện đại chỉ yêu cầu vài dòng code, tóm lược hoàn toàn sự phức tạp của việc tải dữ liệu và cấu hình siêu tham số.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)Link to this sectionCác ứng dụng thực tế và trường hợp sử dụng lý tưởng#
Việc lựa chọn kiến trúc phù hợp hoàn toàn phụ thuộc vào các ràng buộc triển khai và tính khả dụng của phần cứng của bạn.
Link to this sectionXử lý trên Cloud độ trung thực cao#
Nếu ứng dụng của bạn chạy trên GPU máy chủ cao cấp và ưu tiên độ chính xác tối đa—chẳng hạn như phân tích các cảnh đám đông dày đặc hoặc xử lý hình ảnh y tế độ phân giải cao—các cơ chế chú ý (attention mechanisms) mạnh mẽ của RTDETRv2 có thể rất hiệu quả.
Link to this sectionTriển khai trên thiết bị biên cũ#
Đối với việc triển khai trên các điện thoại di động đời cũ hoặc vi điều khiển bị hạn chế nghiêm ngặt, nơi số lượng FLOPs tối thiểu là một yêu cầu bắt buộc, YOLOX-Nano siêu nhẹ vẫn đóng vai trò là một phương án dự phòng khả thi nhờ kiến trúc CNN đơn giản của nó.
Link to this sectionTiêu chuẩn hiện đại: AIoT và Robotics#
Đối với đại đa số các trường hợp sử dụng hiện đại—từ smart city infrastructure, retail analytics, đến điều hướng tự hành—Ultralytics YOLO26 là lựa chọn dứt khoát. Khả năng inference trên CPU nhanh hơn 43% khiến nó trở nên vô song cho tính toán biên, trong khi thiết kế không cần NMS đảm bảo độ trễ thấp và nhất quán. Khi kết hợp với tài liệu toàn diện và sự hỗ trợ cộng đồng tích cực của hệ sinh thái Ultralytics, nó cho phép các nhóm chuyển từ khâu gán nhãn dữ liệu sang triển khai toàn cầu nhanh hơn bao giờ hết.
Sẵn sàng nâng tầm các dự án thị giác máy tính của bạn? Khám phá các khả năng toàn diện của Ultralytics Platform để quản lý dữ liệu, huấn luyện mô hình trên cloud và triển khai các ứng dụng thông minh ở quy mô lớn một cách dễ dàng.
Đối với các nhà phát triển đang tìm cách khám phá các kiến trúc khác trong hệ sinh thái Ultralytics, bạn cũng có thể cân nhắc kiểm tra YOLOv8 để có các tích hợp cộng đồng đã được thiết lập sâu rộng hoặc YOLOv5 để có sự ổn định tuyệt vời trong các quy trình cũ. Tuy nhiên, để vượt qua những giới hạn của những gì có thể thực hiện được trong năm 2026, YOLO26 vẫn là tiêu chuẩn của ngành.