Link to this sectionYOLO26 so với RTDETRv2#

Bối cảnh của thị giác máy tính đang không ngừng phát triển, đặt ra cho các kỹ sư một lựa chọn quan trọng: liệu bạn nên tận dụng các Convolutional Neural Networks (CNNs) được tối ưu hóa cao hay áp dụng các kiến trúc dựa trên Transformer mới hơn? Hai ứng cử viên nổi bật trong lĩnh vực này là Ultralytics YOLO26 tiên tiến và RTDETRv2 của Baidu. Cả hai model đều đẩy mạnh các giới hạn về phát hiện vật thể theo thời gian thực nhưng dựa trên các triết lý kiến trúc hoàn toàn khác nhau.

Hướng dẫn này cung cấp một cái nhìn chuyên sâu về kỹ thuật của cả hai model, so sánh cấu trúc, các chỉ số hiệu suất và các trường hợp sử dụng lý tưởng để giúp bạn chọn nền tảng tốt nhất cho dự án thị giác máy tính tiếp theo của mình.

Link to this sectionUltralytics YOLO26: Đỉnh cao của AI thị giác ưu tiên Edge#

Được phát triển bởi Ultralytics, YOLO26 đại diện cho một bước nhảy vọt thế hệ to lớn cho dòng YOLO. Được ra mắt vào tháng 1 năm 2026, model này được thiết kế đặc biệt cho tốc độ, độ chính xác và khả năng triển khai liền mạch trên các môi trường cloud và edge.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức: Ultralytics
Ngày: 2026-01-14
GitHub: Kho lưu trữ Ultralytics
Tài liệu: Tài liệu chính thức YOLO26

Link to this sectionĐổi mới và thế mạnh kiến trúc#

YOLO26 giới thiệu một số tính năng đột phá giúp phân biệt nó không chỉ với các model Transformer mà còn với các phiên bản tiền nhiệm như YOLO11:

Thiết kế End-to-End không NMS: YOLO26 loại bỏ Non-Maximum Suppression (NMS) truyền thống trong quá trình hậu xử lý. Được tiên phong trong các model như YOLOv10, cách tiếp cận end-to-end thuần túy này giúp giảm độ trễ suy luận và đơn giản hóa logic triển khai, đặc biệt là trên phần cứng edge.
CPU Inference nhanh hơn tới 43%: Nhận thức được nhu cầu ngày càng tăng đối với AI phi tập trung, YOLO26 được tối ưu hóa cao cho các thiết bị thiếu GPU chuyên dụng, chẳng hạn như Raspberry Pi.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 mang đến quy trình xuất model đơn giản hóa và cải thiện đáng kể khả năng tương thích với các thiết bị edge công suất thấp và vi điều khiển.
Bộ tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa việc huấn luyện Large Language Model (LLM) và thị giác máy tính, YOLO26 sử dụng bộ tối ưu hóa MuSGD. Sự kết hợp giữa SGD và Muon này—lấy cảm hứng từ Kimi K2 của Moonshot AI—đảm bảo sự ổn định trong quá trình huấn luyện và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm loss tiên tiến mang lại những cải tiến đáng kể cho việc nhận diện vật thể nhỏ. Điều này rất quan trọng đối với các ngành công nghiệp dựa vào phân tích hình ảnh từ trên không và các cảm biến Internet of Things (IoT).

Tìm hiểu thêm về YOLO26

Link to this sectionTính linh hoạt giữa các tác vụ thị giác#

Không giống như các model chỉ giới hạn ở bounding box, YOLO26 là một cỗ máy đa năng. Nó tích hợp các cải tiến đặc thù cho từng tác vụ, chẳng hạn như loss phân đoạn ngữ nghĩa và proto đa quy mô cho instance segmentation, Residual Log-Likelihood Estimation (RLE) cho pose estimation, và loss góc chuyên dụng để giải quyết các vấn đề biên trong các tác vụ Oriented Bounding Box (OBB).

Chiến lược triển khai Edge

Khi triển khai trên các thiết bị edge, hãy sử dụng các biến thể YOLO26n (Nano) hoặc YOLO26s (Small). Việc xuất các model này sang CoreML hoặc TFLite rất dễ dàng nhờ vào việc loại bỏ DFL và kiến trúc không NMS, đảm bảo hiệu suất thời gian thực mượt mà trên iOS và Android.

Link to this sectionRTDETRv2: Nâng cao hiệu suất cho Detection Transformers thời gian thực#

RTDETRv2, được phát triển bởi các nhà nghiên cứu tại Baidu, xây dựng dựa trên framework RT-DETR gốc. Nó hướng tới mục tiêu chứng minh rằng Detection Transformers (DETRs) có thể cạnh tranh với, và đôi khi vượt qua, tốc độ và độ chính xác của các CNN được tối ưu hóa cao trong các kịch bản thời gian thực.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức: Baidu
Ngày: 24-07-2024
Arxiv: 2407.17140
GitHub: Triển khai RT-DETRv2 PyTorch
Tài liệu: RT-DETRv2 README

Link to this sectionKiến trúc và năng lực#

RTDETRv2 sử dụng kiến trúc dựa trên Transformer, về bản chất xử lý hình ảnh khác với CNN bằng cách tận dụng các cơ chế tự chú ý (self-attention) để hiểu bối cảnh toàn cục.

Bag-of-Freebies: Phiên bản v2 giới thiệu một loạt các kỹ thuật huấn luyện được tối ưu hóa (bag-of-freebies) giúp cải thiện hiệu suất cơ sở mà không làm tăng chi phí suy luận.
Nhận thức bối cảnh toàn cục: Nhờ các lớp chú ý của Transformer, RTDETRv2 vốn có khả năng hiểu các cảnh phức tạp, nơi bối cảnh toàn cục là cần thiết để phân biệt các vật thể chồng chéo hoặc bị che khuất.

Tìm hiểu thêm về RTDETR

Link to this sectionHạn chế của các model Transformer#

Mặc dù mạnh mẽ, các model phát hiện dựa trên Transformer như RTDETRv2 thường đối mặt với thách thức trong việc triển khai thực tế. Chúng thường yêu cầu bộ nhớ CUDA cao hơn trong quá trình huấn luyện so với các CNN hiệu quả. Hơn nữa, việc tích hợp chúng vào các môi trường edge đa dạng có thể trở nên cồng kềnh do các phép toán phức tạp từ các lớp chú ý, khiến các model như YOLO26 trở nên hấp dẫn hơn nhiều cho các đợt triển khai bị hạn chế về tài nguyên.

Link to this sectionSo sánh hiệu năng#

Đánh giá trực tiếp các model này cho thấy những lợi ích hữu hình của các tối ưu hóa CNN mới nhất. Bảng dưới đây phác thảo hiệu suất của chúng trên các benchmark tiêu chuẩn.

Mô hình	kích thước ^(pixel)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Như đã chứng minh, YOLO26 luôn vượt trội hơn RTDETRv2 trên tất cả các biến thể kích thước. YOLO26x đạt mức 57.5 mAP đáng kinh ngạc với độ trễ thấp hơn (11.8 ms trên TensorRT) và số lượng tham số ít hơn đáng kể (55.7M) so với RTDETRv2-x (54.3 mAP, 15.03 ms, 76M tham số).

Link to this sectionCác trường hợp sử dụng và Khuyến nghị#

Việc lựa chọn giữa YOLO26 và RT-DETR phụ thuộc vào các yêu cầu cụ thể của dự án, các hạn chế triển khai và sở thích về hệ sinh thái của bạn.

Link to this sectionKhi nào nên chọn YOLO26#

YOLO26 là lựa chọn mạnh mẽ cho:

Triển khai Edge không cần NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không có sự phức tạp của hậu xử lý Non-Maximum Suppression.
Môi trường chỉ dùng CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Phát hiện vật thể nhỏ: Các kịch bản đầy thách thức như hình ảnh máy bay không người lái trên không hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các vật thể cực nhỏ.

Link to this sectionKhi nào nên chọn RT-DETR#

RT-DETR được khuyên dùng cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer cho phát hiện vật thể end-to-end không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác phát hiện là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút là có thể chấp nhận được.
Phát hiện vật thể lớn: Các cảnh chủ yếu có vật thể từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Link to this sectionLợi thế từ Ultralytics#

Lựa chọn kiến trúc machine learning đúng đắn chỉ là một phần của phương trình; hệ sinh thái xung quanh quyết định tốc độ mà một nhóm có thể di chuyển từ tạo mẫu đến sản xuất.

Link to this sectionDễ sử dụng và hiệu quả huấn luyện#

Ultralytics Python API mang đến một trải nghiệm được tinh giản đáng kể. Việc huấn luyện các model phức tạp không còn đòi hỏi các đoạn code boilerplate dài dòng. Hơn nữa, hiệu quả huấn luyện của YOLO26 tốt hơn đáng kể, sử dụng ít GPU VRAM hơn nhiều so với các cơ chế chú ý ngốn tài nguyên của RTDETRv2, cho phép sử dụng kích thước batch lớn hơn ngay cả trên phần cứng phổ thông.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Link to this sectionMột hệ sinh thái được bảo trì tốt#

Bằng cách sử dụng các model của Ultralytics, các nhà phát triển có quyền truy cập vào một framework được bảo trì tích cực, tích hợp nguyên bản với các công cụ theo dõi hiện đại như Weights & Biases và Comet ML. Đối với những ai thích phương pháp no-code, Nền tảng Ultralytics hỗ trợ huấn luyện trên cloud, quản lý tập dữ liệu và triển khai chỉ bằng một cú nhấp chuột.

Link to this sectionSự cân bằng về hiệu suất#

YOLO26 đạt được sự cân bằng chưa từng có giữa tốc độ suy luận và độ chính xác. Việc loại bỏ NMS kết hợp với bộ tối ưu hóa MuSGD đảm bảo rằng bạn đang triển khai một model vừa có độ chính xác cao đối với vật thể nhỏ (nhờ ProgLoss + STAL) vừa cực kỳ nhanh trong môi trường sản xuất, khiến nó trở thành lựa chọn vượt trội cho hầu hết các ứng dụng thị giác máy tính hiện đại ngày nay.

Link to this sectionCác model khác trong hệ sinh thái#

Trong khi YOLO26 và RTDETRv2 bao quát những gì tiên tiến nhất trong lĩnh vực phát hiện thời gian thực, các nhà phát triển đang duy trì các pipeline cũ hoặc khám phá các đường cong hiệu quả khác cũng có thể cân nhắc YOLOv8 cho các môi trường doanh nghiệp đã thiết lập sẵn, hoặc khám phá các kiến trúc khác như EfficientDet. Tuy nhiên, đối với bất kỳ sáng kiến mới nào, YOLO26 vẫn là khuyến nghị xác thực nhất.

Người đóng góp

GLglenn-jocher⁵

Đã tạo 14 thg 1, 2026Đã cập nhật 3 tuần trước