YOLO26 so với RTDETRv2: So sánh toàn diện các kiến trúc phát hiện đối tượng hiện đại

Lĩnh vực thị giác máy tính liên tục phát triển, đặt ra cho các chuyên gia một lựa chọn quan trọng: liệu nên tận dụng các mạng nơ-ron tích chập (CNN) được tối ưu hóa cao hay áp dụng các kiến trúc dựa trên Transformer mới hơn? Hai ứng cử viên nổi bật trong lĩnh vực này là Ultralytics YOLO26 tiên tiến và Baidu RTDETRv2 . Cả hai mô hình đều đẩy mạnh giới hạn của việc phát hiện đối tượng trong thời gian thực nhưng dựa trên các triết lý kiến trúc khác nhau về cơ bản.

Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về cả hai mô hình, so sánh cấu trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn lựa chọn nền tảng tốt nhất cho dự án thị giác máy tính tiếp theo của mình.

Ultralytics YOLO26: Đỉnh cao của Trí tuệ nhân tạo thị giác ưu tiên thiết bị đầu cuối

Được phát triển bởi Ultralytics, YOLO26 đại diện cho một bước nhảy vọt thế hệ lớn cho dòng YOLO. Ra mắt vào tháng 1 năm 2026, nó được thiết kế rõ ràng để đạt tốc độ, độ chính xác và triển khai liền mạch trên các môi trường đám mây và biên.

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
GitHub:Kho lưu trữ Ultralytics
Tài liệu:Tài liệu chính thức của YOLO26

Đổi mới và Điểm mạnh kiến trúc

YOLO26 giới thiệu một số tính năng đột phá, tạo nên sự khác biệt không chỉ so với các mẫu Transformer mà còn so với các phiên bản trước đó như YOLO11 :

Thiết kế loại bỏ NMS đầu cuối (End-to-End NMS-Free): YOLO26 loại bỏ thuật toán Non-Maximum Suppression (NMS) truyền thống trong quá trình hậu xử lý. Được tiên phong trong các mô hình như YOLOv10, phương pháp đầu cuối tự nhiên này giúp giảm sự biến động độ trễ suy luận và đơn giản hóa logic triển khai, đặc biệt trên phần cứng biên.
Suy luận trên CPU nhanh hơn tới 43%: Nhận thấy nhu cầu ngày càng tăng về AI phi tập trung, YOLO26 được tối ưu hóa cao cho các thiết bị thiếu GPU chuyên dụng, như Raspberry Pi.
Loại bỏ DFL: Bằng cách loại bỏ Distribution Focal Loss (DFL), YOLO26 cung cấp quy trình xuất đơn giản hóa và khả năng tương thích được cải thiện đáng kể với các thiết bị biên công suất thấp và vi điều khiển.
Trình tối ưu hóa MuSGD: Thu hẹp khoảng cách giữa huấn luyện Mô hình Ngôn ngữ Lớn (LLM) và thị giác máy tính, YOLO26 sử dụng trình tối ưu hóa MuSGD. Sự kết hợp lai giữa SGD và Muon này—lấy cảm hứng từ Kimi K2 của Moonshot AI—đảm bảo độ ổn định huấn luyện mạnh mẽ và hội tụ nhanh hơn.
ProgLoss + STAL: Các hàm mất mát tiên tiến mang lại những cải tiến đáng kể trong nhận diện vật thể nhỏ. Điều này rất quan trọng đối với các ngành công nghiệp dựa vào phân tích hình ảnh trên không và các cảm biến Internet of Things (IoT).

Tìm hiểu thêm về YOLO26

Tính linh hoạt trong các nhiệm vụ thị giác

Không giống như các mô hình chỉ giới hạn ở các hộp giới hạn, YOLO26 là một công cụ mạnh mẽ và đa năng. Nó tích hợp các cải tiến dành riêng cho từng nhiệm vụ, chẳng hạn như tổn thất phân đoạn ngữ nghĩa và proto đa tỷ lệ cho phân đoạn đối tượng , ước lượng logarit khả năng dư (RLE) cho ước lượng tư thế và tổn thất góc chuyên dụng để giải quyết các vấn đề về ranh giới trong các nhiệm vụ hộp giới hạn định hướng (OBB) .

Chiến lược triển khai biên

Khi triển khai trên các thiết bị biên, hãy sử dụng YOLO26n (Nano) hoặc YOLO26s (Nhỏ) biến thể. Xuất các mô hình này sang CoreML hoặc TFLite nhờ loại bỏ DFL mà nó hoạt động trơn tru. NMS - Kiến trúc không cần cấu trúc hỗ trợ, đảm bảo hiệu năng thời gian thực mượt mà trên iOS Và Android .

RTDETRv2: Nâng cao hiệu năng của bộ chuyển đổi phát hiện thời gian thực

RTDETRv2, được phát triển bởi các nhà nghiên cứu tại Baidu, dựa trên phiên bản gốc. RT-DETR Khung lý thuyết này nhằm mục đích chứng minh rằng Detection Transformers (DETRs) có thể cạnh tranh, và đôi khi vượt trội hơn, về tốc độ và độ chính xác so với các mạng CNN được tối ưu hóa cao trong các kịch bản thời gian thực.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 2024-07-24
Arxiv:2407.17140
GitHub:Triển khai RT-DETRv2 PyTorch
Tài liệu:README của RT-DETRv2

Kiến trúc và Khả năng

RTDETRv2 sử dụng kiến trúc dựa trên Transformer, vốn xử lý hình ảnh khác biệt so với mạng CNN bằng cách tận dụng cơ chế tự chú ý để hiểu ngữ cảnh tổng thể.

Bag-of-Freebies: Phiên bản v2 giới thiệu một loạt các kỹ thuật huấn luyện tối ưu (bag-of-freebies) giúp cải thiện hiệu suất cơ sở mà không làm tăng chi phí suy luận.
Nhận thức ngữ cảnh toàn cục: Nhờ các lớp cơ chế chú ý của Transformer, RTDETRv2 có khả năng tự nhiên trong việc hiểu các cảnh phức tạp, nơi ngữ cảnh toàn cục là cần thiết để phân biệt các đối tượng chồng chéo hoặc bị che khuất.

Tìm hiểu thêm về RTDETR

Những hạn chế của mô hình máy biến áp

Mặc dù mạnh mẽ, các mô hình phát hiện dựa trên Transformer như RTDETRv2 thường gặp khó khăn trong việc triển khai thực tế. Chúng thường thể hiện mức độ ưu việt cao hơn. CUDA So với các mạng CNN hiệu quả, YOLO26 đòi hỏi nhiều bộ nhớ hơn trong quá trình huấn luyện. Hơn nữa, việc tích hợp chúng vào các môi trường biên đa dạng có thể gặp khó khăn do các thao tác phức tạp mà các lớp chú ý yêu cầu, khiến các mô hình như YOLO26 trở nên hấp dẫn hơn nhiều đối với các triển khai có tài nguyên hạn chế.

So sánh hiệu suất

Việc đánh giá trực tiếp các mô hình này cho thấy những lợi ích hữu hình của các tối ưu hóa CNN mới nhất. Bảng dưới đây trình bày hiệu suất của chúng trên các bộ dữ liệu chuẩn.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Như đã chứng minh, YOLO26 luôn vượt trội hơn RTDETRv2 trên tất cả các biến thể kích thước. YOLO26x đạt 57.5 mAP đáng chú ý với độ trễ thấp hơn (11.8 ms trên TensorRT) và ít tham số hơn đáng kể (55.7M) so với RTDETRv2-x (54.3 mAP, 15.03 ms, 76M tham số).

Các trường hợp sử dụng và Khuyến nghị

Việc lựa chọn giữa YOLO26 và RT-DETR phụ thuộc vào các yêu cầu dự án cụ thể, ràng buộc triển khai và ưu tiên hệ sinh thái của bạn.

Khi nào nên chọn YOLO26

YOLO26 là một lựa chọn tốt cho:

Triển khai biên không NMS: Các ứng dụng yêu cầu suy luận nhất quán, độ trễ thấp mà không cần sự phức tạp của xử lý hậu kỳ Non-Maximum Suppression.
Môi trường chỉ có CPU: Các thiết bị không có tăng tốc GPU chuyên dụng, nơi khả năng suy luận CPU nhanh hơn tới 43% của YOLO26 mang lại lợi thế quyết định.
Detect đối tượng nhỏ: Các kịch bản đầy thách thức như hình ảnh từ máy bay không người lái hoặc phân tích cảm biến IoT, nơi ProgLoss và STAL tăng cường đáng kể độ chính xác trên các đối tượng rất nhỏ.

Khi nào nên lựa chọn RT-DETR

RT-DETR được khuyến nghị cho:

Nghiên cứu phát hiện dựa trên Transformer: Các dự án khám phá cơ chế chú ý và kiến trúc transformer để phát hiện đối tượng đầu cuối mà không cần NMS.
Các kịch bản độ chính xác cao với độ trễ linh hoạt: Các ứng dụng mà độ chính xác detect là ưu tiên hàng đầu và độ trễ suy luận cao hơn một chút có thể chấp nhận được.
Phát hiện đối tượng lớn: Các cảnh với chủ yếu các đối tượng từ trung bình đến lớn, nơi cơ chế chú ý toàn cục của các transformer mang lại lợi thế tự nhiên.

Lợi thế của Ultralytics

Việc lựa chọn kiến trúc học máy phù hợp chỉ là một phần của phương trình; hệ sinh thái xung quanh quyết định tốc độ một nhóm có thể chuyển từ tạo mẫu sang sản xuất.

Dễ sử dụng và Hiệu quả huấn luyện

API Python Ultralytics mang đến trải nghiệm được tối ưu hóa đáng kể. Việc huấn luyện các mô hình phức tạp không còn yêu cầu mã boilerplate dài dòng nữa. Hơn nữa, hiệu quả huấn luyện của YOLO26 tốt hơn đáng kể, sử dụng ít tài nguyên hơn nhiều. GPU VRAM vượt trội hơn so với các cơ chế chú ý tốn nhiều bộ nhớ của RTDETRv2, cho phép kích thước lô lớn hơn ngay cả trên phần cứng cấp người tiêu dùng.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

Một Hệ Sinh Thái Được Duy Trì Tốt

Bằng cách sử dụng các mô hình Ultralytics, các nhà phát triển có quyền truy cập vào một framework được duy trì tích cực, tích hợp nguyên bản với các công cụ track hiện đại như Weights & Biases và Comet ML. Đối với những người thích phương pháp không mã, Nền tảng Ultralytics tạo điều kiện thuận lợi cho việc huấn luyện trên đám mây, quản lý tập dữ liệu và triển khai chỉ với một cú nhấp chuột.

Cân bằng hiệu suất

YOLO26 đạt được sự cân bằng tuyệt vời giữa tốc độ suy luận và độ chính xác. Việc loại bỏ NMS Kết hợp với trình tối ưu hóa MuSGD, mô hình này đảm bảo bạn đang triển khai một mô hình vừa có độ chính xác cao trên các đối tượng nhỏ (nhờ ProgLoss + STAL) vừa có tốc độ xử lý cực nhanh trong thực tế, trở thành lựa chọn ưu việt cho hầu hết các ứng dụng thị giác máy tính hiện đại.

Các mô hình khác trong hệ sinh thái

Trong khi YOLO26 và RTDETRv2 bao phủ những công nghệ tiên tiến nhất về phát hiện thời gian thực, các nhà phát triển duy trì các hệ thống cũ hoặc đang tìm kiếm các đường cong hiệu quả khác nhau cũng có thể xem xét YOLOv8 cho các môi trường doanh nghiệp đã được thiết lập, hoặc khám phá các kiến trúc khác như EfficientDet . Tuy nhiên, đối với bất kỳ sáng kiến mới nào, YOLO26 vẫn là sự lựa chọn tối ưu nhất.

YOLO26 so với RTDETRv2: So sánh toàn diện các kiến ​​trúc phát hiện đối tượng hiện đại