RTDETRv2 so với YOLO26: Transformer so với CNN thế hệ tiếp theo trong phát hiện đối tượng thời gian thực

Lĩnh vực phát hiện đối tượng thời gian thực đang không ngừng phát triển, với hai kiến trúc chính hiện đang cạnh tranh nhau: RTDETRv2 dựa trên Transformer và YOLO26 dựa trên mạng CNN. Mặc dù cả hai mô hình đều hướng đến giải quyết thách thức cơ bản là phát hiện đối tượng nhanh chóng và chính xác, nhưng chúng tiếp cận vấn đề với những triết lý và lựa chọn kiến trúc khác biệt rõ rệt.

Hướng dẫn này cung cấp phân tích chuyên sâu về thông số kỹ thuật, chỉ số hiệu năng và các trường hợp sử dụng lý tưởng cho cả hai mô hình, giúp bạn quyết định kiến trúc nào phù hợp nhất với nhu cầu triển khai của mình.

Tổng quan về RTDETRv2

RTDETRv2 (Real-Time DEtection TRansformer v2) đại diện cho sự phát triển của dòng sản phẩm DETR (DEtection TRansformer), nhằm mục đích mang sức mạnh của bộ chuyển đổi hình ảnh vào các ứng dụng thời gian thực. Nó được xây dựng dựa trên phiên bản gốc. RT-DETR Lần này, trọng tâm là tính linh hoạt và sự hội tụ trong đào tạo.

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 2024-07-24 (phát hành v2)
Bài báo: RT-DETRv2 : Cải tiến đường cơ sở với Bag-of-Freebies cho bộ chuyển đổi phát hiện thời gian thực
GitHub:Kho lưu trữ RT-DETR

RTDETRv2 sử dụng kiến trúc lai kết hợp giữa mạng nơ-ron tích chập (CNN) và bộ mã hóa-giải mã Transformer. Một tính năng quan trọng là "Gói quà tặng miễn phí", bao gồm các chiến lược huấn luyện được cải tiến và các tinh chỉnh kiến trúc để tăng tốc độ hội tụ so với các Transformer truyền thống. Tuy nhiên, giống như các phiên bản tiền nhiệm, nó phụ thuộc rất nhiều vào... GPU Các nguồn lực cho phép nhân ma trận hiệu quả vốn có trong cơ chế chú ý.

Tìm hiểu thêm về RT-DETR

Tổng quan về YOLO26

YOLO26 đại diện cho bước tiến mới nhất trong dòng sản phẩm You Only Look Once, được thiết kế bởi Ultralytics Để đẩy mạnh giới hạn hiệu quả trên các thiết bị biên. Điều này đánh dấu một bước tiến đáng kể so với các thế hệ trước bằng cách áp dụng kiến trúc đầu cuối hoàn chỉnh. NMS - Thiết kế không cần cấu hình phức tạp trong khi vẫn duy trì được ưu điểm về tốc độ của Mạng nơ-ron tích chập (CNN).

Tác giả: Glenn Jocher và Jing Qiu
Tổ chức:Ultralytics
Ngày: 2026-01-14
Tài liệu:Tài liệu YOLO26
GitHub:Kho lưu trữ Ultralytics

YOLO26 được thiết kế để triển khai theo kiểu "ưu tiên thiết bị biên". Nó giới thiệu trình tối ưu hóa MuSGD—lấy cảm hứng từ sự ổn định huấn luyện của LLM—và loại bỏ Distribution Focal Loss (DFL) để đơn giản hóa việc xuất mô hình. Những thay đổi này tạo ra một mô hình không chỉ có độ chính xác cao mà còn cực kỳ nhanh. CPU - các thiết bị bị giới hạn bởi điện áp, nơi mà máy biến áp thường gặp khó khăn.

Tìm hiểu thêm về YOLO26

So sánh kỹ thuật

Bảng sau đây nêu bật sự khác biệt về hiệu năng giữa RTDETRv2 và YOLO26. Lưu ý sự khác biệt đáng kể trong CPU Tốc độ suy luận và hiệu quả tham số.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

Kiến trúc và Thiết kế

Sự khác biệt cơ bản nằm ở cách các mô hình này xử lý dữ liệu hình ảnh.

RTDETRv2 dựa trên cơ chế chú ý. Mặc dù điều này cho phép mô hình nắm bắt ngữ cảnh toàn cục (hiểu mối quan hệ giữa các pixel ở xa nhau), nhưng nó lại có chi phí tính toán bậc hai so với kích thước ảnh. Điều này làm cho việc suy luận độ phân giải cao trở nên tốn kém. Nó loại bỏ nhu cầu sử dụng phương pháp loại bỏ cực đại không tương thích ( NMS ) bằng cách sử dụng phương pháp khớp hai phía trong quá trình huấn luyện, một đặc điểm mà nó chia sẻ với YOLO26 mới.

YOLO26 tận dụng kiến trúc CNN tiên tiến nhưng giới thiệu thiết kế đột phá "không cần NMS từ đầu đến cuối . Trước đây, YOLO yêu cầu... NMS Xử lý hậu kỳ để loại bỏ các hộp giới hạn trùng lặp. YOLO26 loại bỏ bước này một cách tự nhiên, tương tự như DETR, nhưng không có gánh nặng tính toán lớn của các bộ chuyển đổi. Ngoài ra, việc loại bỏ Suy hao tiêu điểm phân phối (DFL) đơn giản hóa kiến trúc để xuất sang các định dạng như ONNX Và TensorRT , đảm bảo khả năng tương thích rộng hơn với các bộ tăng tốc biên công suất thấp.

Hiệu quả và tối ưu hóa đào tạo

Hiệu quả huấn luyện là yếu tố quan trọng đối với các nhóm đang phát triển các bộ dữ liệu tùy chỉnh.

YOLO26 giới thiệu MuSGD Optimizer , một công cụ lai ghép của... SGD và Muon. Lấy cảm hứng từ những cải tiến trong việc huấn luyện các Mô hình Ngôn ngữ Lớn (như Kimi K2 của Moonshot AI), trình tối ưu hóa này mang lại sự ổn định được nâng cao và tốc độ hội tụ nhanh hơn cho các tác vụ thị giác. Kết hợp với ProgLoss (Mất mát Tiến bộ) và STAL (Học Neo Tự Dạy), YOLO26 cung cấp thời gian huấn luyện nhanh và mức sử dụng bộ nhớ thấp hơn, cho phép kích thước lô lớn hơn trên GPU cấp người tiêu dùng.
RTDETRv2 thường yêu cầu nhiều hơn GPU Transformer cần bộ nhớ ảo (VRAM) và lịch trình huấn luyện dài hơn để ổn định các lớp chú ý. Transformer nổi tiếng là cần nhiều dữ liệu và có thể hội tụ chậm hơn so với các mạng CNN.

Hiệu quả bộ nhớ

Kiến trúc dựa trên mạng nơ-ron tích chập (CNN) của YOLO26 tiết kiệm bộ nhớ hơn đáng kể so với các giải pháp thay thế dựa trên Transformer. Điều này cho phép bạn huấn luyện các mô hình lớn hơn trên GPU có VRAM hạn chế (như RTX 3060 hoặc 4060) hoặc sử dụng kích thước batch lớn hơn để có độ dốc ổn định hơn.

Phân tích ứng dụng thực tế

Việc lựa chọn giữa các mô hình này phụ thuộc rất nhiều vào các hạn chế phần cứng cụ thể và yêu cầu về độ chính xác của bạn.

Điểm mạnh của YOLO26

1. AI và IoT tại biên: Với khả năng suy luận CPU nhanh hơn tới 43% , YOLO26 là ông vua không thể tranh cãi của lĩnh vực AI tại biên. Dành cho các ứng dụng chạy trên Raspberry Pi, NVIDIA Đối với Jetson Nano, hoặc điện thoại di động, chi phí xử lý của các khối chuyển đổi RTDETRv2 thường rất lớn. YOLO26n (Nano) cung cấp tốc độ thời gian thực trên CPU, nơi mà các khối chuyển đổi sẽ đo độ trễ bằng giây chứ không phải mili giây.

2. Robot và Điều hướng: NMS - Thiết kế không phụ thuộc vào thành phần của YOLO26 là rất quan trọng đối với robot . Bằng cách loại bỏ NMS Bước xử lý hậu kỳ, YOLO26 giảm thiểu sự biến thiên độ trễ, cung cấp thời gian suy luận nhất quán và có tính xác định cần thiết cho các tác vụ điều hướng và thao tác tốc độ cao.

3. Các nhiệm vụ thị giác đa dạng: YOLO26 không chỉ là một thiết bị phát hiện. Ultralytics Khung phần mềm hỗ trợ một loạt các tác vụ một cách tự nhiên:

Phân đoạn đối tượng : Để hiểu rõ đối tượng ở cấp độ pixel.
Ước lượng tư thế : Sử dụng ước lượng logarit xác suất dư (RLE) để xác định các điểm mấu chốt với độ chính xác cao.
Hộp giới hạn định hướng (OBB) : các hàm mất góc chuyên dụng để phát hiện các đối tượng xoay như tàu thuyền hoặc phương tiện bay.

Vị trí của RTDETRv2

RTDETRv2 chủ yếu là một kiến trúc hướng đến nghiên cứu. Nó phù hợp nhất cho các trường hợp sau:

Bối cảnh toàn cầu quan trọng hơn các đặc điểm cục bộ (ví dụ: một số nhiệm vụ chụp ảnh y tế).
Không có bất kỳ hạn chế nào về phần cứng, và các GPU cấp máy chủ cao cấp (như...) NVIDIA Các mẫu A100 hoặc H100 hiện có sẵn để triển khai.
Việc xác định các thông số cảm ứng cụ thể của máy biến áp là cần thiết cho một vấn đề nghiên cứu chuyên biệt.

Tuy nhiên, đối với môi trường sản xuất, việc thiếu một hệ sinh thái triển khai hoàn thiện so với... Ultralytics thường gây ra mâu thuẫn.

Lợi thế của Ultralytics

Ngoài các chỉ số thô, hệ sinh thái phần mềm đóng vai trò quan trọng trong sự thành công của dự án. YOLO26 được hưởng lợi từ Nền tảng Ultralytics mạnh mẽ, giúp tối ưu hóa toàn bộ vòng đời MLOps.

Dễ sử dụng: Trải nghiệm "từ con số không đến chuyên gia" có nghĩa là bạn có thể tải, huấn luyện và triển khai mô hình chỉ với chưa đến 10 dòng mã. Python mã số.
Hệ sinh thái được duy trì tốt: Không giống như các kho lưu trữ nghiên cứu có thể không được cập nhật trong nhiều tháng, Ultralytics Cung cấp các bản vá lỗi thường xuyên, hỗ trợ cộng đồng tích cực và tài liệu đầy đủ.
Tính linh hoạt khi triển khai: Cho dù bạn cần chạy trên iOS thông qua CoreML , trên trình duyệt web với TF , hay trên thiết bị biên. TPU Các chế độ xuất tích hợp sẵn giúp quá trình chuyển đổi diễn ra liền mạch.

Ví dụ mã: Bắt đầu với YOLO26

Ví dụ sau đây minh họa cách huấn luyện mô hình YOLO26 một cách đơn giản bằng cách sử dụng... Ultralytics Python API. Sự đơn giản này trái ngược với các tệp cấu hình thường phức tạp cần thiết cho các mô hình máy biến áp dùng trong nghiên cứu.

from ultralytics import YOLO

# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")

Kết luận

Trong khi RTDETRv2 thể hiện tiềm năng học thuật của máy biến áp trong việc phát hiện, Ultralytics YOLO26 lại cung cấp một giải pháp thiết thực, hiệu quả và linh hoạt hơn cho phần lớn các ứng dụng thực tế.

Sự kết hợp độc đáo giữa kiến trúc không cần hệ quản lý mạng NMS từ đầu đến cuối , tối ưu hóa MuSGD và hiệu năng vượt trội ở biên mạng khiến YOLO26 trở thành lựa chọn tiên tiến cho năm 2026. Cho dù bạn đang xây dựng hệ thống camera thông minh, máy bay không người lái tự hành hay hệ thống phân tích video tốc độ cao, YOLO26 đều cung cấp sự cân bằng giữa tốc độ và độ chính xác cần thiết để bạn tự tin chuyển từ giai đoạn nguyên mẫu sang sản xuất.

Đối với các nhà phát triển quan tâm đến các tùy chọn tiên tiến khác, Ultralytics Hệ sinh thái này cũng hỗ trợ YOLO11 và RT-DETR gốc, cho phép dễ dàng so sánh hiệu năng trong một API thống nhất.