RTDETRv2 so với... YOLOv10 So sánh các kiến trúc phát hiện thời gian thực

Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc tìm kiếm sự cân bằng tối ưu giữa độ chính xác, tốc độ và hiệu quả tiếp tục thúc đẩy sự đổi mới. Hai kiến trúc quan trọng đã định hình các cuộc thảo luận gần đây là RT-DETRv2 và YOLOv10 . Cả hai mô hình đều nhằm giải quyết thách thức lâu dài về phát hiện đối tượng trong thời gian thực nhưng tiếp cận vấn đề từ các quan điểm kiến trúc khác nhau về cơ bản—các mô hình biến đổi (transformers) so với các mô hình dựa trên mạng nơ-ron tích chập (CNN).

Bản so sánh kỹ thuật này sẽ đi sâu vào kiến trúc, các chỉ số hiệu năng và các trường hợp sử dụng lý tưởng của chúng, giúp các nhà phát triển và nhà nghiên cứu lựa chọn công cụ phù hợp cho các ứng dụng cụ thể của họ.

Bảng so sánh

Bảng sau đây nêu bật các chỉ số hiệu suất chính trên tập dữ liệu COCO . Các giá trị được in đậm cho biết hiệu suất tốt nhất trong mỗi hạng mục.

Mô hình	Kích thước ^(pixels)	mAP^val 50-95	Tốc độ ^{CPU ONNX (ms)}	Tốc độ ^{T4 TensorRT10 (ms)}	Tham số ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

RTDETRv2: Tinh chỉnh Transformer Thời gian Thực

RT-DETRv2 (Phiên bản 2 của Real-Time Detection Transformer) được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Đây là bộ dò dựa trên Transformer đầu tiên thực sự có thể cạnh tranh về tốc độ với các mô hình dựa trên CNN như YOLOv8 .

Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
Tổ chức:Baidu
Ngày: 17 tháng 4 năm 2023 (Bản gốc), tháng 7 năm 2024 (phiên bản 2)
Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies for Real-Time Detection Transformer

Kiến trúc và Đổi mới

RT-DETRv2 Nó giữ lại thế mạnh cốt lõi của Transformer : khả năng mô hình hóa ngữ cảnh toàn cục trên một hình ảnh, điều này đặc biệt có lợi cho việc phát hiện các đối tượng trong các cảnh phức tạp, lộn xộn. Không giống như các mạng CNN truyền thống dựa vào các trường tiếp nhận cục bộ, RT-DETRv2 Sử dụng bộ mã hóa lai giúp xử lý hiệu quả các đặc trưng đa tỷ lệ.

Một tính năng quan trọng của bản cập nhật v2 là việc giới thiệu cơ chế lấy mẫu rời rạc, cho phép lấy mẫu lưới linh hoạt hơn, tối ưu hóa hơn nữa sự cân bằng giữa tốc độ và độ chính xác. Mô hình loại bỏ nhu cầu sử dụng phương pháp loại bỏ cực đại không cần thiết (Non-Maximum Suppression - NMS ) bằng cách dự đoán trực tiếp một tập hợp các đối tượng, đơn giản hóa quy trình xử lý hậu kỳ.

Mức sử dụng bộ nhớ của Transformer

Mặc dù máy biến áp hoạt động tốt trong bối cảnh toàn cầu, nhưng chúng thường yêu cầu nhiều hơn đáng kể. GPU VRAM được sử dụng trong quá trình huấn luyện so với các mạng CNN. Người dùng có phần cứng hạn chế có thể thấy việc huấn luyện RTDETRv2 khó khăn hơn so với các mô hình nhẹ hơn. YOLO các biến thể.

Hiệu suất

RT-DETRv2 Thể hiện độ chính xác vượt trội, thường cho kết quả tốt hơn so với các sản phẩm có kích thước tương tự. YOLO các mô hình trên COCO Đây là một tiêu chuẩn so sánh. Nó đặc biệt mạnh trong các trường hợp yêu cầu độ chính xác cao và khả năng chống che khuất. Tuy nhiên, độ chính xác này thường đi kèm với chi phí yêu cầu tính toán cao hơn, khiến nó ít phù hợp hơn cho mục đích thuần túy là so sánh chuẩn. CPU so sánh việc triển khai biên dựa trên - với Ultralytics YOLO gia đình.

Tìm hiểu thêm về RT-DETR

YOLOv10 Sự tiến hóa toàn diện của CNN

YOLOv10 đại diện cho một sự thay đổi lớn trong YOLO dòng dõi bằng cách giới thiệu NMS - Huấn luyện miễn phí cho kiến trúc CNN truyền thống. Sự đổi mới này thu hẹp khoảng cách giữa sự đơn giản của CNN và khả năng vận hành toàn diện của Transformer.

Tác giả: Ao Wang, Hui Chen, Lihao Liu, et al.
Tổ chức:Đại học Thanh Hoa
Ngày: 23 tháng 5 năm 2024
Arxiv:YOLOv10: Real-Time End-to-End Object Detection

Kiến trúc và Đổi mới

YOLOv10 giới thiệu một chiến lược phân công kép nhất quán cho NMS - Huấn luyện không cần dữ liệu bổ sung. Trong quá trình huấn luyện, mô hình sử dụng cả gán nhãn một-nhiều và một-một. Điều này cho phép mô hình tận dụng các tín hiệu giám sát phong phú đồng thời đảm bảo rằng, trong quá trình suy luận, nó chỉ dự đoán một hộp cho mỗi đối tượng.

Ngoài ra, kiến trúc này còn có thiết kế toàn diện hướng đến hiệu quả và độ chính xác. Điều này bao gồm các đầu phân loại nhẹ và lấy mẫu giảm kích thước tách rời kênh không gian, giúp giảm chi phí tính toán (FLOPs) và số lượng tham số.

Hiệu suất

YOLOv10 vượt trội về độ trễ suy luận . Bằng cách loại bỏ NMS Nhờ đó, nó đạt được độ biến thiên độ trễ thấp hơn, điều này rất quan trọng đối với các ứng dụng thời gian thực như lái xe tự động. Các biến thể nhỏ hơn, chẳng hạn như YOLOv10n và YOLOv10s, cung cấp tốc độ đáng kinh ngạc trên các thiết bị biên, khiến chúng rất hiệu quả trong môi trường hạn chế tài nguyên.

Tìm hiểu thêm về YOLOv10

Những điểm khác biệt quan trọng và các trường hợp sử dụng

1. NMS - Kiến trúc miễn phí

Cả hai mẫu đều tuyên bố có khả năng "từ đầu đến cuối", nhưng chúng đạt được điều đó theo những cách khác nhau. RT-DETRv2 Sử dụng cơ chế dựa trên truy vấn vốn có của các bộ chuyển đổi để dự đoán các đối tượng duy nhất. YOLOv10 Điều này đạt được thông qua một chiến lược huấn luyện mới được áp dụng cho kiến trúc mạng CNN. Điều này giúp YOLOv10 nhanh hơn đáng kể trên phần cứng tiêu chuẩn được tối ưu hóa cho phép tích chập, trong khi đó RT-DETRv2 Nó tỏa sáng trên GPU, nơi mà việc tính toán biến đổi song song diễn ra hiệu quả.

2. Hiệu Quả Huấn Luyện và Bộ Nhớ

Một khu vực mà Ultralytics Các mô hình từ trước đến nay luôn vượt trội về hiệu quả đào tạo. Các mô hình Transformer như... RT-DETRv2 Chúng nổi tiếng là ngốn bộ nhớ và hội tụ chậm. Ngược lại, các mô hình dựa trên CNN như YOLOv10 và YOLO11 thì ít tốn tài nguyên phần cứng hơn nhiều.

Ultralytics YOLO Các mô hình duy trì một lợi thế rõ rệt ở đây:

Trí nhớ kém: Huấn luyện YOLO Các mô hình này thường yêu cầu ít VRAM hơn, cho phép kích thước lô lớn hơn trên GPU dành cho người tiêu dùng.
Tốc độ hội tụ nhanh hơn: Mạng CNN thường yêu cầu ít epoch hơn để đạt được sự hội tụ so với các kiến trúc dựa trên Transformer.

3. Tính linh hoạt và hệ sinh thái

Trong khi RT-DETRv2 Và YOLOv10 Mặc dù là các bộ dò mạnh mẽ, chúng chủ yếu tập trung vào việc phát hiện khung bao quanh. Ngược lại, Ultralytics Hệ sinh thái cung cấp các mô hình hỗ trợ nhiều tác vụ hơn ngay từ đầu.

Cái Ultralytics Khung phần mềm đảm bảo người dùng không chỉ nhận được một mô hình mà còn là một quy trình làm việc hoàn chỉnh. Điều này bao gồm tích hợp liền mạch với Nền tảng Ultralytics để quản lý tập dữ liệu và dễ dàng xuất sang các định dạng như ONNX , TensorRT , Và OpenVINO .

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Trong khi RT-DETRv2 Và YOLOv10 Cung cấp các tính năng hấp dẫn, lĩnh vực này đã không ngừng phát triển. Đối với các nhà phát triển đang tìm kiếm hiệu năng, hiệu quả và tính dễ sử dụng tối ưu nhất, Ultralytics YOLO26 là sự lựa chọn vượt trội.

Ra mắt vào tháng 1 năm 2026, YOLO26 tổng hợp những cải tiến tốt nhất từ cả kiến trúc Transformer và CNN thành một kiến trúc thế hệ tiếp theo thống nhất.

Tại sao YOLO26 là lựa chọn được khuyến nghị

Hoàn toàn từ đầu đến cuối: Giống như YOLOv10 YOLO26 cung cấp giải pháp toàn diện từ đầu đến cuối. NMS - Thiết kế không phụ thuộc vào độ trễ. Điều này loại bỏ nút thắt cổ chai về độ trễ trong quá trình xử lý hậu kỳ, đảm bảo tốc độ suy luận nhất quán và có thể dự đoán được, điều rất quan trọng đối với các hệ thống an toàn критические.
Tối ưu hóa cho mọi phần cứng: YOLO26 loại bỏ tổn hao tiêu điểm phân tán (DFL), đơn giản hóa đáng kể đồ thị mô hình. Điều này dẫn đến khả năng tương thích tốt hơn với các bộ tăng tốc AI biên và tốc độ suy luận CPU nhanh hơn tới 43% so với các thế hệ trước.
Động lực huấn luyện nâng cao: Kết hợp Trình tối ưu hóa MuSGD , một sự kết hợp của SGD Và Muon (lấy cảm hứng từ quá trình huấn luyện LLM tại Moonshot AI), YOLO26 đạt được quá trình huấn luyện ổn định và hội tụ nhanh hơn, mang đến những cải tiến lớn về mô hình ngôn ngữ cho thị giác máy tính.
Tính linh hoạt trong công việc: Không giống như RT-DETRv2 Với trọng tâm là phát hiện, YOLO26 hỗ trợ natively các tính năng Phát hiện đối tượng , Phân đoạn đối tượng , Ước tính tư thế , Hộp giới hạn định hướng (OBB) và Phân loại.

Di chuyển liền mạch

Việc chuyển sang YOLO26 rất dễ dàng với Ultralytics API. Chỉ cần thay đổi tên mô hình trong của bạn. Python kịch bản:

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)

Tìm hiểu thêm về YOLO26

Kết luận

Dành cho mục đích nghiên cứu thuần túy hoặc các trường hợp cụ thể mà... GPU Với nguồn lực không giới hạn và cơ chế chú ý của bộ chuyển đổi là cần thiết, RT-DETRv2 là một ứng cử viên sáng giá. Đối với người dùng ưu tiên độ trễ thấp trên các thiết bị biên với... NMS Với kiến trúc mạng nơ-ron tích chập (CNN) miễn phí, YOLOv10 vẫn là một lựa chọn học thuật vững chắc.

Tuy nhiên, đối với các triển khai cấp độ sản xuất đòi hỏi sự cân bằng giữa tốc độ, độ chính xác và công cụ mạnh mẽ, Ultralytics YOLO26 là sự lựa chọn tối ưu. Việc tích hợp vào một hệ sinh thái được duy trì tốt, hỗ trợ nhiều tác vụ thị giác máy tính khác nhau và những cải tiến kiến trúc đột phá khiến nó trở thành giải pháp có khả năng đáp ứng nhu cầu trong tương lai tốt nhất cho năm 2026 và những năm tiếp theo.

Xem Thêm

Ultralytics YOLO11 - Phiên bản tiền nhiệm mạnh mẽ được sử dụng rộng rãi trong ngành.
RT-DETR - Bộ chuyển đổi phát hiện thời gian thực tiên tiến nhất.
YOLOv8 - Một sản phẩm kinh điển đa năng trong YOLO gia đình.

RTDETRv2 so với... YOLOv10 So sánh các kiến ​​trúc phát hiện thời gian thực

Bảng so sánh

RTDETRv2: Tinh chỉnh Transformer Thời gian Thực

Kiến trúc và Đổi mới

Hiệu suất

YOLOv10 Sự tiến hóa toàn diện của CNN

Kiến trúc và Đổi mới

Hiệu suất

Những điểm khác biệt quan trọng và các trường hợp sử dụng

1. NMS - Kiến trúc miễn phí

2. Hiệu Quả Huấn Luyện và Bộ Nhớ

3. Tính linh hoạt và hệ sinh thái

Cái Ultralytics Ưu điểm: Giới thiệu YOLO26

Tại sao YOLO26 là lựa chọn được khuyến nghị

Kết luận

Xem Thêm

Bình luận

RTDETRv2 so với... YOLOv10 So sánh các kiến trúc phát hiện thời gian thực