RTDETRv2 so với... YOLO11 So sánh kiến trúc Transformer và CNN
Lĩnh vực phát hiện đối tượng thời gian thực đã phát triển nhanh chóng, với hai triết lý kiến trúc riêng biệt dẫn đầu: phương pháp Vision Transformer (ViT) được các mô hình như RTDETRv2 tiên phong, và dòng mạng nơ-ron tích chập (CNN) được Ultralytics YOLO11 hoàn thiện.
Trong khi RTDETRv2 (Real-Time Detection Transformer phiên bản 2) đẩy giới hạn của những gì kiến trúc dựa trên transformer có thể đạt được về độ chính xác và khả năng hiểu ngữ cảnh toàn cục, YOLO11 lại đại diện cho đỉnh cao về hiệu quả, tính linh hoạt và dễ triển khai. Bài so sánh này sẽ khám phá các thông số kỹ thuật, sự khác biệt về kiến trúc và ứng dụng thực tiễn của chúng để giúp các nhà phát triển lựa chọn công cụ phù hợp cho các dự án thị giác máy tính của họ.
Bảng so sánh: Số liệu và thông số kỹ thuật
Bảng dưới đây nêu bật các chỉ số hiệu năng của cả hai mô hình. Hãy lưu ý rằng YOLO11 cung cấp nhiều kích thước mô hình hơn, giúp nó thích ứng với mọi thứ từ vi điều khiển đến máy chủ cao cấp, trong khi RTDETRv2 tập trung chủ yếu vào các mô hình dung lượng cao.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Phân tích kiến trúc
Sự khác biệt cốt lõi giữa hai mô hình tiên tiến này nằm ở cách chúng xử lý thông tin hình ảnh.
RTDETRv2: Phương pháp tiếp cận Transformer
RTDETRv2 , được phát triển bởi các nhà nghiên cứu tại Baidu , kế thừa thành công của phiên bản gốc. RT-DETR Nó tận dụng sức mạnh của bộ biến đổi (transformers) để nắm bắt các mối quan hệ phụ thuộc tầm xa trong hình ảnh, một đặc điểm thường khó khăn đối với các mạng CNN truyền thống.
- Bộ mã hóa lai: RTDETRv2 sử dụng bộ mã hóa lai xử lý các đặc trưng đa tỷ lệ, cho phép mô hình "chú ý" đến các phần khác nhau của hình ảnh cùng một lúc.
- Dự đoán không cần NMS : Một trong những đặc điểm nổi bật của nó là loại bỏ hiện tượng loại bỏ cực đại không cần thiết (Non-Maximum Suppression - NMS ) . Bằng cách dự đoán trực tiếp các đối tượng bằng cách sử dụng một tập hợp các truy vấn, nó đơn giản hóa quy trình xử lý hậu kỳ, mặc dù điều này thường đi kèm với chi phí là độ phức tạp huấn luyện cao hơn.
- Gói quà tặng: Bản cập nhật "v2" giới thiệu các chiến lược huấn luyện được tối ưu hóa và những điều chỉnh về kiến trúc để cải thiện tốc độ hội tụ và độ chính xác so với phiên bản cơ bản ban đầu.
Siêu dữ liệu:
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Tổ chức: Baidu
- Ngày: 17/07/2024 (Arxiv v2)
- Arxiv:RT-DETRv2 Paper
- GitHub:Kho lưu trữ RT-DETR
YOLO11 Tiêu chuẩn CNN được tinh chỉnh
Ultralytics YOLO11 thể hiện sự tiến hóa của kiến trúc mạng CNN , tập trung vào việc tối đa hóa hiệu quả trích xuất đặc trưng đồng thời giảm thiểu chi phí tính toán.
- Khối C3k2 và C2PSA: YOLO11 Nó giới thiệu các khối xây dựng tiên tiến trong phần xương sống và cổ của mình. Khối C3k2 sử dụng kích thước kernel khác nhau để biểu diễn đặc trưng phong phú hơn, trong khi khối C2PSA tích hợp các cơ chế chú ý một cách hiệu quả mà không tốn nhiều chi phí như các bộ chuyển đổi hoàn chỉnh.
- Hỗ trợ tác vụ thống nhất: Không giống như RTDETRv2, chủ yếu là một bộ phát hiện đối tượng, YOLO11 Nó được thiết kế như một nền tảng thị giác toàn diện. Nó hỗ trợ nguyên bản Phân đoạn đối tượng , Ước tính tư thế , OBB và Phân loại trong cùng một khuôn khổ.
- Tối ưu hóa cho thiết bị biên: Kiến trúc được tinh chỉnh đặc biệt để đạt tốc độ cao trên nhiều loại phần cứng khác nhau, từ CPU đến các bộ tăng tốc AI biên như... NVIDIA Jetson.
Siêu dữ liệu:
- Tác giả: Glenn Jocher và Jing Qiu
- Tổ chức:Ultralytics
- Ngày: 2024-09-27
- Tài liệu:Tài liệu YOLO11
Bạn có biết?
Trong khi RTDETRv2 loại bỏ NMS theo thiết kế, Ultralytics YOLO26 cũng sở hữu thiết kế End-to-End NMS -Free nguyên bản, kết hợp tốc độ của mạng CNN với khả năng triển khai đơn giản của các mô hình Transformer.
Hệ sinh thái và Dễ sử dụng
Đối với các nhà phát triển và kỹ sư học máy , hệ sinh thái phần mềm xung quanh một mô hình thường quan trọng không kém gì các chỉ số thô của mô hình đó.
Ưu điểm của hệ sinh thái Ultralytics : YOLO11 Được hưởng lợi từ Nền tảng Ultralytics hàng đầu trong ngành, cung cấp trải nghiệm liền mạch từ quản lý dữ liệu đến triển khai.
- Hiệu quả đào tạo: YOLO11 Các mô hình này nổi tiếng về tốc độ huấn luyện nhanh. Mã nguồn bao gồm tính năng tự động điều chỉnh siêu tham số và kiểm tra tập dữ liệu thông minh.
- Tính linh hoạt khi triển khai: Người dùng có thể xuất mô hình sang các định dạng như ONNX , TensorRT , CoreML , Và TFLite chỉ với một dòng mã.
- Hỗ trợ cộng đồng: Với hàng triệu lượt tải xuống, Ultralytics Cộng đồng cung cấp nguồn tài nguyên phong phú, từ các video hướng dẫn trên YouTube đến các cuộc thảo luận sôi nổi trên GitHub Issues .
Những điều cần cân nhắc về RTDETRv2: RTDETRv2 chủ yếu là một kho lưu trữ nghiên cứu. Mặc dù mạnh mẽ, nhưng nó thường thiếu trải nghiệm "đầy đủ tính năng". Việc thiết lập các quy trình huấn luyện, quản lý tập dữ liệu và xuất dữ liệu cho các thiết bị biên thường yêu cầu cấu hình thủ công và lập trình Python nhiều hơn.
Yêu cầu về hiệu năng và nguồn lực
Khi triển khai trong môi trường thực tế, việc cân bằng giữa độ chính xác và mức tiêu thụ tài nguyên là yếu tố then chốt.
GPU Trí nhớ và huấn luyện
Các mô hình Transformer nổi tiếng là ngốn bộ nhớ. RTDETRv2 thường yêu cầu lượng VRAM GPU đáng kể để ổn định cơ chế chú ý trong quá trình huấn luyện. Điều này có thể gây khó khăn khi huấn luyện trên phần cứng cấp người tiêu dùng hoặc yêu cầu kích thước lô nhỏ hơn, điều này có thể ảnh hưởng đến thống kê chuẩn hóa lô.
YOLO11 tiết kiệm bộ nhớ hơn đáng kể. Kiến trúc dựa trên mạng nơ-ron tích chập (CNN) cho phép kích thước lô lớn hơn trên các GPU tiêu chuẩn, giúp tăng tốc quá trình huấn luyện và giảm chi phí phát triển. Hiệu quả này cũng được mở rộng đến quá trình suy luận , nơi các mô hình YOLO11 có thể chạy trong thời gian thực trên CPU, một thành tựu mà các mô hình dựa trên Transformer khó có thể sánh kịp do độ phức tạp tính toán bậc hai đối với số lượng token hình ảnh.
Sự đánh đổi giữa độ chính xác và tốc độ
Như thể hiện trong bảng so sánh, YOLO11x đạt được mAP cao hơn (54,7) so với RTDETRv2-x (54,3) trong khi vẫn duy trì tốc độ suy luận cạnh tranh. Đối với các ứng dụng yêu cầu tốc độ cực cao, kích thước nhỏ hơn sẽ phù hợp hơn. YOLO11 các biến thể (n/s) cung cấp một cấp hiệu năng mà RTDETRv2 không nhắm tới, khiến cho YOLO11 Là lựa chọn tối ưu nhất cho việc triển khai trên thiết bị di động và IoT.
Ví dụ mã: Sử dụng YOLO11 Và RT-DETR
Ultralytics cung cấp hỗ trợ hạng nhất cho cả phiên bản gốc của nó. YOLO các mẫu và phiên bản được hỗ trợ của RT-DETR , cho phép bạn chuyển đổi giữa các kiến trúc một cách liền mạch.
from ultralytics import RTDETR, YOLO
# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the YOLO11 results
for result in results_yolo:
result.show()
Các ứng dụng thực tế
Nơi YOLO11 vượt trội
Nhờ kích thước nhỏ gọn và tốc độ cao, YOLO11 là sự lựa chọn ưu tiên cho:
- Hệ thống tự hành: Máy bay không người lái và robot, nơi độ trễ thấp là yếu tố cực kỳ quan trọng đối với sự an toàn.
- Thành phố thông minh: Giám sát giao thông thời gian thực trên các thiết bị đầu cuối như NVIDIA Jetson .
- Nông nghiệp: Giám sát cây trồng và phát hiện cỏ dại bằng thiết bị di động chạy bằng pin.
- Các nhiệm vụ đa dạng: Các dự án yêu cầu ước tính tư thế hoặc hộp giới hạn định hướng cùng với phát hiện đối tượng.
Vị trí của RTDETRv2
RTDETRv2 rất phù hợp cho:
- Máy chủ tính toán hiệu năng cao: Các kịch bản cần sức mạnh không giới hạn và GPU Bộ nhớ khả dụng.
- Che khuất phức tạp: Môi trường mà trường tiếp nhận toàn cục của bộ chuyển đổi giúp giải quyết sự chồng chéo lớn giữa các đối tượng.
- Nghiên cứu: Khám phá học thuật về Vision Transformers (ViTs).
Kết luận
Cả hai kiến trúc đều thể hiện sự tiến bộ vượt bậc trong lĩnh vực thị giác máy tính. RTDETRv2 cho thấy tiềm năng của Transformer trong việc thách thức sự thống trị của CNN trong các tác vụ phát hiện đối tượng. Tuy nhiên, đối với phần lớn các ứng dụng thực tế, Ultralytics YOLO11 vẫn là lựa chọn vượt trội hơn.
Với khung cấu trúc thống nhất, yêu cầu tài nguyên thấp hơn, phạm vi hỗ trợ nhiệm vụ rộng hơn và hệ sinh thái triển khai hoàn thiện, YOLO11 Giúp các nhà phát triển chuyển từ giai đoạn nguyên mẫu sang sản phẩm nhanh hơn. Dành cho những ai đang tìm kiếm những công nghệ hiệu quả và tiên tiến nhất. NMS - Với thiết kế không ràng buộc, chúng tôi cũng khuyên bạn nên khám phá YOLO26 tiên tiến, sản phẩm kết hợp những ưu điểm tốt nhất của cả hai thế giới thành một hệ thống mạnh mẽ, toàn diện.