RTDETRv2 so với YOLOv5: So sánh Kỹ thuật
Việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là một quyết định then chốt, ảnh hưởng đến mọi thứ từ chi phí triển khai đến trải nghiệm người dùng. Trong bài so sánh chi tiết này, chúng tôi sẽ khám phá những ưu nhược điểm giữa RTDETRv2 , một mô hình transformer thời gian thực tiên tiến từ Baidu, và Ultralytics YOLOv5 , mô hình dựa trên mạng nơ-ron tích chập (CNN) huyền thoại đã thiết lập tiêu chuẩn về tính dễ sử dụng và độ tin cậy trong thị giác máy tính.
Mặc dù RTDETRv2 giới thiệu những cải tiến thú vị dựa trên công nghệ biến áp, YOLOv5 và các phiên bản kế nhiệm của nó (như YOLO26 hiện đại ) vẫn là chuẩn mực trong ngành về tính linh hoạt, tốc độ triển khai và trải nghiệm dành cho nhà phát triển.
Tóm tắt điều hành
RTDETRv2 (Real-Time Detection Transformer v2) là sự phát triển của kiến trúc DETR, được thiết kế để loại bỏ hiện tượng triệt tiêu cực đại không cần thiết (non-maximum suppression) NMS ) đồng thời đạt được độ chính xác cao trên GPU Phần cứng này lý tưởng cho môi trường nghiên cứu và triển khai máy chủ cao cấp, nơi có dung lượng VRAM dồi dào.
YOLOv5 (You Only Look Once v5) là một kiến trúc mạng nơ-ron tích chập (CNN) hoàn thiện, sẵn sàng cho sản xuất. Nổi tiếng với sự đơn giản "cài đặt và chạy", nó vượt trội trong điện toán biên, huấn luyện nhanh và khả năng tương thích phần cứng rộng. Dành cho các nhà phát triển đang tìm kiếm tốc độ và độ chính xác tuyệt đối mới nhất, Ultralytics Hiện tại, YOLO26 được khuyến nghị, ứng dụng này kết hợp các yếu tố sau: NMS - Lợi ích miễn phí của máy biến áp với tốc độ của YOLO .
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Kiến trúc và Thiết kế
Sự khác biệt cơ bản nằm ở cách các mô hình này xử lý thông tin hình ảnh: Transformer so với Mạng nơ-ron tích chập (CNN).
RTDETRv2: Phương pháp tiếp cận Transformer
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17/04/2023 (Bản gốc) RT-DETR ), 2024 (v2)
Liên kết: ArXiv | GitHub
RTDETRv2 sử dụng kiến trúc mã hóa-giải mã lai. Nó sử dụng mạng nơ-ron tích chập (CNN) (thường là ResNet hoặc HGNetv2) để trích xuất đặc trưng, sau đó được xử lý bởi bộ mã hóa transformer hiệu quả. Điểm đột phá chính là Bộ mã hóa lai , giúp tách biệt tương tác nội thang đo và hợp nhất liên thang đo để giảm chi phí tính toán.
Tính năng nổi bật nhất là khả năng dự đoán không cần NMS . Bằng cách sử dụng phương pháp khớp hai phía trong quá trình huấn luyện, mô hình học cách xuất ra chính xác một hộp cho mỗi đối tượng, loại bỏ nhu cầu về các bước xử lý hậu kỳ như loại bỏ cực đại không cần thiết ( NMS ) . Tuy nhiên, điều này phải trả giá bằng việc tiêu tốn nhiều bộ nhớ hơn và tốc độ hội tụ huấn luyện chậm hơn so với các mạng CNN thuần túy.
YOLOv5 Tiêu chuẩn CNN
Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 26/06/2020
Liên kết: Tài liệu | GitHub
YOLOv5 Mô hình này sử dụng kiến trúc CNN được tối ưu hóa cao dựa trên xương sống CSPNet và cổ PANet. Thiết kế này ưu tiên luồng gradient và tái sử dụng đặc trưng, dẫn đến một mô hình cực kỳ nhẹ và nhanh. Không giống như các mô hình Transformer, vốn yêu cầu tập dữ liệu khổng lồ để học ngữ cảnh toàn cục, YOLOv5 Thiên kiến quy nạp của nó cho phép nó học hỏi hiệu quả từ các tập dữ liệu nhỏ hơn với lượng tính toán ít hơn đáng kể.
Sự tiến hóa: YOLO26
Trong khi YOLOv5 dựa vào NMS Ultralytics YOLO26 mới áp dụng giải pháp End-to-End. NMS - Thiết kế miễn phí tương tự như RTDETRv2 nhưng vẫn giữ được tốc độ và hiệu quả huấn luyện. YOLO Nó cũng giới thiệu bộ tối ưu hóa MuSGD , giúp tăng tốc độ hội tụ đáng kể.
Phân tích hiệu suất
Tốc độ và độ trễ suy luận
Khi triển khai lên môi trường sản xuất, độ trễ thường là điểm nghẽn. YOLOv5 chiếm ưu thế trong CPU Môi trường dựa trên nền tảng và thiết bị biên. Sự đơn giản về kiến trúc của mạng nơ-ron tích chập (CNN) phù hợp hiệu quả với các bộ xử lý tiêu chuẩn và NPU di động.
RTDETRv2 hoạt động xuất sắc trên các GPU hiện đại (như...). NVIDIA T4 hoặc A100), nơi các phép nhân ma trận được song song hóa hiệu quả. Tuy nhiên, trên các thiết bị biên như Raspberry Pi , các thao tác biến đổi có thể quá nặng, dẫn đến FPS thấp hơn so với YOLOv5n hoặc YOLOv5s.
Sự chính xác ( mAP )
RTDETRv2 thường đạt được độ chính xác trung bình ( mAP ) cao hơn trên... COCO tập dữ liệu được so sánh với YOLOv5 Đặc biệt đối với các vật thể lớn và các cảnh phức tạp, nơi ngữ cảnh tổng thể rất quan trọng. Ví dụ, RTDETRv2-L đạt được... mAP với tỷ lệ 53,4%, vượt trội hơn YOLOv5x (50,7%) trong khi sử dụng ít tham số hơn.
Tuy nhiên, độ chính xác không phải là thước đo duy nhất. Trong các tình huống thực tế liên quan đến các vật thể nhỏ hoặc nguồn cấp dữ liệu video bị mờ do chuyển động, sự khác biệt sẽ thu hẹp lại. Hơn nữa, các công nghệ mới hơn... Ultralytics Các mẫu như YOLO11 và YOLO26 đã thu hẹp khoảng cách này, cung cấp độ chính xác tương đương hoặc vượt trội với hiệu quả tốt hơn.
Hiệu quả huấn luyện và hệ sinh thái
Đây là nơi Ultralytics Hệ sinh thái mang lại một lợi thế rõ rệt.
Ultralytics YOLOv5 & YOLO26:
- Hội tụ nhanh: Mạng CNN thường hội tụ nhanh hơn so với Transformer. Bạn có thể huấn luyện một mô hình có thể sử dụng được. YOLOv5 mô hình trong vài giờ trên một GPU .
- Dung lượng bộ nhớ thấp: Đào tạo YOLO Công nghệ này yêu cầu lượng VRAM ít hơn đáng kể, giúp các nhà nghiên cứu sử dụng card đồ họa tầm trung (ví dụ: RTX 3060) đều có thể tiếp cận được.
- Tăng cường dữ liệu: Ultralytics quy trình bao gồm các chiến lược tăng cường tiên tiến nhất (Mosaic, MixUp (được bật theo mặc định)
- Tích hợp nền tảng: Kết nối liền mạch với Nền tảng Ultralytics để quản lý tập dữ liệu, đào tạo trên đám mây và triển khai chỉ với một cú nhấp chuột.
RTDETRv2:
- Tốn nhiều tài nguyên: Transformer nổi tiếng là ngốn dữ liệu và tốn nhiều tài nguyên tính toán trong quá trình huấn luyện. Việc ổn định cơ chế chú ý thường yêu cầu lịch trình huấn luyện dài hơn (thường là hơn 72 epoch để phù hợp với...). YOLO đạt được trong thời gian ngắn hơn).
- Cấu hình phức tạp: Là một kho lưu trữ tập trung vào nghiên cứu, việc thiết lập RTDETRv2 cho các tập dữ liệu tùy chỉnh thường bao gồm việc sửa đổi các tệp cấu hình và điều chỉnh trình tải dữ liệu theo cách thủ công.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Các trường hợp sử dụng thực tế
Các kịch bản lý tưởng cho YOLOv5 / YOLO26
Cái Ultralytics Family là "dao đa năng" trong lĩnh vực thị giác máy tính, phù hợp với 90% các ứng dụng thương mại.
- AI và IoT biên: Hoàn hảo cho NVIDIA Jetson hoặc các ứng dụng di động, nơi mà mức tiêu thụ điện năng và giới hạn nhiệt độ là những ràng buộc nghiêm ngặt.
- Sản xuất: Được sử dụng trong kiểm soát chất lượng dây chuyền lắp ráp, nơi cần đưa ra quyết định trong vòng mili giây để theo kịp tốc độ sản xuất.
- Các nhiệm vụ đa dạng: Vượt ra ngoài phạm vi phát hiện, Ultralytics Các mô hình hỗ trợ sẵn có các tính năng Phân đoạn đối tượng , Ước tính tư thế , OBB và Phân loại.
- Nông nghiệp: Các mẫu máy bay không người lái hạng nhẹ như YOLOv5n rất lý tưởng cho việc giám sát cây trồng , hoạt động trực tiếp trên phần cứng của máy bay.
Các kịch bản lý tưởng cho RTDETRv2
- Hệ thống giám sát cao cấp: Camera an ninh cố định được kết nối với các máy chủ mạnh mẽ, nơi độ chính xác tối đa được ưu tiên hơn độ trễ tại thiết bị đầu cuối.
- Nghiên cứu học thuật: Khám phá các cơ chế chú ý và bộ chuyển đổi hình ảnh.
- Cảnh đông đúc: Cơ chế chú ý toàn cục đôi khi có thể xử lý tình trạng che khuất nghiêm trọng tốt hơn so với mạng CNN thuần túy, miễn là phần cứng có thể đáp ứng được tải tính toán.
Kết luận
Cả RTDETRv2 và YOLOv5 RTDETRv2 đánh dấu những cột mốc quan trọng trong lịch sử phát hiện đối tượng. Nó chứng minh rằng các bộ chuyển đổi (transformers) có thể hoạt động trong thời gian thực trên các GPU cao cấp, mang lại độ chính xác cao và hiệu suất vượt trội. NMS - Kiến trúc tự do.
Tuy nhiên, đối với phần lớn các nhà phát triển và ứng dụng thương mại, các mô hình Ultralytics vẫn là lựa chọn vượt trội . Sự kết hợp giữa hệ sinh thái YOLOv5 đã hoàn thiện và những cải tiến tiên tiến trong YOLO26 đảm bảo bạn có công cụ phù hợp cho mọi hạn chế.
Tại sao nên nâng cấp lên YOLO26? Nếu bạn đang so sánh các mô hình này cho một dự án mới vào năm 2026, chúng tôi đặc biệt khuyên dùng YOLO26 . Nó kết hợp những ưu điểm tốt nhất của cả hai:
- Hoàn toàn từ đầu đến cuối: Giống như RTDETRv2, nó loại bỏ NMS Để triển khai đơn giản hơn.
- Tốc độ suy luận CPU nhanh hơn tới 43%: Được tối ưu hóa đặc biệt cho thiết bị biên, không giống như các bộ chuyển đổi phức tạp.
- Tính linh hoạt trong tác vụ: Hỗ trợ phát hiện, phân đoạn, định vị tư thế và OBB trong một khung phần mềm duy nhất.
Để tìm hiểu thêm về các kiến trúc khác, hãy xem các bài so sánh của chúng tôi về RT-DETR so với YOLO11 và YOLOv8 so với EfficientDet .