RTDETRv2 so với... YOLOv5 Đánh giá các mô hình Transformer và CNN phát hiện đối tượng trong thời gian thực
Sự phát triển của thị giác máy tính phần lớn được định hình bởi sự theo đuổi không ngừng nghỉ nhằm cân bằng giữa độ chính xác và tốc độ suy luận thời gian thực. Khi so sánh RTDETRv2 và Ultralytics YOLOv5 Về cơ bản, các nhà phát triển đang cân nhắc khả năng xử lý ngữ cảnh toàn cầu phức tạp của kiến trúc Transformer so với hiệu quả được tối ưu hóa cao và đã được kiểm chứng của Mạng nơ-ron tích chập (CNN).
Hướng dẫn này cung cấp phân tích kỹ thuật chuyên sâu về hai kiến trúc nổi bật này, nêu chi tiết các chỉ số hiệu suất, phương pháp huấn luyện, yêu cầu bộ nhớ và các kịch bản triển khai lý tưởng để giúp bạn chọn mô hình phát hiện đối tượng tốt nhất cho trường hợp sử dụng cụ thể của mình.
RTDETRv2: Phương pháp Transformer cho việc phát hiện thời gian thực
Được xây dựng dựa trên bộ chuyển đổi phát hiện thời gian thực ban đầu ( RT-DETR RTDETRv2 giới thiệu một loạt các "tính năng bổ sung" để cải thiện kiến trúc cơ bản mà không làm tăng độ trễ suy luận.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức:Baidu
- Ngày: 2024-07-24
- Liên kết: Bài báo trên Arxiv , Kho lưu trữ GitHub
Kiến trúc và Khả năng
RTDETRv2 tận dụng kiến trúc lai giữa CNN và Transformer. CNN đóng vai trò là xương sống để trích xuất các đặc trưng hình ảnh chi tiết, trong khi các lớp mã hóa-giải mã Transformer xử lý toàn bộ bản đồ đặc trưng để hiểu ngữ cảnh tổng thể. Một đặc điểm nổi bật của RTDETRv2 là tính chất xử lý từ đầu đến cuối, loại bỏ hoàn toàn nhu cầu xử lý hậu kỳ bằng phương pháp loại bỏ cực đại không tương thích ( NMS ) .
Mặc dù RTDETRv2 đạt được độ chính xác ấn tượng—đặc biệt là trong các cảnh phức tạp, dày đặc nơi các đối tượng chồng chéo—nhưng nó cũng đi kèm với những đánh đổi đáng kể. Cơ chế chú ý vốn có của bộ chuyển đổi đòi hỏi mức độ xử lý cao hơn đáng kể. CUDA bộ nhớ trong quá trình huấn luyện tốt hơn so với các mạng CNN tiêu chuẩn. Hơn nữa, mặc dù nó hoạt động tốt trên các GPU cao cấp như... NVIDIA A100 hoặc T4, kiến trúc của nó hoạt động chậm hơn đáng kể trên các CPU tiêu chuẩn và các thiết bị biên có tài nguyên hạn chế nghiêm ngặt.
Ultralytics YOLOv5 Tiêu chuẩn ngành về hiệu quả
Ultralytics YOLOv5 Khi ra mắt, nó đã thay đổi căn bản cục diện của lĩnh vực học máy ứng dụng, giúp các nhà phát triển trên toàn thế giới tiếp cận được thị giác máy tính hiệu năng cao thông qua một khung phần mềm cực kỳ trực quan.
- Tác giả: Glenn Jocher
- Tổ chức: Ultralytics
- Ngày: 26 tháng 6 năm 2020
- Liên kết: Tài liệu chính thức , Kho lưu trữ GitHub
Cân bằng hệ sinh thái và hiệu suất
YOLOv5 Được xây dựng hoàn toàn trên nền tảng PyTorch và dựa trên kiến trúc mạng nơ-ron tích chập (CNN) cực kỳ hiệu quả. Nó được thiết kế từ đầu để dễ sử dụng , với API được tối giản hóa và một trong những tài liệu hướng dẫn chi tiết nhất trong ngành trí tuệ nhân tạo.
Ưu điểm lớn nhất của YOLOv5 Điều đó nằm ở tính linh hoạt vượt trội và yêu cầu bộ nhớ thấp của nó. Việc đào tạo một YOLOv5 Mô hình này yêu cầu lượng VRAM ít hơn đáng kể so với các mô hình dựa trên Transformer, giúp nó dễ tiếp cận hơn với các nhà nghiên cứu và kỹ sư có ngân sách phần cứng hạn chế. Hơn nữa, trong khi RTDETRv2 chỉ tập trung vào việc phát hiện hộp giới hạn, YOLOv5 đã phát triển thành một công cụ mạnh mẽ và đa năng, hỗ trợ phân đoạn đối tượng và phân loại hình ảnh .
Quản lý mô hình doanh nghiệp
Để trải nghiệm quy trình làm việc được tối ưu hóa tối đa, bạn có thể đào tạo, xác thực và triển khai. YOLOv5 Sử dụng trực tiếp Nền tảng Ultralytics . Nền tảng này cung cấp khả năng đào tạo trên đám mây và các quy trình triển khai không cần lập trình.
So sánh hiệu năng và số liệu
Khi phân tích hiệu năng thô trên tập dữ liệu COCO tiêu chuẩn, chúng ta có thể thấy rõ sự khác biệt trong cách các mô hình này ưu tiên tài nguyên.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Phân tích các đánh đổi
Dữ liệu cho thấy RTDETRv2-x đạt độ chính xác trung bình ( mAP ) cao nhất là 54,3%, nhỉnh hơn một chút so với YOLOv5x (50,7%). Tuy nhiên, sự cải thiện nhỏ về độ chính xác này lại đi kèm với chi phí tính toán khổng lồ. YOLOv5x hoạt động với độ trễ thấp hơn (11,89 ms so với 15,03 ms trên RTDETRv2-x). TensorRT và chỉ yêu cầu một phần nhỏ dung lượng bộ nhớ. Đối với các triển khai biên siêu tiết kiệm năng lượng, YOLOv5n (Nano) vẫn không có đối thủ, hoàn thành các suy luận chỉ trong 1,12ms với dung lượng tham số cực nhỏ chỉ 2,6 triệu – một đẳng cấp mà RTDETRv2 thậm chí không thể cạnh tranh được.
Hiệu quả đào tạo và sự đơn giản của mã nguồn
Một trong những điểm mạnh chính của Ultralytics Hệ sinh thái của nó là API thống nhất. Ngay cả khi bạn quyết định sử dụng kiến trúc chuyển đổi của RT-DETR Đối với một tác vụ tính toán nặng cụ thể, bạn có thể thực hiện hoàn toàn trong phạm vi hệ thống. Ultralytics Python Gói này cho phép hoán đổi mô hình một cách liền mạch chỉ với một dòng mã duy nhất.
from ultralytics import RTDETR, YOLO
# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")
# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")
# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo[0].show()
Bằng cách tận dụng Ultralytics Với thư viện này, các nhà phát triển tự động có quyền truy cập vào một hệ sinh thái được duy trì tốt, tích hợp tính năng theo dõi thử nghiệm (như...). Weights & Biases Và Comet ML) và xuất dữ liệu chỉ với một cú nhấp chuột sang các định dạng triển khai như ONNX và OpenVINO .
Ứng dụng thực tế và các trường hợp sử dụng lý tưởng
Những điểm nổi bật của RTDETRv2
RTDETRv2 phù hợp nhất với các môi trường không có giới hạn phần cứng và mục tiêu duy nhất là đạt được độ chính xác tối đa.
- Chụp ảnh y tế phía máy chủ: Phát hiện các bất thường siêu nhỏ trong ảnh X-quang độ phân giải cao.
- Ảnh vệ tinh: Theo dõi các vật thể dày đặc, chồng chéo trong các nhiệm vụ giám sát trên không đối với các cụm mây mạnh.
Ở đâu YOLOv5 Chiếm ưu thế
YOLOv5 Đây là ứng dụng không thể phủ nhận là nhà vô địch trong việc triển khai thực tế trên nhiều loại phần cứng khác nhau.
- Thiết bị AI biên: Triển khai hệ thống báo động an ninh trên Raspberry Pi hoặc NVIDIA Các thiết bị Jetson có bộ nhớ bị hạn chế nghiêm ngặt.
- Ứng dụng di động: Thực hiện suy luận phân đoạn và xác định ranh giới nhanh chóng, theo thời gian thực trực tiếp trên điện thoại thông minh thông qua CoreML hoặc TFLite .
- Sản xuất công nghiệp tốc độ cao: Kiểm tra các bộ phận trên dây chuyền sản xuất tốc độ cao, nơi độ trễ mili giây là yếu tố then chốt quyết định sự thành công của hoạt động.
Khám phá những điều khác Ultralytics Mô hình
Trong khi YOLOv5 là một mẫu xe huyền thoại, Ultralytics Hệ sinh thái liên tục thúc đẩy giới hạn của AI. Nếu bạn đang so sánh các mô hình cho một dự án mới vào năm 2026, bạn nên xem xét khám phá Ultralytics YOLO26 tiên tiến nhất. YOLO26 tích hợp thiết kế NMS -Free từ đầu đến cuối (tương tự như transformer nhưng với tốc độ của CNN), có tính năng tối ưu hóa MuSGD mang tính cách mạng cho quá trình huấn luyện cực kỳ ổn định và mang lại hiệu suất nhanh hơn tới 43%. CPU suy luận. Ngoài ra, YOLO11 vẫn là một lựa chọn tuyệt vời, được hỗ trợ cao cho các triển khai đa dạng yêu cầu ước tính tư thế và phát hiện OBB .
Tóm lại, mặc dù RTDETRv2 đẩy giới hạn độ chính xác lên cao bằng cách sử dụng các lớp biến đổi, nhưng Ultralytics YOLO Khung phần mềm này cung cấp sự cân bằng tuyệt vời giữa tốc độ, yêu cầu bộ nhớ thấp và trải nghiệm phát triển được thiết kế xuất sắc, giúp giảm đáng kể thời gian từ nguyên mẫu đến sản phẩm hoàn chỉnh.