YOLOv5 so với RT-DETRv2 So sánh kỹ thuật giữa các thiết bị phát hiện vật thể thời gian thực
Sự phát triển của việc phát hiện đối tượng trong thời gian thực được định hình bởi hai mô hình kiến trúc chính: dựa trên Mạng nơ-ron tích chập (CNN). YOLO So sánh này khám phá những khác biệt kỹ thuật giữa Ultralytics YOLOv5 , bộ phát hiện dựa trên CNN tiêu chuẩn ngành, và RT-DETRv2 , một phiên bản mới của Real-Time Detection Transformer được thiết kế để thách thức sự thống trị của CNN truyền thống.
Cả hai mô hình đều hướng đến giải quyết thách thức quan trọng là cân bằng giữa tốc độ suy luận và độ chính xác cao, nhưng chúng tiếp cận mục tiêu này bằng các phương pháp luận khác nhau về cơ bản.
Ultralytics YOLOv5: Tiêu chuẩn Công nghiệp
YOLOv5 vẫn là một trong những mô hình thị giác máy tính được triển khai rộng rãi nhất trên toàn cầu nhờ sự cân bằng vượt trội giữa tốc độ, độ chính xác và tính thực tiễn kỹ thuật. Được phát hành vào giữa năm 2020 bởi Ultralytics Nó đã định nghĩa lại khả năng sử dụng trong lĩnh vực trí tuệ nhân tạo, giúp các kỹ sư và nhà nghiên cứu dễ dàng tiếp cận với công nghệ phát hiện tiên tiến thông qua một trải nghiệm liền mạch. Python API.
- Tác giả: Glenn Jocher
- Tổ chức:Ultralytics
- Ngày: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- Tài liệu:https://docs.ultralytics.com/models/yolov5/
Kiến trúc và Thiết kế
YOLOv5 Nó sử dụng kiến trúc xương sống CSPDarknet, tích hợp các mạng Cross Stage Partial để cải thiện luồng gradient và giảm chi phí tính toán. Phần cổ của nó sử dụng PANet (Path Aggregation Network) để tổng hợp kim tự tháp đặc trưng hiệu quả, đảm bảo các đặc trưng từ các thang đo khác nhau được kết hợp hiệu quả.
Các tính năng kiến trúc chính bao gồm:
- Phát hiện dựa trên điểm neo: Sử dụng các hộp neo được xác định trước để dự đoán vị trí đối tượng, một phương pháp đã được chứng minh là mạnh mẽ trong việc định vị.
- Tăng cường dữ liệu bằng kỹ thuật ghép ảnh (Mosaic Data Augmentation): Một kỹ thuật huấn luyện ghép bốn hình ảnh lại với nhau, dạy mô hình cách... detect các đối tượng trong nhiều bối cảnh và quy mô khác nhau.
- SiLU Activation: Các hàm kích hoạt mượt mà hơn giúp cải thiện sự hội tụ của mạng nơ-ron sâu so với hàm ReLU truyền thống.
Điểm mạnh trong triển khai
YOLOv5 Ultralytics nổi bật về tính dễ sử dụng . Quy trình làm việc "từ con số không đến chuyên gia" cho phép các nhà phát triển chuyển từ tập dữ liệu đến mô hình đã triển khai chỉ trong vài phút. Hệ sinh thái Ultralytics hỗ trợ điều này với các công cụ tích hợp để chú thích dữ liệu , huấn luyện trên đám mây và xuất dữ liệu chỉ bằng một cú nhấp chuột sang các định dạng như ONNX , TensorRT và CoreML .
Không giống như các mô hình biến áp, vốn có thể tiêu tốn nhiều bộ nhớ, YOLOv5 Nó có yêu cầu bộ nhớ thấp hơn đáng kể trong quá trình huấn luyện. Hiệu quả này cho phép nó chạy trên các GPU cấp người tiêu dùng và thậm chí cả các thiết bị biên như NVIDIA Jetson , làm cho nó trở nên rất linh hoạt cho các ứng dụng thực tế từ bảo tồn động vật hoang dã đến phân tích bán lẻ .
RT-DETRv2 : Kẻ thách thức biến hình
RT-DETRv2 (Phiên bản 2 của Real-Time Detection Transformer) được xây dựng dựa trên sự thành công của phiên bản gốc. RT-DETR Mục tiêu là đưa độ chính xác của các bộ chuyển đổi hình ảnh lên tốc độ thời gian thực. Nó giải quyết chi phí tính toán cao thường gặp ở các bộ chuyển đổi hình ảnh (Vision Transformers - ViTs) bằng cách tối ưu hóa cấu trúc bộ mã hóa-giải mã.
- Tác giả: Wenyu Lv, Yian Zhao, et al.
- Tổ chức: Baidu
- Ngày: 17/04/2023 (v1), 24/07/2024 (v2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/ RT-DETR
Kiến trúc và Thiết kế
RT-DETRv2 Nó sử dụng kiến trúc lai kết hợp mạng nơ-ron tích chập (CNN) (thường là ResNet hoặc HGNet) với bộ mã hóa-giải mã Transformer hiệu quả.
- Bộ mã hóa lai: Tách rời tương tác nội thang đo và sự kết hợp giữa các thang đo để giảm chi phí tính toán.
- Lựa chọn truy vấn dựa trên IoU : Cải thiện quá trình khởi tạo truy vấn đối tượng bằng cách ưu tiên các đặc trưng có độ tin cậy cao.
- Không cần neo: Dự đoán trực tiếp các hộp giới hạn mà không cần neo được xác định trước, về mặt lý thuyết giúp đơn giản hóa đầu ra.
- NMS -Free: Một điểm bán hàng quan trọng là việc loại bỏ hiện tượng ức chế tối đa không cần thiết (Non-Maximmum Suppression) NMS ), điều này có thể giảm sự biến thiên độ trễ trong quá trình xử lý hậu kỳ.
Các cân nhắc khi triển khai
Trong khi RT-DETRv2 Mặc dù có độ chính xác cạnh tranh, nhưng nó đòi hỏi tài nguyên cao hơn. Việc huấn luyện các mô hình dựa trên Transformer thường yêu cầu nhiều tài nguyên hơn. GPU bộ nhớ và thời gian huấn luyện dài hơn so với các mạng CNN như... YOLOv5 Hơn nữa, trong khi việc loại bỏ NMS Điều này có lợi cho sự ổn định độ trễ, vì các phép nhân ma trận phức tạp trong các lớp chú ý có thể chậm hơn trên phần cứng cũ hoặc các thiết bị biên thiếu bộ nhớ chuyên dụng. tensor lõi.
So sánh Các chỉ số Hiệu suất
Bảng sau đây so sánh hiệu suất của YOLOv5 Và RT-DETRv2 trên COCO Bộ dữ liệu val2017. Trong khi đó RT-DETRv2 cho thấy độ chính xác cao ( mAP ), YOLOv5 Thường mang lại tỷ lệ tốc độ trên mỗi tham số vượt trội, đặc biệt là trên phần cứng tiêu chuẩn.
| Mô hình | Kích thước (pixels) | mAPval 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Cân bằng hiệu suất
Trong khi RT-DETRv2 đạt đỉnh cao hơn mAP Lưu ý sự khác biệt đáng kể về kích thước mô hình và tốc độ. YOLOv5n chạy nhanh hơn gần 5 lần trên GPU T4 so với GPU nhỏ nhất. RT-DETRv2 Mô hình này là sự lựa chọn vượt trội cho các ứng dụng biên có tài nguyên cực kỳ hạn chế.
Điểm khác biệt chính và các trường hợp sử dụng
1. Hiệu quả đào tạo và hệ sinh thái
Một trong những ưu điểm quan trọng nhất của Ultralytics YOLOv5 là hiệu quả huấn luyện . Khả năng huấn luyện hiệu quả trên các tập dữ liệu nhỏ hơn với phần cứng ít mạnh mẽ hơn giúp dân chủ hóa việc tiếp cận AI. Nền tảng Ultralytics tích hợp cho phép người dùng trực quan hóa các chỉ số huấn luyện, quản lý tập dữ liệu và triển khai mô hình một cách liền mạch.
Ngược lại, đào tạo RT-DETRv2 thường đòi hỏi nhiều hơn CUDA Việc sử dụng bộ nhớ và các chu kỳ huấn luyện kéo dài để đạt được sự hội tụ là cần thiết do bản chất của cơ chế chú ý của Transformer. Đối với các nhà phát triển muốn lặp lại nhanh chóng, chu kỳ huấn luyện nhanh của... YOLOv5 là yếu tố thúc đẩy năng suất lao động mạnh mẽ.
2. Tính linh hoạt
YOLOv5 Nó không chỉ là một thiết bị phát hiện vật thể. Ultralytics Khung này mở rộng khả năng của nó để:
- Phân đoạn đối tượng : Phân đoạn các đối tượng ở cấp độ pixel.
- Phân loại hình ảnh : Phân loại toàn bộ hình ảnh một cách hiệu quả.
- Ước tính tư thế (Pose Estimation): Phát hiện các điểm chính trên cơ thể người.
Tính linh hoạt này có nghĩa là một thư viện duy nhất có thể hỗ trợ toàn bộ một bộ ứng dụng, từ phân tích thể thao đến hình ảnh y tế , giúp giảm độ phức tạp của mã và chi phí bảo trì. RT-DETRv2 Nó chủ yếu tập trung vào việc phát hiện, với sự hỗ trợ chưa hoàn thiện cho các tác vụ phụ trợ này trong một quy trình làm việc thống nhất.
3. Cạnh và CPU Triển khai
Để triển khai trên CPU (thường thấy trong camera IP hoặc các chức năng đám mây) hoặc thiết bị di động, YOLOv5 Kiến trúc CNN của nó được tối ưu hóa cao. Nó hỗ trợ xuất sang TFLite và CoreML với khả năng lượng tử hóa mở rộng. Các mô hình Transformer như RT-DETRv2 có thể gặp khó khăn với độ trễ trên các thiết bị không phải là... GPU phần cứng phức tạp do các phép toán ma trận phức tạp không dễ dàng được tăng tốc bằng các phương pháp tiêu chuẩn. CPU hướng dẫn.
Khuyến nghị: Lợi thế của Ultralytics
Trong khi RT-DETRv2 Thể hiện kết quả học tập ấn tượng, các mẫu Ultralytics YOLO cung cấp giải pháp toàn diện hơn cho hệ thống sản xuất. Hệ sinh thái được duy trì tốt , đảm bảo khả năng tương thích với các công nghệ mới nhất. Python Việc nắm rõ các phiên bản, trình điều khiển phần cứng và định dạng xuất khẩu mang lại sự an tâm cho các dự án dài hạn.
Đối với những người bắt đầu các dự án mới vào năm 2026, chúng tôi đặc biệt khuyên bạn nên xem xét Ultralytics YOLO26.
Tại sao chọn YOLO26?
YOLO26 đại diện cho đỉnh cao của hiệu quả, kết hợp những tính năng tốt nhất của mạng nơ-ron tích chập (CNN) và Transformer.
- Hoàn toàn từ đầu đến cuối: Giống như RT-DETRv2 YOLO26 là NMS - Miễn phí, đơn giản hóa quy trình triển khai.
- Bộ tối ưu hóa MuSGD: Một bộ tối ưu hóa lai đột phá giúp hội tụ nhanh hơn và ổn định hơn.
- Tối ưu hóa tại biên: Được thiết kế đặc biệt để tăng tốc độ suy luận CPU lên đến 43% so với các thế hệ trước.
- Loại bỏ DFL: Đơn giản hóa các hàm mất mát để dễ dàng xuất sang các thiết bị biên.
Ví dụ mã: Chạy YOLOv5
Sự đơn giản của Ultralytics API là lý do chính cho sự phổ biến rộng rãi của nó. Dưới đây là cách bạn có thể dễ dàng tải và chạy suy luận.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
Để so sánh, Ultralytics cũng hỗ trợ RT-DETR các mô hình thông qua cùng một giao diện đơn giản:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
Kết luận
Cả hai YOLOv5 Và RT-DETRv2 là những mô hình có khả năng. RT-DETRv2 Nó mang đến cái nhìn thoáng qua về tương lai của công nghệ phát hiện dựa trên biến áp. NMS - Kiến trúc không phụ thuộc vào thư viện và độ chính xác cao. Tuy nhiên, YOLOv5 vẫn là một công cụ mạnh mẽ cho việc triển khai thực tế, mang lại tốc độ vượt trội trên các thiết bị biên, chi phí tài nguyên thấp hơn và một hệ sinh thái công cụ phong phú.
Dành cho các nhà phát triển muốn có "những ưu điểm của cả hai thế giới" - tốc độ của mạng nơ-ron tích chập (CNN) và... NMS - Không cần bộ chuyển đổi, Ultralytics YOLO26 là sự lựa chọn tối ưu cho năm 2026 và những năm tiếp theo.