RTDETRv2 so với YOLOv6 -3.0: Máy biến áp có độ chính xác cao đáp ứng tốc độ công nghiệp
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu thường liên quan đến việc cân nhắc giữa độ chính xác tuyệt đối và độ trễ suy luận. Bài so sánh kỹ thuật này sẽ khám phá RTDETRv2 , một mô hình dựa trên Vision Transformer được thiết kế cho các tác vụ đòi hỏi độ chính xác cao, và YOLOv6 -3.0 , một bộ phát hiện dựa trên CNN được thiết kế đặc biệt cho tốc độ và hiệu suất công nghiệp. Bằng cách phân tích kiến trúc, số liệu hiệu suất và đặc điểm triển khai của chúng, chúng tôi giúp bạn xác định giải pháp tốt nhất cho các ứng dụng thị giác máy tính của mình.
RTDETRv2: Vượt qua giới hạn với Vision Transformers
RTDETRv2 (Real-Time Detection Transformer v2) là một bước tiến đáng kể trong lĩnh vực phát hiện đối tượng , tận dụng sức mạnh của bộ biến đổi để nắm bắt bối cảnh toàn cục trong hình ảnh. Không giống như các CNN truyền thống xử lý các đặc điểm cục bộ, RTDETRv2 sử dụng cơ chế tự chú ý để hiểu mối quan hệ giữa các đối tượng ở xa, giúp nó cực kỳ hiệu quả trong các cảnh phức tạp.
Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức: Baidu
Ngày: 17-04-2023 (Ban đầu), 24-07-2024 (phiên bản 2)
Arxiv: RT-DETR : DETR đánh bại YOLO về khả năng phát hiện đối tượng theo thời gian thực
GitHub: Kho lưu trữ RT-DETR
Tài liệu: Tài liệu RTDETRv2
Đổi mới kiến trúc
Kiến trúc của RTDETRv2 là một thiết kế lai. Nó sử dụng một mạng xương sống CNN tiêu chuẩn (thường là ResNet hoặc HGNet) để trích xuất đặc điểm ban đầu, sau đó là bộ mã hóa-giải mã biến áp. Cấu trúc này cho phép mô hình xử lý các đặc điểm đa tỷ lệ một cách hiệu quả, đồng thời loại bỏ nhu cầu sử dụng các thành phần thủ công như hộp neo và NMS (Non-Maximum Suppression) .
Ưu điểm của máy biến áp
Các thành phần Vision Transformer (ViT) trong RTDETRv2 rất hiệu quả trong việc giải quyết các điểm mơ hồ trong các cảnh đông đúc. Bằng cách phân tích toàn bộ bối cảnh hình ảnh cùng lúc, mô hình giảm thiểu các kết quả dương tính giả do che khuất hoặc nhiễu nền.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Độ chính xác vượt trội: Nhìn chung đạt được Độ chính xác trung bình ( mAP ) cao hơn trên các tập dữ liệu như COCO so với các CNN có kích thước tương tự.
- Thiết kế không có điểm neo: Đơn giản hóa quy trình phát hiện bằng cách loại bỏ các hộp neo , giảm việc điều chỉnh siêu tham số.
- Bối cảnh toàn cầu: Tuyệt vời trong việc phát hiện các vật thể trong môi trường dày đặc hoặc hỗn loạn khi các đặc điểm cục bộ không đủ.
Điểm yếu:
- Chi phí tính toán: Yêu cầu FLOP cao hơn đáng kể và GPU trí nhớ, đặc biệt là trong quá trình đào tạo.
- Độ trễ: Mặc dù "thời gian thực", nhưng nó thường chậm hơn các CNN được tối ưu hóa như YOLOv6 về tốc độ suy luận thô trên phần cứng tương đương.
- Thiếu dữ liệu: Các mô hình chuyển đổi thường yêu cầu bộ dữ liệu đào tạo lớn hơn và lịch trình đào tạo dài hơn để hội tụ.
YOLOv6 -3.0: Chiếc xe công nghiệp Speedster
YOLOv6 Phiên bản -3.0, do Meituan phát triển, tập trung hoàn toàn vào nhu cầu của các ứng dụng công nghiệp: độ trễ thấp và thông lượng cao. Phiên bản này cải tiến mô hình phát hiện đối tượng một giai đoạn cổ điển để tối đa hóa hiệu quả trên phần cứng, từ thiết bị biên đến GPU.
Tác giả: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức: Meituan
Ngày: 2023-01-13
Arxiv: YOLOv6 v3.0: Tải lại toàn diện
GitHub: Kho lưu trữ YOLOv6
Tài liệu: Tài liệu Ultralytics YOLOv6
Tối ưu hóa cho hiệu quả
YOLOv6 -3.0 kết hợp triết lý thiết kế "nhận thức phần cứng". Nó sử dụng một Backbone tham số hóa hiệu quả (kiểu RepVGG) giúp hợp lý hóa mạng thành một chồng tích chập 3x3 đơn giản trong quá trình suy luận , loại bỏ sự phức tạp của nhiều nhánh. Ngoài ra, nó sử dụng các kỹ thuật tự chắt lọc trong quá trình huấn luyện để tăng độ chính xác mà không làm tăng chi phí suy luận.
Điểm mạnh và Điểm yếu
Điểm mạnh:
- Tốc độ vượt trội: Mang lại độ trễ rất thấp, lý tưởng cho các dây chuyền sản xuất tốc độ cao và robot .
- Dễ triển khai: Cấu trúc được tham số hóa dễ dàng xuất sang các định dạng như ONNX và TensorRT để đạt hiệu suất tối đa.
- Hiệu quả phần cứng: Được tối ưu hóa để sử dụng GPU tính toán các đơn vị đầy đủ, giảm thiểu thời gian nhàn rỗi.
Điểm yếu:
- Độ chính xác tối đa: Mặc dù có tính cạnh tranh, nhưng nó có thể khó đạt được độ chính xác cao nhất của các mô hình dựa trên máy biến áp trong các tình huống hình ảnh cực kỳ phức tạp.
- Tính linh hoạt hạn chế: Chủ yếu tập trung vào phát hiện, thiếu hỗ trợ gốc cho các tác vụ như phân đoạn phiên bản hoặc ước tính tư thế có trong các khuôn khổ mới hơn.
Phân tích hiệu suất: Tốc độ so với Độ chính xác
Sự lựa chọn giữa RTDETRv2 và YOLOv6 -3.0 thường phụ thuộc vào các hạn chế cụ thể của môi trường triển khai. RTDETRv2 chiếm ưu thế trong các tình huống đòi hỏi độ chính xác cao nhất có thể, trong khi YOLOv6 -3.0 chiến thắng về tốc độ và hiệu quả.
Bảng sau đây so sánh các số liệu chính. Lưu ý cách YOLOv6 -3.0 đạt được độ trễ thấp hơn (tốc độ nhanh hơn) ở các thang đo mô hình tương tự, trong khi RTDETRv2 thúc đẩy độ trễ cao hơn mAP điểm số bằng chi phí cường độ tính toán (FLOP).
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6 -3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6 -3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6 -3,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6 -3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Yêu cầu về đào tạo và nguồn lực
Khi phát triển các mô hình tùy chỉnh, trải nghiệm đào tạo sẽ khác biệt đáng kể.
- Sử dụng bộ nhớ: RTDETRv2 yêu cầu đáng kể GPU VRAM do độ phức tạp bậc hai của các cơ chế chú ý. Việc đào tạo các biến thể "Lớn" hoặc "X-Lớn" thường đòi hỏi GPU doanh nghiệp cao cấp. Ngược lại, Ultralytics YOLO các mô hình và YOLOv6 thường tiết kiệm bộ nhớ hơn, cho phép đào tạo trên phần cứng cấp người tiêu dùng hoặc các phiên bản đám mây nhỏ hơn.
- Sự hội tụ: Các mô hình dựa trên máy biến áp thường cần thời gian dài hơn để tìm hiểu các hệ thống phân cấp không gian mà CNN nắm bắt một cách trực quan, có khả năng làm tăng chi phí điện toán đám mây.
Cân bằng lý tưởng: Ultralytics Lợi thế
Trong khi RTDETRv2 và YOLOv6 -3.0 vượt trội trong từng lĩnh vực riêng, Ultralytics YOLO11 cung cấp một giải pháp thống nhất khắc phục những hạn chế của cả hai. Nó kết hợp tính dễ sử dụng và tốc độ của CNN với những cải tiến về kiến trúc có thể sánh ngang với độ chính xác của máy biến áp.
Tại sao các nhà phát triển và nhà nghiên cứu ngày càng ưa chuộng Ultralytics các mô hình:
- Tính linh hoạt: Không giống như YOLOv6 , chỉ dành riêng cho mục đích phát hiện, Ultralytics hỗ trợ phân loại hình ảnh , phân đoạn , ước tính tư thế và phát hiện Hộp giới hạn định hướng (OBB) trong một API duy nhất.
- Hệ sinh thái được duy trì tốt: Ultralytics Nền tảng này cung cấp các bản cập nhật thường xuyên, hỗ trợ cộng đồng rộng rãi và tích hợp liền mạch với các công cụ như MLflow , TensorBoard và Ultralytics HUB .
- Dễ sử dụng: Với triết lý "mã thấp", bạn có thể đào tạo, xác thực và triển khai các mô hình tiên tiến chỉ với một vài dòng Python hoặc CLI lệnh.
- Cân bằng hiệu suất: YOLO11 cung cấp điểm ngọt ngào của tốc độ suy luận thời gian thực và độ chính xác cao, thường vượt trội hơn các phương pháp cũ YOLO các phiên bản và kết hợp các máy biến áp phức tạp trong các tình huống thực tế.
Ví dụ mã
Trải nghiệm sự đơn giản của Ultralytics API. Ví dụ sau đây minh họa cách tải một mô hình được đào tạo trước và chạy suy luận trên một hình ảnh:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")
# Run inference on a local image
results = model("path/to/image.jpg")
# Process results
for result in results:
result.show() # Display results on screen
result.save(filename="result.jpg") # Save results to disk
Kết luận
Cả RTDETRv2 và YOLOv6 Phiên bản -3.0 là những cột mốc ấn tượng trong lịch sử thị giác máy tính. RTDETRv2 là lựa chọn tuyệt vời cho nghiên cứu và các tình huống đòi hỏi độ chính xác tuyệt đối, bất kể chi phí tính toán. Phiên YOLOv6 -3.0 phục vụ tốt cho lĩnh vực công nghiệp, mang lại tốc độ cực cao cho các môi trường được kiểm soát.
Tuy nhiên, đối với hầu hết các ứng dụng thực tế đòi hỏi một giải pháp mạnh mẽ, linh hoạt và dễ triển khai, Ultralytics YOLO11 nổi bật là lựa chọn vượt trội. Sự kết hợp giữa hiệu suất hàng đầu, dung lượng bộ nhớ thấp và hệ sinh thái phát triển mạnh mẽ giúp các nhà phát triển chuyển đổi từ nguyên mẫu sang sản xuất một cách tự tin và nhanh chóng.
Khám phá các Mô hình Khác
Khám phá sự khác biệt giữa các kiến trúc để tìm ra giải pháp phù hợp nhất cho dự án của bạn: