YOLOv6 -3.0 so với RTDETRv2: Cân bằng tốc độ công nghiệp và độ chính xác của máy biến áp
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu thường liên quan đến sự đánh đổi giữa độ trễ suy luận và độ chính xác phát hiện. So sánh kỹ thuật này xem xét hai phương pháp tiếp cận riêng biệt cho thách thức này: YOLOv6 -3.0 , một mô hình dựa trên CNN được Meituan thiết kế cho tốc độ công nghiệp, và RTDETRv2 , một kiến trúc Vision Transformer (ViT) của Baidu được thiết kế để mang lại độ chính xác của biến áp cho các ứng dụng thời gian thực.
YOLOv6 -3.0
Tác giả : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, và Xiangxiang Chu
Tổ chức : Meituan
Ngày : 2023-01-13
Arxiv : YOLOv6 v3.0: Tải lại toàn diện
GitHub : meituan/ YOLOv6
Tài liệu : Tài liệu Ultralytics YOLOv6
YOLOv6 Phiên bản -3.0 đánh dấu một bước tiến đáng kể trong dòng máy dò một giai đoạn, được thiết kế riêng cho các ứng dụng công nghiệp, nơi hiệu suất phần cứng là tối quan trọng. Phiên bản này giới thiệu khả năng "Nạp lại toàn diện" kiến trúc, kết hợp các chiến lược đào tạo và hợp nhất tính năng tiên tiến để tối đa hóa thông lượng trên GPU.
Kiến trúc và các tính năng chính
Các YOLOv6 Kiến trúc -3.0 tập trung vào thiết kế thân thiện với phần cứng. Nó sử dụng Backbone tham số hóa hiệu quả (RepBackbone) cho phép mô hình có khả năng trích xuất đặc điểm phức tạp trong quá trình huấn luyện, đồng thời thu gọn thành một cấu trúc hợp lý để suy luận. Những cải tiến kiến trúc chính bao gồm:
- Ghép nối hai chiều (BiC): Một mô-đun ở cổ giúp cải thiện độ chính xác của việc hợp nhất tính năng mà không gây ra nhiều ảnh hưởng về mặt tính toán.
- Huấn luyện hỗ trợ neo (AAT): Một chiến lược kết hợp lợi ích của mô hình có neo và không có neo trong giai đoạn huấn luyện để ổn định sự hội tụ.
- Tự chưng cất: Khung sử dụng vòng lặp đào tạo giáo viên-học sinh, trong đó mô hình học hỏi từ những dự đoán của chính nó, nâng cao độ chính xác mà không làm tăng kích thước mô hình.
Điểm mạnh
- Hiệu quả công nghiệp: Mô hình được tối ưu hóa rõ ràng cho việc triển khai TensorRT , mang lại độ trễ cực thấp trên NVIDIA GPU.
- Độ trễ thấp ở Edge: Với các biến thể "Lite" cụ thể, nó hoạt động tốt trên thiết bị di động CPU thiết bị, làm cho nó phù hợp với máy quét công nghiệp cầm tay.
- Hỗ trợ lượng tử hóa: Hỗ trợ mạnh mẽ cho Huấn luyện nhận biết lượng tử hóa (QAT) , ngăn ngừa mất độ chính xác đáng kể khi chuyển sang độ chính xác INT8.
Điểm yếu
- Giới hạn nhiệm vụ: YOLOv6 được thiết kế chủ yếu để phát hiện hộp giới hạn. Nó thiếu hỗ trợ gốc cho các tác vụ phức tạp như ước tính tư thế hoặc phát hiện Hộp giới hạn định hướng (OBB) thường thấy trong các nền tảng linh hoạt hơn.
- Độ phức tạp của đào tạo: Việc dựa vào quá trình tự chưng cất và các bước tham số hóa chuyên biệt có thể khiến quy trình đào tạo trở nên giòn hơn và khó tùy chỉnh hơn so với tiêu chuẩn. YOLO các mô hình.
Các trường hợp sử dụng lý tưởng
- Sản xuất tốc độ cao: Phát hiện lỗi trên băng chuyền chuyển động nhanh, trong đó độ trễ tính bằng mili giây là rất quan trọng.
- Robot nhúng: Hệ thống định vị trên các nền tảng như NVIDIA Jetson , nơi tài nguyên tính toán được phân bổ chặt chẽ.
RTDETRv2
Tác giả : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang và Yi Liu
Tổ chức : Baidu
Ngày : 2023-04-17 (Bản gốc), 2024-07-24 (phiên bản 2)
Arxiv : RT-DETRv2 : Cải thiện đường cơ sở với Túi quà tặng miễn phí
GitHub : lyuwenyu/ RT-DETR
Tài liệu : Tài liệu Ultralytics RT-DETR
RTDETRv2 (Real-Time Detection Transformer v2) thách thức sự thống trị của CNN bằng cách chứng minh rằng các bộ biến đổi có thể đạt tốc độ thời gian thực. Nó được xây dựng dựa trên mô hình DETR (Detection Transformer) nhưng giải quyết vấn đề hội tụ chậm và chi phí tính toán cao thường đi kèm với các cơ chế chú ý .
Kiến trúc và các tính năng chính
RTDETRv2 sử dụng bộ mã hóa lai có khả năng xử lý hiệu quả các đặc điểm đa tỷ lệ. Không giống như các bộ biến đổi truyền thống xử lý tất cả các mảng hình ảnh một cách đồng đều, RTDETRv2 tập trung vào các khu vực liên quan ngay từ đầu quy trình.
- Bộ mã hóa lai hiệu quả: Tách rời tương tác nội quy và hợp nhất giữa các quy mô để giảm chi phí tính toán.
- Lựa chọn truy vấn có nhận biết IoU : Chọn các truy vấn đối tượng ban đầu chất lượng cao từ đầu ra của bộ mã hóa, cải thiện quá trình khởi tạo bộ giải mã và tăng tốc độ hội tụ.
- Thiết kế không có neo: Loại bỏ nhu cầu về khả năng ức chế không tối đa ( NMS ) hậu xử lý, đơn giản hóa quy trình triển khai và giảm độ trễ thay đổi trong các cảnh đông đúc.
Điểm mạnh
- Nhận thức bối cảnh toàn cầu: Cơ chế tự chú ý cho phép mô hình "nhìn thấy" toàn bộ hình ảnh cùng một lúc, giúp phát hiện tốt hơn các vật thể bị che khuất so với CNN dựa vào trường tiếp nhận cục bộ.
- Độ chính xác cao: Nó luôn đạt được điểm mAP cao hơn trên tập dữ liệu COCO cho một thang mô hình nhất định so với nhiều đối thủ CNN.
- NMS -Miễn phí: Sự vắng mặt của NMS làm cho thời gian suy luận mang tính quyết định hơn, đây là một lợi thế đáng kể đối với các hệ thống thời gian thực.
Điểm yếu
- Cường độ bộ nhớ: Bộ biến đổi yêu cầu nhiều VRAM hơn đáng kể trong quá trình đào tạo và suy luận do độ phức tạp bậc hai của ma trận chú ý (mặc dù RTDETR tối ưu hóa điều này).
- Thiếu dữ liệu: Vision Transformers thường yêu cầu bộ dữ liệu lớn hơn và lịch trình đào tạo dài hơn để hội tụ hoàn toàn so với CNN như YOLOv6 .
Các trường hợp sử dụng lý tưởng
- Cảnh giao thông phức tạp: Phát hiện người đi bộ và phương tiện trong môi trường đông đúc, hỗn loạn, nơi thường xuyên xảy ra tắc nghẽn.
- Lái xe tự động: Các ứng dụng yêu cầu khả năng nhận thức có độ tin cậy cao, trong đó chi phí phát hiện sai sót lớn hơn chi phí cho yêu cầu phần cứng cao hơn một chút.
So sánh hiệu suất
Bảng sau đây so sánh hiệu suất của YOLOv6 -3.0 và RTDETRv2. Trong khi RTDETRv2 đẩy mạnh độ chính xác, YOLOv6 -3.0 vẫn giữ được lợi thế về tốc độ suy luận thô, đặc biệt là ở thang đo "Nano".
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6 -3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6 -3.0 giây | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6 -3,0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6 -3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Phân tích
- Tốc độ so với Độ chính xác: Hàm
YOLOv6-3.0ncực kỳ nhẹ (suy luận 1,17 ms), khiến nó trở thành vua không thể tranh cãi đối với phần cứng cực kỳ hạn chế. Tuy nhiên, nếu độ chính xác là ưu tiên hàng đầu,RTDETRv2-scung cấp cao hơn đáng kể mAP (48.1) hơnYOLOv6-3.0s(45.0) mặc dù thời gian suy luận gần gấp đôi (5,03 ms so với 2,66 ms). - Hành vi mở rộng: Khi kích thước mô hình tăng lên, khoảng cách sẽ thu hẹp lại.
RTDETRv2-l(53,4 mAP ) vượt trội hơnYOLOv6-3.0l(52,8 mAP ) trong khi có ít tham số hơn (42M so với 59,6M), thể hiện hiệu quả tham số của kiến trúc máy biến áp, mặc dù FLOP vẫn tương đương nhau. - Hệ quả về phần cứng: YOLOv6 Ưu điểm của RTDETRv2 nằm ở cấu trúc CNN thuần túy, được ánh xạ trực tiếp đến các bộ tăng tốc phần cứng. RTDETRv2 yêu cầu phần cứng có khả năng xử lý hiệu quả các phép nhân ma trận và các phép toán chú ý để đạt được tốc độ lý thuyết của nó.
Những cân nhắc khi triển khai
Khi triển khai trên các thiết bị biên, hãy nhớ rằng "Tham số" không phải lúc nào cũng tương quan hoàn hảo với tốc độ. Mặc dù RTDETRv2 có thể có ít tham số hơn trong một số cấu hình, nhưng các mẫu truy cập bộ nhớ (lưu ý) của nó có thể chậm hơn trên phần cứng cũ so với các phép tích chập được tối ưu hóa cao của YOLOv6 .
Phương pháp luận huấn luyện
Bối cảnh đào tạo cho hai mô hình này khác nhau đáng kể, tác động đến các nguồn lực cần thiết cho quá trình phát triển.
YOLOv6 -3.0 tuân theo các phương pháp học sâu tiêu chuẩn cho CNN. Nó được hưởng lợi từ lịch trình đào tạo ngắn hơn (thường là 300-400 kỷ nguyên) và ít GPU tiêu thụ bộ nhớ. Các kỹ thuật như tự chưng cất được xử lý nội bộ nhưng làm tăng thêm độ phức tạp cho phép tính hàm mất mát.
RTDETRv2 , dựa trên bộ biến đổi, thường đòi hỏi nhiều bộ nhớ CUDA hơn trong quá trình huấn luyện. Độ phức tạp bậc hai của cơ chế chú ý liên quan đến kích thước hình ảnh đồng nghĩa với việc kích thước lô thường cần được giảm bớt hoặc sử dụng GPU mạnh hơn. Hơn nữa, bộ biến đổi thường được hưởng lợi từ các khoảng thời gian huấn luyện dài hơn để học đầy đủ các mối quan hệ không gian mà không bị sai lệch quy nạp.
Các Ultralytics Lợi thế
Trong khi cả hai YOLOv6 và RTDETR cung cấp các tính năng hấp dẫn cho các phân khúc thị trường cụ thể, Ultralytics YOLO11 cung cấp một giải pháp thống nhất, cân bằng những ưu điểm của cả hai. Giải pháp này tích hợp hiệu quả của CNN với các cải tiến kiến trúc hiện đại, sánh ngang với độ chính xác của máy biến áp, tất cả trong một hệ sinh thái được thiết kế để mang lại năng suất cho nhà phát triển.
Tại sao chọn Ultralytics Người mẫu?
- Dễ sử dụng: Ultralytics cung cấp một API Pythonic giúp đơn giản hóa quá trình đào tạo và triển khai. Bạn có thể đào tạo một mô hình tiên tiến chỉ với ba dòng mã.
- Cân bằng hiệu suất: YOLO11 được thiết kế để cung cấp một sự đánh đổi tối ưu. Nó cung cấp tốc độ suy luận thời gian thực tương đương với YOLOv6 trong khi vẫn đạt được mức độ chính xác thách thức RTDETR, mà không cần bộ nhớ lớn của máy biến áp.
- Tính linh hoạt: Không giống như YOLOv6 (chỉ phát hiện), Ultralytics các mô hình hỗ trợ phân đoạn trường hợp , ước tính tư thế , phân loại và phát hiện hộp giới hạn định hướng (OBB) .
- Hệ sinh thái được bảo trì tốt: Với các bản cập nhật thường xuyên, tài liệu đầy đủ và sự hỗ trợ của cộng đồng, bạn sẽ không bao giờ phải tự mình gỡ lỗi.
- Hiệu quả đào tạo: Ultralytics các mô hình nổi tiếng với quy trình đào tạo hiệu quả, cho phép lặp lại nhanh chóng ngay cả trên phần cứng khiêm tốn.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with a single command
results = model("path/to/image.jpg")
Kết luận
Cả hai YOLOv6 -3.0 và RTDETRv2 là những thành tựu ấn tượng trong lĩnh vực thị giác máy tính. YOLOv6 -3.0 là lựa chọn thực tế cho các quy trình công nghiệp nghiêm ngặt, nơi phần cứng cố định và tốc độ là thước đo duy nhất quan trọng. RTDETRv2 là lựa chọn tuyệt vời cho các ứng dụng nghiên cứu và cao cấp, nơi độ chính xác trong các cảnh phức tạp là tối quan trọng và tài nguyên phần cứng dồi dào.
Tuy nhiên, đối với phần lớn các ứng dụng thực tế, Ultralytics YOLO11 vẫn là lựa chọn vượt trội. Nó mang lại hiệu suất "vừa đủ", tính linh hoạt và dễ sử dụng, giúp đẩy nhanh quá trình từ ý tưởng đến sản xuất. Cho dù bạn là nhà nghiên cứu cần các thí nghiệm nhanh hay kỹ sư triển khai cho hàng nghìn thiết bị biên, Ultralytics hệ sinh thái cung cấp các công cụ để đảm bảo thành công.
Khám phá các Mô hình Khác
Nếu bạn quan tâm đến các so sánh sâu hơn, hãy khám phá các tài nguyên này trong Ultralytics tài liệu:
- YOLO11 so với YOLOv8
- RTDETR so với YOLOv8
- YOLOv6 so với YOLOv8
- YOLOv5 so với YOLOv6
- EfficientDet so với YOLOv6