DAMO- YOLO so với RTDETRv2: Cân bằng tốc độ và độ chính xác của máy biến áp
Việc lựa chọn kiến trúc phát hiện đối tượng tối ưu thường liên quan đến việc cân nhắc giữa độ trễ suy luận và độ chính xác phát hiện. Bài so sánh kỹ thuật này sẽ xem xét DAMO- YOLO , một bộ phát hiện tốc độ cao được tối ưu hóa bởi Tập đoàn Alibaba, và RTDETRv2 , Bộ chuyển đổi phát hiện thời gian thực thế hệ thứ hai của Baidu. Chúng tôi phân tích những cải tiến về kiến trúc, điểm chuẩn hiệu suất và khả năng triển khai của chúng để giúp bạn đưa ra quyết định sáng suốt cho các ứng dụng thị giác máy tính của mình.
DAMO- YOLO : Tối ưu hóa cho độ trễ thấp
DAMO- YOLO Đây là một bước tiến đáng kể trong quá trình phát triển kiến trúc YOLO , tập trung mạnh mẽ vào việc tối đa hóa tốc độ mà không ảnh hưởng nghiêm trọng đến độ chính xác. Được phát triển bởi Tập đoàn Alibaba, YOLO sử dụng các kỹ thuật Tìm kiếm Kiến trúc Nơ-ron (NAS) tiên tiến để điều chỉnh cấu trúc mạng sao cho hiệu quả nhất.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO- YOLO
- Tài liệu: https://github.com/tinyvision/DAMO- YOLO /blob/master/README.md
Điểm nổi bật về kiến trúc
DAMO- YOLO tích hợp một số công nghệ mới để hợp lý hóa quy trình phát hiện:
- Mạng xương sống hỗ trợ NAS: Mô hình sử dụng Tìm kiếm Kiến trúc Nơ-ron (NAS) để tự động khám phá cấu trúc xương sống hiệu quả (MAE-NAS). Phương pháp này đảm bảo độ sâu và chiều rộng mạng được tối ưu hóa cho các ràng buộc phần cứng cụ thể.
- RepGFPN Neck: Nó sở hữu một phiên bản hiệu quả của Mạng Kim tự tháp Tính năng Tổng quát (GFPN) được gọi là RepGFPN. Thành phần này tăng cường khả năng hợp nhất tính năng trên nhiều quy mô khác nhau trong khi vẫn duy trì khả năng kiểm soát độ trễ thấp.
- ZeroHead: Thiết kế đầu đơn giản hóa có tên "ZeroHead" tách biệt nhiệm vụ phân loại và hồi quy, giảm bớt gánh nặng tính toán của các lớp dự đoán cuối cùng.
- AlignedOTA: Để luyện tập sự ổn định, DAMO- YOLO sử dụng AlignedOTA (Phân công vận chuyển tối ưu), một chiến lược phân công nhãn giúp căn chỉnh các mục tiêu phân loại và hồi quy để cải thiện sự hội tụ.
RTDETRv2: Sự phát triển của máy biến áp thời gian thực
RTDETRv2 được xây dựng dựa trên thành công của bản gốc RT-DETR RTDETRv2 là bộ phát hiện vật thể dựa trên biến áp đầu tiên đạt hiệu suất thời gian thực. Được phát triển bởi Baidu, RTDETRv2 giới thiệu một "gói quà tặng miễn phí" để nâng cao độ ổn định và độ chính xác của quá trình đào tạo mà không phát sinh thêm chi phí suy luận.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch
- Tài liệu: https://github.com/lyuwenyu/ RT-DETR /tree/main/rtdetrv2_pytorch#readme
Điểm nổi bật về kiến trúc
RTDETRv2 tận dụng sức mạnh của bộ chuyển đổi thị giác đồng thời giảm thiểu tình trạng tắc nghẽn tốc độ truyền thống của chúng:
- Bộ mã hóa lai: Kiến trúc này sử dụng bộ mã hóa lai xử lý các tính năng đa tỷ lệ một cách hiệu quả, tách rời tương tác nội tỷ lệ và hợp nhất đa tỷ lệ để tiết kiệm chi phí tính toán.
- Lựa chọn truy vấn nhận biết IoU : Cơ chế này lựa chọn các truy vấn đối tượng ban đầu chất lượng cao dựa trên Giao điểm trên Liên hợp ( IoU ) điểm số, dẫn đến sự hội tụ đào tạo nhanh hơn.
- Cấu hình có thể điều chỉnh: RTDETRv2 cung cấp cấu hình linh hoạt cho bộ giải mã và lựa chọn truy vấn, cho phép người dùng điều chỉnh mô hình theo các yêu cầu về tốc độ/độ chính xác cụ thể.
- Thiết kế không có neo: Giống như phiên bản tiền nhiệm, nó hoàn toàn không có neo , loại bỏ nhu cầu điều chỉnh hộp neo theo kinh nghiệm và Không triệt tiêu tối đa ( NMS ) trong quá trình xử lý hậu kỳ.
So sánh kỹ thuật: Hiệu suất và hiệu quả
Sự khác biệt cốt lõi giữa hai mô hình này nằm ở gốc kiến trúc của chúng—CNN so với Transformer—và cách kiến trúc này tác động đến hồ sơ hiệu suất của chúng.
Phân tích số liệu
Bảng dưới đây phác thảo các số liệu chính trên tập dữ liệu COCO . Trong khi RTDETRv2 chiếm ưu thế về Độ chính xác trung bình ( mAP ), DAMO- YOLO thể hiện thông lượng vượt trội (FPS) và số lượng tham số thấp hơn cho các biến thể nhỏ hơn của nó.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Phân tích sự đánh đổi
DAMO- YOLO vượt trội trong các môi trường đòi hỏi từng mili giây đều quý giá, chẳng hạn như phân loại công nghiệp tần suất cao. Phiên bản 'Tiny' (t) của nó cực kỳ nhẹ. Ngược lại, RTDETRv2 cung cấp độ chính xác cao hơn, giúp nó trở nên ưu tiên cho các cảnh phức tạp, nơi việc thiếu vật thể là rất quan trọng, chẳng hạn như trong điều hướng tự động hoặc giám sát chi tiết.
Kiến trúc so với Ứng dụng trong Thế giới thực
Bối cảnh toàn cầu so với các tính năng cục bộ: Cơ chế chú ý của máy biến áp RTDETRv2 cho phép nó hiểu bối cảnh toàn cầu tốt hơn DAMO- dựa trên CNN YOLO Điều này mang lại hiệu suất tốt hơn trong các cảnh đông đúc hoặc khi vật thể bị che khuất. Tuy nhiên, sự tập trung toàn cục này lại phải trả giá bằng mức tiêu thụ bộ nhớ cao hơn và thời gian đào tạo chậm hơn.
Tối ưu hóa phần cứng: DAMO- YOLO Xương sống dựa trên NAS được tối ưu hóa cao cho GPU suy luận, đạt được độ trễ rất thấp. RTDETRv2, mặc dù là thời gian thực, nhưng thường yêu cầu phần cứng mạnh hơn để phù hợp với tốc độ khung hình của YOLO -máy dò kiểu.
Lợi thế của Ultralytics: Tại sao nên chọn YOLO11?
Trong khi DAMO- YOLO và RTDETRv2 mang lại những lợi ích chuyên biệt, Ultralytics YOLO11 nổi bật là giải pháp cân bằng nhất và thân thiện với nhà phát triển nhất cho phần lớn các ứng dụng thực tế.
Trải nghiệm và hệ sinh thái của nhà phát triển vượt trội
Một trong những thách thức quan trọng nhất với các mô hình học thuật như DAMO- YOLO hoặc RTDETRv2 là tích hợp. Ultralytics giải quyết vấn đề này bằng một hệ sinh thái mạnh mẽ:
- Dễ sử dụng: Với sự thống nhất Python API và CLI , bạn có thể đào tạo, xác thực và triển khai các mô hình chỉ bằng một vài dòng mã.
- Hệ sinh thái được duy trì tốt: Ultralytics Các mô hình được hỗ trợ bởi sự phát triển tích cực, tài liệu đầy đủ và cộng đồng lớn. Điều này đảm bảo khả năng tương thích với các thư viện phần cứng và phần mềm mới nhất.
- Hiệu quả đào tạo: YOLO11 được thiết kế để đào tạo nhanh hơn và yêu cầu ít hơn đáng kể GPU bộ nhớ (VRAM) so với các mô hình dựa trên bộ biến áp như RTDETRv2. Điều này giúp AI hiệu suất cao có thể truy cập được ngay cả trên phần cứng cấp tiêu dùng.
Tính linh hoạt vô song
Không giống như DAMO- YOLO và RTDETRv2, chủ yếu tập trung vào phát hiện hộp giới hạn, YOLO11 hỗ trợ một loạt các tác vụ thị giác máy tính :
Cân bằng hiệu suất
YOLO11 đạt được độ chính xác tiên tiến sánh ngang hoặc vượt trội hơn RTDETRv2 trong nhiều tiêu chuẩn trong khi vẫn duy trì tốc độ suy luận và đặc tính hiệu quả của YOLO gia đình.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Kết luận
Sự lựa chọn giữa DAMO- YOLO và RTDETRv2 phụ thuộc vào các ràng buộc cụ thể của bạn:
- Chọn DAMO- YOLO nếu hạn chế chính của bạn là độ trễ và bạn đang triển khai trên các thiết bị biên nơi số lượng tham số tối thiểu là rất quan trọng.
- Chọn RTDETRv2 nếu bạn yêu cầu độ chính xác cao nhất có thể trong các cảnh phức tạp và có ngân sách tính toán để hỗ trợ kiến trúc máy biến áp.
Tuy nhiên, đối với một giải pháp toàn diện kết hợp hiệu suất cao, dễ sử dụng và khả năng đa nhiệm, Ultralytics YOLO11 vẫn là lựa chọn được khuyến nghị. Dung lượng bộ nhớ thấp trong quá trình đào tạo, kết hợp với hệ sinh thái hoàn thiện, giúp đẩy nhanh quá trình từ nguyên mẫu đến sản xuất.
Khám phá các Mô hình Khác
Để hiểu rõ hơn về bối cảnh phát hiện đối tượng, hãy khám phá những so sánh sau:
- YOLO11 so với DAMO-YOLO
- YOLO11 so với RTDETR
- YOLOv8 so với DAMO-YOLO
- RTDETR so với EfficientDet
- YOLOX so với DAMO-YOLO