RTDETRv2 so với DAMO- YOLO : Đi sâu vào phát hiện đối tượng thời gian thực
Bối cảnh của thị giác máy tính đang phát triển nhanh chóng, với các nhà nghiên cứu liên tục mở rộng ranh giới giữa tốc độ suy luận và độ chính xác phát hiện. Hai ứng cử viên nổi bật trong lĩnh vực này là RTDETRv2, một mô hình dựa trên máy biến áp của Baidu, và DAMO- YOLO , một mạng tích chập được tối ưu hóa cao từ Alibaba. So sánh kỹ thuật này khám phá các triết lý kiến trúc riêng biệt của các mô hình này, các chỉ số hiệu suất và các kịch bản ứng dụng lý tưởng.
Tiêu chuẩn hiệu suất: Tốc độ so với Độ chính xác
Khi lựa chọn một mô hình phát hiện đối tượng , sự đánh đổi chính thường nằm giữa Độ chính xác trung bình ( mAP ) và độ trễ. Dữ liệu sau đây làm nổi bật sự khác biệt về hiệu suất giữa RTDETRv2 và DAMO- YOLO trên COCO tập dữ liệu xác thực.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Dữ liệu cho thấy sự khác biệt rõ ràng trong triết lý thiết kế. DAMO- YOLO ưu tiên tốc độ và hiệu suất thô, với biến thể 'Tiny' đạt độ trễ cực thấp, phù hợp với môi trường điện toán biên hạn chế. Ngược lại, RTDETRv2 hướng đến độ chính xác tối đa, với biến thể lớn nhất đạt 54,3 mAP đáng chú ý, giúp nó vượt trội hơn cho các tác vụ đòi hỏi độ chính xác tối quan trọng.
RTDETRv2: Siêu máy biến áp
RTDETRv2 được xây dựng dựa trên thành công của kiến trúc Detection Transformer (DETR), giải quyết chi phí tính toán cao thường liên quan đến các bộ chuyển đổi thị giác trong khi vẫn duy trì khả năng nắm bắt bối cảnh toàn cầu của chúng.
- Tác giả: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, và Yi Liu
- Tổ chức: Baidu
- Ngày: 17-04-2023 (Ban đầu), 24-07-2024 (Cập nhật v2)
- Arxiv: RT-DETRv2 : Cải thiện đường cơ sở với Túi quà tặng miễn phí
- GitHub: Kho lưu RT-DETRv2
Kiến trúc và Khả năng
RTDETRv2 sử dụng bộ mã hóa lai có khả năng xử lý hiệu quả các đặc điểm đa tỷ lệ. Không giống như các bộ mã hóa dựa trên CNN truyền thống YOLO Mô hình RTDETR loại bỏ nhu cầu xử lý hậu kỳ bằng phương pháp NMS (Non-Maximum Suppression) . Phương pháp tiếp cận toàn diện này giúp đơn giản hóa quy trình triển khai và giảm thiểu độ trễ biến thiên trong các cảnh đông đúc.
Mô hình sử dụng bộ mã hóa lai hiệu quả, tách biệt tương tác nội tỷ lệ và hợp nhất tỷ lệ chéo, giảm đáng kể chi phí tính toán so với các mô hình DETR tiêu chuẩn. Thiết kế này cho phép mô hình vượt trội trong việc nhận dạng các đối tượng trong môi trường phức tạp, nơi hiện tượng che khuất có thể gây nhầm lẫn cho các bộ dò tích chập tiêu chuẩn.
Sử dụng bộ nhớ biến áp
Mặc dù RTDETRv2 cung cấp độ chính xác cao, nhưng điều quan trọng cần lưu ý là kiến trúc Transformer thường tiêu thụ nhiều hơn đáng kể CUDA bộ nhớ trong quá trình đào tạo so với CNN. Người dùng có hạn chế GPU VRAM có thể thấy việc đào tạo các mô hình này là một thách thức so với các giải pháp thay thế hiệu quả như YOLO11 .
DAMO- YOLO : Tối ưu hóa cho hiệu quả
DAMO- YOLO thể hiện một cách tiếp cận nghiêm ngặt đối với việc tối ưu hóa kiến trúc, tận dụng Tìm kiếm kiến trúc thần kinh (NAS) để tìm ra các cấu trúc hiệu quả nhất cho việc trích xuất và hợp nhất tính năng.
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 2022-11-23
- Arxiv: DAMO- YOLO : Báo cáo về Thiết kế Phát hiện Đối tượng Thời gian thực
- GitHub: Kho lưu trữ DAMO- YOLO
Những đổi mới kiến trúc quan trọng
DAMO- YOLO tích hợp một số công nghệ tiên tiến để tối đa hóa sự cân bằng giữa tốc độ và độ chính xác:
- Xương sống MAE-NAS: Sử dụng xương sống được phát hiện thông qua Tìm kiếm kiến trúc thần kinh hiệu quả theo phương pháp, đảm bảo rằng mọi tham số đều đóng góp hiệu quả vào việc trích xuất tính năng.
- RepGFPN: Thiết kế cổ chuyên dụng kết hợp các tính năng trên nhiều thang đo với chi phí tính toán tối thiểu, tăng cường khả năng phát hiện các vật thể nhỏ mà không làm chậm tốc độ suy luận .
- ZeroHead: Đầu phát hiện đơn giản hóa giúp giảm độ phức tạp của các lớp dự đoán cuối cùng.
Mô hình này đặc biệt hiệu quả trong các tình huống đòi hỏi thông lượng cao, chẳng hạn như dây chuyền lắp ráp công nghiệp hoặc giám sát giao thông tốc độ cao, nơi mà từng mili giây đều rất quan trọng.
Các tình huống ứng dụng thực tế
Việc lựa chọn giữa hai mô hình này thường phụ thuộc vào những hạn chế cụ thể của môi trường triển khai.
Khi nào nên chọn RTDETRv2
RTDETRv2 là lựa chọn ưu tiên cho các ứng dụng đòi hỏi độ chính xác cao và có nhiều tài nguyên phần cứng.
- Chụp ảnh y tế: Trong phân tích hình ảnh y tế , việc bỏ sót một phát hiện (âm tính giả) có thể gây ra hậu quả nghiêm trọng. mAP của RTDETRv2 giúp phát hiện các bất thường trong chụp X-quang hoặc chụp MRI.
- Giám sát chi tiết: Đối với các hệ thống an ninh yêu cầu nhận dạng khuôn mặt hoặc xác định các chi tiết nhỏ từ xa, khả năng ngữ cảnh toàn cầu của kiến trúc máy biến áp mang lại lợi thế rõ rệt.
Khi nào nên chọn DAMO- YOLO
DAMO- YOLO tỏa sáng trong môi trường hạn chế về tài nguyên hoặc các ứng dụng yêu cầu độ trễ cực thấp.
- Robot: Đối với robot di động tự động xử lý dữ liệu hình ảnh trên các thiết bị nhúng chạy bằng pin, hiệu quả của DAMO- YOLO đảm bảo khả năng phản hồi theo thời gian thực.
- Sản xuất tốc độ cao: Trong tự động hóa sản xuất , việc phát hiện lỗi trên băng tải chuyển động nhanh đòi hỏi tốc độ suy luận nhanh do DAMO- cung cấp. YOLO -các biến thể nhỏ và nhỏ.
Các Ultralytics Ưu điểm: Tại sao YOLO11 là sự lựa chọn tối ưu
Trong khi RTDETRv2 và DAMO- YOLO Cung cấp các tính năng hấp dẫn, Ultralytics YOLO11 cung cấp giải pháp toàn diện cân bằng giữa hiệu suất, khả năng sử dụng và hỗ trợ hệ sinh thái, khiến đây trở thành lựa chọn vượt trội cho hầu hết các nhà phát triển và nhà nghiên cứu.
Hệ sinh thái và khả năng sử dụng vô song
Một trong những rào cản quan trọng nhất đối với việc áp dụng các mô hình nghiên cứu là tính phức tạp của cơ sở mã. Ultralytics loại bỏ sự ma sát này bằng một hệ thống thống nhất, thân thiện với người dùng Python API. Cho dù bạn đang thực hiện phân đoạn phiên bản , ước tính tư thế hay phân loại , quy trình làm việc vẫn nhất quán và trực quan.
from ultralytics import YOLO
# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Tính linh hoạt trong nhiều nhiệm vụ
Không giống như DAMO- YOLO , chủ yếu tập trung vào việc phát hiện, YOLO11 là một nền tảng đa năng. Nó hỗ trợ một loạt các tác vụ thị giác máy tính ngay khi cài đặt, bao gồm phát hiện Hộp Giới hạn Định hướng (OBB) , một tính năng quan trọng đối với ảnh hàng không và phân tích tài liệu. Tính đa năng này cho phép các nhóm chuẩn hóa trên một nền tảng duy nhất cho nhiều yêu cầu của dự án.
Hiệu quả đào tạo và quản lý bộ nhớ
YOLO11 được thiết kế để đạt hiệu quả. Nó thường đòi hỏi ít hơn GPU Bộ nhớ (VRAM) để đào tạo so với các mô hình dựa trên bộ biến áp như RTDETRv2. Hiệu quả này giúp giảm thiểu rào cản phần cứng, cho phép các nhà phát triển đào tạo các mô hình tiên tiến trên GPU tiêu dùng hoặc sử dụng hiệu quả tài nguyên đám mây thông qua hệ sinh thái Ultralytics . Hơn nữa, thư viện trọng số được đào tạo trước rộng lớn đảm bảo việc học chuyển giao diễn ra nhanh chóng và hiệu quả, rút ngắn đáng kể thời gian đưa các giải pháp AI ra thị trường.
Đối với những ai đang tìm kiếm một giải pháp mạnh mẽ, được bảo trì tốt và hiệu suất cao, đồng thời phát triển cùng ngành, Ultralytics YOLO11 vẫn là tiêu chuẩn được khuyến nghị.
Khám Phá Các So Sánh Khác
Để hiểu rõ hơn về cách các mô hình này phù hợp với bối cảnh thị giác máy tính rộng hơn, hãy khám phá những so sánh liên quan sau:
- YOLO11 so với RTDETR
- YOLO11 so với DAMO-YOLO
- YOLOv8 so với RTDETR
- YOLOv8 so với DAMO-YOLO
- EfficientDet so với DAMO-YOLO
- PP-YOLOE so với RTDETR