DAMO-YOLO so với EfficientDet: So sánh kỹ thuật
Trong bối cảnh thị giác máy tính đang phát triển nhanh chóng, việc lựa chọn kiến trúc phát hiện đối tượng phù hợp là rất quan trọng đối với sự thành công của ứng dụng. Phân tích toàn diện này so sánh DAMO- YOLO , một mô hình hiệu suất cao của Alibaba, với EfficientDet , một kiến trúc có khả năng mở rộng và hiệu quả của Google Cả hai mô hình đều mang đến những đổi mới đáng kể cho lĩnh vực này, giải quyết vấn đề đánh đổi muôn thuở giữa tốc độ, độ chính xác và chi phí tính toán.
Tổng quan về mô hình
Trước khi đi sâu vào các số liệu hiệu suất, điều cần thiết là phải hiểu nguồn gốc và triết lý kiến trúc đằng sau mỗi mô hình.
DAMO-YOLO
Được phát triển bởi Tập đoàn Alibaba, DAMO- YOLO (Kiến trúc thần kinh tăng cường chưng cất dựa trên tìm kiếm YOLO ) tập trung vào việc tối đa hóa tốc độ suy luận mà không ảnh hưởng đến độ chính xác. Nó giới thiệu các công nghệ như Tìm kiếm Kiến trúc Nơ-ron (NAS) cho xương sống, RepGFPN (Mạng Kim tự tháp Tính năng Tổng quát được Tham số hóa) hiệu quả, và một đầu phát hiện nhẹ được gọi là ZeroHead.
DAMO- YOLO Chi tiết:
- Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
- Tổ chức: Tập đoàn Alibaba
- Ngày: 2022-11-23
- Arxiv: DAMO- YOLO : Báo cáo về Thiết kế Phát hiện Đối tượng Thời gian thực
- GitHub: tinyvision/DAMO- YOLO
EfficientDet
EfficientDet, được tạo ra bởi Google Nhóm Brain đã cách mạng hóa việc phát hiện đối tượng bằng cách đề xuất một phương pháp chia tỷ lệ hợp chất. Phương pháp này đồng nhất tỷ lệ độ phân giải, độ sâu và chiều rộng của mạng xương sống, mạng đặc trưng và mạng dự đoán. Phương pháp này sử dụng BiFPN (Mạng Kim tự tháp Đặc trưng Hai chiều), cho phép hợp nhất các đặc trưng một cách dễ dàng và nhanh chóng.
Chi tiết EfficientDet:
- Tác giả: Mingxing Tan, Ruoming Pang, và Quoc V. Le
- Tổ chức: Google
- Date: 2019-11-20
- Arxiv: EfficientDet: Phát hiện đối tượng hiệu quả và có khả năng mở rộng
- GitHub: google /automl/efficientdet
Phân tích hiệu năng: Tốc độ, độ chính xác và hiệu quả
Biểu đồ và bảng sau đây cung cấp sự so sánh định lượng giữa EfficientDet và DAMO- YOLO các mô hình trên tập dữ liệu COCO . Các điểm chuẩn này làm nổi bật các mục tiêu tối ưu hóa riêng biệt của từng kiến trúc.
| Mô hình | Kích thước (pixels) | mAP giá trị 50-95 | Tốc độ CPU ONNX (ms) | Tốc độ T4 TensorRT10 (ms) | Tham số (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Những Điểm Chính
Từ dữ liệu, chúng ta có thể quan sát thấy những điểm mạnh riêng biệt của từng nhóm mô hình:
- GPU Độ trễ: DAMO- YOLO thống trị trong GPU tốc độ suy luận. Ví dụ,
DAMO-YOLOmđạt được một Độ chính xác trung bình ( mAP ) của 49,2 với độ trễ chỉ 5,09 ms trên T4 GPU . Ngược lại,EfficientDet-d4, với một tương tự mAP trong số 49,7, chậm hơn đáng kể ở mức 33,55 ms. - Hiệu suất tham số: EfficientDet cực kỳ nhẹ về mặt thông số và phép toán dấu chấm động (FLOP).
EfficientDet-d0chỉ sử dụng 3,9 triệu tham số, khiến nó có hiệu quả lưu trữ cao, mặc dù điều này không phải lúc nào cũng chuyển thành suy luận nhanh hơn trên GPU hiện đại so với các mô hình được tối ưu hóa về kiến trúc như DAMO- YOLO . - Hiệu suất CPU : EfficientDet cung cấp độ tin cậy CPU chuẩn mực, cho thấy nó vẫn là một lựa chọn khả thi cho phần cứng cũ khi GPU không có khả năng tăng tốc.
Ghi chú về kiến trúc
Ưu điểm về tốc độ của DAMO- YOLO bắt nguồn từ khả năng tối ưu hóa cụ thể cho độ trễ phần cứng bằng cách sử dụng Tìm kiếm kiến trúc thần kinh (NAS), trong khi EfficientDet tối ưu hóa cho FLOP lý thuyết, không phải lúc nào cũng tương quan tuyến tính với độ trễ thực tế.
Tìm hiểu sâu về kiến trúc
EfficientDet: Sức mạnh của việc mở rộng quy mô hợp chất
EfficientDet được xây dựng trên nền tảng EfficientNet , sử dụng tích chập nút thắt ngược di động (MBConv). Đặc điểm nổi bật của nó là BiFPN , một mạng lưới kim tự tháp đặc trưng hai chiều có trọng số. Không giống như các FPN truyền thống chỉ tính tổng các đặc trưng theo hướng từ trên xuống, BiFPN cho phép thông tin truyền theo cả hướng từ trên xuống và từ dưới lên, xử lý từng lớp đặc trưng với các trọng số có thể học được. Điều này cho phép mạng lưới hiểu được tầm quan trọng của các đặc trưng đầu vào khác nhau.
Mô hình được mở rộng bằng cách sử dụng hệ số hợp chất, phi, giúp tăng đều chiều rộng, chiều sâu và độ phân giải của mạng, do đó các mô hình lớn hơn (như d7) vẫn cân bằng giữa độ chính xác và hiệu quả.
DAMO- YOLO : Đổi mới hướng đến tốc độ
DAMO- YOLO áp dụng một cách tiếp cận khác bằng cách tập trung vào độ trễ thời gian thực. Phương pháp này sử dụng MAE-NAS (Phương pháp Tự động Tìm kiếm Kiến trúc) để tìm cấu trúc xương sống tối ưu trong các ràng buộc độ trễ cụ thể.
Những đổi mới chính bao gồm:
- RepGFPN: Cải tiến so với GFPN tiêu chuẩn, được tăng cường bằng cách tham số hóa lại để tối ưu hóa đường dẫn hợp nhất tính năng nhằm tăng tốc độ.
- ZeroHead: Một đầu phát hiện đơn giản giúp giảm bớt gánh nặng tính toán thường liên quan đến các lớp dự đoán cuối cùng.
- AlignedOTA: Một chiến lược gán nhãn giúp giải quyết tình trạng không khớp giữa các tác vụ phân loại và hồi quy trong quá trình đào tạo.
Các trường hợp và ứng dụng sử dụng
Sự khác biệt về kiến trúc quyết định điểm mạnh của từng mô hình trong các tình huống thực tế.
- EfficientDet lý tưởng cho các môi trường lưu trữ hạn chế hoặc các ứng dụng dựa vào CPU Suy luận trong đó việc giảm thiểu FLOP là rất quan trọng. Nó thường được sử dụng trong các ứng dụng di động và hệ thống nhúng, nơi thời lượng pin (liên quan đến FLOP) là mối quan tâm hàng đầu.
- DAMO- YOLO vượt trội trong tự động hóa công nghiệp, lái xe tự động và giám sát an ninh, những lĩnh vực đòi hỏi khả năng suy luận thời gian thực trên GPU. Độ trễ thấp cho phép xử lý luồng video tốc độ khung hình cao mà không bị mất khung hình.
Các Ultralytics Lợi thế
Trong khi DAMO- YOLO và EfficientDet là những mô hình có năng lực, hệ sinh thái Ultralytics cung cấp giải pháp toàn diện hơn cho phát triển AI hiện đại. Các mô hình như YOLO11 tiên tiến và YOLOv8 đa năng mang lại những lợi thế đáng kể về khả năng sử dụng, hiệu suất và bộ tính năng.
Tại sao chọn Ultralytics ?
- Cân bằng hiệu suất: Ultralytics các mô hình được thiết kế để mang lại sự cân bằng tốt nhất giữa tốc độ và độ chính xác. YOLO11 , ví dụ, cung cấp vượt trội mAP so với các thế hệ trước trong khi vẫn duy trì tốc độ suy luận vượt trội trên cả CPU và GPU .
Dễ sử dụng: Với triết lý "bao gồm pin", Ultralytics cung cấp một cách đơn giản Python API và Giao diện dòng lệnh ( CLI ) mạnh mẽ. Các nhà phát triển có thể chuyển từ cài đặt sang đào tạo chỉ trong vài phút.
from ultralytics import YOLO # Load a pre-trained YOLO11 model model = YOLO("yolo11n.pt") # Run inference on an image results = model("path/to/image.jpg")Hệ sinh thái được duy trì tốt: Không giống như nhiều mô hình nghiên cứu bị bỏ rơi sau khi công bố, Ultralytics duy trì kho lưu trữ tích cực với các bản cập nhật thường xuyên, sửa lỗi và hỗ trợ cộng đồng thông qua các vấn đề và thảo luận trên GitHub .
- Tính linh hoạt: Ultralytics Các mô hình không chỉ giới hạn ở các hộp giới hạn. Chúng hỗ trợ phân đoạn thực thể , ước lượng tư thế , phân loại hình ảnh và hộp giới hạn định hướng (OBB) , tất cả trong một khuôn khổ thống nhất duy nhất.
- Hiệu quả bộ nhớ: Ultralytics YOLO Các mô hình được thiết kế để sử dụng bộ nhớ hiệu quả trong quá trình đào tạo. Điều này trái ngược với các mô hình dựa trên bộ biến đổi hoặc các kiến trúc cũ hơn, thường yêu cầu CUDA bộ nhớ, làm Ultralytics các mô hình có thể truy cập được trên phần cứng dành cho người tiêu dùng.
- Hiệu quả đào tạo: Khung hỗ trợ các tính năng như độ chính xác hỗn hợp tự động (AMP), đa GPU đào tạo và lưu trữ đệm, đảm bảo việc đào tạo các tập dữ liệu tùy chỉnh diễn ra nhanh chóng và tiết kiệm chi phí.
Kết luận
Cả DAMO- YOLO và EfficientDet đều là những cột mốc quan trọng trong lịch sử thị giác máy tính. EfficientDet đã chứng minh sức mạnh của việc mở rộng quy mô theo nguyên tắc và hợp nhất tính năng hiệu quả, trong khi DAMO- YOLO mở rộng ranh giới của tìm kiếm kiến trúc có nhận biết độ trễ.
Tuy nhiên, đối với các nhà phát triển đang tìm kiếm một giải pháp sẵn sàng cho sản xuất, kết hợp hiệu suất cao với trải nghiệm phát triển vượt trội, Ultralytics YOLO11 là lựa chọn được khuyến nghị. Việc tích hợp vào một hệ sinh thái mạnh mẽ, hỗ trợ nhiều tác vụ thị giác máy tính và cải tiến liên tục giúp nó trở thành công cụ thiết thực nhất để chuyển đổi dữ liệu trực quan thành thông tin chi tiết hữu ích.
Khám Phá Các So Sánh Mô Hình Khác
Để hỗ trợ thêm cho quá trình lựa chọn mô hình của bạn, hãy khám phá những so sánh liên quan này trong Ultralytics tài liệu:
- YOLOv8 so với DAMO-YOLO
- YOLO11 so với DAMO-YOLO
- RT-DETR so với EfficientDet
- YOLOv10 so với DAMO- YOLO
- YOLOv9 so với EfficientDet