DAMO-YOLO so với YOLOv5: So sánh kỹ thuật chi tiết
Việc lựa chọn mô hình phát hiện đối tượng phù hợp là một quyết định quan trọng, cân bằng giữa độ chính xác, tốc độ và tính dễ triển khai. Trang này cung cấp so sánh kỹ thuật chi tiết giữa DAMO-YOLO, một mô hình tập trung vào độ chính xác từ Alibaba Group và Ultralytics YOLOv5, một mô hình tiêu chuẩn công nghiệp nổi tiếng với sự kết hợp đặc biệt giữa hiệu suất và khả năng sử dụng. Chúng ta sẽ đi sâu vào sự khác biệt về kiến trúc, số liệu hiệu suất và các trường hợp sử dụng lý tưởng của chúng để giúp bạn chọn mô hình tốt nhất cho dự án thị giác máy tính của mình.
DAMO-YOLO: Phát hiện tập trung vào độ chính xác
Tác giả: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, và Xiuyu Sun
Tổ chức: Alibaba Group
Ngày: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO
Tài liệu: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO là một mô hình phát hiện đối tượng được phát triển bởi Alibaba Group. Được giới thiệu vào cuối năm 2022, nó tập trung vào việc đạt được sự cân bằng vượt trội giữa độ chính xác cao và suy luận hiệu quả bằng cách kết hợp một số kỹ thuật mới vào kiến trúc của nó.
Kiến trúc và các tính năng chính
DAMO-YOLO giới thiệu một số thành phần cải tiến được thiết kế để vượt qua các giới hạn của độ chính xác phát hiện:
- NAS Backbones: Nó sử dụng Tìm kiếm kiến trúc thần kinh (NAS) để khám phá và triển khai các mạng backbone hiệu quả cao được thiết kế riêng cho việc phát hiện đối tượng.
- Efficient RepGFPN: Mô hình sử dụng Mạng kim tự tháp đặc trưng Gradient tái tham số hóa, một mô-đun neck tiên tiến để cải thiện việc kết hợp đặc trưng trên các tỷ lệ khác nhau.
- ZeroHead: Nó có một đầu dò tách rời được thiết kế để giảm thiểu chi phí tính toán trong khi vẫn duy trì hiệu suất cao.
- AlignedOTA: Chiến lược gán nhãn mới này, Gán Tối Ưu Vận Chuyển Căn Chỉnh (Aligned Optimal Transport Assignment), đảm bảo sự căn chỉnh tốt hơn giữa các dự đoán và nhãn ground-truth trong quá trình huấn luyện, dẫn đến độ chính xác được cải thiện.
- Tăng cường chưng cất: Mô hình tận dụng chưng cất kiến thức để chuyển kiến thức từ mô hình giáo viên lớn hơn, mạnh mẽ hơn sang mô hình học sinh nhỏ hơn, tăng hiệu suất của nó.
Điểm mạnh
- Độ chính xác cao: DAMO-YOLO đạt được điểm mAP cao, cho thấy độ chính xác phát hiện tuyệt vời, đặc biệt là với các biến thể mô hình lớn hơn của nó.
- Kỹ thuật cải tiến: Việc tích hợp các phương pháp mới như AlignedOTA và RepGFPN cho phép nó nâng cao hiệu suất vượt trội so với các kiến trúc tiêu chuẩn hơn.
Điểm yếu
- Độ phức tạp khi tích hợp: Việc tích hợp DAMO-YOLO vào các quy trình làm việc hiện có có thể phức tạp hơn, đặc biệt khi so sánh với trải nghiệm được tối ưu hóa trong hệ sinh thái Ultralytics.
- Hỗ trợ hệ sinh thái: Tài liệu và hỗ trợ cộng đồng của nó, mặc dù có sẵn, có thể không rộng rãi bằng YOLOv5 đã được thiết lập và duy trì tích cực.
- Tính linh hoạt của tác vụ: DAMO-YOLO chủ yếu tập trung vào phát hiện đối tượng, có khả năng thiếu hỗ trợ tích hợp cho các tác vụ khác như phân đoạn hoặc phân loại được tìm thấy trong các mô hình Ultralytics.
Các Trường hợp Sử dụng
DAMO-YOLO rất phù hợp cho các ứng dụng mà độ chính xác phát hiện cao là yêu cầu chính:
- Ứng dụng độ chính xác cao: Phân tích hình ảnh chi tiết, chẳng hạn như trong chẩn đoán hình ảnh y tế và nghiên cứu khoa học.
- Các tình huống phức tạp: Môi trường có các đối tượng bị che khuất nhiều hoặc những môi trường đòi hỏi sự hiểu biết sâu sắc về khung cảnh.
- Nghiên cứu và Phát triển: Một công cụ có giá trị cho các nhà nghiên cứu khám phá các kiến trúc và kỹ thuật phát hiện đối tượng nâng cao.
Ultralytics YOLOv5: Tiêu chuẩn công nghiệp đã được thiết lập
Tác giả: Glenn Jocher
Tổ chức: Ultralytics
Ngày: 2020-06-26
GitHub: https://github.com/ultralytics/yolov5
Tài liệu: https://docs.ultralytics.com/models/yolov5/
Ultralytics YOLOv5 nhanh chóng trở thành một chuẩn mực trong ngành sau khi phát hành, được đánh giá cao nhờ sự cân bằng vượt trội giữa tốc độ, độ chính xác và tính dễ sử dụng đáng kể. Được phát triển hoàn toàn trên PyTorch, YOLOv5 có một kiến trúc mạnh mẽ kết hợp backbone CSPDarknet53 với một PANet neck để tổng hợp đặc trưng hiệu quả. Khả năng mở rộng của nó, được cung cấp thông qua nhiều kích thước mô hình khác nhau (n, s, m, l, x), cho phép các nhà phát triển chọn sự đánh đổi hoàn hảo cho các nhu cầu về hiệu năng và tính toán cụ thể của họ.
Điểm mạnh
- Tốc độ và Hiệu quả Vượt trội: YOLOv5 được tối ưu hóa cao cho suy luận nhanh, khiến nó trở thành lựa chọn hàng đầu cho các ứng dụng thời gian thực trên nhiều loại phần cứng, từ GPU đám mây mạnh mẽ đến thiết bị biên hạn chế về tài nguyên.
- Tính dễ sử dụng: Một ưu điểm chính của YOLOv5 là trải nghiệm người dùng được tối ưu hóa. Nó cung cấp giao diện Python và CLI đơn giản, tài liệu toàn diện và quy trình thiết lập đơn giản.
- Hệ sinh thái được duy trì tốt: YOLOv5 được hỗ trợ bởi hệ sinh thái Ultralytics mạnh mẽ, bao gồm phát triển tích cực, một cộng đồng lớn và hữu ích, cập nhật thường xuyên và tích hợp liền mạch với các công cụ như Ultralytics HUB cho MLOps không cần code.
- Cân bằng hiệu suất: Mô hình đạt được sự cân bằng tuyệt vời giữa tốc độ suy luận và độ chính xác phát hiện, làm cho nó rất thiết thực cho nhiều tình huống triển khai thực tế khác nhau.
- Tính linh hoạt: Vượt xa phát hiện đối tượng, YOLOv5 hỗ trợ phân vùng thể hiện và phân loại ảnh, cung cấp một giải pháp đa năng.
- Hiệu quả huấn luyện: YOLOv5 cung cấp quy trình huấn luyện hiệu quả, các trọng số đã được huấn luyện trước có sẵn và thường yêu cầu ít bộ nhớ hơn so với nhiều kiến trúc cạnh tranh.
Điểm yếu
- Độ chính xác: Mặc dù có độ chính xác cao, nhưng các mô hình mới hơn đã vượt qua điểm số mAP của YOLOv5 trên các chuẩn đánh giá tiêu chuẩn như COCO.
- Dựa trên Anchor: Việc dựa vào các hộp anchor được xác định trước có thể yêu cầu điều chỉnh thêm cho các bộ dữ liệu có tỷ lệ khung hình đối tượng không thông thường so với các phương pháp không cần anchor.
Các Trường hợp Sử dụng
YOLOv5 vượt trội trong các tình huống mà tốc độ, hiệu quả và dễ triển khai là rất quan trọng:
- Hệ thống an ninh: Giám sát thời gian thực cho các ứng dụng như phòng chống trộm cắp và phát hiện bất thường.
- Robot: Cho phép robot nhận biết và tương tác với môi trường của chúng trong thời gian thực, rất quan trọng cho điều hướng và điều khiển tự động.
- Tự động hóa công nghiệp: Kiểm soát chất lượng và phát hiện lỗi trong các quy trình sản xuất, nâng cao hiệu quả tái chế và giám sát dây chuyền sản xuất.
- Triển khai Edge AI: Chạy hiệu quả phát hiện đối tượng trên các thiết bị giới hạn tài nguyên như Raspberry Pi và NVIDIA Jetson để xử lý trên thiết bị.
So sánh hiệu suất
Khi so sánh DAMO-YOLO và YOLOv5, sự đánh đổi rõ ràng xuất hiện giữa độ chính xác và tốc độ. Các mô hình DAMO-YOLO thường đạt được điểm mAP cao hơn, thể hiện sức mạnh của chúng về độ chính xác phát hiện thuần túy. Tuy nhiên, các mô hình YOLOv5, đặc biệt là các biến thể nhỏ hơn, cung cấp tốc độ suy luận nhanh hơn đáng kể, đặc biệt là trên phần cứng CPU. Điều này làm cho YOLOv5 trở thành một lựa chọn thiết thực hơn cho các ứng dụng thời gian thực, nơi độ trễ thấp là rất cần thiết.
Mô hình | Kích thước (pixels) |
mAPval 50-95 |
Tốc độ CPU ONNX (ms) |
Tốc độ T4 TensorRT10 (ms) |
Tham số (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Kết luận
Cả DAMO-YOLO và Ultralytics YOLOv5 đều là những mô hình phát hiện đối tượng mạnh mẽ, nhưng chúng phục vụ các ưu tiên khác nhau. DAMO-YOLO là một lựa chọn tuyệt vời cho các ứng dụng mà việc đạt được độ chính xác cao nhất có thể là mục tiêu chính và nơi các nhà phát triển sẵn sàng xử lý việc tích hợp phức tạp hơn.
Tuy nhiên, đối với phần lớn các nhà phát triển và các ứng dụng thực tế, Ultralytics YOLOv5 mang đến một giải pháp hấp dẫn và thiết thực hơn. Sự cân bằng đặc biệt giữa tốc độ và độ chính xác, kết hợp với Tính Dễ Sử Dụng tuyệt vời, làm cho nó trở nên vô cùng dễ tiếp cận. Hệ Sinh Thái Được Duy Trì Tốt mang lại một lợi thế đáng kể, cung cấp tài liệu mạnh mẽ, hỗ trợ cộng đồng tích cực và các công cụ mạnh mẽ như Ultralytics HUB. Hiệu Quả Đào Tạo và Tính Linh Hoạt của YOLOv5 trên nhiều tác vụ thị giác khác nhau làm cho nó trở thành một lựa chọn hiệu quả cao và thân thiện với nhà phát triển cho các dự án từ tạo mẫu nhanh đến triển khai sản xuất.
Đối với những ai quan tâm đến những tiến bộ mới nhất, các mô hình Ultralytics mới hơn như YOLOv8 và YOLO11 được xây dựng dựa trên thế mạnh của YOLOv5, mang lại hiệu suất tốt hơn và nhiều tính năng hơn.
So sánh các mô hình khác
Để khám phá thêm, hãy xem xét các so sánh liên quan đến DAMO-YOLO, YOLOv5 và các mô hình liên quan khác sau:
- DAMO-YOLO so với YOLOv8
- YOLOv5 so sánh với YOLOv7
- YOLOv5 so sánh với YOLOv8
- YOLOv5 so sánh với YOLOv9
- RT-DETR so với YOLOv5
- EfficientDet so với YOLOv5
- Khám phá các mô hình mới nhất như YOLOv10 và YOLO11.