YOLOv5 vs DAMO-YOLO : Une Comparaison Technique Détaillée
Choisir le bon modèle de détection d'objets est une décision essentielle qui permet d'équilibrer le besoin de précision, de vitesse et de facilité de déploiement. Cette page offre une comparaison technique détaillée entre deux modèles puissants : Ultralytics YOLOv5, une norme industrielle reconnue pour son efficacité et sa convivialité, et DAMO-YOLO, un modèle du groupe Alibaba qui repousse les limites de la précision de la détection.
Bien que les deux modèles aient apporté des contributions significatives, YOLOv5 se distingue par son écosystème mature et bien maintenu et son équilibre exceptionnel de performances, ce qui en fait un choix très pratique pour un large éventail d'applications réelles. Nous examinerons en profondeur leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à prendre une décision éclairée pour votre prochain projet de vision par ordinateur.
Ultralytics YOLOv5 : la norme industrielle établie
Auteur : Glenn Jocher
Organisation : Ultralytics
Date : 2020-06-26
GitHub : https://github.com/ultralytics/yolov5
Docs : https://docs.ultralytics.com/models/yolov5/
Lancé en 2020, Ultralytics YOLOv5 est rapidement devenu l'un des modèles de détection d'objets les plus populaires au monde. Son succès repose sur une base de vitesse exceptionnelle, une précision fiable et une facilité d'utilisation inégalée. Développé en PyTorch, YOLOv5 est conçu pour un entraînement rapide, une inférence robuste et un déploiement simple, ce qui en fait une solution de choix pour les développeurs et les chercheurs.
Architecture et principales fonctionnalités
L'architecture de YOLOv5 se compose d'un backbone CSPDarknet53, d'un neck PANet pour l'agrégation des caractéristiques et d'une tête de détection basée sur des ancres. Cette conception est très efficace et évolutive, offerte en différentes tailles (n, s, m, l, x) pour s'adapter aux différents budgets de calcul et besoins de performance. La force principale du modèle ne réside pas seulement dans son architecture, mais aussi dans l'écosystème environnant construit par Ultralytics.
Points forts
- Vitesse et efficacité exceptionnelles : YOLOv5 est hautement optimisé pour une inférence rapide, ce qui le rend idéal pour les applications en temps réel sur une large gamme de matériels, des GPU puissants aux appareils périphériques aux ressources limitées.
- Facilité d'utilisation : Reconnu pour son expérience utilisateur simplifiée, YOLOv5 offre des interfaces Python et CLI simples, une documentation exhaustive et un processus de configuration rapide.
- Écosystème bien maintenu : YOLOv5 est pris en charge par l'écosystème complet d'Ultralytics, qui comprend un développement actif, une communauté large et utile, des mises à jour fréquentes et des outils puissants tels que Ultralytics HUB pour l'entraînement et le déploiement sans code.
- Équilibre des performances : Il offre un excellent compromis entre la vitesse d’inférence et la précision de la détection, ce qui en fait un choix pratique et fiable pour divers scénarios de déploiement réels.
- Polyvalence : Au-delà de la détection d’objets, YOLOv5 prend en charge la segmentation d’instance et la classification d’images, offrant une solution flexible pour plusieurs tâches de vision.
- Efficacité de l'entraînement : YOLOv5 se caractérise par un processus d'entraînement efficace, des poids pré-entraînés facilement disponibles et nécessite généralement moins de mémoire que de nombreuses architectures concurrentes, ce qui permet des cycles de développement plus rapides.
Faiblesses
- Précision : Bien que très précis pour son époque, les modèles plus récents comme DAMO-YOLO peuvent atteindre des scores mAP plus élevés sur des benchmarks comme COCO, en particulier avec des variantes de modèles plus grandes.
- Basée sur des ancres : Sa dépendance à des boîtes d’ancrage prédéfinies peut parfois nécessiter plus de réglages pour les ensembles de données avec des formes d’objets non conventionnelles par rapport aux approches sans ancres.
Cas d'utilisation
YOLOv5 excelle dans les scénarios de détection d'objets en temps réel, notamment :
- Systèmes de sécurité : Surveillance en temps réel pour des applications telles que la prévention du vol et la détection d'anomalies.
- Robotique : Permet aux robots de percevoir et d'interagir avec leur environnement en temps réel, ce qui est crucial pour la navigation et la manipulation autonomes.
- Automatisation industrielle : Contrôle qualité et détection des défauts dans les processus de fabrication, améliorant l'efficacité du recyclage et la surveillance des lignes de production.
- Déploiement d'IA en périphérie (Edge AI) : Exécution efficace de la détection d'objets sur des appareils aux ressources limitées tels que Raspberry Pi et NVIDIA Jetson pour le traitement sur l'appareil.
DAMO-YOLO : Détection axée sur la précision
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444v2
GitHub : https://github.com/tinyvision/DAMO-YOLO
Documentation : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO est un modèle de détection d'objets développé par Alibaba Group. Lancé fin 2022, il vise à atteindre un équilibre entre une haute précision et une inférence efficace en intégrant plusieurs nouvelles techniques dans son architecture.
Architecture et principales fonctionnalités
DAMO-YOLO introduit plusieurs composants innovants :
- Backbones NAS : Utilise la recherche d'architecture neuronale (NAS) pour optimiser le réseau backbone.
- RepGFPN efficace : Utilise un réseau de pyramide de caractéristiques de gradient reparamétré pour une meilleure fusion des caractéristiques.
- ZeroHead : Une tête de détection découplée conçue pour minimiser la surcharge de calcul.
- AlignedOTA : Comporte une stratégie Aligned Optimal Transport Assignment pour une meilleure attribution des labels pendant l'entraînement.
- Amélioration par distillation : Intègre des techniques de distillation des connaissances pour améliorer les performances.
Points forts
- Haute précision : Obtient de solides scores mAP, indiquant une excellente précision de détection, en particulier avec les variantes de modèles plus grandes.
- Techniques innovantes : Intègre des méthodes novatrices telles qu'AlignedOTA et RepGFPN visant à améliorer les performances au-delà des architectures standard.
Faiblesses
- Complexité de l’intégration : Peut nécessiter plus d’efforts pour s’intégrer aux flux de travail existants, surtout comparativement à l’expérience simplifiée au sein de l’écosystème Ultralytics.
- Support de l'écosystème : La documentation et le support de la communauté pourraient être moins complets par rapport à YOLOv5, qui est bien établi et activement maintenu.
- Polyvalence des tâches : Principalement axé sur la détection d'objets, potentiellement sans la prise en charge intégrée d'autres tâches telles que la segmentation ou la classification que l'on trouve dans les modèles Ultralytics ultérieurs.
Cas d'utilisation
DAMO-YOLO est bien adapté aux applications où une haute précision de détection est primordiale :
- Applications de haute précision : Analyse d'images détaillée, imagerie médicale et recherche scientifique.
- Scénarios complexes : Environnements avec des objets occlus ou nécessitant une compréhension détaillée de la scène.
- Recherche et développement : Exploration d'architectures avancées de détection d'objets.
Analyse des performances : Vitesse vs. Précision
Le tableau suivant compare les performances des modèles YOLOv5 et DAMO-YOLO sur l'ensemble de données COCO val2017. YOLOv5 démontre un équilibre exceptionnel, avec YOLOv5n offrant une vitesse inégalée sur CPU et GPU, tandis que les modèles plus grands restent très compétitifs.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Bien que les modèles DAMO-YOLO atteignent un mAP élevé, YOLOv5 offre un compromis vitesse-précision plus pratique, en particulier pour les applications en temps réel. La disponibilité de benchmarks CPU pour YOLOv5 souligne davantage sa pertinence pour le déploiement sur une plus grande variété de plateformes matérielles où un GPU peut ne pas être disponible.
Conclusion : Quel modèle devriez-vous choisir ?
YOLOv5 et DAMO-YOLO sont tous deux des modèles de détection d'objets redoutables, mais ils répondent à des priorités différentes.
-
DAMO-YOLO est un excellent choix pour les chercheurs et les développeurs qui souhaitent atteindre une précision de pointe, en particulier dans les scènes complexes. Son architecture innovante fournit une base solide pour l’exploration académique et les applications où la précision est la priorité absolue.
-
Ultralytics YOLOv5, cependant, reste le choix supérieur pour la grande majorité des applications pratiques du monde réel. Son incroyable équilibre entre vitesse et précision, combiné à sa facilité d’utilisation, à son efficacité d’entraînement et à sa polyvalence, le rend très efficace. Le principal différenciateur est l’écosystème Ultralytics bien maintenu, qui offre un soutien robuste, une documentation exhaustive et une expérience utilisateur transparente de l’entraînement au déploiement. Cela réduit considérablement le temps de développement et la complexité.
Pour les développeurs à la recherche d'un modèle fiable, performant et facile à intégrer, YOLOv5 est le grand gagnant. Pour ceux qui cherchent à s'appuyer sur cette base avec des fonctionnalités encore plus avancées, les nouveaux modèles Ultralytics tels que YOLOv8 et YOLO11 offrent d'autres améliorations en termes de précision et de polyvalence tout en conservant les mêmes principes de convivialité.
Explorez d'autres comparaisons pour voir comment ces modèles se comparent à d'autres dans le domaine :