YOLOv7 contre DAMO-YOLO : Une comparaison technique détaillée
Choisir le bon modèle de détection d'objets est une étape cruciale dans tout projet de vision par ordinateur. La décision implique souvent un compromis entre la précision, la vitesse et le coût de calcul. Cette page fournit une comparaison technique détaillée entre YOLOv7 et DAMO-YOLO, deux modèles puissants qui ont apporté des contributions significatives à la détection d'objets en temps réel. Nous explorerons leurs différences architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à faire un choix éclairé en fonction de vos besoins spécifiques.
YOLOv7 : Haute précision et vitesse
YOLOv7 a été présenté comme une avancée majeure dans la famille YOLO, établissant de nouvelles normes pour les détecteurs d’objets en temps réel en optimisant à la fois l’efficacité de la formation et la vitesse d’inférence sans augmenter les coûts de calcul.
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2022-07-06
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : https://github.com/WongKinYiu/yolov7
Docs : https://docs.ultralytics.com/models/yolov7/
Architecture et principales fonctionnalités
YOLOv7 a introduit plusieurs innovations architecturales pour atteindre ses performances de pointe. Un élément clé est l'Extended Efficient Layer Aggregation Network (E-ELAN) dans le backbone du modèle, qui améliore la capacité du réseau à apprendre diverses caractéristiques sans perturber le chemin de gradient. Le modèle utilise également des techniques de scaling de modèle avancées adaptées aux architectures basées sur la concaténation.
L'une de ses contributions les plus importantes est le concept de « sac de cadeaux gratuits entraînable », qui fait référence aux stratégies d'entraînement qui augmentent la précision sans augmenter le coût de l'inférence. Il s'agit notamment de l'utilisation de têtes auxiliaires pour une supervision plus approfondie et d'un entraînement guidé grossier à fin. Ces techniques, détaillées dans le document YOLOv7, permettent au modèle d'obtenir des résultats impressionnants sur les benchmarks standard.
Performance et cas d'utilisation
Dès sa sortie, YOLOv7 a démontré un équilibre exceptionnel entre vitesse et précision. Il excelle dans les scénarios qui exigent à la fois une détection rapide et une haute précision, tels que l’analyse vidéo en temps réel, les systèmes de conduite autonome et l’inspection industrielle à haute résolution. Par exemple, dans les applications de ville intelligente, YOLOv7 peut être utilisé pour la gestion du trafic avancée ou pour alimenter la détection immédiate des menaces dans les systèmes de sécurité.
Points forts
- Excellent compromis précision-vitesse : Fournit une combinaison forte de mAP et de vitesse d’inférence, le rendant très efficace pour les tâches en temps réel.
- Entraînement efficace : Tire parti de stratégies d'entraînement avancées pour améliorer les performances sans augmenter les exigences de calcul pendant l'inférence.
- Performance éprouvée : Résultats établis et bien documentés sur des ensembles de données standard comme MS COCO.
Faiblesses
- Complexité architecturale : La combinaison d’E-ELAN et de diverses techniques d’entraînement peut être complexe à comprendre et à modifier.
- Entraînement nécessitant beaucoup de ressources : Bien que l’inférence soit rapide, l’entraînement des modèles YOLOv7 plus grands nécessite des ressources GPU importantes.
- Polyvalence limitée : Principalement conçu pour la détection d'objets, avec des extensions pilotées par la communauté pour d'autres tâches, contrairement aux modèles plus récents dotés de capacités multitâches intégrées.
DAMO-YOLO : Vitesse et efficacité pour la périphérie
DAMO-YOLO, développé par le groupe Alibaba, est un modèle de détection d’objets conçu pour une performance optimale sur une large gamme de matériel, avec un accent particulier sur la vitesse et l’efficacité pour les appareils périphériques.
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444
GitHub : https://github.com/tinyvision/DAMO-YOLO
Architecture et principales fonctionnalités
DAMO-YOLO introduit plusieurs nouvelles techniques pour atteindre sa vitesse impressionnante. Il utilise un backbone généré par la recherche d'architecture neuronale (NAS), ce qui donne un extracteur de caractéristiques très efficace appelé GiraffeNet. Le neck du réseau est un RepGFPN efficace, qui équilibre les capacités de fusion de caractéristiques avec un faible coût de calcul.
Une caractéristique remarquable est le ZeroHead, une tête de détection simplifiée qui a zéro paramètre pour la classification et la régression, réduisant considérablement la surcharge de calcul. De plus, DAMO-YOLO utilise AlignedOTA pour l'attribution dynamique des étiquettes et utilise la distillation des connaissances pour améliorer les performances de ses modèles plus petits, les rendant à la fois rapides et précis.
Performance et cas d'utilisation
Le principal atout de DAMO-YOLO est sa vitesse d’inférence exceptionnelle, en particulier avec ses variantes plus petites (DAMO-YOLO-T/S). Cela en fait un excellent candidat pour les applications où une faible latence est une exigence essentielle, telles que le traitement sur l’appareil pour les applications mobiles, la surveillance en temps réel dans l’automatisation industrielle et la robotique. Son évolutivité permet aux développeurs de choisir un modèle qui correspond à leurs contraintes matérielles spécifiques, des serveurs cloud puissants aux plateformes périphériques aux ressources limitées.
Points forts
- Vitesse d'inférence exceptionnelle : Les modèles plus petits sont parmi les détecteurs d'objets les plus rapides disponibles, idéaux pour les exigences de faible latence.
- Architecture Scalable : Offre une gamme de modèles (Tiny, Small, Medium, Large) adaptés à différents budgets de calcul.
- Conception innovante : Intègre des idées de pointe telles que des backbones alimentés par NAS, des necks efficaces et une tête sans paramètre.
Faiblesses
- Précision sur les modèles plus grands : Bien que compétitifs, les plus grands modèles DAMO-YOLO peuvent ne pas atteindre la précision maximale des variantes haut de gamme de YOLOv7.
- Écosystème et support : En tant que projet axé sur la recherche, il peut ne pas avoir le même niveau de documentation complète, de soutien communautaire ou d'outils intégrés que les frameworks soutenus commercialement.
Comparaison directe : YOLOv7 vs. DAMO-YOLO
Lorsqu'on compare directement ces deux modèles, la principale distinction réside dans leur philosophie de conception. YOLOv7 repousse les limites de ce qui est possible pour un détecteur en temps réel en termes de précision, en tirant parti de stratégies d'entraînement complexes pour maximiser le mAP. En revanche, DAMO-YOLO privilégie l'efficacité architecturale et la vitesse d'inférence brute, ce qui rend ses modèles plus petits incroyablement rapides, souvent au prix de quelques points de précision par rapport aux modèles plus grands et plus complexes.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Pourquoi les modèles Ultralytics YOLO sont un meilleur choix
Bien que YOLOv7 et DAMO-YOLO soient des modèles puissants, les développeurs et les chercheurs à la recherche d'une expérience plus moderne, intégrée et conviviale devraient envisager l'écosystème Ultralytics YOLO, y compris les modèles populaires comme Ultralytics YOLOv8 et le dernier Ultralytics YOLO11. Ces modèles offrent plusieurs avantages clés :
- Facilité d'utilisation : Les modèles Ultralytics sont conçus avec une expérience utilisateur simplifiée à l'esprit, avec une API Python et une CLI simples. Ceci est pris en charge par une documentation exhaustive et de nombreux guides, ce qui facilite la prise en main.
- Écosystème bien maintenu : Bénéficiez d'un développement actif, d'une forte communauté open source et d'une intégration transparente avec des outils tels que Ultralytics HUB pour un MLOps de bout en bout, de l'entraînement au déploiement.
- Équilibre des performances : Les modèles Ultralytics offrent un excellent compromis entre la vitesse et la précision, ce qui les rend adaptés à un large éventail de scénarios réels.
- Efficacité de la mémoire : Les modèles Ultralytics YOLO sont optimisés pour une utilisation efficace de la mémoire, nécessitant souvent moins de mémoire CUDA pour l’entraînement et l’inférence par rapport à d’autres architectures.
- Polyvalence : Les modèles tels que YOLOv8 et YOLO11 sont de véritables solutions multitâches, prenant en charge la détection, la segmentation, la classification, l’estimation de pose et la détection d’objets orientés (OBB) dans un cadre unique et unifié.
- Efficacité de l'entraînement : Bénéficiez de processus d'entraînement efficaces, de poids pré-entraînés facilement disponibles et de temps de convergence plus rapides.
Conclusion
DAMO-YOLO et YOLOv7 représentent tous deux des avancées significatives dans la détection d'objets. DAMO-YOLO excelle en termes de vitesse d'inférence, en particulier avec ses variantes plus petites, ce qui en fait un concurrent sérieux pour les appareils périphériques ou les applications privilégiant une faible latence. YOLOv7 repousse les limites de la précision tout en conservant de bonnes performances en temps réel, particulièrement adapté aux scénarios où l'obtention du mAP le plus élevé possible est essentielle.
Cependant, les développeurs peuvent également envisager des modèles au sein de l'écosystème Ultralytics, tels que YOLOv8 ou le dernier YOLO11. Ces modèles offrent souvent un équilibre supérieur entre performance, facilité d'utilisation, documentation complète, entraînement efficace, besoins en mémoire réduits et polyvalence dans de nombreuses tâches de vision, tous pris en charge par un écosystème bien entretenu et un soutien actif de la communauté.
Explorer d'autres modèles
Les utilisateurs intéressés par DAMO-YOLO et YOLOv7 peuvent également trouver ces modèles pertinents :
- Ultralytics YOLOv5 : Un modèle très populaire et efficace, reconnu pour sa rapidité et sa facilité de déploiement. Découvrez la documentation de YOLOv5.
- Ultralytics YOLOv8 : Un modèle polyvalent à la pointe de la technologie offrant d’excellentes performances dans les tâches de détection, de segmentation, de pose et de classification. Découvrez la documentation de YOLOv8.
- YOLOv9 : Introduit des innovations telles que PGI et GELAN pour une précision et une efficacité améliorées. Voir la documentation de YOLOv9.
- YOLOv10 : Se concentre sur la détection de bout en bout sans NMS pour une latence réduite. Comparer YOLOv10 vs DAMO-YOLO.
- RT-DETR : Un modèle de détection en temps réel basé sur les transformers. Comparer RT-DETR et DAMO-YOLO.