DAMO-YOLO vs. YOLO11 : Une comparaison technique
Cette page fournit une comparaison technique détaillée entre deux modèles de détection d'objets à la pointe de la technologie : DAMO-YOLO, développé par Alibaba Group, et Ultralytics YOLO11. Bien que les deux modèles soient conçus pour la détection d'objets en temps réel à haute performance, ils utilisent des philosophies architecturales distinctes et excellent dans différents domaines. Nous analyserons leurs différences architecturales, leurs mesures de performance et leurs applications idéales afin de vous aider à prendre une décision éclairée pour vos projets de vision par ordinateur.
DAMO-YOLO
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444v2
GitHub : https://github.com/tinyvision/DAMO-YOLO
Docs : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
DAMO-YOLO est une méthode de détection d'objets rapide et précise développée par Alibaba Group. Elle introduit plusieurs nouvelles techniques pour repousser les limites de performance des détecteurs de type YOLO. Le modèle vise à atteindre un équilibre supérieur entre la précision et la latence, en particulier sur le matériel GPU.
Architecture et principales fonctionnalités
L’architecture de DAMO-YOLO est une combinaison de composants de pointe conçus pour fonctionner en synergie :
- Colonnes vertébrales basées sur NAS : Elle exploite Neural Architecture Search (NAS) pour générer des colonnes vertébrales efficaces (comme GiraffeNet) qui sont optimisées pour un matériel spécifique, réduisant ainsi le coût de calcul tout en conservant de fortes capacités d’extraction de caractéristiques.
- Neck RepGFPN efficace : Le modèle intègre une structure de neck efficace basée sur les réseaux Generalized Feature Pyramid Networks (GFPN) avec des techniques de reparamétrisation pour améliorer la fusion des caractéristiques multi-échelles.
- ZeroHead : DAMO-YOLO introduit une tête de détection légère et sans ancrage appelée ZeroHead, qui découple les tâches de classification et de régression et réduit la surcharge de calcul.
- Attribution de label AlignedOTA : Elle utilise une stratégie d'attribution de label améliorée appelée AlignedOTA, qui fait correspondre dynamiquement les objets de vérité terrain avec les prédictions les plus appropriées en fonction des scores de classification et de localisation, ce qui permet d'améliorer la convergence de l'entraînement.
- Distillation des connaissances : Le processus de formation est amélioré grâce à la distillation des connaissances, où un modèle enseignant plus grand et plus puissant guide la formation d’un modèle étudiant plus petit afin d’améliorer sa précision finale.
Points forts
- Haute précision sur GPU : DAMO-YOLO obtient des scores mAP impressionnants, en particulier dans ses variantes plus grandes, ce qui témoigne de ses solides performances sur l’ ensemble de données COCO.
- Inférence GPU rapide : Le modèle est hautement optimisé pour l'inférence GPU, offrant une faible latence, ce qui est essentiel pour les applications en temps réel fonctionnant sur du matériel graphique dédié.
- Techniques innovantes : Elle met en évidence l'efficacité des techniques modernes telles que NAS, l'attribution avancée d'étiquettes et la distillation dans la détection d'objets.
Faiblesses
- Polyvalence limitée : DAMO-YOLO est principalement conçu pour la détection d'objets. Il ne prend pas en charge nativement d'autres tâches de vision par ordinateur telles que la segmentation d'instance, l'estimation de pose ou la classification, qui sont des fonctionnalités standard dans les frameworks tels qu'Ultralytics.
- Écosystème complexe : Le référentiel et la documentation, bien que fonctionnels, sont moins rationalisés que l'écosystème Ultralytics. Cela peut présenter une courbe d'apprentissage plus abrupte pour les nouveaux utilisateurs.
- Priorité au matériel : Ses performances sont fortement évaluées sur les GPU, avec des informations limitées sur les performances du CPU, ce qui en fait un choix moins flexible pour le déploiement sur des appareils périphériques uniquement CPU ou divers.
Ultralytics YOLO11
Auteurs : Glenn Jocher, Jing Qiu
Organisation : Ultralytics
Date : 2024-09-27
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/
Ultralytics YOLO11 est la dernière évolution de la célèbre série YOLO (You Only Look Once), représentant l'état de l'art en matière de détection d'objets en temps réel et au-delà. Il s'appuie sur les succès de ses prédécesseurs tels que YOLOv8, offrant une précision, une vitesse et une polyvalence améliorées au sein d'un écosystème mature et convivial.
Architecture et principales fonctionnalités
YOLO11 dispose d'une architecture sans ancres mono-étagée affinée, hautement optimisée pour un équilibre exceptionnel entre performances et efficacité. Sa conception est axée sur l'extraction de caractéristiques simplifiée et une structure de réseau légère, ce qui réduit le nombre de paramètres et la charge de calcul. Cela rend YOLO11 très adaptable pour un déploiement sur un large éventail de matériels, des puissants serveurs cloud aux appareils périphériques aux ressources limitées tels que le NVIDIA Jetson.
Cependant, la véritable puissance de YOLO11 réside dans son intégration avec l'écosystème Ultralytics bien entretenu, qui offre des avantages considérables :
- Facilité d’utilisation : Une API Python simple et une CLI puissante rendent l’entraînement, la validation et l’inférence incroyablement simples. La documentation complète fournit des conseils clairs aux utilisateurs de tous niveaux.
- Polyvalence : Contrairement à DAMO-YOLO, YOLO11 est un modèle multitâche qui prend en charge nativement la détection d'objets, la segmentation d'instance, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB) au sein d'un framework unique et unifié.
- Équilibre des performances : Les modèles YOLO11 offrent un excellent compromis entre vitesse et précision sur les CPU et les GPU, assurant un déploiement flexible et efficace dans divers scénarios réels.
- Efficacité de l'entraînement : Le framework est optimisé pour des temps d'entraînement rapides et a des besoins en mémoire inférieurs par rapport aux architectures plus complexes. Des poids pré-entraînés facilement disponibles accélèrent les flux de travail d'entraînement personnalisés.
- Écosystème robuste : Les utilisateurs bénéficient d'un développement actif, d'un fort soutien de la communauté via GitHub et Discord, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour des MLOps de bout en bout.
Points forts
- Performances de pointe : Obtient d'excellents scores mAP grâce à une architecture optimisée pour la vitesse et la précision.
- Polyvalence inégalée : Un framework de modèle unique peut gérer cinq tâches de vision différentes, offrant une solution complète pour les projets complexes.
- Facilité d’utilisation supérieure : L’API simplifiée, la documentation claire et l’écosystème intégré le rendent exceptionnellement facile à prendre en main et à déployer.
- Flexibilité matérielle : Très efficace sur le CPU et le GPU, ce qui le rend adapté à un plus large éventail de cibles de déploiement.
- Actif et pris en charge : Soutenu par une équipe dédiée chez Ultralytics et une vaste communauté open source active.
Faiblesses
- Les modèles plus grands comme YOLO11x nécessitent des ressources de calcul substantielles, bien qu'ils restent très efficaces pour leur classe de performance.
Comparaison des performances
Le tableau ci-dessous fournit une comparaison directe des métriques de performance pour DAMO-YOLO et YOLO11 sur l'ensemble de données COCO val.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
D'après les données, nous pouvons tirer plusieurs conclusions :
- Précision : Bien que DAMO-YOLO soit compétitif, les modèles YOLO11, en particulier les variantes moyennes à grandes (YOLO11m, l, x), atteignent des scores mAP plus élevés, YOLO11x atteignant un impressionnant 54,7 mAP.
- Vitesse GPU : DAMO-YOLO affiche une latence GPU très compétitive. Cependant, les modèles YOLO11 sont également hautement optimisés, YOLO11n atteignant la vitesse GPU la plus rapide à 1,5 ms.
- Vitesse du CPU : Un avantage essentiel pour YOLO11 est son excellente performance CPU, qui est bien documentée. La disponibilité des benchmarks CPU en fait un choix fiable pour les applications où les GPU ne sont pas disponibles. DAMO-YOLO manque de mesures de vitesse CPU officielles, ce qui limite son applicabilité.
- Efficacité : Les modèles YOLO11 sont exceptionnellement efficaces. Par exemple, YOLO11l atteint un mAP de 53,4 avec seulement 25,3M de paramètres, surpassant DAMO-YOLOl en termes de précision et d'efficacité des paramètres. YOLO11n établit la norme pour les modèles légers avec seulement 2,6M de paramètres.
Conclusion et recommandation
DAMO-YOLO est un détecteur d'objets puissant qui présente d'impressionnantes innovations académiques et offre de solides performances sur le matériel GPU. C'est un excellent choix pour les chercheurs qui explorent des concepts architecturaux avancés ou pour les applications déployées dans des environnements riches en GPU où seule la détection d'objets est requise.
Cependant, pour la grande majorité des développeurs, des chercheurs et des entreprises, Ultralytics YOLO11 est le choix clair et supérieur. Il offre non seulement une précision et une vitesse de pointe, mais le fait dans un cadre mature, facile à utiliser et incroyablement polyvalent. La prise en charge native de plusieurs tâches, les excellentes performances sur CPU et GPU, et l'écosystème robuste de documentation, de soutien communautaire et d'outils MLOps comme Ultralytics HUB font de YOLO11 une solution plus pratique, évolutive et puissante pour la création d'applications de vision par ordinateur dans le monde réel.
Explorer d'autres modèles
Si vous souhaitez savoir comment DAMO-YOLO et YOLO11 se comparent à d'autres modèles de pointe, consultez ces autres comparaisons :
- RT-DETR vs. DAMO-YOLO
- YOLOv9 vs. DAMO-YOLO
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. RT-DETR
- YOLO11 vs. YOLOv9