Passer au contenu

YOLO11 vs DAMO-YOLO : Une comparaison technique

Cette page fournit une comparaison technique détaillée entre deux modèles de détection d'objets à la pointe de la technologie : Ultralytics YOLO11 et DAMO-YOLO. Nous analyserons leurs différences architecturales, leurs mesures de performance et leurs applications idéales afin de vous aider à prendre une décision éclairée pour vos projets de vision par ordinateur. Bien que les deux modèles soient conçus pour la détection d'objets à haute performance, ils utilisent des approches distinctes et présentent des atouts différents, YOLO11 offrant une polyvalence supérieure et un écosystème plus robuste pour le déploiement dans le monde réel.

Ultralytics YOLO11

Auteurs : Glenn Jocher, Jing Qiu
Organisation : Ultralytics
Date : 2024-09-27
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/

Ultralytics YOLO11 est la dernière avancée de la célèbre série YOLO (You Only Look Once), reconnue pour ses capacités de détection d’objets rapides et efficaces. YOLO11 améliore les itérations YOLO précédentes grâce à des améliorations architecturales visant à améliorer à la fois la précision et la vitesse. Il conserve la méthode de détection en une étape, traitant les images en un seul passage pour une performance en temps réel.

Un avantage clé de YOLO11 est sa polyvalence. Contrairement à DAMO-YOLO, qui se concentre principalement sur la détection, YOLO11 est un framework multi-tâches prenant en charge la détection d’objets, la segmentation d’instances, la classification d’images et l’estimation de pose. Cela en fait une solution complète pour les pipelines complexes de vision par ordinateur.

Architecture et principales fonctionnalités

YOLO11 se concentre sur l'équilibre entre la taille du modèle et la précision grâce à des améliorations architecturales. Il s'agit notamment de couches d'extraction de caractéristiques affinées pour une capture de caractéristiques plus riche et d'un réseau simplifié pour réduire les coûts de calcul, ce qui permet d'obtenir des modèles plus rapides et plus efficaces en termes de paramètres. Sa conception adaptable permet un déploiement sur un large éventail de matériels, des appareils périphériques tels que le NVIDIA Jetson aux puissants serveurs cloud.

Surtout, YOLO11 bénéficie énormément de l'écosystème Ultralytics bien entretenu. Cela offre un avantage significatif aux développeurs et aux chercheurs :

  • Facilité d'utilisation : Une API Python simple, une CLI claire et une documentation complète facilitent la prise en main.
  • Flux de travail intégré : L’intégration transparente avec Ultralytics HUB simplifie la gestion des ensembles de données, la formation et le déploiement, rationalisant ainsi l’ensemble du cycle de vie MLOps.
  • Efficacité de l'entraînement : Processus d'entraînement efficaces, poids pré-entraînés facilement disponibles sur des ensembles de données tels que COCO, et besoins en mémoire généralement plus faibles par rapport à d'autres architectures complexes.
  • Développement actif : Mises à jour fréquentes, fort soutien de la communauté via GitHub et Discord, et nombreuses intégrations avec des outils comme TensorRT et OpenVINO.

En savoir plus sur YOLO11

DAMO-YOLO

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444v2
GitHub : https://github.com/tinyvision/DAMO-YOLO
Docs : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

DAMO-YOLO est un modèle de détection d'objets développé par Alibaba Group qui introduit plusieurs nouvelles techniques pour atteindre un bon équilibre entre la vitesse et la précision. Il fait partie de la famille YOLO, mais intègre des composants architecturaux uniques dérivés de concepts de recherche avancés.

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO est basée sur plusieurs innovations clés :

  • Backbone MAE-NAS : Il utilise une approche de recherche d'architecture neurale (NAS) pour trouver une structure de backbone optimale, ce qui permet une extraction efficace des caractéristiques.
  • Neck RepGFPN efficace : Il utilise un réseau de pyramide de caractéristiques généralisé avec reparamétrisation pour améliorer efficacement la fusion des caractéristiques à différentes échelles.
  • ZeroHead : Le modèle utilise une tête découplée légère qui sépare les tâches de classification et de régression avec une surcharge minimale.
  • Attribution de label AlignedOTA : Elle introduit une stratégie d'attribution de label améliorée pour mieux aligner les cibles de classification et de régression pendant l'entraînement, ce qui contribue à améliorer la précision.

Bien que ces caractéristiques fassent de DAMO-YOLO un détecteur puissant, son objectif principal reste la détection d'objets. Il ne dispose pas de la prise en charge intégrée d'autres tâches de vision telles que la segmentation ou l'estimation de pose que YOLO11 offre. De plus, son écosystème est moins complet, avec moins de tutoriels officiels, d'intégrations et une communauté plus petite par rapport à Ultralytics YOLO.

En savoir plus sur DAMO-YOLO

Performances et analyses comparatives : un examen comparatif

Les performances des deux modèles sur le jeu de données COCO val2017 révèlent des différences clés. YOLO11 démontre systématiquement une précision supérieure pour des tailles de modèles comparables.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

D'après le tableau, nous pouvons tirer plusieurs conclusions :

  • Précision : Les modèles YOLO11 atteignent systématiquement des scores mAP plus élevés que leurs homologues DAMO-YOLO. Par exemple, YOLO11m atteint 51,5 mAP, surpassant les 49,2 mAP de DAMO-YOLOm. Le plus grand modèle, YOLO11x, atteint un mAP de pointe de 54,7.
  • Efficacité : Les modèles YOLO11 sont plus efficaces en termes de paramètres. YOLO11m atteint sa précision supérieure avec seulement 20,1 millions de paramètres, contre 28,2 millions pour DAMO-YOLOm.
  • Vitesse d'inférence : YOLO11n est le modèle le plus rapide sur CPU et GPU, ce qui le rend idéal pour les scénarios d'edge computing très contraints. Notamment, Ultralytics fournit des benchmarks CPU transparents, une mesure essentielle pour de nombreuses applications réelles que les résultats officiels de DAMO-YOLO omettent.

Principaux facteurs de différenciation et cas d’utilisation

Quand choisir Ultralytics YOLO11

YOLO11 est le choix idéal pour les projets qui nécessitent :

  • Capacités multi-tâches : Si votre application a besoin de plus que de la simple détection d'objets, comme la segmentation d'instance ou l'estimation de pose, YOLO11 fournit un cadre unifié et efficace.
  • Facilité d’utilisation et développement rapide : La documentation complète, l’API simple et la plateforme intégrée Ultralytics HUB accélèrent considérablement le développement et le déploiement.
  • Flexibilité de déploiement : Grâce à de solides performances sur CPU et GPU et à une large gamme de tailles de modèles, YOLO11 peut être déployé n'importe où, d'un Raspberry Pi à un serveur cloud.
  • Support et Maintenance Robustes : Le développement actif et la grande communauté garantissent que le framework reste à jour, fiable et bien pris en charge.

Quand envisager DAMO-YOLO

DAMO-YOLO pourrait être envisagé pour :

  • Recherche académique : Ses nouveaux composants architecturaux tels que RepGFPN et AlignedOTA en font un modèle intéressant pour les chercheurs qui explorent de nouvelles techniques de détection d'objets.
  • Déploiements spécifiques au GPU : Pour les applications qui sont garanties de fonctionner sur les GPU et qui nécessitent uniquement la détection d’objets, DAMO-YOLO offre des vitesses d’inférence compétitives.

Conclusion

Bien que DAMO-YOLO présente des innovations académiques intéressantes pour la détection d'objets, Ultralytics YOLO11 se distingue comme le choix supérieur pour la grande majorité des applications du monde réel. Sa plus grande précision, son meilleur équilibre de performance et sa polyvalence inégalée en font un outil plus puissant et pratique.

L'avantage clé de YOLO11 ne réside pas seulement dans ses performances de pointe, mais dans l'écosystème robuste, convivial et bien entretenu qui l'entoure. Cette combinaison permet aux développeurs et aux chercheurs de créer et de déployer des solutions de vision par ordinateur avancées plus rapidement et plus efficacement. Pour les projets qui exigent fiabilité, évolutivité et un ensemble complet de fonctionnalités, YOLO11 est le grand gagnant.

Explorer d’autres comparaisons de modèles

Si vous souhaitez savoir comment ces modèles se comparent à d'autres, consultez nos autres pages de comparaison :



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires