Passer au contenu

DAMO-YOLO vs. YOLOv9 : Une comparaison technique

Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre le besoin de précision, de vitesse et d'efficacité de calcul. Cette page offre une comparaison technique détaillée entre deux modèles puissants : DAMO-YOLO d'Alibaba Group et YOLOv9. Nous allons explorer leurs innovations architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à sélectionner le meilleur modèle pour vos projets de vision par ordinateur. Bien que les deux modèles introduisent des avancées significatives, YOLOv9, en particulier au sein de l'écosystème Ultralytics, offre une combinaison convaincante de performance de pointe et de fonctionnalités conviviales pour les développeurs.

DAMO-YOLO : Une méthode rapide et précise d’Alibaba

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444
GitHub : https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO est un modèle de détection d'objets développé par Alibaba qui se concentre sur l'obtention d'un équilibre supérieur entre la vitesse et la précision. Il introduit plusieurs nouvelles techniques pour améliorer les performances sur une large gamme de matériel, des appareils périphériques aux GPU cloud. L'architecture est le résultat d'une méthodologie "une fois pour toutes", où un super-réseau est entraîné, puis des sous-réseaux spécialisés sont dérivés à l'aide de la recherche d'architecture neuronale (NAS) pour s'adapter à différentes contraintes de calcul.

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO intègre plusieurs innovations clés :

  • Backbones générés par NAS : Au lieu d’un backbone conçu manuellement, DAMO-YOLO utilise des backbones découverts grâce à NAS, qui sont optimisés pour l’efficacité de l’extraction des caractéristiques.
  • Neck RepGFPN efficace : Il utilise un nouveau neck de réseau de pyramide de caractéristiques, RepGFPN, qui est conçu pour une fusion efficace des caractéristiques et est compatible avec les techniques de reparamétrisation afin d'augmenter la vitesse pendant l'inférence.
  • ZeroHead : Une tête de détection simplifiée et légère qui réduit la surcharge de calcul tout en maintenant des performances élevées.
  • Attribution de label AlignedOTA : Une stratégie d'attribution de label améliorée qui corrige les problèmes de désalignement entre les tâches de classification et de régression, ce qui permet d'obtenir des prédictions plus précises.
  • Amélioration par distillation : La distillation des connaissances est utilisée pour transférer les connaissances d'un modèle enseignant plus grand vers un modèle étudiant plus petit, améliorant encore la précision des modèles compacts.

Points forts

  • Vitesse GPU élevée : DAMO-YOLO est hautement optimisé pour une inférence rapide sur les GPU, ce qui le rend adapté au traitement vidéo en temps réel et à d’autres applications sensibles à la latence.
  • Modèles Scalables : Il offre une famille de modèles (Tiny, Small, Medium, Large) qui offrent un compromis clair entre vitesse et précision, permettant aux développeurs de choisir la meilleure solution pour leur matériel.
  • Techniques innovantes : L'utilisation de NAS, d'un neck efficace et d'un assignateur d'étiquettes avancé témoigne d'une approche moderne de la conception de détecteurs.

Faiblesses

  • Spécificité de la tâche : DAMO-YOLO est principalement conçu pour la détection d’objets et ne possède pas la polyvalence intégrée pour d’autres tâches telles que la segmentation d’instance ou l’estimation de pose que l’on trouve dans les cadres complets tels qu’Ultralytics.
  • Écosystème et facilité d'utilisation : Bien que puissant, son écosystème est moins mature que celui d'Ultralytics. Les utilisateurs peuvent trouver qu'il nécessite plus d'efforts pour la formation, le déploiement et l'intégration dans les pipelines de production.
  • Support communautaire : La communauté et les ressources disponibles peuvent être plus petites par rapport aux modèles plus largement adoptés comme ceux de la série YOLO.

En savoir plus sur DAMO-YOLO

YOLOv9 : Amélioration de la précision et de l'efficacité

Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2024-02-21
Arxiv : https://arxiv.org/abs/2402.13616
GitHub : https://github.com/WongKinYiu/yolov9
Documentation : https://docs.ultralytics.com/models/yolov9/

YOLOv9 représente une avancée significative dans la détection d'objets en temps réel, introduisant des concepts révolutionnaires pour remédier à la perte d'informations dans les réseaux neuronaux profonds. Ses principales innovations, Programmable Gradient Information (PGI) et Generalized Efficient Layer Aggregation Network (GELAN), lui permettent d'atteindre une précision supérieure et une efficacité des paramètres. Lorsqu'il est intégré à la structure Ultralytics, YOLOv9 combine ces performances de pointe avec une expérience utilisateur inégalée.

Architecture et principales fonctionnalités

La force de YOLOv9 réside dans ses nouveaux composants architecturaux :

  • Informations de gradient programmables (PGI) : Ce mécanisme aide à atténuer le problème du goulot d'étranglement de l'information en générant des gradients fiables grâce à une branche réversible auxiliaire, garantissant que les couches plus profondes reçoivent des informations d'entrée complètes pour des mises à jour précises.
  • Generalized Efficient Layer Aggregation Network (GELAN) : Une architecture de réseau avancée qui s'appuie sur les principes de CSPNet et ELAN. GELAN est conçu pour une utilisation optimale des paramètres et une efficacité computationnelle, ce qui le rend à la fois puissant et rapide.

Points forts

  • Précision à la pointe de la technologie : YOLOv9 établit une nouvelle norme de précision sur le jeu de données COCO, surpassant de nombreux modèles précédents à des coûts de calcul similaires ou inférieurs.
  • Efficacité supérieure : Comme le montre le tableau des performances, les modèles YOLOv9 atteignent souvent une plus grande précision avec moins de paramètres et de FLOPs par rapport à leurs concurrents, ce qui les rend idéaux pour un déploiement sur une gamme de matériel allant des appareils périphériques aux serveurs puissants.
  • Écosystème bien maintenu : Intégré à l'écosystème Ultralytics, YOLOv9 bénéficie d'une facilité d'utilisation via une API Python et une CLI simplifiées, d'une documentation exhaustive et d'un soutien actif de la communauté.
  • Efficacité de l'entraînement : L'implémentation Ultralytics garantit des processus d'entraînement efficaces avec des poids pré-entraînés facilement disponibles, des besoins en mémoire inférieurs et une intégration transparente avec des outils comme Ultralytics HUB pour l'entraînement sans code et le MLOps.
  • Polyvalence : Bien que l'article original se concentre sur la détection, l'architecture GELAN est très adaptable. L'écosystème Ultralytics étend ses capacités à d'autres tâches de vision, s'alignant sur la prise en charge multitâche que l'on retrouve dans des modèles comme YOLOv8.

Faiblesses

  • Nouveau modèle : En tant qu'architecture plus récente, le nombre de tutoriels proposés par la communauté et d'intégrations de tiers est toujours en croissance, bien que son inclusion dans la bibliothèque Ultralytics ait considérablement accéléré son adoption.
  • Exigences en matière de ressources : Les plus grandes variantes de YOLOv9, comme YOLOv9-E, nécessitent des ressources de calcul importantes pour l'entraînement, bien qu'elles offrent une précision de premier ordre pour leur taille.

En savoir plus sur YOLOv9

Analyse des performances : Précision et vitesse

Lors de la comparaison de DAMO-YOLO et YOLOv9, il est clair que les deux familles de modèles repoussent les limites de la détection d'objets en temps réel. Cependant, un examen plus attentif des mesures révèle l'efficacité supérieure de YOLOv9.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

D'après le tableau, nous pouvons tirer plusieurs conclusions :

  • Précision : Les modèles YOLOv9 atteignent systématiquement des scores mAP plus élevés. Par exemple, YOLOv9m surpasse DAMO-YOLOl avec un mAP de 51,4 contre 50,8 mAP. Le plus grand modèle, YOLOv9-E, atteint un impressionnant mAP de 55,6, établissant une nouvelle référence.
  • Efficacité : YOLOv9 démontre une efficacité remarquable en termes de paramètres et de calcul. YOLOv9m offre une meilleure précision que DAMO-YOLOl tout en utilisant moins de la moitié des paramètres (20,0M contre 42,1M) et moins de FLOPs (76,3B contre 97,3B). Cela fait de YOLOv9 un choix plus efficace pour atteindre des performances élevées.
  • Vitesse d'inférence : Sur un GPU T4, les vitesses d'inférence sont compétitives. Par exemple, DAMO-YOLOs (3,45 ms) et YOLOv9s (3,54 ms) sont très proches en termes de vitesse, mais YOLOv9s atteint un mAP plus élevé (46,8 contre 46,0).

Conclusion : Quel modèle devriez-vous choisir ?

DAMO-YOLO et YOLOv9 sont tous deux d'excellents détecteurs d'objets avec des atouts uniques. DAMO-YOLO offre une solution rapide et évolutive avec des techniques innovantes telles que NAS et un neck RepGFPN efficace, ce qui en fait un choix solide pour les applications nécessitant une inférence GPU à haute vitesse.

Cependant, pour la plupart des développeurs et des chercheurs, YOLOv9 est le choix recommandé, en particulier lorsqu'il est utilisé au sein de l'écosystème Ultralytics. Il offre non seulement une précision de pointe et une efficacité supérieure, mais aussi des avantages significatifs en termes de convivialité et de support. Le framework Ultralytics fait abstraction de la complexité, offrant un flux de travail rationalisé de la formation au déploiement. La combinaison de PGI et GELAN dans YOLOv9 fournit une architecture plus avancée et efficace, tandis que l'écosystème robuste d'Ultralytics vous assure d'avoir les outils, la documentation et le support communautaire nécessaires pour réussir.

Explorer d'autres modèles

Si vous souhaitez savoir comment DAMO-YOLO et YOLOv9 se comparent à d'autres modèles de pointe, assurez-vous de consulter ces autres comparaisons dans la documentation Ultralytics :



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires