Passer au contenu

YOLOv9 vs. DAMO-YOLO : une comparaison technique

Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre le besoin de précision, de vitesse d'inférence et d'efficacité de calcul. Cette page offre une comparaison technique détaillée entre deux modèles puissants : YOLOv9, connu pour ses innovations architecturales, et DAMO-YOLO, reconnu pour sa vitesse. Nous explorerons leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à sélectionner le meilleur modèle pour vos projets de vision par ordinateur.

YOLOv9 : Apprentissage avancé avec l'information de gradient programmable

YOLOv9 représente un bond en avant significatif dans la détection d'objets, en s'attaquant aux défis fondamentaux de la perte d'informations dans les réseaux neuronaux profonds. Son intégration dans l'écosystème Ultralytics le rend non seulement puissant, mais aussi exceptionnellement accessible.

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2024-02-21
Arxiv : https://arxiv.org/abs/2402.13616
GitHub : https://github.com/WongKinYiu/yolov9
Documentation : https://docs.ultralytics.com/models/yolov9/

Architecture et principales fonctionnalités

YOLOv9 introduit deux concepts révolutionnaires : l'Information de Gradient Programmable (PGI) et le Réseau d'Agrégation de Couches Efficace Généralisé (GELAN). PGI est conçu pour préserver les informations d'entrée complètes pour la fonction de perte, atténuant ainsi le problème de goulot d'étranglement de l'information qui dégrade souvent les performances des réseaux profonds. GELAN est une nouvelle architecture de réseau très efficace qui optimise l'utilisation des paramètres et le coût computationnel.

Lorsqu'elle est implémentée dans le framework Ultralytics, l'architecture avancée de YOLOv9 est combinée à une suite de fonctionnalités conçues pour les développeurs :

  • Facilité d'utilisation : Une expérience utilisateur simplifiée avec une API Python et une CLI simples, soutenue par une documentation exhaustive.
  • Écosystème bien maintenu : Bénéficie d'un développement actif, d'un fort soutien de la communauté, de mises à jour fréquentes et d'une intégration avec des outils tels que Ultralytics HUB pour l'entraînement et le déploiement sans code.
  • Efficacité de l'entraînement : Offre des processus d'entraînement efficaces avec des poids pré-entraînés facilement disponibles et nécessite généralement moins de mémoire que de nombreux modèles concurrents.
  • Polyvalence : Bien que l'article original se concentre sur la détection d'objets, le référentiel laisse entrevoir des capacités pour la segmentation d'instance et la segmentation panoptique, s'alignant sur la nature multitâche des modèles Ultralytics.

Points forts

  • Précision à la pointe de la technologie : Atteint des scores mAP de premier plan sur le jeu de données COCO, surpassant souvent d'autres modèles à des échelles similaires.
  • Efficacité supérieure des paramètres : L’architecture GELAN permet à YOLOv9 d’offrir une haute précision avec beaucoup moins de paramètres et de FLOPs par rapport à de nombreux concurrents.
  • Préservation de l'information : PGI s'attaque efficacement au problème de la perte d'informations, permettant un entraînement plus précis de modèles plus profonds et plus complexes.
  • Robuste et pris en charge : L’intégration dans l’écosystème Ultralytics assure la fiabilité, l’amélioration continue et l’accès à une multitude de ressources.

Faiblesses

  • Modèle plus récent : En tant que version récente, le volume d'exemples de déploiement proposés par la communauté peut encore être en croissance, bien que son adoption soit rapidement accélérée par le framework Ultralytics.
  • Besoins en ressources pour les grands modèles : La plus grande variante, YOLOv9-E, bien que très précise, nécessite des ressources de calcul importantes pour l'entraînement.

En savoir plus sur YOLOv9

DAMO-YOLO est un modèle de détection d'objets rapide et précis développé par Alibaba Group. Il exploite plusieurs techniques modernes pour atteindre un excellent équilibre entre la vitesse et la performance, en particulier sur le matériel GPU.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444
GitHub : https://github.com/tinyvision/DAMO-YOLO

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO est le résultat d’une combinaison de techniques avancées :

  • Neural Architecture Search (NAS) : Utilise NAS pour générer un réseau de colonne vertébrale efficace (TinyNAS).
  • Conception efficace du neck : Utilise un RepGFPN (Generalized Feature Pyramid Network) efficace pour la fusion de caractéristiques.
  • ZeroHead : Une tête de détection simplifiée et légère sur le plan computationnel.
  • AlignedOTA : Une stratégie d'attribution de labels améliorée pour un entraînement plus efficace.
  • Distillation : Utilise la distillation des connaissances pour améliorer les performances des modèles plus petits.

Points forts

  • Vitesse d’inférence élevée : DAMO-YOLO est hautement optimisé pour une inférence rapide sur les GPU, ce qui en fait un candidat idéal pour les scénarios d’inférence en temps réel.
  • Performance élevée : Offre un compromis vitesse-précision compétitif, en particulier pour ses variantes plus petites.
  • Techniques innovantes : Intègre des méthodes modernes telles que NAS et l'attribution avancée d'étiquettes pour repousser les limites de la performance.
  • Sans ancres : En tant que détecteur sans ancres, il simplifie le pipeline de détection en supprimant le besoin de régler les boîtes d’ancrage.

Faiblesses

  • Spécificité de la tâche : Principalement conçu pour la détection d’objets, ne possédant pas la polyvalence intégrée pour d’autres tâches telles que la segmentation, l’estimation de pose ou la classification que l’on trouve dans les modèles Ultralytics.
  • Écosystème et support : En tant que projet axé sur la recherche, il ne possède pas l'écosystème complet, la documentation exhaustive et le soutien communautaire actif qui caractérisent les modèles Ultralytics. Cela peut rendre l'intégration et le dépannage plus difficiles.
  • Nombre de paramètres plus élevé : Comparés à YOLOv9, les modèles DAMO-YOLO ont souvent plus de paramètres et de FLOP pour atteindre des niveaux de précision similaires ou inférieurs.

En savoir plus sur DAMO-YOLO

Analyse des performances : YOLOv9 vs. DAMO-YOLO

Lorsqu'on compare les performances, YOLOv9 démontre un avantage clair en termes de précision et d'efficacité des paramètres. Le plus grand modèle, YOLOv9-E, établit une nouvelle référence de pointe avec 55,6 % de mAP sur COCO. Pour toutes les tailles de modèle, YOLOv9 utilise systématiquement moins de paramètres et, dans de nombreux cas, moins de FLOPs que ses homologues DAMO-YOLO pour atteindre une plus grande précision.

Bien que les modèles DAMO-YOLO présentent des vitesses d'inférence très rapides sur les GPU NVIDIA T4, YOLOv9 reste très compétitif, surtout si l'on considère sa précision et son efficacité supérieures. Par exemple, YOLOv9-C est légèrement plus rapide que DAMO-YOLO-L tout en étant significativement plus précis (53,0 contre 50,8 mAP) et en utilisant beaucoup moins de paramètres (25,3M contre 42,1M).

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t 640 38.3 - 2.3 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Cas d'utilisation idéaux

YOLOv9

YOLOv9 est le choix idéal pour les applications où la précision et l’efficacité sont primordiales. Sa capacité à fournir des résultats de pointe avec moins de paramètres le rend parfait pour :

  • Systèmes de haute précision : Applications dans la conduite autonome, l'analyse d’images médicales et le contrôle qualité industriel.
  • Déploiement avec ressources limitées : Les variantes YOLOv9 plus petites sont excellentes pour les appareils d'IA en périphérie où les ressources de calcul sont limitées, mais où des performances élevées sont toujours requises.
  • Solutions multi-tâches : Les projets qui peuvent s'étendre pour inclure la segmentation ou d'autres tâches de vision bénéficient de la base polyvalente fournie par l'écosystème Ultralytics.
  • Recherche et développement : Son architecture innovante fournit une base solide aux chercheurs qui explorent de nouvelles frontières dans le domaine de l'apprentissage profond.

DAMO-YOLO

DAMO-YOLO excelle dans les scénarios où la maximisation du débit GPU est l'objectif principal et où l'application est strictement axée sur la détection d'objets.

  • Analyse vidéo à haut débit : Services basés sur le cloud qui traitent simultanément un grand nombre de flux vidéo.
  • Applications GPU en temps réel : Systèmes où la vitesse d'inférence brute sur un GPU est la mesure la plus critique, et où de légers compromis en matière de précision sont acceptables.

Bien que DAMO-YOLO soit un détecteur d'objets formidable avec des vitesses GPU impressionnantes, Ultralytics YOLOv9 s'impose comme le choix supérieur et plus pratique pour la grande majorité des développeurs et des chercheurs.

YOLOv9 atteint non seulement une plus grande précision, mais le fait avec une plus grande efficacité des paramètres. Cela se traduit par des modèles plus petits, moins coûteux en termes de calcul et plus faciles à déployer. Le véritable facteur de différenciation, cependant, est l’écosystème Ultralytics. En choisissant YOLOv9, vous avez accès à une plateforme entièrement intégrée et bien entretenue qui simplifie chaque étape du cycle de vie MLOps, de l’annotation et de la formation des données au déploiement et à la surveillance. La combinaison de performances de premier ordre, de facilité d’utilisation, de polyvalence multitâche et d’un support robuste fait de YOLOv9 la solution la plus efficace et la plus fiable pour la création d’applications de vision par ordinateur avancées.

Explorer d'autres modèles

Si vous souhaitez savoir comment DAMO-YOLO se compare à d'autres modèles de pointe, consultez ces autres comparaisons dans notre documentation :



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires