DAMO-YOLO vs. YOLOv9 : Une comparaison technique complète des architectures modernes de détection d'objets.

Le domaine de la détection d'objets en temps réel continue d'évoluer à un rythme effréné. Alors que les équipes d'ingénieurs et les chercheurs s'efforcent de trouver l'équilibre parfait entre précision, vitesse d'inférence et efficacité computationnelle, deux architectures remarquables ont émergé de la communauté scientifique : YOLO et YOLOv9. Ces deux modèles introduisent des innovations architecturales significatives visant à repousser les limites du possible en matière de vision par ordinateur.

Ce guide technique détaillé fournit une analyse approfondie de ces deux modèles, en comparant leurs approches architecturales uniques, leurs méthodologies de formation et leurs capacités de déploiement dans le monde réel. Nous explorerons également comment l'écosystème logiciel au sens large joue un rôle crucial dans le développement moderne de l'IA, en soulignant les avantages des plateformes intégrées telles que la Ultralytics et les modèles de nouvelle génération tels que YOLO26.

Résumé : Choisir la bonne architecture

Bien que ces deux modèles constituent des étapes importantes dans la recherche sur l'apprentissage profond, ils répondent à des philosophies de déploiement légèrement différentes.

DAMO-YOLO excelle dans les environnements où une recherche d'architecture neuronale (NAS) intensive peut être utilisée pour extraire des profils de performance spécifiques, ce qui en fait une étude intéressante pour le déploiement personnalisé en périphérie. Inversement, YOLOv9 se concentre fortement sur la résolution des goulots d'étranglement d'information en apprentissage profond, offrant une efficacité paramétrique exceptionnellement élevée.

Cependant, pour les déploiements prêts à la production, les équipes d'ingénieurs recommandent systématiquement de tirer parti de Ultralytics unifié Ultralytics . Pour les nouveaux projets, la dernière version de modèle YOLO26 offre le meilleur des deux mondes : une précision de pointe combinée à une conception native de bout en bout qui élimine le besoin d'un post-traitement complexe.

Assurez la pérennité de votre pipeline de vision par ordinateur

Bien queYOLO YOLOv9 des modèles académiques puissants, leur déploiement en production nécessite souvent une ingénierie personnalisée importante. L'utilisation Ultralytics permet d'accéder à des performances de pointe grâce à une API simplifiée et facile à maintenir.

Spécifications techniques et paternité

Comprendre les origines et l'orientation de ces modèles en matière de développement fournit un contexte essentiel pour appréhender leurs atouts respectifs.

DAMO-YOLO

Développé par des chercheurs du groupe Alibaba, DAMO-YOLO se concentre fortement sur la génération d'architecture automatisée et la fusion efficace des caractéristiques.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date de sortie : 23 novembre 2022
Article Arxiv :Article de recherche DAMO-YOLO
GitHub officiel :Dépôt tinyvision/DAMO-YOLO
Documentation:README de DAMO-YOLO

En savoir plus sur DAMO-YOLO

YOLOv9

Présenté comme une solution à la perte d'informations dans les réseaux convolutifs profonds, YOLOv9 les limites théoriques de la préservation des gradients pendant l'entraînement.

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation :Institute of Information Science, Academia Sinica, Taïwan
Date de sortie : 21 février 2024
Article Arxiv :Article de recherche YOLOv9
GitHub officiel :Dépôt WongKinYiu/yolov9
Documentation:Documentation YOLOv9 Ultralytics

En savoir plus sur YOLOv9

Innovations architecturales

DAMO-YOLO: Piloté par la recherche d'architecture neuronale

DAMO-YOLO se distingue par des composants fortement personnalisés et générés par machine. Son backbone est généré à l'aide de la recherche d'architecture neuronale (NAS), ciblant spécifiquement l'inférence à faible latence sur divers matériels.

L'architecture comprend un réseau RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace pour la fusion des caractéristiques, qui améliore la détection d'objets à plusieurs échelles sans augmenter excessivement la charge de calcul. De plus, elle utilise une conception ZeroHead pour simplifier la tête de détection et utilise AlignedOTA pour l'attribution des étiquettes, associée à un processus sophistiqué d'amélioration de la distillation pendant l'entraînement. Si ces techniques permettent une inférence rapide, le processus de distillation en plusieurs étapes nécessite souvent une mémoire VRAM importante et des temps d'entraînement prolongés.

YOLOv9 : Résoudre le goulot d’étranglement de l’information

YOLOv9 un problème fondamental des réseaux profonds : la perte progressive d'informations contenues dans les données d'entrée à mesure qu'elles traversent les couches successives.

Pour lutter contre ce problème, les auteurs ont introduit le Programmable Gradient Information (PGI), un cadre de supervision auxiliaire conçu pour conserver les détails essentiels des couches profondes, générant ainsi des gradients hautement fiables pour les mises à jour des poids. Le PGI s'accompagne de l'architecture GELAN (Generalized Efficient Layer Aggregation Network). GELAN optimise l'efficacité des paramètres en combinant les points forts de CSPNet et ELAN, maximisant ainsi le flux d'informations tout en minimisant strictement les opérations en virgule flottante (FLOP).

Analyse et mesures des performances

Lors de l'évaluation des performances, les deux modèles affichent une précision moyenne (mAP) élevée sur des benchmarks standard tels que COCO. YOLOv9 une précision absolue supérieure pour des modèles de taille équivalente, en tirant parti de son architecture PGI pour maintenir une haute fidélité sur des ensembles de données difficiles.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Comme indiqué ci-dessus, YOLOv9-E atteint la plus haute précision, tandis que les variantes plus petites DAMO-YOLO et YOLOv9 maintiennent des vitesses d'inférence très compétitives grâce aux optimisations TensorRT.

Méthodologies de formation et écosystème

Si l'architecture brute est importante, la facilité d'utilisation et l'efficacité de la formation dictées par l'écosystème d'un modèle sont primordiales pour une application dans le monde réel.

La dépendance de DAMO-YOLO à la distillation de connaissances nécessite souvent l'entraînement d'un modèle "enseignant" fastidieux avant de transférer les connaissances au modèle "étudiant" cible. Cette approche de recherche traditionnelle augmente considérablement les exigences en mémoire et les temps de cycle d'entraînement. De même, le dépôt original de YOLOv9 nécessite de naviguer dans des fichiers de configuration complexes qui peuvent ralentir le développement agile.

En revanche, l'intégration de modèles dans la Plateforme Ultralytics transforme complètement l'expérience du développeur. Le package python Ultralytics abstrait le code passe-partout, permettant aux équipes de gérer sans effort l'augmentation des données, l'ajustement des hyperparamètres et l'exportation des modèles.

Applications et cas d'utilisation réels

Différentes architectures excellent naturellement dans des industries spécifiques en fonction de leurs exigences en ressources et de leurs profils de précision.

DAMO-YOLO en IA de périphérie : Grâce à ses backbones optimisés par NAS, DAMO-YOLO est fréquemment exploré dans les systèmes embarqués où la re-paramétrisation spécifique au matériel est une nécessité absolue, comme le déploiement d'ASIC personnalisés dans le contrôle qualité de fabrication de base.
YOLOv9 en analyse de précision : Grâce à sa grande efficacité paramétrique et à sa rétention de gradient pilotée par PGI, YOLOv9 est excellent pour les scénarios de détection d'objets denses, tels que l'analyse d'images aériennes ou le suivi de petits objets dans des environnements de vente au détail très fréquentés.

Cas d'utilisation et recommandations

Le choix entre DAMO-YOLO et YOLOv9 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir DAMO-YOLO

DAMO-YOLO est un excellent choix pour :

Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir YOLOv9

YOLOv9 recommandé pour :

Recherche sur les Goulots d'Étranglement de l'Information : Projets académiques étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Ultralytics : passer à YOLO26

Pour les utilisateurs qui comparent les architectures existantes, la transition vers Ultralytics moderne Ultralytics , en particulier les derniers modèles YOLO26, offre un avantage inégalé.

YOLO26 modifie fondamentalement le paysage du déploiement grâce à sa conception NMS de bout en bout. En éliminant complètement le post-traitementNMS(Non-Maximum Suppression), il offre des architectures de déploiement plus rapides et considérablement simplifiées. Associé à la suppression de la perte focale de distribution (DFL), YOLO26 offre une compatibilité supérieure pour les appareils périphériques et à faible consommation d'énergie.

De plus, YOLO26 intègre l'optimiseur révolutionnaire MuSGD, un hybride des optimisations Stochastic Gradient Descent et Muon inspiré des innovations en matière de formation LLM. Cela permet d'obtenir une convergence de formation très stable tout en conservant une utilisation de mémoire remarquablement faible par rapport aux alternatives lourdes en transformateurs.

Formation simplifiée avec YOLO26

Grâce à Ultralytics intuitive Ultralytics , vous pouvez entraîner un modèle YOLO26 de pointe avec suivi d'expérimentation intégré en quelques lignes de Python seulement.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Que vous ayez besoin d'une segmentation avancée des instances, d'une estimation très précise des poses ou d'une détection standard des cadres englobants, la polyvalence du Ultralytics permet à votre équipe de passer moins de temps à configurer des environnements d'apprentissage profond et plus de temps à déployer des solutions d'IA robustes. Grâce à des améliorations spécialisées telles que ProgLoss + STAL pour une meilleure reconnaissance des petits objets, YOLO26 s'impose comme le choix idéal pour la prochaine génération d'applications de vision.