Link to this sectionDAMO-YOLO vs YOLOv9#

Le paysage de la détection d'objets en temps réel continue d'évoluer à une vitesse fulgurante. Alors que les équipes d'ingénierie et les chercheurs s'efforcent d'atteindre l'équilibre parfait entre précision, vitesse d'inférence et efficacité computationnelle, deux architectures notables ont émergé de la communauté de recherche : DAMO-YOLO et YOLOv9. Les deux modèles introduisent des innovations architecturales significatives visant à repousser les limites de ce qui est possible en vision par ordinateur.

Ce guide technique détaillé fournit une analyse approfondie de ces deux modèles, en comparant leurs approches architecturales uniques, leurs méthodologies d'entraînement et leurs capacités de déploiement en conditions réelles. Nous explorerons également comment l'écosystème logiciel plus large joue un rôle crucial dans le développement moderne de l'IA, en soulignant les avantages de plateformes intégrées comme la Ultralytics Platform et la nouvelle génération de modèles comme YOLO26.

Link to this sectionRésumé exécutif : Choisir la bonne architecture#

Bien que les deux modèles représentent des jalons importants dans la recherche en deep learning, ils répondent à des philosophies de déploiement légèrement différentes.

DAMO-YOLO excelle dans les environnements où une recherche d'architecture neuronale (NAS) intensive peut être utilisée pour obtenir des profils de performance spécifiques, ce qui en fait une étude intéressante pour un déploiement en périphérie (edge) personnalisé. À l'inverse, YOLOv9 se concentre fortement sur la résolution des goulots d'étranglement d'information dans le deep learning, offrant une efficacité de paramètres exceptionnellement élevée.

Cependant, pour des déploiements prêts pour la production, les équipes d'ingénierie recommandent systématiquement d'exploiter l'écosystème unifié Ultralytics ecosystem. Pour les nouveaux projets, le dernier modèle YOLO26 offre le meilleur des deux mondes : une précision de pointe combinée à une conception native de bout en bout qui élimine le besoin d'un post-traitement complexe.

Pérennisez votre pipeline de vision par ordinateur

Bien que DAMO-YOLO et YOLOv9 soient des modèles académiques puissants, les déployer en production nécessite souvent une ingénierie personnalisée importante. L'utilisation de Ultralytics YOLO26 permet d'accéder à des performances de pointe avec une API simplifiée et facile à maintenir.

Link to this sectionSpécifications techniques et paternité#

Comprendre les origines et l'orientation du développement de ces modèles fournit un contexte essentiel sur leurs forces respectives.

Link to this sectionDAMO-YOLO#

Développé par des chercheurs d'Alibaba Group, DAMO-YOLO se concentre fortement sur la génération automatisée d'architectures et la fusion efficace des caractéristiques.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date de sortie : 23 novembre 2022
Article Arxiv : DAMO-YOLO Research Paper
GitHub officiel : tinyvision/DAMO-YOLO Repository
Documentation : DAMO-YOLO README

En savoir plus sur DAMO-YOLO

Link to this sectionYOLOv9#

Introduit comme une solution à la perte d'information dans les réseaux convolutifs profonds, YOLOv9 repousse les limites théoriques de la préservation du gradient pendant l'entraînement.

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica, Taïwan
Date de sortie : 21 février 2024
Article Arxiv : YOLOv9 Research Paper
GitHub officiel : WongKinYiu/yolov9 Repository
Documentation : YOLOv9 Ultralytics Docs

En savoir plus sur YOLOv9

Link to this sectionInnovations architecturales#

Link to this sectionDAMO-YOLO : Piloté par la recherche d'architecture neuronale#

DAMO-YOLO se distingue par ses composants hautement personnalisés et générés par machine. Son backbone est généré en utilisant la recherche d'architecture neuronale (NAS), visant spécifiquement une inférence à faible latence sur divers matériels.

L'architecture intègre un RepGFPN (Reparameterized Generalized Feature Pyramid Network) efficace pour la fusion de caractéristiques, ce qui améliore la détection d'objets multi-échelle sans augmenter excessivement la charge computationnelle. De plus, il utilise une conception ZeroHead pour simplifier la tête de détection et utilise AlignedOTA pour l'attribution des étiquettes, associé à un processus sophistiqué d'amélioration par distillation pendant l'entraînement. Bien que ces techniques produisent une inférence rapide, le processus de distillation multi-étapes nécessite souvent une VRAM importante et des temps d'entraînement prolongés.

Link to this sectionYOLOv9 : Résoudre le goulot d'étranglement de l'information#

YOLOv9 s'attaque à un problème fondamental des réseaux profonds : la perte graduelle d'informations des données d'entrée au fur et à mesure qu'elles traversent les couches successives.

Pour lutter contre cela, les auteurs ont introduit le Programmable Gradient Information (PGI), un cadre de supervision auxiliaire conçu pour conserver des détails cruciaux pour les couches profondes, générant des gradients hautement fiables pour les mises à jour des poids. Accompagnant le PGI, l'architecture GELAN (Generalized Efficient Layer Aggregation Network) optimise l'efficacité des paramètres en combinant les forces de CSPNet et ELAN, maximisant le flux d'informations tout en minimisant strictement les opérations en virgule flottante (FLOPs).

Link to this sectionAnalyse des performances et métriques#

Lors de l'évaluation des performances, les deux modèles démontrent une forte précision moyenne (mAP) sur des benchmarks standards comme COCO. YOLOv9 atteint une précision absolue plus élevée sur des tailles de modèles équivalentes, tirant parti de son architecture PGI pour maintenir une haute fidélité sur des jeux de données difficiles.

Modèle	taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97,3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20,0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Comme illustré ci-dessus, YOLOv9-E atteint la précision la plus élevée, tandis que les variantes plus petites de DAMO-YOLO et YOLOv9 maintiennent des vitesses d'inférence très compétitives via des TensorRT optimizations.

Link to this sectionMéthodologies d'entraînement et Écosystème#

Bien que l'architecture brute soit importante, la convivialité et l'efficacité de l'entraînement dictées par l'écosystème d'un modèle sont primordiales pour les applications réelles.

La dépendance de DAMO-YOLO à la distillation de connaissances nécessite souvent l'entraînement d'un modèle "enseignant" encombrant avant de transférer les connaissances vers le modèle "étudiant" cible. Cette approche de recherche traditionnelle augmente considérablement les besoins en mémoire et les temps de cycle d'entraînement. De même, le dépôt original de YOLOv9 nécessite de naviguer dans des fichiers de configuration complexes qui peuvent ralentir le développement agile.

En revanche, l'intégration de modèles dans la Ultralytics Platform transforme complètement l'expérience du développeur. Le package Python Ultralytics abstrait le code standard, permettant aux équipes de gérer l'augmentation des données, le réglage des hyperparamètres et l'exportation des modèles sans effort.

Link to this sectionApplications en conditions réelles et cas d'usage#

Différentes architectures excellent naturellement dans des secteurs spécifiques en fonction de leurs besoins en ressources et de leurs profils de précision.

DAMO-YOLO dans l'Edge AI : En raison de ses backbones optimisés par NAS, DAMO-YOLO est fréquemment exploré dans les systèmes embarqués où la re-paramétrisation spécifique au matériel est une nécessité stricte, comme le déploiement sur ASIC personnalisé dans le contrôle qualité de fabrication de base.
YOLOv9 dans l'analytique de précision : Avec son efficacité élevée en termes de paramètres et sa rétention de gradient pilotée par PGI, YOLOv9 est excellent pour les scénarios de détection d'objets denses, tels que l'analyse d'imagerie aérienne ou le suivi de petits objets dans des environnements de vente au détail bondés.

Link to this sectionCas d'utilisation et recommandations#

Choisir entre DAMO-YOLO et YOLOv9 dépend de tes besoins spécifiques de projet, des contraintes de déploiement et des préférences d'écosystème.

Link to this sectionQuand choisir DAMO-YOLO#

DAMO-YOLO est un choix solide pour :

Analytique vidéo à haut débit : Traitement de flux vidéo FPS élevés sur une infrastructure GPU NVIDIA fixe où le débit par lot est la mesure principale.
Lignes de fabrication industrielle : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, comme l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Link to this sectionQuand choisir YOLOv9#

YOLOv9 est recommandé pour :

Recherche sur le goulot d'étranglement de l'information : Projets académiques étudiant les architectures Programmable Gradient Information (PGI) et Generalized Efficient Layer Aggregation Network (GELAN).
Études sur l'optimisation du flux de gradient : Recherche axée sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
Benchmarks de détection haute précision : Scénarios où les performances solides de YOLOv9 sur le benchmark COCO sont nécessaires comme point de référence pour les comparaisons architecturales.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'avantage Ultralytics : Passer à YOLO26#

Pour les utilisateurs comparant des architectures héritées, la transition vers l'écosystème moderne Ultralytics—spécifiquement les derniers modèles YOLO26—offre un avantage inégalé.

YOLO26 modifie fondamentalement le paysage du déploiement grâce à sa conception de bout en bout sans NMS (End-to-End NMS-Free Design). En éliminant complètement le post-traitement de la suppression non-maximale (NMS), il offre des architectures de déploiement plus rapides et considérablement plus simples. Couplé à la suppression de la distribution Focal Loss (DFL), YOLO26 offre une compatibilité supérieure pour les appareils de périphérie et à faible consommation.

De plus, YOLO26 intègre l'optimiseur révolutionnaire MuSGD Optimizer, un hybride de descente de gradient stochastique et d'optimisations Muon inspiré par les innovations d'entraînement LLM. Cela produit une convergence d'entraînement hautement stable tout en maintenant une utilisation de mémoire remarquablement faible par rapport aux alternatives basées sur les Transformers.

Entraînement simplifié avec YOLO26

Grâce à l'API intuitive d'Ultralytics, tu peux entraîner un modèle YOLO26 de pointe avec un suivi d'expérience intégré en quelques lignes de Python seulement.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

Que tu aies besoin d'une segmentation d'instance avancée, d'une estimation de pose très précise ou d'une détection de boîte englobante standard, la polyvalence du framework Ultralytics garantit que ton équipe passe moins de temps à configurer des environnements de deep learning et plus de temps à déployer des solutions d'IA robustes. Avec des améliorations de tâches spécialisées comme ProgLoss + STAL pour une reconnaissance améliorée des petits objets, YOLO26 s'impose comme le choix privilégié pour la prochaine génération d'applications de vision.

Contributeurs

GLglenn-jocher¹³

Créé 27 janv. 2025Mis à jour il y a 3 semaines