YOLOv9 YOLO: comparaison technique des modèles de détection d'objets

L'évolution rapide de la vision par ordinateur a donné naissance à toute une série d'architectures puissantes adaptées à diverses contraintes de déploiement et exigences de précision. Deux entrées notables dans ce domaine sont YOLOv9, réputé pour sa gestion robuste des goulots d'étranglement informationnels, et YOLO, qui met fortement l'accent sur la recherche d'architecture neuronale (NAS) et les pyramides de caractéristiques efficaces.

Ce guide propose une comparaison technique approfondie entre YOLOv9 YOLO, en mettant en évidence leurs différences architecturales, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux. Nous explorerons également comment Ultralytics offre un parcours fluide du développement à la production, et pourquoi les modèles modernes tels que YOLO26 sont devenus la norme recommandée pour les nouveaux projets.

Plongée architecturale en profondeur

Comprendre les mécanismes fondamentaux qui régissent chaque modèle permet de comprendre pourquoi leurs performances varient selon les différents indicateurs.

YOLOv9 : Informations de gradient programmables

YOLOv9 conçu pour remédier directement à la perte d'informations qui se produit lorsque les données transitent par des réseaux neuronaux profonds.

Auteurs: Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation: Institute of Information Science, Academia Sinica, Taïwan
Date: 21 février 2024
Liens:Arxiv, GitHub, Docs

En savoir plus sur YOLOv9

YOLOv9 les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN). Les PGI garantissent la conservation des informations spatiales et sémantiques essentielles pendant le processus de transmission, empêchant ainsi la dégradation des gradients utilisés pour les mises à jour des poids. Le GELAN complète cette fonctionnalité en optimisant l'efficacité des paramètres, ce qui permet au modèle d'atteindre une précision moyenne (mAP) de pointe avec moins de FLOP que de nombreux CNN conventionnels.

DAMO-YOLO : Efficacité axée sur la NAS

Développé par Alibaba Group, DAMO-YOLO adopte une approche différente, tirant parti de la recherche architecturale automatisée pour trouver l'équilibre optimal entre vitesse et précision.

Auteurs: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation: Alibaba Group
Date: 23 novembre 2022
Liens:Arxiv, GitHub

En savoir plus sur DAMO-YOLO

DAMO-YOLO s'appuie sur un backbone MAE-NAS (Masked Autoencoders for Neural Architecture Search) pour générer automatiquement des structures de réseau efficaces. Il utilise un RepGFPN (Reparameterized Generalized Feature Pyramid Network) pour une fusion robuste des caractéristiques et une conception "ZeroHead" pour minimiser la charge de calcul de la tête de détection. De plus, il intègre AlignedOTA pour l'assignation des étiquettes et la distillation de connaissances pour améliorer les performances de ses variantes plus petites.

Le rôle du NAS dans la vision par ordinateur

La recherche d'architecture neuronale (NAS) automatise la conception de réseaux neuronaux artificiels. Bien qu'elle permette de produire des modèles très efficaces commeYOLO, elle nécessite souvent d'énormes ressources informatiques pour rechercher l'espace architectural, contrairement à la philosophie de conception plus déterministe de modèles comme YOLOv9.

Comparaison des performances et des indicateurs

Lors du choix d'un modèle de détection d'objets, il est essentiel de trouver le juste équilibre entre précision, vitesse et empreinte informatique.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Analyse

Précision vs. Paramètres : YOLOv9 démontre généralement un rapport paramètres-précision supérieur. Par exemple, YOLOv9c atteint 53,0 % de mAP avec 25,3 millions de paramètres, tandis que DAMO-YOLOl atteint 50,8 % de mAP mais nécessite significativement plus de paramètres (42,1 millions).
Vitesse d'Inférence : L'architecture de DAMO-YOLO offre des vitesses d'inférence TensorRT compétitives sur les GPU T4, devançant légèrement YOLOv9 dans les niveaux intermédiaires. Cependant, l'efficacité de YOLOv9 en termes de FLOPs et de nombre de paramètres se traduit par une efficacité exceptionnelle de la mémoire GPU.
Exigences de mémoire : Les modèles Ultralytics YOLO, y compris YOLOv9, présentent généralement une consommation de mémoire plus faible pendant l'entraînement et l'inférence par rapport aux modèles complexes générés par NAS ou aux architectures de transformeurs lourdes, ce qui les rend très accessibles pour le déploiement sur du matériel périphérique contraint.

L'avantage de l'écosystème Ultralytics

Si les mesures théoriques sont importantes, la mise en œuvre pratique détermine largement la réussite d'un projet. C'est là que la Ultralytics et son écosystème logiciel complet surpassent les référentiels autonomes tels queYOLO.

Facilité d'utilisation et efficacité de la formation

La formation d'un YOLOv9 personnalisé nécessite un minimum de code standard. Python Ultralytics résume des processus complexes tels que l'augmentation des données, la formation distribuée et l'optimisation matérielle.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

Inversement, l'utilisation de DAMO-YOLO nécessite souvent de naviguer dans des fichiers de configuration rigides et des chaînes de dépendances complexes spécifiques à son pipeline d'entraînement unique, ce qui entraîne une courbe d'apprentissage plus raide.

Polyvalence dans toutes les tâches

Une caractéristique des modèles Ultralytics est leur polyvalence inhérente. Au-delà de la détection de boîtes englobantes standard, le framework Ultralytics prend en charge de manière transparente des tâches telles que la segmentation d'instances, l'estimation de pose, la classification d'images et la détection de boîtes englobantes orientées (OBB). DAMO-YOLO est strictement optimisé pour la détection d'objets 2D, nécessitant une réingénierie significative pour s'adapter à d'autres paradigmes visuels.

Exportation vers des périphériques Edge

Ultralytics le pipeline de déploiement en proposant l'exportation de modèles en un clic vers des formats tels que TensorRT, OpenVINOet CoreML, garantissant ainsi des performances optimales quel que soit votre matériel cible.

Cas d'utilisation et recommandations

Le choix entre YOLOv9 et DAMO-YOLO dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir YOLOv9

YOLOv9 un excellent choix pour :

Recherche sur les Goulots d'Étranglement de l'Information : Projets académiques étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.

Quand choisir DAMO-YOLO

DAMO-YOLO est recommandé pour :

Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

L'avenir : passage à YOLO26

Si YOLOv9 YOLO des étapes historiques importantes, la vision par ordinateur moderne s'est orientée vers des architectures natives de bout en bout. Pour tout nouveau développement, YOLO26 est la norme recommandée.

Sorti en 2026, YOLO26 s'appuie sur les succès de ses prédécesseurs et offre un bond en avant tant en termes de précision que de simplicité de déploiement.

Principales innovations de YOLO26

Conception de bout en bout sans NMS : YOLO26 élimine entièrement le post-traitement de suppression non maximale (NMS). Cela crée un pipeline de déploiement rationalisé et nativement de bout en bout, une avancée majeure pionnière dans YOLOv10.
Suppression du DFL : La Distribution Focal Loss a été supprimée pour simplifier l'exportation et améliorer la compatibilité avec les appareils périphériques/à faible consommation.
Inférence CPU jusqu'à 43 % plus rapide : En supprimant le post-traitement complexe et en optimisant les convolutions principales, YOLO26 est particulièrement adapté aux scénarios d'edge computing dépourvus de GPU dédiés.
Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement des LLM, YOLO26 utilise un hybride de SGD et de Muon (MuSGD) pour garantir des exécutions d'entraînement plus stables et des temps de convergence nettement plus rapides.
ProgLoss + STAL: Ces fonctions de perte avancées offrent des améliorations remarquables dans la reconnaissance des petits objets, rendant YOLO26 idéal pour l'imagerie aérienne à haute altitude et les dispositifs IoT.

Si vous effectuez actuellement des recherches sur YOLO11 ou YOLOv8 pour votre prochain projet, la mise à niveau vers YOLO26 vous garantit d'utiliser le framework d'IA visuelle le plus optimisé et le plus avancé disponible à ce jour.

Résumé

Le choix du bon modèle dépend de vos contraintes opérationnelles spécifiques :

DAMO-YOLO offre un aperçu fascinant de l'optimisation basée sur la NAS, offrant des vitesses compétitives pour des profils matériels très spécifiques où son architecture RepGFPN excelle.
YOLOv9 est un excellent choix pour les chercheurs qui se concentrent sur la rétention des détails visuels fins, en tirant parti de son architecture PGI pour prévenir la perte d'informations dans les réseaux profonds.
Ultralytics YOLO26 s'impose comme le choix définitif pour les applications d'entreprise et de recherche modernes. Sa facilité d'utilisation inégalée, son architecture sans NMS et ses optimisations d'entraînement MuSGD de pointe en font le modèle le plus fiable, précis et facilement déployable dans le paysage de la vision par ordinateur.