Passer au contenu

YOLOv9 YOLO: avancées dans la détection d'objets en temps réel

L'évolution de la détection d'objets en temps réel a été marquée par une recherche constante de l'équilibre optimal entre précision et latence. Dans cette comparaison détaillée, nous explorons deux architectures importantes : YOLOv9, connue pour ses informations de gradient programmables (PGI) et son réseau d'agrégation de couches généralisé et efficace (GELAN), et YOLO, une famille de modèles optimisés grâce à la recherche d'architecture neuronale (NAS) et aux techniques de rep-paramétrisation.

Nous présentons également la dernière génération, YOLO26, qui repousse encore plus loin ces limites grâce à une conception NMS de bout en bout et à une optimisation pour les appareils périphériques.

Indicateurs de performance comparatifs

Le tableau suivant présente une comparaison directe des principaux indicateurs de performance sur l'ensemble de données COCO . YOLOv9 une efficacité supérieure en termes de paramètres et souvent une précision plus élevée pour des modèles de taille comparable.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOv9 : Informations de gradient programmables

YOLOv9 représente une avancée significative dans la conception des architectures d'apprentissage profond, en résolvant le problème du goulot d'étranglement inhérent aux réseaux profonds.

Principales innovations architecturales

  1. Informations de gradient programmables (PGI) : à mesure que les réseaux deviennent plus profonds, les informations critiques sur les caractéristiques sont souvent perdues pendant le processus d'alimentation en avant. Les PGI introduisent une branche réversible auxiliaire qui fournit des informations de gradient fiables à la branche principale pendant l'entraînement. Cela garantit que le réseau conserve les caractéristiques essentielles à une détection précise, résolvant ainsi efficacement le problème du « goulot d'étranglement de l'information » sans augmenter le coût de l'inférence.
  2. GELAN Backbone : le réseau d'agrégation de couches généralisé et efficace (GELAN) combine les meilleurs aspects de CSPNet et ELAN. Il permet des choix flexibles de blocs de calcul (tels que ResBlocks ou CSP blocks) tout en maximisant l'utilisation des paramètres. Il en résulte des modèles légers mais incroyablement puissants.

Ces innovations rendent YOLOv9 efficace pour la détection d'objets à usage général et particulièrement apte à conserver les détails fins dans des scènes complexes.

En savoir plus sur YOLOv9

YOLO: Optimisation de la recherche d'architecture neuronale

YOLO se concentre sur la découverte automatique d'architectures efficaces et l'utilisation de techniques de distillation pour améliorer les performances.

Points clés de l'architecture

YOLO une technologie appelée Neural Architecture Search (NAS) pour construire son backbone, MAE-NAS. Cette approche vise à trouver la structure de réseau optimale dans le cadre de contraintes de latence spécifiques. De plus, elle utilise un Efficient RepGFPN (Re-parameterized Generalized Feature Pyramid Network) pour fusionner des caractéristiques à différentes échelles. Le modèle s'appuie également fortement sur « ZeroHead » et l'amélioration par distillation, où un modèle enseignant plus grand guide la formation du modèle élève plus petit afin d'améliorer sa précision.

Bien qu'innovante, la dépendance à l'égard du NAS et des pipelines de distillation complexes peut rendre la reproduction des résultats ou la modification de l'architecture pour des tâches personnalisées plus difficile par rapport à la conception modulaire de YOLOv9.

Ultralytics : écosystème et facilité d'utilisation

Si les deux architectures offrent d'importantes contributions théoriques, l'expérience pratique pour les développeurs diffère considérablement. Ultralytics , notamment YOLOv9 YOLO26, offrent une expérience fluide et sans friction.

Flux de travail simplifié

La formation d'unYOLO implique souvent des fichiers de configuration complexes et des configurations d'environnement spécifiques (comme PaddlePaddle CUDA spécifiques). En revanche,Python Ultralytics standardise le flux de travail. Vous pouvez charger, former et déployer des modèles de pointe en quelques minutes.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Polyvalence et prise en charge des tâches

Ultralytics ne se limitent pas aux boîtes englobantes. Le framework prend en charge de manière native la segmentation d'instances, l'estimation de pose et la détection de boîtes englobantes orientées (OBB). Cette polyvalence permet aux équipes de passer d'une tâche à l'autre sans avoir à apprendre de nouvelles bibliothèques. À l'inverse,YOLO principalement sur la détection standard, avec une prise en charge moins intégrée de ces tâches complexes en aval.

Efficacité de l'entraînement et mémoire

YOLO Ultralytics sont conçus pour être efficaces. Ils nécessitent généralement moins GPU pendant l'entraînement que les architectures à forte utilisation de transformateurs ou les modèles générés par NAS qui peuvent avoir des modèles d'accès à la mémoire irréguliers. Cela permet aux chercheurs d'entraîner des modèles robustes sur du matériel grand public, démocratisant ainsi l'accès à la vision par ordinateur haut de gamme.

Applications concrètes

Le choix du modèle approprié dépend de vos contraintes de déploiement et de vos objectifs de performance.

Cas d'utilisation idéaux pour YOLOv9

  • Analyse commerciale : la grande précision de YOLOv9c en fait un outil idéal pour la détection de produits sur des étagères encombrées où les occlusions sont fréquentes.
  • Imagerie médicale : l'architecture PGI permet de conserver les informations essentielles, ce qui est crucial pour détecter les petites anomalies dans les scans médicaux ou identifier les fractures.
  • Surveillance générale : pour les flux de sécurité standard où un équilibre entre mAP élevé mAP un FPS raisonnable est nécessaire.

Cas d'utilisation idéaux pourYOLO

  • Recherche de matériel restreinte : si vous effectuez des recherches sur les NAS afin de trouver une infrastructure spécialement adaptée à une contrainte matérielle très particulière pour laquelle les infrastructures standard ne conviennent pas.
  • Référence académique : pour les chercheurs comparant l'efficacité des techniques de distillation par rapport à la reparamétrisation structurelle.

Pourquoi YOLO26 est l'avenir

Pour les développeurs qui lancent de nouveaux projets en 2026, YOLO26 offre les fonctionnalités les plus intéressantes. Il s'appuie sur les points forts de YOLOv9 introduit une conception de bout en bout NMS, éliminant ainsi le besoin d'un post-traitement par suppression non maximale. Cela simplifie considérablement le déploiement et réduit la latence, en particulier sur les appareils périphériques.

En savoir plus sur YOLO26

Les principales innovations du YOLO26 comprennent :

  • MuSGD Optimizer : un hybride de SGD Muon qui stabilise l'entraînement et accélère la convergence, apportant la stabilité de l'entraînement des modèles linguistiques à grande échelle (LLM) à la vision.
  • Suppression DFL : la suppression de la perte focale de distribution simplifie le graphe du modèle, facilitant ainsi l'exportation vers des formats tels que ONNX et TensorRT plus fluide.
  • Détection améliorée des petits objets : grâce à ProgLoss et STAL, YOLO26 excelle dans les applications d'imagerie aérienne et de drones.

Assurez la pérennité de votre déploiement

La migration vers YOLO26 garantit à votre application de bénéficier des dernières avancées en matière d'optimisation de pointe. La conception native de bout en bout permet une inférence plus rapide sur les processeurs et les processeurs neuronaux, ce qui est essentiel pour les appareils IoT alimentés par batterie.

Conclusion

Alors queYOLO des concepts intéressants concernant la recherche d'architecture neuronale et la distillation, YOLOv9 et le plus récent YOLO26 offrent une solution plus pratique, plus puissante et plus conviviale pour la grande majorité des applications de vision par ordinateur. Ultralytics garantit aux développeurs l'accès aux meilleurs outils pour la formation, le suivi et le déploiement de modèles, soutenus par une documentation complète et le soutien de la communauté.

Pour approfondir vos connaissances sur les architectures de modèles, consultez nos comparaisons entre YOLOv10 YOLO ou YOLO11 YOLOv9.


Commentaires