YOLO26 vs YOLOv9 : La prochaine évolution de la détection d'objets en temps réel

Le paysage de la vision par ordinateur progresse rapidement, avec de nouvelles architectures repoussant continuellement les limites de la vitesse et de la précision. Dans cette comparaison technique, nous examinons les différences entre YOLO26 et YOLOv9, deux modèles très influents dans le domaine de la détection d'objets en temps réel. Bien que les deux modèles offrent des innovations architecturales distinctes, comprendre leurs compromis de performance, leurs capacités de déploiement et leurs exigences matérielles est crucial pour choisir le bon outil pour ton prochain projet de vision.

YOLO26 : La puissance optimisée pour la périphérie (edge)

Sorti début 2026, Ultralytics YOLO26 représente un saut générationnel en termes d'efficacité de déploiement et de stabilité d'entraînement des modèles. Conçu pour être un framework nativement end-to-end, il résout directement les goulots d'étranglement de déploiement qui ont historiquement entravé les applications d'IA en périphérie (edge AI).

Détails du modèle :

Architecture et innovations

YOLO26 repense fondamentalement le pipeline de post-traitement en introduisant une conception End-to-End sans NMS. En éliminant le besoin de NMS (Non-Maximum Suppression), le modèle atteint une variabilité de latence considérablement plus faible. Cela facilite grandement le déploiement sur les plateformes mobiles et en périphérie (edge), surtout lors de l'exportation vers des frameworks comme ONNX et Apple CoreML.

De plus, la suppression de la DFL (Distribution Focal Loss) simplifie le processus d'exportation et améliore la compatibilité avec les microcontrôleurs basse consommation. Pour améliorer la stabilité de l'entraînement, YOLO26 intègre le nouvel optimiseur MuSGD, un hybride de SGD (Stochastic Gradient Descent) et de Muon (inspiré par les innovations dans l'entraînement des grands modèles de langage). Cela se traduit par une convergence plus rapide et une extraction de caractéristiques plus robuste sur des jeux de données complexes.

Inférence sur les périphériques (edge)

Grâce aux simplifications architecturales et à la suppression de la DFL, YOLO26 permet une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour les périphériques (edge) aux ressources limitées comme le Raspberry Pi ou le NVIDIA Jetson Nano.

Pour détecter des éléments très complexes dans des scènes telles que l'imagerie aérienne par drone, YOLO26 utilise les fonctions de perte mises à jour ProgLoss + STAL. Celles-ci offrent des améliorations notables dans le rappel de reconnaissance des petits objets. De plus, il propose des améliorations spécifiques aux tâches, notamment le multi-échelle proto pour la segmentation d'instances, l'estimation de log-vraisemblance résiduelle (RLE) pour l'estimation de pose et une perte d'angle spécialisée pour la détection de boîtes englobantes orientées (OBB).

En savoir plus sur YOLO26

YOLOv9 : Informations de gradient programmables

Introduit début 2024, YOLOv9 a apporté des avancées théoriques sur la manière dont les réseaux de neurones gèrent le flux de gradient pendant la phase d'entraînement, en se concentrant sur l'efficacité des paramètres et la rétention des caractéristiques profondes.

Détails du modèle :

Architecture et points forts

YOLOv9 est construit autour du concept de Programmable Gradient Information (PGI) et du réseau GELAN (Generalized Efficient Layer Aggregation Network). Ces concepts traitent le problème de goulot d'étranglement de l'information souvent observé dans les réseaux de neurones profonds. En préservant les informations essentielles tout au long du processus feed-forward, GELAN garantit que les gradients utilisés pour les mises à jour de poids restent fiables. Cette architecture offre une grande précision et fait de YOLOv9 un candidat solide pour la recherche académique sur la théorie des réseaux de neurones et l'optimisation des chemins de gradient en utilisant le framework PyTorch.

Limitations

Malgré son excellente efficacité en termes de paramètres, YOLOv9 repose fortement sur le NMS traditionnel pour le post-traitement des boîtes englobantes, ce qui peut créer des goulots d'étranglement computationnels lors de l'inférence sur les périphériques (edge). De plus, le dépôt officiel se concentre principalement sur la détection d'objets, nécessitant une ingénierie personnalisée importante pour l'adapter à des tâches spécialisées comme le suivi ou l'estimation de pose.

En savoir plus sur YOLOv9

Comparaison des performances

Lors de l'évaluation de ces modèles pour un déploiement réel, il est essentiel d'équilibrer la précision (mAP), la vitesse d'inférence et l'utilisation de la mémoire. Les modèles Ultralytics sont réputés pour leurs faibles besoins en mémoire lors de l'entraînement et de l'inférence, nécessitant beaucoup moins de mémoire CUDA que les alternatives basées sur des transformers comme RT-DETR.

Tu trouveras ci-dessous une comparaison directe des performances de YOLO26 et YOLOv9 sur le jeu de données COCO. Les meilleures valeurs de chaque colonne sont en gras.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04,720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Note : Les vitesses CPU pour YOLOv9 sont omises car elles varient fortement en fonction de la configuration NMS et sont généralement plus lentes que l'implémentation native sans NMS de YOLO26.

Cas d'utilisation et recommandations

Le choix entre YOLO26 et YOLOv9 dépend des exigences spécifiques de ton projet, des contraintes de déploiement et des préférences en matière d'écosystème.

Quand choisir YOLO26

YOLO26 est un excellent choix pour :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
  • Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Quand choisir YOLOv9

YOLOv9 est recommandé pour :

  • Recherche sur les goulots d'étranglement de l'information : Projets académiques étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
  • Études d'optimisation du flux de gradient : Recherche axée sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
  • Benchmarking de détection haute précision : Scénarios où les performances solides de YOLOv9 sur le benchmark COCO sont nécessaires comme point de référence pour des comparaisons architecturales.

L'avantage Ultralytics

Choisir un modèle implique bien plus que la simple lecture d'un benchmark de précision ; l'écosystème logiciel environnant dicte la rapidité avec laquelle tu peux passer de la collecte de données à la production.

Facilité d'utilisation et écosystème

L'API Python d'Ultralytics offre une expérience fluide. Au lieu de cloner des dépôts complexes ou de configurer manuellement des scripts d'entraînement distribués, les développeurs peuvent installer le paquet via pip et commencer l'entraînement immédiatement. L'écosystème Ultralytics, activement maintenu, garantit des mises à jour fréquentes, des intégrations automatisées avec des plateformes ML comme Weights & Biases et une documentation complète.

Autres modèles Ultralytics

Si tu souhaites explorer d'autres modèles au sein de l'écosystème Ultralytics, tu pourrais également envisager de comparer YOLO11 ou le classique YOLOv8, qui offrent tous deux une flexibilité exceptionnelle pour des applications personnalisées.

Polyvalence à travers les tâches de vision

Bien que YOLOv9 soit principalement un moteur de détection, YOLO26 est un outil de vision polyvalent. En utilisant une syntaxe unique et unifiée, tu peux facilement passer de la détection d'objets à la segmentation d'image au pixel près ou à la classification d'image complète. Cette polyvalence réduit la dette technique liée à la maintenance de plusieurs bases de code disjointes pour différentes fonctionnalités de vision par ordinateur.

Entraînement et déploiement efficaces

L'efficacité de l'entraînement est une pierre angulaire de la philosophie Ultralytics. YOLO26 utilise des poids pré-entraînés facilement disponibles et affiche une consommation de mémoire nettement inférieure à celle des transformers de vision encombrants. Une fois entraînés, les pipelines d'exportation intégrés permettent des conversions en un clic vers des formats optimisés comme TensorRT ou TensorFlow Lite, fluidifiant ainsi le chemin vers la production.

Exemple de code : Démarrer avec YOLO26

L'implémentation de YOLO26 est remarquablement simple. L'extrait Python suivant montre comment charger un modèle pré-entraîné, l'entraîner sur des données personnalisées et exécuter une inférence en utilisant l'API Ultralytics.

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

En tirant parti de la vitesse, de l'architecture simplifiée et de l'écosystème robuste de YOLO26, les équipes peuvent commercialiser des applications d'IA de vision avancées plus rapidement et avec moins d'obstacles techniques qu'auparavant.

Commentaires