YOLOv9 vs YOLO26 : Une analyse comparative de l'architecture et des performances
Le paysage de la détection d'objets en temps réel est en constante évolution, chaque nouvelle itération apportant des améliorations significatives en termes de précision, de vitesse et d'efficacité. Cet article propose une comparaison technique approfondie entre YOLOv9, un modèle puissant sorti début 2024, et YOLO26, le dernier modèle de pointe d'Ultralytics conçu pour la prochaine génération d'applications d'IA en périphérie.
Aperçu du modèle
Les deux modèles représentent des jalons significatifs en vision par ordinateur, mais ils abordent le problème de la détection avec des philosophies architecturales légèrement différentes.
YOLOv9 : Informations de gradient programmables
Lancé en février 2024 par des chercheurs de l'Academia Sinica, Taïwan, YOLOv9 a introduit de nouveaux concepts pour remédier à la perte d'informations dans les réseaux neuronaux profonds.
- Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
- Date : 21 février 2024
- Innovation clé : Information de Gradient Programmable (PGI) et Réseau d'Agrégation de Couches Efficace Généralisé (GELAN).
- Objectif : Améliorer l'utilisation des paramètres et le flux de gradient pendant l'entraînement pour maximiser la rétention d'informations dans les couches profondes.
YOLO26 : L'évolution native pour l'Edge
Lancé en janvier 2026 par Ultralytics, YOLO26 représente un changement de paradigme vers une efficacité de bout en bout et un déploiement simplifié, en particulier pour les CPU et les appareils en périphérie.
- Auteurs : Glenn Jocher, Jing Qiu
- Organisation :Ultralytics
- Date : 14 janvier 2026
- Innovation clé : Architecture de bout en bout sans NMS, optimiseur MuSGD et suppression de la Distribution Focal Loss (DFL).
- Objectif : Minimiser la latence d'inférence sur le matériel non-GPU, simplifier les processus d'exportation et stabiliser la dynamique d'entraînement en utilisant des techniques inspirées des grands modèles de langage (LLM).
Différences architecturales
La divergence fondamentale entre ces deux modèles réside dans la conception de leur tête et la formulation de leur fonction de perte, ce qui impacte directement leur vitesse de déploiement et leur stabilité d'entraînement.
Architecture de YOLOv9
YOLOv9 utilise le réseau d'agrégation de couches généralisé et efficace (GELAN). Cette architecture permet l'intégration flexible de divers blocs de calcul (comme CSPNet ou ELAN) sans sacrifier la vitesse. L'introduction des informations de gradient programmables (PGI) fournit un cadre de supervision auxiliaire. Les PGI garantissent que les informations de caractéristiques cruciales ne sont pas perdues lorsqu'elles se propagent à travers les couches profondes, un problème courant dans les modèles légers. Bien que très efficace pour la précision, cette structure repose sur des mécanismes traditionnels basés sur des ancres et des étapes de post-traitement comme la suppression non maximale (NMS).
Architecture de YOLO26
YOLO26 adopte une conception nativement de bout en bout sans NMS. En prédisant les objets directement sans nécessiter de post-traitement complexe, YOLO26 réduit considérablement la latence, en particulier sur les appareils périphériques où la NMS peut être un goulot d'étranglement computationnel.
Les changements architecturaux clés dans YOLO26 incluent :
- Suppression de la DFL : La fonction de perte focale de distribution (DFL) a été supprimée pour simplifier le graphe du modèle, rendant les formats d'exportation comme ONNX et TensorRT plus propres et plus rapides sur les puces à faible consommation.
- ProgLoss + STAL : De nouvelles fonctions de perte améliorent la reconnaissance des petits objets, une exigence critique pour des tâches comme l'analyse d'imagerie aérienne et la robotique.
- Optimiseur MuSGD : Un hybride de SGD et de Muon (inspiré de l'entraînement des LLM), offrant une convergence plus rapide et des pics de mémoire réduits pendant l'entraînement.
Pourquoi l'absence de NMS est-elle importante ?
Les détecteurs d'objets traditionnels prédisent plusieurs boîtes englobantes pour le même objet et utilisent la suppression non maximale (NMS) pour les filtrer. Cette étape est souvent séquentielle et lente sur les CPU. La conception de bout en bout de YOLO26 élimine entièrement cette étape, ce qui se traduit par une inférence CPU jusqu'à 43 % plus rapide.
Comparaison des performances
Lors de l'évaluation de ces modèles, les chercheurs examinent généralement la précision moyenne (mAP) sur le jeu de données COCO ainsi que la vitesse d'inférence.
Métriques de référence
Le tableau suivant met en évidence les compromis de performance. Alors que YOLOv9 offre une grande précision, YOLO26 atteint des ratios vitesse-précision supérieurs, en particulier sur le matériel CPU.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Analyse
- Vitesse : YOLO26 démontre un net avantage en matière de vitesse d'inférence. Par exemple, le YOLO26n est significativement plus rapide que ses prédécesseurs, ce qui le rend idéal pour le traitement vidéo à haute fréquence d'images (FPS).
- Précision : YOLO26 surpasse les modèles YOLOv9 équivalents en mAP, en particulier dans les variantes nano (n) et petites (s), qui sont les plus couramment utilisées en production.
- Calcul : YOLO26 nécessite constamment moins de FLOPs (opérations en virgule flottante) pour une précision supérieure, ce qui indique une conception architecturale plus efficace.
Entraînement et convivialité
Pour les développeurs, la facilité d'entraînement et de déploiement est tout aussi importante que les métriques brutes.
Écosystème et support
Les modèles Ultralytics, y compris YOLO26, bénéficient d'un écosystème robuste et bien entretenu. Le ultralytics package python fournit une API unifiée pour formation, validation, et déploiement.
YOLOv9, bien que puissant, est principalement un dépôt de recherche. L'intégrer dans des pipelines de production nécessite souvent plus de configuration manuelle comparé à l'expérience « pip install and go » du framework Ultralytics.
Efficacité de l'entraînement
L'optimiseur MuSGD de YOLO26 aide à stabiliser l'entraînement, réduisant le besoin d'un réglage approfondi des hyperparamètres. De plus, les modèles Ultralytics sont connus pour leur consommation de mémoire plus faible pendant l'entraînement comparé aux alternatives basées sur des transformeurs, permettant aux utilisateurs d'entraîner des tailles de lot plus importantes sur des GPU grand public.
Voici un exemple de la facilité avec laquelle un modèle YOLO26 peut être entraîné à l'aide de l'API Ultralytics :
from ultralytics import YOLO
# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 example dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Cas d'utilisation idéaux
Le choix entre ces modèles dépend de vos contraintes spécifiques.
Quand choisir YOLOv9
- Recherche et étude académique : Si votre travail implique l'étude du flux de gradient ou la reproduction de benchmarks spécifiques du document YOLOv9.
- Pipelines hérités spécifiques : Si vous avez un pipeline existant strictement réglé pour l'architecture GELAN et que vous ne pouvez pas facilement échanger les structures de modèle.
Quand choisir YOLO26
- Edge computing : Avec une inférence CPU jusqu'à 43 % plus rapide, YOLO26 est le choix supérieur pour Raspberry Pi, Jetson Nano et les déploiements mobiles.
- Applications en temps réel : La conception sans NMS assure une latence constante, ce qui est critique pour la conduite autonome et les systèmes de surveillance de la sécurité.
- Tâches complexes : YOLO26 offre un support natif pour diverses tâches au-delà de la détection, y compris la segmentation d'instance, l'estimation de pose et la détection d'objets avec boîtes englobantes orientées (OBB).
- Production en entreprise : La stabilité, le support et la facilité d'exportation offerts par l'écosystème Ultralytics font de YOLO26 un choix plus sûr pour les produits commerciaux.
Au-delà de la détection
Contrairement au dépôt standard de YOLOv9, YOLO26 intègre des améliorations spécifiques aux tâches dès le départ. Cela inclut la perte de segmentation sémantique pour une meilleure précision des masques et l'estimation de la log-vraisemblance résiduelle (RLE) pour des points clés d'estimation de pose plus précis.
Conclusion
Alors que YOLOv9 a introduit des concepts fascinants concernant les gradients programmables et la rétention d'informations, YOLO26 représente l'évolution pratique de ces idées en une solution puissante prête pour la production. Son architecture de bout en bout sans NMS, combinée à l'écosystème logiciel complet d'Ultralytics, en fait le choix recommandé pour les développeurs cherchant à équilibrer vitesse, précision et facilité d'utilisation en 2026.
Pour ceux qui souhaitent explorer d'autres architectures modernes, la documentation couvre également YOLO11, qui reste un modèle très performant pour les tâches de vision par ordinateur à usage général.