YOLO26 vs YOLOv9: la prochaine évolution dans la détection d'objets en temps réel
Le domaine de la vision par ordinateur évolue rapidement, avec de nouvelles architectures repoussant sans cesse les limites en matière de vitesse et de précision. Dans cette comparaison technique, nous examinons les différences entre YOLO26 et YOLOv9, deux modèles très influents dans le domaine de la détection d'objets en temps réel. Si les deux modèles offrent des innovations architecturales distinctes, il est essentiel de comprendre leurs compromis en termes de performances, leurs capacités de déploiement et leurs exigences matérielles afin de choisir l'outil le mieux adapté à votre prochain projet de vision.
YOLO26 : la puissance optimisée pour la périphérie
Sorti début 2026, Ultralytics représente une avancée générationnelle en matière d'efficacité de déploiement et de stabilité de formation des modèles. Conçu pour être un cadre natif de bout en bout, il s'attaque directement aux goulots d'étranglement de déploiement qui ont historiquement affecté les applications d'IA en périphérie.
Détails du modèle :
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 2026-01-14
- GitHub :Dépôt Ultralytics
- Docs :Documentation YOLO26
Architecture et innovations
YOLO26 repense fondamentalement le pipeline de post-traitement en introduisant une conception de bout en bout NMS. En éliminant le besoin de suppression non maximale (NMS), le modèle réduit considérablement la variabilité de la latence. Cela facilite considérablement le déploiement sur les plateformes mobiles et périphériques, en particulier lors de l'exportation vers des frameworks tels que ONNX et Apple CoreML.
De plus, la suppression de la Distribution Focal Loss (DFL) simplifie le processus d'exportation et améliore la compatibilité avec les microcontrôleurs à faible consommation. Pour améliorer la stabilité de l'entraînement, YOLO26 intègre le nouvel optimiseur MuSGD, un hybride de Stochastic Gradient Descent (SGD) et de Muon (inspiré par les innovations dans l'entraînement des grands modèles linguistiques). Cela se traduit par une convergence plus rapide et une extraction de caractéristiques plus robuste sur des jeux de données difficiles.
Inférence sur les appareils en périphérie
Grâce à des simplifications architecturales et à la suppression du DFL, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour les appareils périphériques aux ressources limitées tels que le Raspberry Pi ou NVIDIA Nano.
Pour détecter les éléments très difficiles à repérer dans des scènes telles que les images aériennes prises par drone, YOLO26 utilise les fonctions de perte ProgLoss + STAL mises à jour. Celles-ci apportent des améliorations notables dans la reconnaissance des petits objets. De plus, il bénéficie d'améliorations spécifiques à certaines tâches, notamment le proto multi-échelle pour la segmentation d'instances, l'estimation de la log-vraisemblance résiduelle (RLE) pour l'estimation de la pose et la perte d'angle spécialisée pour la détection des boîtes englobantes orientées (OBB).
YOLOv9 : Informations de gradient programmables
Lancé début 2024, YOLOv9 des avancées théoriques dans la manière dont les réseaux neuronaux gèrent le flux de gradient pendant la phase d'entraînement, en mettant l'accent sur l'efficacité des paramètres et la conservation des caractéristiques profondes.
Détails du modèle :
- Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
- Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
- Date : 2024-02-21
- Arxiv :YOLOv9
- GitHub :Dépôt YOLOv9
- Docs :Documentation YOLOv9
Architecture et points forts
YOLOv9 autour du concept d'informations de gradient programmables (PGI) et du réseau généralisé d'agrégation de couches efficaces (GELAN). Ces concepts permettent de résoudre le problème du goulot d'étranglement informationnel souvent observé dans les réseaux neuronaux profonds. En préservant les informations essentielles grâce au processus de transmission directe, le GELAN garantit la fiabilité des gradients utilisés pour les mises à jour des poids. Cette architecture offre une grande précision et fait de YOLOv9 candidat sérieux pour la recherche universitaire sur la théorie des réseaux neuronaux et l'optimisation des chemins de gradient à l'aide du PyTorch .
Limites
Malgré son excellente efficacité en termes de paramètres, YOLOv9 s'appuie fortement sur la NMS traditionnelle pour le post-traitement des boîtes englobantes, ce qui peut créer des goulots d'étranglement computationnels lors de l'inférence sur les appareils périphériques. De plus, le dépôt officiel est largement axé sur la détection d'objets, nécessitant une ingénierie personnalisée importante pour l'adapter à des tâches spécialisées comme le track ou l'estimation de pose.
Comparaison des performances
Lors de l'évaluation de ces modèles en vue d'un déploiement dans le monde réel, il est essentiel de trouver le juste équilibre entre précision (mAP), vitesse d'inférence et utilisation de la mémoire. Ultralytics sont réputés pour leurs faibles besoins en mémoire, tant pendant l'entraînement que pendant l'inférence, nécessitant beaucoup moins CUDA que les alternatives basées sur des transformateurs telles que RT-DETR.
Ci-dessous est une comparaison directe des performances de YOLO26 et YOLOv9 sur le jeu de données COCO. Les meilleures valeurs de chaque colonne sont mises en évidence en gras.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Remarque : CPU pour YOLOv9 indiquées, car elles varient considérablement en fonction de NMS et sont généralement plus lentes que celles de l'implémentation native NMS de YOLO26.
Cas d'utilisation et recommandations
Le choix entre YOLO26 et YOLOv9 dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.
Quand choisir YOLO26
YOLO26 est un choix judicieux pour :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
- Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
- Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.
Quand choisir YOLOv9
YOLOv9 recommandé pour :
- Recherche sur les Goulots d'Étranglement de l'Information : Projets académiques étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
- Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
- Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.
L'avantage Ultralytics
Le choix d'un modèle implique plus que la simple lecture d'un benchmark de précision ; l'écosystème logiciel environnant dicte la rapidité avec laquelle vous pouvez passer de la collecte de données à la production.
Facilité d'utilisation et écosystème
L'argument Python Ultralytics offre une expérience fluide « de zéro à héros ». Au lieu de cloner des référentiels complexes ou de configurer manuellement des scripts de formation distribués, les développeurs peuvent installer le package via pip et commencer l'entraînement immédiatement. Le projet activement maintenu écosystème Ultralytics garantit des mises à jour fréquentes, des intégrations automatisées avec des plateformes ML telles que Weights & Biases, et une documentation complète.
Autres Ultralytics
Si vous souhaitez découvrir d'autres modèles au sein de Ultralytics , vous pouvez également comparer YOLO11 ou le classique YOLOv8, qui offrent tous deux une flexibilité exceptionnelle pour les applications personnalisées.
Polyvalence dans toutes les tâches visuelles
Alors que YOLOv9 avant tout un moteur de détection, YOLO26 est un outil de vision polyvalent. Grâce à une syntaxe unique et unifiée, vous pouvez facilement passer de la détection d'objets à la segmentation d'images au pixel près ou à la classification d'images entières. Cette polyvalence réduit la dette technique liée à la maintenance de plusieurs bases de code disjointes pour différentes fonctionnalités de vision par ordinateur.
Entraînement et déploiement efficaces
L'efficacité de la formation est l'un des piliers de la Ultralytics . YOLO26 utilise des poids pré-entraînés facilement disponibles et consomme nettement moins de mémoire que les transformateurs de vision volumineux. Une fois la formation terminée, des pipelines d'exportation intégrés permettent de convertir en un clic vers des formats optimisés tels que TensorRT ou TensorFlow , ce qui facilite le passage à la production.
Exemple de code : Démarrer avec YOLO26
La mise en œuvre de YOLO26 est remarquablement simple. Python suivant montre comment charger un modèle pré-entraîné, l'entraîner sur des données personnalisées et exécuter une inférence à l'aide de Ultralytics .
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Uses GPU 0, or use 'cpu' for CPU training
)
# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the bounding boxes and confidences
predictions[0].show()
En tirant parti de la vitesse, de l'architecture simplifiée et de l'écosystème robuste de YOLO26, les équipes peuvent commercialiser des applications d'IA de vision avancées plus rapidement et avec moins d'obstacles techniques que jamais auparavant.