Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOv9 vs YOLOv10 : une analyse technique approfondie de l'évolution de la détection d'objets en temps réel#

Le paysage de la vision par ordinateur en temps réel a connu d'immenses avancées, largement portées par des chercheurs qui repoussent continuellement les limites de performance et d'efficacité. En analysant l'évolution des modèles de vision à l'état de l'art, YOLOv9 et YOLOv10 représentent deux jalons essentiels. Lancés début 2024, les deux modèles ont introduit des conceptions architecturales révolutionnaires pour résoudre des défis persistants dans les réseaux de neurones profonds, allant des goulots d'étranglement de l'information à la latence post-traitement.

Cette comparaison technique complète explore leurs architectures, leurs mesures de performance et leurs scénarios de déploiement idéaux, pour t'aider à naviguer dans les complexités des écosystèmes modernes de détection d'objets.

Link to this sectionOrigines des modèles et percées architecturales#

Comprendre la lignée et les fondements théoriques de ces modèles est crucial pour sélectionner la bonne architecture pour ton projet spécifique de vision par ordinateur.

Link to this sectionYOLOv9 : Maîtriser le flux d'informations#

Introduit le 21 février 2024, YOLOv9 s'attaque au problème théorique de la perte d'informations lors du passage des données à travers les réseaux de neurones profonds.

YOLOv9 introduit le Generalized Efficient Layer Aggregation Network (GELAN), qui maximise l'utilisation des paramètres en combinant les forces de CSPNet et d'ELAN. De plus, il utilise le Programmable Gradient Information (PGI), un mécanisme de supervision auxiliaire garantissant que les couches profondes conservent des informations spatiales critiques. Cela rend YOLOv9 exceptionnellement performant pour des tâches exigeant une haute fidélité des caractéristiques, telles que l'analyse d'images médicales ou la surveillance à distance.

En savoir plus sur YOLOv9

Link to this sectionYOLOv10 : Efficacité de bout en bout en temps réel#

Lancé peu après, le 23 mai 2024, YOLOv10 réinvente le pipeline de déploiement en éliminant l'un des goulots d'étranglement de latence les plus notoires en détection d'objets : le Non-Maximum Suppression (NMS).

YOLOv10 utilise des attributions doubles cohérentes pendant l'entraînement, permettant une conception nativement sans NMS. Cela supprime la surcharge de post-traitement lors de l'inférence, réduisant considérablement la latence. Combiné à une conception de modèle axée sur l'efficacité et la précision globales, YOLOv10 atteint un équilibre exceptionnel, abaissant la charge computationnelle (FLOPs) tout en maintenant une précision compétitive, ce qui le rend très attractif pour les applications d'Edge Computing.

En savoir plus sur YOLOv10

Link to this sectionComparaison des performances et des mesures#

En comparant ces deux puissances sur le jeu de données standard MS COCO, des compromis distincts apparaissent entre la précision pure et la latence d'inférence.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320,076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054,4-12.256,9160.4

Link to this sectionAnalyse des données#

  1. Latence vs Précision : Les modèles YOLOv10 offrent généralement des vitesses d'inférence supérieures. Par exemple, YOLOv10s atteint 46,7 % de mAP en seulement 2,66 ms sur TensorRT, contre YOLOv9s qui nécessite 3,54 ms pour une mAP presque identique de 46,8 %.
  2. Précision de haut niveau : Pour les scénarios de recherche exigeant une précision de détection maximale, le YOLOv9e reste un choix redoutable, atteignant une impressionnante mAP de 55,6 %. Son architecture PGI garantit que les caractéristiques subtiles sont extraites de manière fiable.
  3. Efficacité : YOLOv10 excelle dans l'efficacité FLOPs. Cela se traduit directement par une consommation d'énergie réduite, une mesure cruciale pour les appareils fonctionnant sur batterie exécutant des modèles de vision par IA.
Conseil de déploiement

Si tu déploies sur des CPU ou du matériel Edge aux ressources limitées comme un Raspberry Pi, l'architecture sans NMS de YOLOv10 offrira généralement un pipeline plus fluide en éliminant les étapes de post-traitement non déterministes.

Link to this sectionL'avantage Ultralytics : Entraînement et écosystème#

Bien que les différences architecturales soient critiques, l'écosystème logiciel environnant dicte fortement le succès d'un projet. YOLOv9 et YOLOv10 sont entièrement intégrés dans l'écosystème Ultralytics, offrant une expérience développeur inégalée.

Link to this sectionFacilité d'utilisation et efficacité mémoire#

Contrairement aux architectures complexes basées sur les Transformer qui souffrent d'une consommation mémoire massive, les modèles YOLO d'Ultralytics sont conçus pour une utilisation optimale de la mémoire GPU. Cela permet aux chercheurs d'utiliser de plus grandes tailles de batch sur du matériel grand public, rendant l'IA de pointe accessible.

The unified Python API abstracts away the complexities of data augmentation and hyperparameter tuning. You can seamlessly switch between architectures simply by altering the weight file string.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

Que tu aies besoin de journaliser des métriques vers MLflow ou d'exporter vers TensorRT pour un déploiement matériel haute vitesse, la plateforme Ultralytics le gère nativement.

Link to this sectionCas d'utilisation idéaux#

Le choix entre ces modèles dépend de tes contraintes de déploiement :

Link to this sectionPréparation pour l'avenir : Le passage à YOLO26#

Bien que YOLOv8, YOLOv9 et YOLOv10 soient d'excellents modèles, les développeurs cherchant à construire des solutions d'IA modernes devraient considérer Ultralytics YOLO26, lancé en janvier 2026.

YOLO26 représente la synthèse ultime des générations précédentes, combinant les meilleurs aspects de la précision de YOLOv9 et de l'efficacité de YOLOv10.

Link to this sectionInnovations clés de YOLO26#

  • Conception sans NMS de bout en bout : s'appuyant sur les bases posées par YOLOv10, YOLO26 élimine nativement le post-traitement NMS pour un déploiement simplifié.
  • Optimiseur MuSGD : un hybride de SGD et Muon, apportant des innovations d'entraînement LLM avancées à la vision par ordinateur pour une convergence incroyablement stable et rapide.
  • Jusqu'à 43 % plus rapide en inférence CPU : spécifiquement optimisé pour l'Edge Computing et les appareils sans GPU dédié.
  • Suppression de DFL : le Distribution Focal Loss a été supprimé pour simplifier l'exportation du modèle et améliorer la compatibilité avec les appareils basse consommation.
  • ProgLoss + STAL : ces fonctions de perte améliorées apportent des améliorations notables dans la reconnaissance des petits objets, égalant ou dépassant les capacités de YOLOv9.

Pour les chercheurs évaluant des architectures existantes, RT-DETR et YOLO11 sont également des alternatives bien documentées au sein de l'écosystème Ultralytics. Cependant, pour une polyvalence maximale sur toutes les tâches de vision, la transition vers YOLO26 sur la plateforme Ultralytics garantit que tu exploites le summum de l'IA de vision open-source.

Contributeurs

Commentaires