Passer au contenu

YOLOv9 YOLOX : évolution architecturale et comparaison technique

Cette analyse détaillée compare YOLOv9, connu pour son système révolutionnaire d'informations de gradient programmables (PGI), à YOLOX, un détecteur d'objets sans ancrage pionnier. Nous explorons leurs différences architecturales, leurs mesures de performance et leurs scénarios de déploiement idéaux afin de vous aider à choisir le modèle adapté à vos projets de vision par ordinateur.

Comparaison des métriques de performance

Le tableau suivant compare les indicateurs clés de performance. YOLOv9 affiche généralement des ratios précision/calcul supérieurs, en particulier dans ses variantes plus petites qui sont cruciales pour le déploiement en périphérie.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

YOLOv9 : Informations de gradient programmables

YOLOv9, publié en février 2024 par des chercheurs de l'Academia Sinica, introduit des innovations architecturales significatives visant à résoudre le problème du « goulot d'étranglement de l'information » dans les réseaux neuronaux profonds.

En savoir plus sur YOLOv9

Principales innovations architecturales

  • Informations sur les gradients programmables (PGI) : PGI est un cadre de supervision auxiliaire qui génère des gradients fiables pour la mise à jour des paramètres du réseau. Il garantit que les informations sémantiques critiques ne sont pas perdues lorsque les données traversent les couches profondes, un problème courant dans les modèles légers.
  • Architecture GELAN : le réseau généralisé d'agrégation de couches efficace (GELAN) combine les meilleurs aspects de CSPNet et ELAN. Il privilégie l'efficacité des paramètres et la vitesse d'inférence, permettant YOLOv9 une plus grande précision avec moins de FLOP que ses prédécesseurs.
  • Polyvalence : contrairement aux versions précédentes qui se limitaient à la détection, YOLOv9 prend en charge YOLOv9 la segmentation d'instances et la segmentation panoptique, ce qui en fait un choix polyvalent pour les tâches de vision complexes.

Formation simplifiée avec Ultralytics

YOLOv9 entièrement intégré à Ultralytics . Vous pouvez entraîner un modèle sur des données personnalisées avec une configuration minimale, en tirant parti de fonctionnalités avancées telles que la précision mixte automatique etGPU .

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

YOLOX : Le pionnier sans ancrage

YOLOX, lancé en 2021 par Megvii, était un modèle transformateur qui a fait évoluer le YOLO vers une conception sans ancrage. Il a simplifié le processus d'entraînement et amélioré les performances en dissociant la tête de détection.

En savoir plus sur YOLOX

Principales caractéristiques architecturales

  • Mécanisme sans ancrage : en supprimant les boîtes d'ancrage prédéfinies, YOLOX élimine le besoin d'un réglage manuel des ancrages (regroupement) et réduit la complexité de la tête de détection.
  • Tête découplée : YOLOX sépare les tâches de classification et de régression en différentes branches. Ce découplage résout le conflit entre ces deux tâches, ce qui permet une convergence plus rapide et une meilleure précision.
  • Attribution d'étiquettes SimOTA : YOLOX utilise SimOTA (Simplified Optimal Transport Assignment), une stratégie d'attribution dynamique d'étiquettes qui associe automatiquement les objets réels aux prédictions en se basant sur une perspective d'optimisation globale.

Analyse comparative

Facilité d'utilisation et écosystème

L'un des facteurs de différenciation les plus importants est l'écosystème. YOLOv9, qui fait partie du Ultralytics , offre une expérience unifiée et conviviale. Les développeurs bénéficient des avantages suivants :

  • API cohérente : que vous utilisiez YOLOv9, YOLO11 ou YOLO26, les commandes pour l'entraînement, la validation et l'inférence restent identiques.
  • Documentation complète : Ultralytics des guides détaillés sur le réglage des hyperparamètres, l'exportation de modèles et les stratégies de déploiement.
  • Maintenance active : des mises à jour fréquentes garantissent la compatibilité avec la dernière version de PyTorch et CUDA .

En revanche, YOLOX nécessite généralement une configuration plus manuelle impliquant le clonage du référentiel et la gestion de dépendances spécifiques, ce qui peut constituer un obstacle au prototypage rapide.

Performance et efficacité

  • Précision : YOLOv9 surpasse YOLOv9 YOLOX en termes de mAP des modèles de taille comparable. Par exemple, YOLOv9m atteint mAP de 51,4 % contre 46,9 % pour YOLOX-m, malgré un nombre de paramètres inférieur (20,0 millions contre 25,3 millions).
  • Vitesse d'inférence : alors que YOLOX représentait une avancée majeure en matière de vitesse en 2021, les architectures modernes telles que GELAN dans YOLOv9 encore amélioré l'efficacité. YOLOv9t fonctionne à une vitesse de 2,3 ms sur un GPU T4, ce qui le rend particulièrement adapté aux applications en temps réel.
  • Efficacité mémoire : Ultralytics sont optimisés pour réduire l'utilisation GPU pendant l'entraînement. Cela permet aux chercheurs d'entraîner des lots plus volumineux ou des modèles plus complexes sur du matériel grand public par rapport aux architectures plus anciennes ou aux modèles basés sur des transformateurs tels que RT-DETR.

Cas d'utilisation

  • Choisissez YOLOv9 : vous avez besoin d'une précision de pointe, vous avez besoin d'une prise en charge de la segmentation ou vous souhaitez bénéficier du pipeline de déploiement le plus simple possible via Ultralytics . Il excelle dans les domaines de l'inspection industrielle et des systèmes autonomes.
  • Choisissez YOLOX si : vous assurez la maintenance de systèmes hérités basés sur le code source YOLOX ou si vous avez besoin du comportement spécifique de sa tête sans ancrage pour des comparaisons à des fins de recherche.

Perspectives : La puissance de YOLO26

Bien que YOLOv9 un excellent choix, le domaine de la vision par ordinateur évolue rapidement. La nouvelle version YOLO26 s'appuie sur les points forts de ses prédécesseurs pour offrir la solution ultime axée sur la périphérie.

En savoir plus sur YOLO26

YOLO26 introduit plusieurs fonctionnalités révolutionnaires :

  • NMS de bout en bout : en éliminant la suppression non maximale (NMS), YOLO26 simplifie le déploiement et réduit la variabilité de la latence, un concept lancé dans YOLOv10.
  • Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur hybride garantit une convergence stable et est robuste pour différentes tailles de lots.
  • ProgLoss + STAL : ces fonctions de perte avancées améliorent considérablement la détection des petits objets, rendant YOLO26 idéal pour les applications d'imagerie aérienne et de drones.
  • CPU 43 % plus rapide : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 est spécialement optimisé pour les appareils périphériques CPU, tels que le Raspberry Pi.

Exécution de YOLO26 en Python

Découvrez la vitesse de la dernière génération en quelques lignes de code :

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Conclusion

YOLOv9 YOLOX ont tous deux apporté une contribution significative à la détection d'objets. YOLOX a popularisé la détection sans ancrage, simplifiant ainsi l'espace de conception pour les futurs modèles. Cependant, YOLOv9 tire parti des avancées architecturales modernes telles que PGI et GELAN pour offrir une précision et une efficacité supérieures.

Pour les développeurs qui recherchent le meilleur équilibre entre performances, facilité d'utilisation et pérennité, Ultralytics tels que YOLOv9 et le très performant YOLO26 sont les choix recommandés. Ils offrent une plateforme robuste pour relever divers défis, de l'imagerie médicale à la surveillance des villes intelligentes.

Modèles pertinents

Si vous vous intéressez aux architectures de détection d'objets, vous pourriez également être intéressé par :

  • YOLO11: un puissant prédécesseur de YOLO26, réputé pour sa robustesse.
  • RT-DETR: détecteur à transformateur offrant une grande précision, mais nécessitant davantage de ressources.
  • YOLOv8: un modèle très populaire qui a introduit un cadre unifié pour la détection, la segmentation et la pose.

Commentaires