Passer au contenu

YOLOX vs YOLOv9: comparaison entre les conceptions sans ancrage et les gradients programmables

Le paysage de la vision par ordinateur a été façonné par des avancées architecturales continues qui concilient efficacité computationnelle et haute précision. Lors de l'évaluation des modèles de détection d'objets en temps réel, la comparaison entre YOLOX de Megvii et YOLOv9 de l'Academia Sinica YOLOv9 deux philosophies distinctes dans le développement de l'apprentissage profond. Alors que l'une a été la première à proposer un paradigme simplifié sans ancrage, l'autre a introduit des techniques avancées de routage des gradients afin de maximiser la rétention d'informations.

Ce guide technique explore leurs nuances architecturales, leurs benchmarks de performance et leurs cas d'utilisation idéaux, tout en démontrant comment des solutions modernes telles que la Ultralytics et le modèle YOLO26 récemment lancé offrent des alternatives supérieures pour les déploiements prêts à la production.

YOLOX : pionnier du paradigme sans ancre

Lancé mi-2021, YOLOX a constitué une avancée majeure dans le rapprochement entre la recherche universitaire et les applications industrielles. En supprimant le besoin de boîtes d'ancrage prédéfinies, il a considérablement simplifié le réglage heuristique requis pour les ensembles de données personnalisés.

Innovations architecturales

YOLOX a introduit plusieurs changements importants dans le pipeline de détection standard. Il a mis en place une tête découplée, séparant les tâches de classification et de régression, ce qui a considérablement réduit le conflit entre l'identification d'un objet et la localisation de ses limites. De plus, YOLOX a adopté SimOTA, une stratégie avancée d'attribution d'étiquettes qui alloue dynamiquement des échantillons positifs pendant l'entraînement, ce qui permet une convergence plus rapide et de meilleures performances globales sur les ensembles de données de référence standard.

Forces et limitations

La principale force de YOLOX réside dans sa conception simplifiée. Grâce à son mécanisme sans ancrage, les développeurs passent moins de temps à exécuter des algorithmes de regroupement pour trouver les tailles d'ancrage optimales pour leurs données spécifiques. Cependant, en tant qu'architecture plus ancienne conçue sans les avancées récentes en matière d'auto-attention ou de cheminement de gradient, elle peine à égaler l'efficacité des paramètres des réseaux plus récents. Elle ne prend pas non plus en charge de manière native les tâches avancées telles que la segmentation d'instances et l'estimation de poses dans une API unifiée.

En savoir plus sur YOLOX

YOLOv9: optimisation des informations de gradient

En 2024, YOLOv9 une approche hautement théorique pour résoudre le problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux convolutifs profonds.

Innovations architecturales

La caractéristique distinctive YOLOv9 est l'information de gradient programmable (PGI), qui garantit que les données sémantiques cruciales ne sont pas perdues lorsqu'elles traversent les multiples couches du réseau. Associé au réseau d'agrégation de couches généralisé et efficace (GELAN), YOLOv9 un rapport paramètre/précision exceptionnel. Cela permet au modèle de conserver des gradients précis pour la mise à jour des poids, ce qui le rend très efficace même dans ses variantes allégées.

Forces et limitations

YOLOv9 dans le dépassement des limites théoriques de la précision des modèles. Il obtient mAP fantastiques sur COCO, ce qui en fait l'un des favoris des chercheurs. Cependant, malgré son efficacité, YOLOv9 s'appuie YOLOv9 sur la suppression non maximale (NMS) traditionnelle pour le post-traitement, ce qui entraîne des pics de latence pendant l'inférence. Pour les ingénieurs qui se concentrent sur le déploiement de l'IA sur des appareils périphériques, la gestion NMS ajoute une complexité inutile au pipeline de déploiement.

En savoir plus sur YOLOv9

Goulots d'étranglement liés au post-traitement

Les modèles traditionnels tels que YOLOX et YOLOv9 une suppression non maximale (NMS) pour filtrer les boîtes englobantes en double. Cette étape est intrinsèquement séquentielle et crée souvent un goulot d'étranglement sur les processeurs, soulignant la nécessité des architectures natives de bout en bout que l'on trouve dans les derniers Ultralytics .

Comparaison des performances

Lorsque l'on compare les métriques de calcul brutes de ces architectures, il apparaît clairement que YOLOv9 une base de référence plus moderne, tandis que YOLOX reste une option légère pour les configurations héritées. Vous trouverez ci-dessous une analyse détaillée de leurs modèles standard.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Bien que YOLOv9 une précision supérieure pour un nombre de paramètres comparable, les développeurs à la recherche d'un équilibre optimal entre vitesse, précision et facilité d'utilisation devraient s'intéresser aux dernières avancées Ultralytics.

Ultralytics : découvrez YOLO26

Si l'évaluation de modèles historiques tels que YOLOX et YOLOv9 un contexte précieux, l'état actuel de la technique est défini par Ultralytics . Lancé début 2026, YOLO26 repense fondamentalement le pipeline de détection pour les environnements d'entreprise modernes.

Des innovations architecturales inégalées

YOLO26 résout complètement les goulots d'étranglement liés au post-traitement de ses prédécesseurs grâce à une conception native de bout en bout NMS, garantissant un déploiement plus simple sur tous les matériels. De plus, en supprimant la perte focale de distribution (DFL) et en intégrant le nouvel optimiseur MuSGD, un hybride entre la descente stochastique du gradient et Muon, YOLO26 atteint une stabilité d'entraînement sans précédent.

Pour les développeurs qui déploient leurs applications dans des environnements contraints tels que le Raspberry Pi, YOLO26 offre CPU jusqu'à 43 % plus rapide. Il introduit également les fonctions de perte ProgLoss + STAL, qui permettent d'améliorer considérablement la reconnaissance des petits objets, ce qui est essentiel pour l'imagerie aérienne et l'analyse par drone.

Écosystème de développement rationalisé

Contrairement aux référentiels de recherche autonomes, Ultralytics offre une expérience de développement inégalée. Grâce à Python Ultralytics , les ingénieurs peuvent réduire considérablement le code standard. De plus, les besoins en mémoire sont optimisés, ce qui signifie que vous pouvez former des modèles robustes en utilisant moins GPU par rapport aux architectures fortement basées sur l'attention.

from ultralytics import YOLO

# Load the highly optimized, NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Easily export to optimized deployment formats
model.export(format="engine", half=True)  # Exports to TensorRT

Au-delà de la détection, YOLO26 prend en charge de manière transparente une multitude de tâches dans le même cadre. Que vous ayez besoin de boîtes englobantes orientées (OBB) précises pour l'imagerie satellite ou de masques de pixels fins pour les applications d'imagerie médicale, le flux de travail reste identique. Pour les équipes qui ont investi dans les flux de travail de la génération précédente, Ultralytics YOLO11 est également disponible et entièrement pris en charge.

Cas d'utilisation idéaux et stratégies de déploiement

Le choix de l'architecture appropriée dépend entièrement de votre environnement de déploiement cible et des exigences du projet.

Informatique en périphérie et robotique

Pour les appareils à faible consommation d'énergie, s'appuyer sur des modèles qui nécessitent un post-traitement lourd peut nuire aux performances. Bien que YOLOX-Nano soit incroyablement petit, sa précision est souvent insuffisante pour les tâches critiques en matière de sécurité. YOLO26 est le choix idéal dans ce cas ; l'absence de DFL et de NMS lui NMS de fonctionner sans problème sur CPU bruts, ce qui le rend parfait pour la robotique autonome ou la gestion intelligente des parkings.

Benchmarking académique

Si l'objectif unique est d'analyser le flux de gradient et d'étudier les goulots d'étranglement des réseaux profonds, YOLOv9 un excellent sujet d'étude. Son cadre PGI fournit des informations fascinantes sur la manière dont les caractéristiques sont préservées à travers les couches des réseaux neuronaux profonds, ce qui en fait un outil précieux pour les chercheurs universitaires qui explorent la théorie convolutive.

Analyse vidéo d'entreprise

Pour les tâches de traitement vidéo à grande échelle telles que les systèmes d'alarme de sécurité ou la surveillance du trafic, la vitesse et la polyvalence des capacités d'exportation sont primordiales. Les outils d'exportation natifs fournis par le Ultralytics permettent aux équipes de compiler YOLO26 directement vers TensorRT ou OpenVINO en une seule commande, ce qui réduit considérablement les délais de mise sur le marché.

En tirant parti des fonctionnalités complètes de Ultralytics , les équipes spécialisées dans l'apprentissage automatique peuvent contourner la complexité des bases de code de recherche brutes et se concentrer directement sur la création d'applications d'IA évolutives et concrètes.


Commentaires