YOLO26 vs YOLOX : évolution de la détection d'objets en temps réel

Le paysage de la vision par ordinateur a évolué rapidement au cours des cinq dernières années, passant d'architectures complexes basées sur des ancrages à des modèles rationalisés et hautement performants. Cette comparaison examine deux modèles pivots de cette évolution : YOLOX, un détecteur révolutionnaire sans ancrage lancé en 2021, et YOLO26, le modèle de vision de pointe lancé par Ultralytics janvier 2026. Alors que YOLOX a ouvert la voie à de nombreuses décisions architecturales modernes, YOLO26 représente l'aboutissement de ces avancées, offrant une vitesse, une précision et une facilité de déploiement supérieures.

Aperçu du modèle

Ultralytics YOLO26

Sorti en janvier 2026, YOLO26 est conçu pour la prochaine génération d'IA de pointe. Il introduit une architecture native de bout en bout (NMS), éliminant ainsi les étapes de post-traitement qui constituent souvent un goulot d'étranglement dans le déploiement. En éliminant la perte focale de distribution (DFL) et en introduisant l'optimiseur MuSGD, inspiré de l'entraînement des grands modèles linguistiques, YOLO26 atteint des vitesses CPU jusqu'à 43 % plus rapides que les générations précédentes, ce qui en fait le choix idéal pour les applications IoT et la robotique.

Glenn Jocher et Jing Qiu
Ultralytics
14 janvier 2026
GitHub | Docs

En savoir plus sur YOLO26

YOLOX

YOLOX, lancé par Megvii en 2021, a été l'un des premiers détecteurs « sans ancrage » haute performance à passer à une tête découplée et à l'attribution d'étiquettes SimOTA. Il a réussi à combler le fossé entre la recherche universitaire et l'application industrielle à l'époque, offrant une conception plus épurée que ses prédécesseurs (comme YOLOv4 et YOLOv5) en supprimant les boîtes d'ancrage et NMS pour la stabilité de la formation, même s'il nécessitait toujours NMS l'inférence.

Zheng Ge, Songtao Liu, et al.
Megvii
18 juillet 2021
ArXiv | GitHub

Comparaison technique des performances

Le tableau suivant met en évidence les différences de performances entre les deux modèles. YOLO26 affiche des gains significatifs tant en termes de précision (mAP) que d'efficacité, en particulier dans CPU où son architecture est optimisée pour une exécution à faible latence.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Contexte de performance

Bien que YOLOXnano ait des paramètres et des FLOP inférieurs, il fonctionne à une résolution (416 px) et une précision (25,8 mAP) nettement inférieures à celles de YOLO26n (40,9 mAP 640 px). Une fois normalisé pour une précision effective, YOLO26 offre une latence d'inférence bien supérieure.

Innovations architecturales

De bout en bout vs. Post-traitement

La distinction la plus importante réside dans le pipeline de déploiement. YOLOX est sans ancrage, mais s'appuie toujours sur la suppression non maximale (NMS) pour filtrer les boîtes englobantes en double. NMS coûteuse en termes de calcul et difficile à optimiser sur du matériel périphérique (comme les FPGA ou les NPU), car elle implique des opérations de tri et séquentielles.

YOLO26 adopte une conception native de bout en bout, un concept lancé dans YOLOv10. Cette conception permet d'obtenir la détection finale directement à partir du réseau sans NMS. Il en résulte :

Latence réduite : aucune charge de post-traitement.
Latence déterministe : le temps d'inférence est constant, quelle que soit la densité des objets.
Déploiement simplifié : exportation vers ONNX ou TensorRT est simple, car aucun NMS personnalisé n'est nécessaire.

Stabilité de l'entraînement : MuSGD vs SGD

YOLOX utilise la méthode standard de descente stochastique du gradient (SGD) avec des têtes découplées, qui a été perfectionnée pour 2021. Cependant, YOLO26 introduit l'optimiseur MuSGD, un hybride entre SGD l'optimiseur Muon (inspiré du Kimi K2 de Moonshot AI). Cette innovation apporte les caractéristiques de stabilité de la formation des grands modèles linguistiques (LLM) à la vision par ordinateur, permettant une convergence plus rapide et une extraction de caractéristiques plus robuste pendant le processus de formation.

Fonctions de perte

YOLOX utilise IoU et une stratégie de tête découplée. YOLO26 va plus loin avec ProgLoss + STAL (Soft Target Assignment Loss). Cette combinaison répond spécifiquement au défi de la détection de petits objets, une faiblesse traditionnelle des détecteurs à étape unique. ProgLoss ajuste dynamiquement le poids de la perte pendant l'entraînement, ce qui permet au modèle de se concentrer sur les exemples plus difficiles (souvent des objets petits ou occultés) au fur et à mesure que l'entraînement progresse.

Écosystème et facilité d'utilisation

L'une des différences fondamentales entre ces deux cadres réside dans l'écosystème qui les entoure.

L'avantage Ultralytics

L'utilisation de YOLO26 donne accès à la Ultralytics , une suite complète d'outils pour la gestion des données, l'annotation et l'entraînement des modèles.

API unifiée : que vous effectuiez une détection d'objets, une segmentation d'instances, une estimation de pose ou une détection OBB (Oriented Bounding Box), l'API reste cohérente.
De zéro à héros : vous pouvez passer de l'installation à la formation sur un ensemble de données personnalisé en moins de 5 lignes de python .
Flexibilité d'exportation : exportez facilement vos modèles vers CoreML, OpenVINO, TFLite et bien d'autres encore à l'aide d'une seule commande.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

Complexité YOLOX

YOLOX est avant tout un référentiel de recherche. Bien que puissant, il nécessite davantage de configuration manuelle pour les ensembles de données et les pipelines de formation. Il ne prend pas en charge nativement les tâches autres que la détection standard (comme la pose ou la segmentation) au sein du même référentiel, et l'exportation vers des formats de pointe nécessite souvent des scripts externes ou des outils tiers (comme onnx-simplifier).

Applications concrètes

Commerce de détail intelligent et gestion des stocks

Pour les environnements de vente au détail nécessitant une gestion des stocks, YOLO26 est le choix idéal. La suppression du DFL (Distribution Focal Loss) et son architecture de bout en bout lui permettent de fonctionner efficacement sur les processeurs ARM basse consommation équipant les caméras des étagères intelligentes. La précision améliorée de YOLO26 (48,6 mAP) par rapport à YOLOX (40,5 mAP) garantit une meilleure précision des stocks avec moins de faux négatifs.

Les drones nécessitent le traitement d'images haute résolution avec une latence minimale. YOLO26 excelle dans ce domaine grâce à ProgLoss, qui améliore la détection de petits objets tels que les véhicules éloignés ou les lignes électriques à partir de vues aériennes. La sortie NMS garantit que la boucle de contrôle du drone reçoit les données à un rythme constant, ce qui est essentiel pour les systèmes anticollision. À l'inverse, la dépendance de YOLOX au NMS entraîner des pics de latence dans les environnements encombrés (par exemple, lors d'un vol au-dessus d'une forêt ou d'une foule), ce qui peut compromettre la stabilité du vol.

Robotique industrielle

Dans le domaine de la fabrication, les bras robotisés utilisent souvent la vision pour les tâches de prélèvement et de placement. L'écosystème YOLO26 prend en charge les OBB (Oriented Bounding Boxes), qui fournissent l'angle des objets, ce qui est essentiel pour saisir des articles qui ne sont pas alignés sur un axe. YOLOX nécessite des modifications importantes pour prendre en charge les OBB, tandis que YOLO26 les prend en charge dès son installation.

Conclusion

Si YOLOX a marqué une étape importante dans la popularisation de la détection sans ancrage, YOLO26 représente l'avenir de la vision par ordinateur efficace. Avec sa conception de bout en bout, son rapport précision/latence supérieur et le soutien solide de Ultralytics , YOLO26 est le choix recommandé pour la recherche universitaire et le déploiement commercial en 2026.

Pour les développeurs qui ont besoin de compromis architecturaux différents, YOLO11 offre une alternative éprouvée, et les modèles basés sur des transformateurs tels que RT-DETR offrent une grande précision pour les environnements GPU.