YOLOX vs YOLO26 : l'évolution de la détection d'objets sans ancrage à la détection d'objets de bout en bout
Le domaine de la vision par ordinateur a connu une transformation rapide au cours des cinq dernières années, passant d'architectures complexes basées sur des ancrages à des conceptions simplifiées sans ancrages, pour aboutir finalement à des systèmes natifs de bout en bout. Cette comparaison examine les différences techniques entre YOLOX, un modèle sans ancrage pivot lancé en 2021, et YOLO26, le détecteur de bout en bout de pointe (SOTA) lancé par Ultralytics 2026.
Alors que YOLOX avait placé la barre très haut en matière de recherche et de performances à son époque, YOLO26 introduit des optimisations révolutionnaires telles que l'inférenceNMS et l'optimiseur MuSGD, ce qui en fait le choix idéal pour les environnements de production modernes exigeant une faible latence et une grande précision.
YOLOX : Le pionnier sans ancrage
Publié en juillet 2021 par des chercheurs de Megvii, YOLOX marque une rupture significative avec la logique basée sur les ancres qui dominait YOLO précédentes YOLO (comme YOLOv4 et YOLOv5). En éliminant les boîtes d'ancrage, les auteurs ont cherché à simplifier le processus de conception et à réduire la charge liée au réglage des hyperparamètres associée au regroupement des ancres.
Caractéristiques techniques principales :
- Mécanisme sans ancrage : supprime le besoin de boîtes d'ancrage prédéfinies, en traitant la détection d'objets comme un problème de régression ponctuelle.
- Tête découplée : sépare les tâches de classification et de localisation en différentes branches de la tête du réseau, ce qui a permis d'améliorer la vitesse et la précision de convergence.
- SimOTA : une stratégie avancée d'attribution d'étiquettes appelée « Simplified Optimal Transport Assignment » (attribution simplifiée du transport optimal) qui attribue de manière dynamique des échantillons positifs à des vérités terrain.
Bien qu'innovant, YOLOX s'appuie sur la suppression non maximale (NMS) traditionnelle pour le post-traitement. Cette étape supprime les boîtes englobantes en double, mais introduit une variabilité de latence et une surcharge de calcul, ce qui peut constituer un goulot d'étranglement dans les applications strictement en temps réel.
Détails du modèle :
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation : Megvii
- Date : 2021-07-18
- Liens :YOLOX Arxiv | YOLOX GitHub
YOLO26 : la norme de bout en bout
Lancé en janvier 2026 par Ultralytics, YOLO26 représente le summum de l'efficacité en matière de vision par ordinateur. Il abandonne complètement le pipeline NMS traditionnel, adoptant une conception native de bout en bout NMS. Cette architecture permet au modèle de produire directement l'ensemble final d'objets détectés, ce qui réduit considérablement la latence et simplifie la logique de déploiement.
Caractéristiques techniques principales :
- ArchitectureNMS: élimine le coût informatique lié au tri et au filtrage de milliers de boîtes candidates, ce qui se traduit par des temps d'inférence stables et prévisibles.
- MuSGD Optimizer : un optimiseur hybride combinant SGD Muon (inspiré des innovations dans la formation des grands modèles linguistiques comme Kimi K2 de Moonshot AI). Cela garantit une dynamique de formation plus stable et une convergence plus rapide.
- Suppression du DFL : la suppression du Distribution Focal Loss (DFL) simplifie la tête du modèle, la rendant plus compatible avec les appareils périphériques et les outils de quantification.
- ProgLoss + STAL : fonctions de perte avancées (perte programmatique et perte d'alignement théorique à l'échelle) qui améliorent considérablement la reconnaissance des petits objets, une capacité essentielle pour l'imagerie par drone et l'inspection industrielle.
Détails du modèle :
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation : Ultralytics
- Date : 2026-01-14
- Liens :Documentation YOLO26 | Ultralytics
Pourquoi le bout en bout est important
Les modèles traditionnels tels que YOLOX génèrent des milliers de boîtes redondantes qui doivent être filtrées à l'aide de la suppression non maximale (NMS). Ce processus est CPU et difficile à optimiser sur des accélérateurs matériels tels que les TPU ou les NPU. La conception de bout en bout de YOLO26 supprime cette étape, permettant au réseau neuronal de fournir directement la réponse finale. Cela permet une inférence jusqu'à 43 % plus rapide sur les CPU par rapport aux générations précédentes.
Comparaison des performances
Le tableau suivant met en évidence l'écart de performance entre les deux architectures. YOLO26 affiche une précision (mAP) et une efficacité supérieures, en particulier dans les variantes Nano et Small utilisées pour les applications d'IA en périphérie.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
Remarque : les vitesses YOLOX sont généralement plus lentes sur le matériel moderne en raison de la NMS , tandis que les métriques YOLO26 incluent tout le temps de post-traitement.
Plongée architecturale en profondeur
Colonne vertébrale et tête
YOLOX utilise une structure CSPDarknet modifiée qui met l'accent sur le découplage de la tête de détection. Bien qu'efficace, ce découplage augmente considérablement le nombre de paramètres par rapport aux conceptions à tête partagée des modèles précédents.
En revanche, YOLO26 utilise une structure hautement optimisée conçue à partir des concepts de recherche d'architecture neuronale (NAS). Sa structure de tête est rationalisée grâce à la suppression du DFL, ce qui réduit non seulement la taille du modèle, mais s'aligne également parfaitement avec les accélérateurs matériels qui ont du mal à gérer les couches de sortie complexes. Cela facilite l'exportation vers TensorRT ou ONNX se déroule sans problème.
Fonctions de perte et entraînement
YOLOX a introduit SimOTA pour résoudre le problème de l'attribution dynamique des étiquettes. Cependant, il repose toujours sur des fonctions de perte standard. YOLO26 va plus loin en intégrant ProgLoss (Programmatic Loss) et STAL (Scale-Theoretic Alignment Loss). Ces pertes ajustent dynamiquement la pénalité pour les erreurs de boîte englobante en fonction de la taille de l'objet et du stade d'entraînement, remédiant ainsi à la faiblesse historique des YOLO dans la détection de petits objets tels que les piétons éloignés ou les défauts de fabrication.
De plus, l'optimiseur MuSGD de YOLO26 intègre les techniques de stabilité issues du monde LLM dans le domaine de la vision. En normalisant les mises à jour entre les couches de manière plus efficace que SGD standard, YOLO26 atteint une plus grande précision avec moins d'époches d'entraînement.
Cas d'utilisation idéaux
Quand utiliser YOLOX
YOLOX reste une référence précieuse dans les milieux universitaires.
- Références de recherche : Sa structure claire et sans ancrage en fait une excellente référence pour les chercheurs qui étudient les stratégies d'attribution d'étiquettes.
- Projets hérités : les systèmes déjà fortement intégrés à MegEngine ou à des fourches YOLOX spécifiques peuvent trouver coûteuse une migration immédiate.
Quand utiliser YOLO26
YOLO26 est le choix recommandé pour pratiquement toutes les nouvelles applications commerciales et industrielles.
- Edge Computing : avec CPU jusqu'à 43 % plus rapide, YOLO26 est idéal pour Raspberry Pi, Jetson Nano et les appareils mobiles qui ne disposent pas de GPU.
- Robotique et systèmes autonomes : la conceptionNMS élimine les pics de latence causés par les scènes encombrées (par exemple, un robot naviguant dans un entrepôt bondé), garantissant ainsi des temps de réponse déterministes.
- Inspection haute précision : la combinaison ProgLoss + STAL rend YOLO26 supérieur pour les tâches de contrôle qualité impliquant des défauts infimes.
- Applications multitâches : contrairement à YOLOX, qui est principalement un détecteur, Ultralytics prend en charge YOLO26 pour la segmentation d'instances, l'estimation de pose et les boîtes englobantes orientées (OBB).
L'avantage Ultralytics
Choisir YOLO26, c'est aussi avoir accès à la gamme complète Ultralytics . Alors que YOLOX fournit un référentiel autonome, Ultralytics un cadre unifié qui simplifie l'ensemble du cycle de vie de l'IA.
- Facilité d'utilisation : une Python cohérente vous permet de passer d'une tâche (detect, segment, pose) à une autre et d'un modèle (YOLO26, YOLO11, RT-DETR) en modifiant une seule ligne de code.
- Efficacité de l'entraînement : Ultralytics sont optimisés pour une efficacité mémoire pendant l'entraînement. Vous pouvez entraîner des lots plus importants sur des GPU grand public par rapport aux architectures plus anciennes ou aux transformateurs lourds.
- Ultralytics : la Ultralytics offre une interface Web pour la gestion des ensembles de données, l'annotation automatique et la formation de modèles en un clic, ce qui rationalise la collaboration entre les équipes.
- Écosystème bien entretenu : grâce à des mises à jour fréquentes, une documentation complète et une communauté active, les développeurs ne sont jamais seuls face au débogage.
Exemple de code
L'exécution de YOLO26 est simple à l'aide du ultralytics package. L'exemple suivant montre comment charger un modèle pré-entraîné et effectuer une inférence sur une image.
from ultralytics import YOLO
# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")
# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
# Display the results
for result in results:
result.show() # Show image in a window
# Print boxes to console
for box in result.boxes:
print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")
Conclusion
YOLOX et YOLO26 représentent tous deux des étapes importantes dans l'histoire de la détection d'objets. YOLOX a réussi à remettre en question le paradigme basé sur les ancres en 2021, prouvant que les modèles sans ancres pouvaient atteindre des performances de haut niveau. Cependant, YOLO26 redéfinit la norme pour 2026 en résolvant le problème du « dernier kilomètre » de l'inférence : le NMS .
Avec son architecture de bout en bout, son optimiseur MuSGD et ses fonctions de perte spécialisées, YOLO26 offre un équilibre inégalé entre vitesse, précision et facilité d'utilisation. Pour les développeurs qui cherchent à déployer des solutions de vision par ordinateur robustes, que ce soit sur des serveurs cloud puissants ou des appareils périphériques aux ressources limitées,YOLO26 est le choix incontournable.
Pour ceux qui souhaitent découvrir d'autres architectures modernes, nous vous recommandons de consulter YOLO11 pour la détection à usage général ou RT-DETR pour les applications basées sur des transformateurs.