YOLOX vs YOLO11 : une plongée au cœur de la détection d'objets haute performance

L'évolution de la vision par ordinateur a été largement portée par la recherche de frameworks de détection d'objets en temps réel, équilibrant une haute précision avec la vitesse d'inférence. Parmi les étapes les plus notables de ce parcours figurent YOLOX et Ultralytics YOLO11. Bien que les deux modèles aient apporté des contributions significatives au domaine, leurs architectures sous-jacentes, leurs philosophies de conception et leurs écosystèmes de développeurs diffèrent substantiellement.

Cette comparaison technique approfondie explore leurs architectures, leurs mesures de performance, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux pour t'aider à prendre une décision éclairée pour ton prochain projet d'intelligence artificielle.

Présentation de YOLOX

Introduit par les chercheurs Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii le 18 juillet 2021, YOLOX a représenté un changement significatif dans la série YOLO. Il a réussi à combler le fossé entre la recherche académique et l'application industrielle en introduisant une conception sans ancrage (anchor-free).

Pour plus de contexte technique, tu peux consulter l'article Arxiv original de YOLOX.

Caractéristiques architecturales clés

YOLOX s'est éloigné de la détection traditionnelle basée sur les ancres en adoptant une tête découplée et un mécanisme sans ancrage. Cette conception a réduit le nombre de paramètres de conception et amélioré les performances du modèle sur divers benchmarks. De plus, il a introduit des stratégies d'affectation d'étiquettes avancées comme SimOTA pour accélérer le processus d'entraînement et améliorer la convergence.

Bien que YOLOX offre une excellente précision pour son époque, il se concentre principalement sur la détection d'objets par boîtes englobantes et manque de prise en charge native pour d'autres tâches de vision complexes dès la sortie de boîte.

En savoir plus sur YOLOX

Conception sans ancrage (Anchor-Free)

En éliminant les boîtes d'ancrage prédéfinies, YOLOX a radicalement réduit le réglage heuristique requis pour différents jeux de données, en faisant une base solide pour la recherche sur les méthodologies sans ancrage.

Présentation d'Ultralytics YOLO11

Publié le 27 septembre 2024 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO11 est un modèle de pointe qui redéfinit la polyvalence et la facilité d'utilisation en vision par ordinateur. Construit sur des années de recherche fondamentale, il fournit une solution hautement raffinée, prête pour la production, qui excelle dans une multitude de tâches.

L'avantage Ultralytics

YOLO11 n'est pas seulement un détecteur d'objets ; c'est un framework unifié prenant en charge la segmentation d'instance, la classification d'image, l'estimation de pose et la détection par boîte englobante orientée (OBB). Il bénéficie d'une architecture hautement efficace qui privilégie un équilibre fluide entre vitesse, nombre de paramètres et précision.

De plus, YOLO11 est entièrement intégré à la plateforme Ultralytics, qui fournit un écosystème rationalisé pour l'annotation de données, l'entraînement de modèles et le déploiement.

En savoir plus sur YOLO11

Comparaison des performances et des métriques

En comparant ces modèles, l'équilibre des performances devient évident. YOLO11 atteint une précision moyenne (mAP) plus élevée avec significativement moins de paramètres et de FLOPs dans la plupart des catégories de taille par rapport à ses homologues YOLOX.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051,1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24,720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Comme démontré, les modèles YOLO11 surpassent systématiquement YOLOX en termes de précision tout en conservant une empreinte de paramètres plus légère. Par exemple, YOLO11m atteint une 51,5 mAP avec seulement 20,1M de paramètres, tandis que YOLOXx atteint une mAP similaire de 51,1 mais nécessite un total massif de 99,1M de paramètres. Cette efficacité mémoire durant l'entraînement et l'inférence rend YOLO11 hautement adapté au déploiement sur des appareils d'IA en périphérie, évitant les exigences élevées en mémoire CUDA typiques des modèles plus anciens ou basés sur des Transformer comme RT-DETR.

Entraînement efficace

Les modèles Ultralytics nécessitent significativement moins de mémoire GPU durant l'entraînement par rapport à YOLOX et aux architectures basées sur des Transformer, permettant aux chercheurs d'entraîner des modèles puissants sur du matériel grand public standard.

Écosystème et facilité d'utilisation

L'une des différences les plus marquantes entre les deux frameworks est l'expérience développeur.

YOLOX nécessite souvent le clonage de dépôts, la configuration d'environnements complexes et l'exécution d'arguments en ligne de commande verbeux pour entraîner et exporter des modèles vers des formats comme ONNX ou TensorRT.

En contraste frappant, Ultralytics YOLO11 offre une API Python et une CLI incroyablement simples. La bibliothèque Ultralytics gère automatiquement l'augmentation de données, le réglage des hyperparamètres et l'exportation.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model effortlessly on custom data
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to TensorRT for optimized deployment
model.export(format="engine")

Cet écosystème bien entretenu est soutenu par une documentation étendue et une intégration fluide avec des outils comme Weights & Biases pour le suivi des expériences.

Cas d'utilisation idéaux

Le choix entre ces modèles dépend souvent des spécificités de l'environnement de déploiement.

Quand utiliser YOLOX

  • Systèmes hérités : Si tu possèdes un pipeline établi explicitement construit autour du framework MegEngine ou des paradigmes de détection d'objets du début de 2021.
  • Bases de référence académiques : Lorsque tu mènes des recherches nécessitant une comparaison directe avec des architectures fondamentales sans ancrage de l'ère 2021.

Quand utiliser YOLO11

  • Déploiements en production : Pour des applications commerciales dans le commerce de détail intelligent ou les systèmes d'alarme de sécurité, où un code robuste et maintenu ainsi qu'une haute précision sont incontournables.
  • Pipelines multi-tâches : Lorsqu'un projet nécessite le suivi d'objets, l'estimation de poses humaines et la segmentation d'instances en utilisant un framework unique et unifié.
  • Appareils en périphérie à ressources limitées : En raison de son faible nombre de paramètres et de son débit élevé, YOLO11 est idéal pour le déploiement sur Raspberry Pi ou des nœuds de périphérie mobiles via CoreML et NCNN.

Regard vers l'avenir : L'avantage de YOLO26

Bien que YOLO11 représente un bond massif par rapport à YOLOX, le domaine de la vision par ordinateur progresse rapidement. Pour les développeurs commençant de nouveaux projets aujourd'hui, Ultralytics YOLO26 est la recommandation définitive.

Publié en janvier 2026, YOLO26 reprend l'éclat architectural de YOLO11 et introduit plusieurs fonctionnalités révolutionnaires :

  • Conception de bout en bout sans NMS : YOLO26 élimine le post-traitement par suppression non-maximale (NMS), diffusant nativement l'inférence pour des pipelines de déploiement plus rapides et plus simples (un concept exploré pour la première fois dans YOLOv10).
  • Inférence CPU jusqu'à 43 % plus rapide : Grâce à la suppression de la perte focale de distribution (DFL), YOLO26 est bien plus efficace sur les CPU et les appareils de périphérie à faible consommation.
  • Optimiseur MuSGD : Inspiré par les innovations en entraînement LLM de Moonshot AI, l'optimiseur MuSGD assure des cycles d'entraînement hautement stables et une convergence rapide.
  • Fonctions de perte avancées : En utilisant ProgLoss + STAL, YOLO26 atteint des améliorations notables dans la reconnaissance de petits objets, ce qui est critique pour l'imagerie par drone et la robotique autonome.

Pour la vaste majorité des tâches modernes de vision par ordinateur, la mise à niveau de ton pipeline pour exploiter YOLO26 offrira l'équilibre absolu entre vitesse, précision et simplicité de déploiement.

Commentaires