YOLOv5 vs YOLOX : Une comparaison technique approfondie

L'évolution de la vision par ordinateur en temps réel a connu de nombreuses étapes clés, différentes architectures repoussant les limites de la vitesse et de la précision. Deux modèles très influents dans ce domaine sont YOLOv5 et YOLOX. Bien que tous deux soient reconnus pour leurs hautes performances en détection d'objets, ils adoptent des approches architecturales fondamentalement différentes.

Ce guide fournit une analyse technique approfondie de ces deux modèles, en comparant leurs architectures, leurs métriques de performance, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux pour aider les développeurs et les chercheurs à choisir le bon outil pour leurs projets de vision par ordinateur.

Présentations des modèles et différences architecturales

Ultralytics YOLOv5

Introduit par Ultralytics, YOLOv5 est rapidement devenu une norme de l'industrie grâce à son équilibre exceptionnel entre performance, facilité d'utilisation et efficacité mémoire. Construit nativement sur le framework PyTorch, YOLOv5 utilise une architecture basée sur des ancres. Il s'appuie sur des formes de boîtes englobantes prédéfinies pour prédire l'emplacement des objets, ce qui le rend très efficace pour les tâches standards de détection d'objets.

L'une des plus grandes forces de YOLOv5 réside dans son écosystème bien entretenu. Il bénéficie d'une documentation étendue, d'une API Python incroyablement simple et d'une intégration native avec la plateforme Ultralytics. Cela permet aux développeurs de passer en toute transparence de l'étiquetage des jeux de données à l'entraînement et à l'exportation vers des formats tels qu'ONNX et TensorRT.

En savoir plus sur YOLOv5

Avantage de l'écosystème

Les modèles YOLO d'Ultralytics nécessitent généralement beaucoup moins de mémoire GPU pendant l'entraînement par rapport aux alternatives complexes basées sur des Transformers. Cette faible empreinte mémoire rend YOLOv5 très accessible aux chercheurs travaillant avec du matériel grand public.

Megvii YOLOX

Développé par des chercheurs chez Megvii, YOLOX a emprunté une voie différente en introduisant une conception sans ancres (anchor-free) dans la famille YOLO. En éliminant les boîtes ancres, YOLOX simplifie la tête de détection et réduit considérablement le nombre de paramètres heuristiques nécessitant un réglage manuel pendant l'entraînement.

YOLOX intègre également une tête découplée—séparant les tâches de classification et de régression en différentes branches de réseau—et utilise la stratégie d'attribution de labels SimOTA. Ces innovations comblent le fossé entre la recherche académique et les applications industrielles, rendant YOLOX particulièrement efficace dans les environnements avec des échelles d'objets très variées.

En savoir plus sur YOLOX

Performance et métriques

Lors de l'évaluation des modèles de vision par ordinateur, le compromis entre la précision moyenne (mAP) et la vitesse d'inférence est critique. Les deux modèles proposent une gamme de tailles (de Nano à Extra-Large) pour s'adapter à différentes contraintes matérielles.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045,4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Alors que YOLOXx atteint une précision de pointe légèrement supérieure (51.1 mAP), YOLOv5 offre un pipeline de déploiement beaucoup plus robuste et minutieusement testé sur CPU et GPU. Les vitesses TensorRT pour YOLOv5 soulignent son optimisation poussée pour les appareils de edge computing, ce qui en fait un choix hautement fiable pour l'analyse vidéo en temps réel.

Méthodologies d'entraînement et utilisabilité

L'expérience développeur varie considérablement entre ces deux architectures.

L'approche YOLOX

L'entraînement de YOLOX nécessite généralement de cloner le dépôt original, de gérer des dépendances spécifiques et d'exécuter des scripts complexes en ligne de commande. Bien qu'il prenne en charge des fonctionnalités avancées telles que l'entraînement en précision mixte et les configurations multi-nœuds via MegEngine, la courbe d'apprentissage peut être abrupte pour les développeurs ayant besoin d'un prototypage rapide.

L'avantage Ultralytics

À l'inverse, Ultralytics privilégie une expérience utilisateur exceptionnellement simplifiée. Avec le package Python ultralytics, tu peux charger, entraîner et valider un modèle avec un minimum de code répétitif. Ultralytics gère automatiquement les augmentations de données complexes, l'évolution des hyperparamètres et la planification du taux d'apprentissage.

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

De plus, la polyvalence de YOLOv5 s'étend au-delà de la détection d'objets standard, offrant une prise en charge robuste de la classification d'images et de la segmentation d'instances au sein de la même API cohérente.

Déploiement rationalisé

Une fois ton entraînement terminé, exporter un modèle YOLOv5 vers CoreML, TFLite ou OpenVINO est aussi simple qu'exécuter model.export(format="onnx"). Cela élimine le besoin de scripts de conversion tiers souvent requis par les dépôts axés sur la recherche.

Applications concrètes

Le choix entre ces modèles dépend de ton environnement de déploiement et de tes exigences techniques :

  • Commerce de détail et gestion des stocks : Pour les applications nécessitant une reconnaissance de produits en temps réel sur des appareils en périphérie (edge devices) comme le NVIDIA Jetson, YOLOv5 est exceptionnellement bien adapté. Sa faible empreinte mémoire et ses vitesses d'inférence TensorRT rapides permettent le suivi multi-caméra sans perte d'images.
  • Recherche académique et architectures personnalisées : YOLOX est très apprécié dans la communauté scientifique. Sa tête découplée et sa nature sans ancres en font une excellente base pour les ingénieurs souhaitant expérimenter de nouvelles stratégies d'attribution de labels ou pour ceux travaillant sur des jeux de données où les boîtes ancres traditionnelles échouent à se généraliser.
  • IA agricole : Pour des tâches d'agriculture de précision telles que la détection de fruits ou l'identification de mauvaises herbes via des drones, la facilité d'entraînement et de déploiement des modèles YOLOv5 via la plateforme Ultralytics permet aux experts du domaine de mettre en œuvre des solutions d'IA sans avoir besoin de solides connaissances en ingénierie machine learning.

Cas d'utilisation et recommandations

Le choix entre YOLOv5 et YOLOX dépend des exigences spécifiques de ton projet, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.

Quand choisir YOLOv5

YOLOv5 est un choix solide pour :

  • Systèmes de production éprouvés : Déploiements existants où l'historique de stabilité de YOLOv5, sa documentation étendue et son immense soutien communautaire sont valorisés.
  • Entraînement avec ressources limitées : Environnements dotés de ressources GPU limitées où le pipeline d'entraînement efficace et les exigences en mémoire plus faibles de YOLOv5 sont avantageux.
  • Support étendu des formats d'exportation : Projets nécessitant un déploiement sur de nombreux formats, notamment ONNX, TensorRT, CoreML et TFLite.

Quand choisir YOLOX

YOLOX est recommandé pour :

  • Recherche sur la détection sans ancres (anchor-free) : Recherche universitaire utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Appareils Edge ultra-légers : Déploiement sur des microcontrôleurs ou du matériel mobile ancien où l'empreinte extrêmement faible de la variante YOLOX-Nano (0,91M de paramètres) est critique.
  • Études d'assignation de labels SimOTA : Projets de recherche étudiant les stratégies d'assignation de labels basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Quand choisir Ultralytics (YOLO26)

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
  • Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

L'avenir de la vision par IA : Place à YOLO26

Bien que YOLOv5 et YOLOX aient tous deux marqué l'histoire de la vision par ordinateur, le domaine progresse rapidement. Pour les développeurs commençant de nouveaux projets aujourd'hui, Ultralytics recommande fortement d'explorer son dernier modèle phare, YOLO26.

Sorti en janvier 2026, YOLO26 représente un bond en avant massif en termes de performance et d'utilisabilité. Il introduit une conception révolutionnaire end-to-end NMS-free, éliminant complètement le post-traitement Non-Maximum Suppression. Cela réduit considérablement la variabilité de la latence et simplifie la logique de déploiement sur les appareils à faible puissance.

De plus, YOLO26 utilise le nouvel optimiseur MuSGD—un hybride de SGD et Muon inspiré des innovations en entraînement de LLM—pour une convergence incroyablement stable et rapide. Avec la suppression de DFL (Distribution Focal Loss supprimée pour une exportation simplifiée et une meilleure compatibilité avec les appareils en périphérie/faible puissance), YOLO26 atteint jusqu'à 43 % d'inférence CPU plus rapide, consolidant sa position en tant que modèle ultime pour le edge computing moderne, la robotique et les applications IoT. De plus, ProgLoss + STAL offre des fonctions de perte améliorées avec des avancées notables dans la reconnaissance de petits objets, essentielles pour l'IoT, la robotique et l'imagerie aérienne. Les utilisateurs intéressés par les générations précédentes peuvent également se tourner vers YOLO11, bien que YOLO26 soit le choix incontesté à l'état de l'art.

Conclusion

YOLOv5 et YOLOX offrent tous deux des capacités incroyables de détection d'objets. YOLOX a repoussé les limites architecturales en prouvant que les conceptions sans ancres pouvaient rivaliser avec les méthodes traditionnelles et les dépasser en 2021. Cependant, YOLOv5 demeure une force dominante en raison de sa facilité d'utilisation inégalée, de son écosystème étendu et de ses besoins en mémoire plus faibles pendant l'entraînement.

Pour la grande majorité des applications commerciales, l'écosystème Ultralytics offre le chemin le plus rapide d'un jeu de données brut à un modèle déployé en production. Qu'il s'agisse d'utiliser le fiable YOLOv5 ou de passer au modèle de pointe YOLO26, les développeurs bénéficient d'un framework conçu pour rendre l'IA visuelle accessible, efficace et hautement performante.

Commentaires