YOLOX vs. YOLOv5 : Comparaison approfondie de l'architecture et des performances
Le choix du bon modèle de détection d'objets est une décision critique qui détermine le succès de tout projet de vision par ordinateur. Ce guide fournit une comparaison technique complète entre deux modèles pivots dans le paysage de l'IA : YOLOX de Megvii et Ultralytics YOLOv5. En analysant leurs architectures, leurs mesures de performance et leurs écosystèmes d'entraînement, nous aidons les développeurs et les chercheurs à faire un choix éclairé pour leurs environnements de déploiement spécifiques.
Introduction aux modèles
Les deux modèles ont émergé durant une période de progrès rapide dans la détection d'objets en temps réel, bien qu'ils aient adopté des philosophies architecturales différentes pour atteindre leurs performances.
YOLOX : Une approche sans ancres (anchor-free)
Publié par les chercheurs Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii le 18 juillet 2021, YOLOX a introduit un changement significatif en s'éloignant des boîtes d'ancrage traditionnelles. Documenté dans leur rapport technique Arxiv, YOLOX a intégré une conception sans ancres avec une tête découplée et la stratégie d'assignation de labels SimOTA. Cette conception visait à combler le fossé entre la recherche académique et l'application industrielle, offrant de solides performances sur des jeux de données standards.
YOLOv5 : La norme pour l'IA de vision en production
Créé par Glenn Jocher et publié par Ultralytics le 26 juin 2020, YOLOv5 est rapidement devenu la norme industrielle pour la vision par ordinateur déployée. Construit nativement sur le framework PyTorch, il a démocratisé l'IA de pointe en offrant une facilité d'utilisation inégalée, un entraînement exceptionnellement rapide et un dépôt hautement soigné. L'architecture de YOLOv5 s'est concentrée sur un équilibre parfait entre vitesse, précision et facilité de déploiement, en faisant un favori pour tout, des appareils Edge aux déploiements massifs sur le cloud.
Différences architecturales
Comprendre les différences mécaniques fondamentales entre ces réseaux permet de clarifier pourquoi ils fonctionnent différemment selon les tâches.
Sans ancres vs Avec ancres
Le contraste le plus marquant est le mécanisme sans ancres de YOLOX. Les modèles traditionnels comme YOLOv5 s'appuient sur des boîtes d'ancrage prédéfinies pour prédire les boîtes englobantes (bounding boxes), ce qui nécessite une analyse de clustering sur le jeu de données d'entraînement pour déterminer les tailles d'ancres optimales. YOLOX élimine cela, en prédisant les coordonnées des boîtes englobantes directement à chaque emplacement spatial. Bien que l'approche sans ancres réduise le nombre de paramètres de conception et d'ajustements heuristiques, l'approche affinée basée sur les ancres de YOLOv5, aidée par sa fonctionnalité auto-anchor, assure une convergence d'entraînement incroyablement stable et prévisible dès la sortie de boîte.
Tête découplée vs Tête couplée
YOLOX utilise une tête découplée, ce qui signifie que les tâches de classification et de régression sont séparées en branches distinctes de réseaux de neurones. Les auteurs ont soutenu que cela résout les conflits entre l'apprentissage des caractéristiques spatiales et sémantiques. À l'inverse, YOLOv5 utilisait une tête couplée hautement optimisée (dans ses premières versions) qui maximisait l'efficacité computationnelle et réduisait la latence d'inférence, ce qui est crucial pour le calcul en périphérie (edge computing) en temps réel.
Stratégie d'assignation de labels
YOLOX utilise SimOTA pour l'assignation de labels, ce qui formule l'appariement des objets de vérité terrain (ground truth) avec les prédictions comme un problème de Transport Optimal. Cette assignation dynamique améliore la gestion des scènes encombrées. YOLOv5 emploie une assignation robuste basée sur des règles de forme, garantissant que des échantillons positifs de haute qualité sont systématiquement transmis à la fonction de perte, ce qui contribue à sa légendaire stabilité d'entraînement.
Performances et benchmarks
Le compromis entre vitesse et précision est le test ultime pour ces architectures. Le tableau ci-dessous illustre la performance de différentes tailles de modèles sur des benchmarks standards.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45,4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Alors que YOLOX atteint des scores de mAP compétitifs, surtout dans ses variantes les plus grandes, YOLOv5 maintient un avantage remarquable en vitesse d'inférence TensorRT sur toute la ligne. Le modèle YOLOv5s, par exemple, fournit des rapports vitesse-précision exceptionnels, le rendant très souhaitable pour les applications en temps réel où chaque milliseconde compte.
L'avantage Ultralytics : Entraînement et utilisabilité
Lors de la transition de la recherche à la production, l'écosystème entourant un modèle est souvent aussi important que le modèle lui-même. Ici, les avantages de l'écosystème Ultralytics deviennent flagrants.
Expérience utilisateur simplifiée
YOLOv5 est universellement salué pour son expérience développeur "zéro à héros". L'API Python Ultralytics et la CLI te permettent de charger, d'entraîner et de déployer des modèles avec quelques lignes de code seulement. En revanche, exécuter YOLOX à partir du dépôt GitHub de Megvii nécessite une configuration plus manuelle des variables d'environnement, des configurations complexes de chemins Python, et une courbe d'apprentissage plus raide typique des bases de code de recherche académique.
Efficacité de l'entraînement et exigences en mémoire
Les modèles Ultralytics sont méticuleusement conçus pour minimiser l'utilisation de la mémoire pendant l'entraînement. YOLOv5 nécessite nettement moins de mémoire CUDA par rapport aux modèles transformeurs lourdement paramétrés comme RT-DETR ou aux modèles de recherche non optimisés. Cela permet aux développeurs d'entraîner des tailles de batch plus grandes sur du matériel grand public, accélérant le cycle de développement itératif.
Polyvalence entre les tâches
Alors que YOLOX est strictement un framework de détection d'objets, l'écosystème Ultralytics a fait évoluer YOLOv5 pour prendre en charge plusieurs tâches de vision. Prêt à l'emploi, tu peux effectuer de la Classification d'images, de la Segmentation d'instances et de la détection d'objets en utilisant exactement la même syntaxe d'API.
Si tu as besoin de tâches encore plus avancées comme l'Estimation de pose ou la détection de Boîtes englobantes orientées (OBB), nous te recommandons vivement de passer à la dernière architecture Ultralytics YOLO26, qui prend en charge tout cela nativement avec une précision de pointe.
Comparaison de code
La différence d'utilisabilité est mieux démontrée par le code.
Entraînement avec YOLOv5 :
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()Entraînement avec YOLOX : (Nécessite le clonage manuel du dépôt, l'installation via setup.py et des arguments CLI complexes)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -oL'approche Ultralytics supprime les frictions, te permettant de te concentrer sur ton jeu de données et ta logique d'application plutôt que de déboguer des fichiers de configuration. De plus, le suivi de tes expériences est fluide grâce aux intégrations intégrées pour Weights & Biases et Comet ML.
Cas d'utilisation idéaux et applications réelles
Choisir entre ces modèles dépend de l'environnement opérationnel de ton projet.
Où YOLOX excelle
YOLOX reste un candidat solide dans les environnements académiques où les chercheurs étudient explicitement les paradigmes sans ancres ou les stratégies d'assignation de labels. Il est également utile dans les scénarios où la détection de scènes encombrées est la mesure absolument prioritaire et où les vitesses de déploiement en périphérie sont secondaires.
Où YOLOv5 excelle
YOLOv5 est le champion incontesté du déploiement pratique.
- Fabrication à haute vitesse : Pour la détection de défauts sur les chaînes de montage, la latence d'inférence minimale de YOLOv5 sur les GPU Edge garantit que les produits sont inspectés sans ralentir la bande.
- Drones et imagerie aérienne : Son empreinte mémoire efficace lui permet de fonctionner sur des ordinateurs compagnons légers sur des drones pour des tâches comme le suivi agricole et le suivi de la faune.
- Commerce intelligent : Du paiement automatisé à la gestion des stocks, YOLOv5 s'exporte facilement vers TensorRT et ONNX pour un déploiement massif sur des milliers de caméras en magasin.
Regard vers l'avenir : L'avantage de YOLO26
Bien que YOLOv5 soit un modèle légendaire, le domaine de l'IA avance rapidement. Si tu commences un nouveau projet aujourd'hui, nous te conseillons vivement de regarder la dernière génération de modèles Ultralytics.
Publié en 2026, Ultralytics YOLO26 représente un bond en avant massif. Il présente une Conception de bout en bout sans NMS, supprimant complètement le besoin de post-traitement par suppression non-maximale, ce qui simplifie radicalement la logique de déploiement. En supprimant la Distribution Focal Loss (DFL) et en utilisant l'optimiseur de pointe MuSGD, YOLO26 atteint jusqu'à 43% d'inférence CPU plus rapide que les générations précédentes tout en maintenant une précision supérieure, notamment sur les petits objets grâce aux nouvelles fonctions de perte ProgLoss + STAL.
Que tu choisisses la fiabilité éprouvée de YOLOv5 ou la performance de pointe de YOLO26, la Plateforme Ultralytics te garantit d'avoir les meilleurs outils disponibles pour mener tes solutions de vision par ordinateur du concept à la production en toute transparence. Assure-toi d'explorer la documentation Ultralytics complète pour libérer tout le potentiel de ton pipeline d'IA.