Link to this sectionYOLOX vs YOLOv5#
Sélectionner le bon modèle de détection d'objets est une décision critique qui conditionne la réussite de tout projet de vision par ordinateur. Ce guide propose une comparaison technique approfondie entre deux modèles pivots du paysage de l'IA : YOLOX de Megvii et Ultralytics YOLOv5. En analysant leurs architectures, leurs métriques de performance et leurs écosystèmes d'entraînement, nous visons à aider les développeurs et les chercheurs à faire un choix éclairé pour leurs environnements de déploiement spécifiques.
Link to this sectionIntroduction aux modèles#
Les deux modèles ont émergé pendant une période d'avancée rapide dans la détection d'objets en temps réel, mais ils ont adopté des philosophies architecturales différentes pour atteindre leurs performances.
Link to this sectionYOLOX : Une approche sans ancres#
Publié par les chercheurs Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun chez Megvii le 18 juillet 2021, YOLOX a introduit un changement significatif en s'éloignant des boîtes d'ancrage traditionnelles. Documenté dans leur rapport technique Arxiv, YOLOX intègre une conception sans ancres avec une tête découplée et la stratégie d'assignation d'étiquettes SimOTA. Cette conception visait à combler le fossé entre la recherche académique et l'application industrielle, en offrant de solides performances sur des jeux de données standards.
Link to this sectionYOLOv5 : La norme pour l'IA de vision en production#
Conçu par Glenn Jocher et publié par Ultralytics le 26 juin 2020, YOLOv5 est rapidement devenu la norme industrielle pour la vision par ordinateur déployée. Construit nativement sur le framework PyTorch, il a démocratisé l'IA de pointe en offrant une facilité d'utilisation inégalée, un entraînement exceptionnellement rapide et un dépôt hautement soigné. L'architecture de YOLOv5 s'est concentrée sur un équilibre parfait entre vitesse, précision et facilité de déploiement, en faisant un favori pour tout, des appareils de périphérie (edge) aux déploiements cloud massifs.
Link to this sectionDifférences architecturales#
Comprendre les différences mécaniques fondamentales entre ces réseaux permet de clarifier pourquoi leurs performances diffèrent selon les tâches.
Link to this sectionSans ancres vs Avec ancres#
Le contraste le plus marquant est le mécanisme sans ancres de YOLOX. Les modèles traditionnels comme YOLOv5 s'appuient sur des boîtes d'ancrage prédéfinies pour prédire les boîtes englobantes, ce qui nécessite une analyse de clustering sur le jeu de données d'entraînement pour déterminer les tailles d'ancrage optimales. YOLOX élimine cela, en prédisant les coordonnées de la boîte englobante directement à chaque emplacement spatial. Bien que l'approche sans ancres réduise le nombre de paramètres de conception et le réglage heuristique, l'approche raffinée basée sur les ancres de YOLOv5, aidée par sa fonctionnalité auto-anchor, assure une convergence d'entraînement incroyablement stable et prévisible dès le départ.
Link to this sectionTête découplée vs Tête couplée#
YOLOX utilise une tête découplée, ce qui signifie que les tâches de classification et de régression sont séparées en branches distinctes au sein du réseau de neurones. Les auteurs ont soutenu que cela résout les conflits entre l'apprentissage des caractéristiques spatiales et sémantiques. À l'inverse, YOLOv5 utilisait une tête couplée hautement optimisée (dans ses premières versions) qui maximisait l'efficacité computationnelle et réduisait la latence d'inférence, ce qui est crucial pour le calcul en périphérie en temps réel.
Link to this sectionStratégie d'assignation d'étiquettes#
YOLOX utilise SimOTA pour l'assignation d'étiquettes, qui formule le jumelage des objets de vérité terrain avec les prédictions comme un problème de Transport Optimal. Cette assignation dynamique améliore la gestion des scènes encombrées. YOLOv5 utilise une assignation robuste basée sur des règles de forme, garantissant que des échantillons positifs de haute qualité sont systématiquement injectés dans la fonction de perte, ce qui contribue à sa stabilité d'entraînement légendaire.
Link to this sectionPerformances et benchmarks#
Le compromis entre vitesse et précision est le test ultime pour ces architectures. Le tableau ci-dessous illustre les performances de diverses tailles de modèles sur des benchmarks standards.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Bien que YOLOX atteigne des scores mAP compétitifs, surtout dans ses variantes plus grandes, YOLOv5 conserve un avantage remarquable en vitesse d'inférence TensorRT sur toute la ligne. Le modèle YOLOv5s, par exemple, offre des ratios vitesse-précision exceptionnels, le rendant hautement souhaitable pour les applications en temps réel où chaque milliseconde compte.
Link to this sectionL'avantage Ultralytics : Entraînement et Utilisabilité#
Lors de la transition de la recherche à la production, l'écosystème entourant un modèle est souvent aussi important que le modèle lui-même. Ici, les avantages de l'écosystème Ultralytics deviennent flagrants.
Link to this sectionExpérience utilisateur simplifiée#
YOLOv5 est universellement loué pour son expérience développeur "zéro à héros". L'API Python Ultralytics et la CLI te permettent de charger, d'entraîner et de déployer des modèles avec des lignes de code uniques. En revanche, exécuter YOLOX depuis le dépôt GitHub Megvii nécessite une configuration manuelle plus importante des variables d'environnement, des configurations complexes de chemins Python, et une courbe d'apprentissage plus raide typique des bases de code de recherche académique.
Link to this sectionEfficacité de l'entraînement et exigences en mémoire#
Les modèles Ultralytics sont méticuleusement conçus pour minimiser l'utilisation de la mémoire pendant l'entraînement. YOLOv5 nécessite nettement moins de mémoire CUDA que les modèles transformer fortement paramétrés comme RT-DETR ou les modèles de recherche non optimisés. Cela permet aux développeurs d'entraîner des tailles de batch plus grandes sur du matériel grand public, accélérant le cycle de développement itératif.
Link to this sectionPolyvalence des tâches#
Alors que YOLOX est strictement un framework de détection d'objets, l'écosystème Ultralytics a fait évoluer YOLOv5 pour prendre en charge de multiples tâches de vision. Immédiatement, tu peux effectuer de la Classification d'images, de la Segmentation d'instance et de la détection d'objets en utilisant exactement la même syntaxe d'API.
Si tu as besoin de tâches encore plus avancées comme l'Estimation de pose ou la détection de Boîte englobante orientée (OBB), nous recommandons vivement de passer à la dernière architecture Ultralytics YOLO26, qui prend en charge tout cela nativement avec une précision de pointe.
Link to this sectionComparaison de code#
La différence d'utilisabilité est mieux démontrée par le code.
Entraînement avec YOLOv5 :
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()Entraînement avec YOLOX : (Nécessite le clonage manuel du dépôt, l'installation via setup.py et des arguments CLI complexes)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -oL'approche Ultralytics supprime les frictions, te permettant de te concentrer sur ton jeu de données et ta logique applicative plutôt que de déboguer des fichiers de configuration. De plus, le suivi de tes expériences est transparent avec des intégrations natives pour Weights & Biases et Comet ML.
Link to this sectionCas d'utilisation idéaux et applications réelles#
Le choix entre ces modèles dépend de l'environnement opérationnel de ton projet.
Link to this sectionOù YOLOX excelle#
YOLOX reste un candidat solide dans les cadres académiques où les chercheurs étudient explicitement les paradigmes sans ancres ou les stratégies d'assignation d'étiquettes. Il est également utile dans les scénarios où la détection de scènes encombrées est la métrique principale absolue et où les vitesses de déploiement en périphérie sont secondaires.
Link to this sectionLà où YOLOv5 excelle#
YOLOv5 est le champion incontesté du déploiement pratique.
- Fabrication à haute vitesse : Pour la détection de défauts sur les lignes d'assemblage, la latence d'inférence minimale de YOLOv5 sur les GPU en périphérie garantit que les produits sont inspectés sans ralentir la bande.
- Drones et imagerie aérienne : Son empreinte mémoire efficace lui permet de fonctionner sur des ordinateurs de bord légers sur les drones pour des tâches comme la surveillance agricole et le suivi de la faune.
- Commerce de détail intelligent : Du paiement automatisé à la gestion des stocks, YOLOv5 s'exporte facilement vers TensorRT et ONNX pour un déploiement massif sur des milliers de caméras en magasin.
Link to this sectionRegarder vers l'avenir : l'avantage de YOLO26#
Bien que YOLOv5 soit un modèle légendaire, le domaine de l'IA progresse rapidement. Si tu commences un nouveau projet aujourd'hui, nous te conseillons vivement de regarder la dernière génération de modèles Ultralytics.
Publié en 2026, Ultralytics YOLO26 représente un saut en avant massif. Il présente une conception de bout en bout sans NMS, supprimant complètement le besoin de post-traitement de suppression non-maximale, ce qui simplifie radicalement la logique de déploiement. En supprimant la Distribution Focal Loss (DFL) et en utilisant l'optimiseur de pointe MuSGD, YOLO26 atteint jusqu'à 43 % d'inférence CPU plus rapide que les générations précédentes tout en maintenant une précision plus élevée, surtout sur les petits objets grâce aux nouvelles fonctions de perte ProgLoss + STAL.
Que tu choisisses la fiabilité éprouvée de YOLOv5 ou les performances de pointe de YOLO26, la Plateforme Ultralytics garantit que tu disposes des meilleurs outils pour mener tes solutions de vision par ordinateur du concept à la production en toute transparence. Assure-toi d'explorer la documentation Ultralytics exhaustive pour libérer tout le potentiel de ton pipeline d'IA.