Passer au contenu

YOLOX vs YOLOv5: comparaison approfondie de l'architecture et des performances

Le choix du bon modèle de détection d'objets est une décision cruciale qui détermine la réussite de tout projet de vision par ordinateur. Ce guide fournit une comparaison technique complète entre deux modèles essentiels dans le domaine de l'IA : YOLOX de Megvii et Ultralytics YOLOv5. En analysant leurs architectures, leurs mesures de performance et leurs écosystèmes de formation, nous souhaitons aider les développeurs et les chercheurs à faire un choix éclairé pour leurs environnements de déploiement spécifiques.

Introduction aux modèles

Les deux modèles ont vu le jour à une époque où la détection d'objets en temps réel connaissait des progrès rapides, mais ils ont adopté des philosophies architecturales différentes pour atteindre leurs performances.

YOLOX : Une approche sans ancrage

Publié par les chercheurs Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun de Megvii le 18 juillet 2021, YOLOX a introduit un changement significatif en s'éloignant des boîtes d'ancrage traditionnelles. Documenté dans leur rapport technique Arxiv, YOLOX a intégré une conception sans ancrage avec une tête découplée et la stratégie d'attribution d'étiquettes SimOTA. Cette conception visait à combler le fossé entre la recherche universitaire et l'application industrielle, en offrant des performances élevées sur des ensembles de données standard.

En savoir plus sur YOLOX

YOLOv5: la norme pour l'IA visuelle de production

Créé par Glenn Jocher et publié par Ultralytics 26 juin 2020, YOLOv5 est YOLOv5 devenu la norme industrielle en matière de vision par ordinateur déployée. Construit nativement sur le PyTorch , il a démocratisé l'IA de pointe en offrant une facilité d'utilisation inégalée, un apprentissage exceptionnellement rapide et un référentiel très perfectionné. L'architecture YOLOv5, axée sur un équilibre parfait entre vitesse, précision et facilité de déploiement, en fait un outil de prédilection pour tout type d'application, des appareils périphériques aux déploiements cloud à grande échelle.

En savoir plus sur YOLOv5

Différences architecturales

Comprendre les principales différences mécaniques entre ces réseaux permet de mieux comprendre pourquoi leurs performances varient selon les tâches.

Sans ancres vs. Basé sur des ancres

Le contraste le plus marquant réside dans le mécanisme sans ancrage de YOLOX. Les modèles traditionnels tels que YOLOv5 sur des boîtes d'ancrage prédéfinies pour prédire les boîtes englobantes, ce qui nécessite une analyse de regroupement sur l'ensemble de données d'entraînement afin de déterminer les tailles d'ancrage optimales. YOLOX élimine cette étape en prédisant directement les coordonnées des boîtes englobantes à chaque emplacement spatial. Si l'approche sans ancrage réduit le nombre de paramètres de conception et le réglage heuristique, l'approche raffinée basée sur l'ancrage YOLOv5, aidée par sa fonctionnalité d'ancrage automatique, garantit une convergence d'entraînement incroyablement stable et prévisible dès le départ.

Tête découplée vs tête couplée

YOLOX utilise une tête découplée, ce qui signifie que les tâches de classification et de régression sont séparées en branches distinctes du réseau neuronal. Les auteurs ont fait valoir que cela résout les conflits entre l'apprentissage des caractéristiques spatiales et sémantiques. À l'inverse, YOLOv5 une tête couplée hautement optimisée (dans ses versions antérieures) qui maximisait l'efficacité computationnelle et réduisait la latence d'inférence, ce qui est crucial pour l'informatique en temps réel à la périphérie.

Évolution architecturale

Alors que YOLOX a été le premier à adopter la tête découplée en 2021, Ultralytics a Ultralytics adopté et perfectionné les architectures découplées dans des modèles ultérieurs tels que YOLOv8 et le très innovant YOLO26, combinant le meilleur des deux mondes.

Stratégie d'attribution des étiquettes

YOLOX utilise SimOTA pour l'attribution des étiquettes, qui formule l'appariement des objets de référence aux prédictions sous la forme d'un problème de transport optimal. Cette attribution dynamique améliore le traitement des scènes encombrées. YOLOv5 une attribution robuste basée sur des règles de forme, garantissant que des échantillons positifs de haute qualité sont systématiquement fournis à la fonction de perte, ce qui contribue à sa stabilité de formation légendaire.

Performances et analyses comparatives

Le compromis entre vitesse et précision est le test ultime pour ces architectures. Le tableau ci-dessous illustre les performances de différents modèles de tailles variées sur des benchmarks standard.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Alors que YOLOX obtient mAP compétitifs, en particulier dans ses variantes plus importantes, YOLOv5 un avantage remarquable en termes de vitesse TensorRT dans tous les domaines. Le modèle YOLOv5s, par exemple, offre un rapport vitesse/précision exceptionnel, ce qui le rend très intéressant pour les applications en temps réel où chaque milliseconde compte.

Ultralytics : formation et facilité d'utilisation

Lors du passage de la recherche à la production, l'écosystème entourant un modèle est souvent aussi important que le modèle lui-même. C'est là que les avantages de Ultralytics deviennent évidents.

Expérience utilisateur simplifiée

YOLOv5 unanimement salué pour son expérience développeur « zero-to-hero ». Python et CLI Ultralytics vous CLI de charger, d'entraîner et de déployer des modèles à l'aide de quelques lignes de code. En revanche, l'exécution de YOLOX à partir du référentiel GitHub de Megvii nécessite davantage de configuration manuelle des variables d'environnement, des configurations complexes Python et une courbe d'apprentissage plus raide, typique des bases de code issues de la recherche universitaire.

Efficacité de la formation et exigences en matière de mémoire

Ultralytics sont méticuleusement conçus pour minimiser l'utilisation de la mémoire pendant l'entraînement. YOLOv5 beaucoup moins CUDA que les modèles de transformateurs fortement paramétrés tels que RT-DETR ou les modèles de recherche non optimisés. Cela permet aux développeurs de former des lots plus importants sur du matériel grand public, accélérant ainsi le cycle de développement itératif.

Polyvalence dans toutes les tâches

Alors que YOLOX est strictement un cadre de détection d'objets, Ultralytics a fait évoluer YOLOv5 prendre en charge plusieurs tâches de vision. Dès son installation, vous pouvez effectuer une classification d'images, une segmentation d'instances et une détection d'objets en utilisant exactement la même syntaxe API.

Innovation continue

Si vous avez besoin de tâches encore plus avancées telles que l'estimation de la pose ou la détection de boîtes englobantes orientées (OBB), nous vous recommandons vivement de passer à la dernière architecture Ultralytics , qui prend en charge toutes ces tâches de manière native avec une précision de pointe.

Comparaison de code

La différence en termes d'utilisabilité est mieux illustrée à travers le code.

Formation avec YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Formation avec YOLOX :(Nécessite le clonage manuel du référentiel, l'installation de setup.py et CLI complexes)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

Ultralytics élimine les frictions, vous permettant ainsi de vous concentrer sur votre ensemble de données et la logique de votre application plutôt que sur le débogage des fichiers de configuration. De plus, le suivi de vos expériences s'effectue en toute transparence grâce aux intégrations intégrées pour Weights & Biases et Comet .

Cas d'utilisation idéaux et applications concrètes

Le choix entre ces modèles dépend de l'environnement opérationnel de votre projet.

Les domaines dans lesquels YOLOX excelle

YOLOX reste un candidat sérieux dans les milieux universitaires où les chercheurs étudient explicitement les paradigmes sans ancrage ou les stratégies d'attribution d'étiquettes. Il est également utile dans les scénarios où la détection de scènes encombrées est la métrique principale absolue et où les vitesses de déploiement en périphérie sont secondaires.

Où YOLOv5 excelle

YOLOv5 le champion incontesté du déploiement pratique.

  • Fabrication à grande vitesse : pour la détection des défauts sur les chaînes de montage, la latence d'inférence minimale YOLOv5 sur les GPU périphériques garantit que les produits sont inspectés sans ralentir la chaîne.
  • Imagerie aérienne et par drone : grâce à son empreinte mémoire efficace, il peut fonctionner sur des ordinateurs compagnons légers installés sur des drones pour des tâches telles que la surveillance agricole et le suivi de la faune sauvage.
  • Commerce intelligent : du paiement automatisé à la gestion des stocks, YOLOv5 s'exporte YOLOv5 vers TensorRT et ONNX pour un déploiement massif sur des milliers de caméras en magasin.

Perspectives d'avenir : l'avantage YOLO26

Bien que YOLOv5 un modèle légendaire, le domaine de l'IA évolue rapidement. Si vous démarrez un nouveau projet aujourd'hui, nous vous recommandons vivement de vous intéresser à la dernière génération de Ultralytics .

Sorti en 2026, Ultralytics représente un bond en avant considérable. Il se caractérise par une conception de bout en bout NMS, éliminant complètement le besoin d'un post-traitement par suppression non maximale, ce qui simplifie considérablement la logique de déploiement. En supprimant la perte focale de distribution (DFL) et en utilisant l'optimiseur MuSGD de pointe, YOLO26 atteint CPU jusqu'à 43 % plus rapide que les générations précédentes tout en conservant une précision supérieure, en particulier sur les petits objets grâce aux nouvelles fonctions de perte ProgLoss + STAL.

Que vous choisissiez la fiabilité éprouvée de YOLOv5 les performances de pointe de YOLO26, la Ultralytics vous garantit les meilleurs outils disponibles pour faire passer vos solutions de vision par ordinateur du concept à la production en toute transparence. N'hésitez pas à consulter la Ultralytics complète Ultralytics pour exploiter tout le potentiel de votre pipeline d'IA.


Commentaires