Passer au contenu

YOLOX vs YOLOv8: comparaison complète de l'architecture et des performances

Le domaine de la vision par ordinateur a connu des progrès remarquables en matière de détection d'objets en temps réel au cours des dernières années. Alors que les chercheurs et les ingénieurs repoussent sans cesse les limites de la précision et de la vitesse, il peut être difficile de s'y retrouver parmi les modèles disponibles. Ce guide complet propose une comparaison technique approfondie entre deux architectures très influentes : YOLOX et Ultralytics YOLOv8.

En analysant leurs architectures uniques, leurs méthodologies de formation et leurs capacités de déploiement, les développeurs peuvent prendre des décisions éclairées lorsqu'ils choisissent le cadre optimal pour leurs projets d'intelligence artificielle.

YOLOX : Relier la recherche et l’industrie

YOLOX s'est imposé comme un modèle central qui a réussi à combler le fossé entre la recherche universitaire et les applications industrielles. Il a marqué un retour à une conception sans ancrage, réduisant considérablement le nombre de paramètres de conception et de réglages heuristiques requis pour les détecteurs précédents basés sur des ancrages.

Détails du modèle :
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 18 juillet 2021
Arxiv : YOLOX : dépasser YOLO en 2021
GitHub : Megvii-BaseDetection/YOLOX
Documentation : Documentation YOLOX

Points forts architecturaux

YOLOX intègre plusieurs modifications clés qui le distinguent de ses prédécesseurs. La plus notable est la tête découplée, qui sépare les tâches de classification et de régression des boîtes englobantes en deux voies distinctes. Ce choix architectural résout le conflit inhérent entre l'alignement spatial nécessaire à la régression et l'invariance de translation requise pour la classification, ce qui permet d'obtenir un taux de convergence plus rapide pendant l'entraînement.

De plus, YOLOX utilise la stratégie d'attribution d'étiquettes SimOTA. Cette méthode d'attribution dynamique formule la correspondance entre les objets réels et les prédictions comme un problème de transport optimal, ce qui réduit efficacement le temps d'entraînement tout en augmentant la précision moyenne (mAP). Le modèle utilise également des techniques puissantes d'augmentation des données, notamment MixUp Mosaic, mais il les désactive notamment pendant les dernières époques afin de stabiliser les caractéristiques apprises.

En savoir plus sur YOLOX

YOLOv8: la norme polyvalente pour les écosystèmes

S'appuyant sur des années de recherche continue, Ultralytics YOLOv8 représente une évolution majeure dans les modèles de vision par ordinateur de pointe. Il a été conçu dès le départ pour être non seulement un détecteur d'objets, mais aussi un cadre complet et multitâche capable de gérer un large éventail de défis en matière de reconnaissance visuelle grâce à une API incroyablement accessible.

Détails du modèle :
Auteurs : Glenn Jocher, Ayush Chaurasia et Jing Qiu
Organisation : Ultralytics
Date : 10/01/2023
GitHub : ultralytics
Documentation : YOLOv8

Progrès architecturaux

YOLOv8 une architecture simplifiée qui remplace le module C3 par le module C2f, plus efficace, améliorant ainsi le flux de gradient et l'extraction des caractéristiques sans augmenter considérablement le nombre de paramètres. À l'instar de YOLOX, YOLOv8 une conception sans ancrage et une tête découplée ; cependant, il affine le calcul des pertes en intégrant la perte focale de distribution (DFL) et CIoU , ce qui se traduit par des prédictions de cadres de sélection beaucoup plus précises, en particulier pour les objets petits ou qui se chevauchent.

Ultralytics

L'une des plus grandes forces de YOLOv8 son intégration profonde dans Ultralytics . Que vous utilisiez Python unifiée ou l'interface visuelle de la Ultralytics , la transition entre la formation et le déploiement est transparente, prenant en charge les formats de ONNX à TensorRT .

Au-delà de la détection d'objets standard, YOLOv8 prend en charge YOLOv8 la segmentation d'instances, la classification d'images, l'estimation de poses et les boîtes englobantes orientées (OBB). Cette polyvalence multitâche en fait un choix très attractif pour les environnements de production complexes où plusieurs types de modèles doivent être maintenus.

En savoir plus sur YOLOv8

Comparaison des performances et des indicateurs

Lorsqu'ils comparent ces modèles, les développeurs doivent tenir compte des compromis entre précision, latence d'inférence et surcharge de calcul. Le tableau ci-dessous illustre les benchmarks pour les deux familles de modèles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

YOLOv8 affiche YOLOv8 mAP supérieur mAP des tailles de paramètres comparables, tout en conservant d'excellentes GPU . De plus, les Ultralytics sont connus pour leurs faibles besoins en mémoire pendant l'entraînement. Il s'agit là d'un avantage crucial lors du dimensionnement des tailles de lots sur du matériel grand public, en particulier par rapport aux architectures de transformateurs gourmandes en ressources telles que RT-DETR qui consomment beaucoup plus CUDA .

Expérience en développement et déploiement

Travailler avec des bases de code de recherche héritées nécessite souvent de configurer des environnements complexes et d'écrire du code standard personnalisé pour l'inférence. À l'inverse, Ultralytics simplifie cette tâche en quelques lignes de Python seulement.

from ultralytics import YOLO

# Initialize the YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's accuracy
metrics = model.val()

# Execute inference on a test image
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

Cette interface unifiée est la marque distinctive de Ultralytics , parfaitement entretenu, qui permet aux développeurs de passer moins de temps à déboguer les problèmes liés à l'environnement et plus de temps à itérer leurs solutions de vision par ordinateur.

Cas d'utilisation et recommandations

Le choix entre YOLOX et YOLOv8 des exigences spécifiques de votre projet, des contraintes de déploiement et de vos préférences en matière d'écosystème.

Quand choisir YOLOX

YOLOX est un choix judicieux pour :

  • Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
  • Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.

Quand choisir YOLOv8

YOLOv8 recommandé pour :

  • Déploiement polyvalent et multitâche : projets nécessitant un modèle éprouvé pour la détection, la segmentation, la classification et l'estimation de la pose au sein de Ultralytics .
  • Systèmes de production établis : environnements de production existants déjà basés sur YOLOv8 avec des pipelines de déploiement stables et éprouvés.
  • Large soutien de la communauté et de l'écosystème : applications bénéficiant des nombreux tutoriels, des intégrations tierces et des ressources communautaires actives YOLOv8.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Perspectives d'avenir : l'architecture YOLO26

Si YOLOv8 un équilibre et une facilité d'utilisation exceptionnels, la frontière de l'intelligence artificielle continue de progresser rapidement. Sorti en janvier 2026, YOLO26 représente la norme définitive pour le déploiement moderne en périphérie et dans le cloud, en reprenant les concepts fondamentaux des générations précédentes et en les optimisant sans relâche.

YOLO26 introduit une conception de bout en bout NMS, éliminant complètement l'étape de post-traitement heuristique de suppression non maximale. Cette avancée garantit une latence stable et déterministe sur diverses cibles de déploiement. De plus, en supprimant délibérément le module Distribution Focal Loss (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour les systèmes embarqués et les applications mobiles.

La stabilité de l'entraînement est également révolutionnée dans YOLO26 grâce à l'intégration du nouvel optimiseur MuSGD, un hybride de SGD Muon qui accélère la convergence. Associé aux nouvelles fonctions de perte ProgLoss + STAL, YOLO26 apporte des améliorations notables dans la reconnaissance des petits objets, ce qui est essentiel pour la cartographie par drone et les systèmes d'alarme de sécurité.

Conclusion et recommandations

Lorsque l'on compare les anciens frameworks aux solutions modernes, la trajectoire est claire. Si YOLOX a joué un rôle déterminant dans la transition vers des méthodologies sans ancrage, son manque d'écosystème intégré et multitâche limite son utilité dans les environnements de production en constante évolution.

Pour les développeurs qui privilégient une expérience fluide, une prise en charge polyvalente des tâches et un solide soutien communautaire, YOLOv8 reste un choix très robuste. Cependant, pour ceux qui cherchent à maximiser les performances de l'edge computing, à éliminer NMS et à atteindre la plus grande précision possible grâce aux dernières innovations en matière de formation, YOLO26 est de loin le modèle recommandé pour tout nouveau projet de vision par ordinateur.

Si vous souhaitez découvrir d'autres modèles de la Ultralytics , vous pouvez également consulter les caractéristiques de performance de YOLO11 ou vous renseigner sur les concepts novateurs NMS initialement testés dans YOLOv10.


Commentaires