Passer au contenu

YOLO11 vs YOLOX : une comparaison technique complète

La sélection du modèle optimal de détection d'objets est une décision cruciale pour les développeurs et les chercheurs, qui doivent trouver un équilibre entre la précision, la vitesse d'inférence et la facilité de déploiement. Cette analyse technique propose une comparaison approfondie entre Ultralytics YOLO11le dernier modèle d'IA de vision à la pointe de la technologie, et YOLOX, un détecteur sans ancrage pionnier de Megvii. Alors que YOLOX a introduit des innovations significatives en 2021, YOLO11 représente la prochaine génération de vision par ordinateur, offrant une polyvalence accrue, des mesures de performance supérieures et un écosystème de développement unifié.

Ultralytics YOLO11: la nouvelle norme en matière d'IA visuelle

YOLO11 est le dernier modèle phare de la célèbre série YOLO , lancée par Ultralytics pour redéfinir ce qui est possible en matière de vision par ordinateur en temps réel. S'appuyant sur l'héritage de ses prédécesseurs, YOLO11 apporte des améliorations architecturales qui renforcent considérablement les capacités d'extraction des caractéristiques et l'efficacité du traitement.

Architecture et capacités de base

YOLO11 utilise une architecture de pointe, sans ancrage, qui optimise le compromis entre le coût de calcul et la précision de la détection. Contrairement aux modèles traditionnels qui s'appuient uniquement sur la régression de la boîte englobante, YOLO11 est un cadre multitâche. Il prend en charge de manière native un large éventail de tâches de vision, notamment la détection d'objets, la segmentation d'instances, l'estimation de la pose, la classification d'images et la détection de boîtes englobantes orientées (OBB).

Une API unifiée pour toutes les tâches

YOLO11 simplifie le processus de développement en utilisant une interface Python unique pour toutes les tâches prises en charge. Passer de la détection à la segmentation est aussi simple que de charger un fichier de poids de modèle différent (par exemple, yolo11n-seg.pt).

Principaux avantages

  • Des performances de pointe : YOLO11 atteint des niveaux plus élevés mAP sur le benchmark COCO par rapport aux itérations précédentes et aux concurrents, en utilisant moins de paramètres pour y parvenir.
  • Une grande polyvalence : La possibilité d'effectuer la segmentation, la classification et l'estimation de la pose au sein de la même base de code élimine la nécessité d'apprendre plusieurs cadres.
  • Flexibilité de déploiement : Le modèle s'exporte de manière transparente vers des formats tels que ONNX, TensorRTCoreML et TFLite, ce qui garantit la compatibilité avec divers matériels, depuis les périphériques jusqu'aux GPU en nuage.
  • Conception centrée sur l'utilisateur : En mettant l'accent sur la facilité d'utilisation, les développeurs peuvent former, valider et déployer des modèles avec un minimum de code.

En savoir plus sur YOLO11

YOLOX : Le pionnier de la liberté d'ancrage

Publié en 2021 par Megvii, YOLOX a transformé le paysage de la détection d'objets. Il s'est démarqué des approches basées sur l'ancrage, courantes à l'époque (comme YOLOv4 et YOLOv5), en adoptant un mécanisme sans ancrage et une structure de tête découplée.

Points forts de l'architecture

YOLOX se distingue par une tête découplée, séparant les tâches de classification et de régression en différentes branches. Cette conception, combinée à sa stratégie d'attribution d'étiquettes SimOTA, lui a permis d'obtenir d'excellentes performances sans la complexité du réglage manuel des hyperparamètres de la boîte d'ancrage.

Points forts et limites

  • Conception sans ancrage : En supprimant les ancres, YOLOX a simplifié le processus d'apprentissage et amélioré la généralisation à différentes formes d'objets.
  • Une base solide : Elle reste un point de référence précieux pour la recherche sur les méthodes de détection sans ancrage.
  • Portée limitée : Contrairement à YOLO11, YOLOX est avant tout un détecteur d'objets et ne dispose pas de support natif pour les tâches complexes en aval telles que la segmentation ou l'estimation de la pose.
  • Fragmentation de l'écosystème : Bien qu'il soit open-source, il ne dispose pas des outils unifiés et activement maintenus que l'on trouve dans l'écosystèmeUltralytics , ce qui nécessite souvent plus d'efforts manuels pour l'intégration et le déploiement.

En savoir plus sur YOLOX

Analyse des performances

Le tableau suivant présente une comparaison directe des principales mesures de performance sur l'ensemble de données COCO . YOLO11 présente un net avantage en termes d'efficacité, en offrant une précision nettement supérieuremAP) avec des exigences de calcul comparables ou réduites.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Ventilation métrique

  1. Précision (mAP) : YOLO11 surpasse YOLOX à toutes les échelles de modèles. Par exemple, YOLO11s atteint 47,0 mAP, surpassant YOLOX-m (46,9 mAP) malgré le fait que YOLOX-m soit une classe de modèles plus grande avec près de 3 fois plus de FLOPs.
  2. Vitesse d'inférence : YOLO11 est optimisé pour l'accélération matérielle moderne. Sur un GPU T4 utilisant TensorRTYOLO11n atteint une vitesse impressionnante de 1,5 ms, ce qui en fait un outil idéal pour l'inférence en temps réel.
  3. Efficacité : YOLO11m atteint une précision élevée de 51,5 mAP avec seulement 20,1 millions de paramètres. En revanche, le plus grand modèle YOLOX-x nécessite 99,1 millions de paramètres pour atteindre une précision inférieure de 51,1 mAP, ce qui souligne la supériorité architecturale de YOLO11 en termes d'efficacité des paramètres.

Approfondissement technique

Méthodologie et écosystème de formation

L'une des différences les plus significatives réside dans l'expérience de formation et de développement. Ultralytics donne la priorité à une expérience utilisateur rationalisée, en offrant un écosystème complet qui simplifie chaque étape du cycle de vie de l'apprentissage automatique.

  • Facilité d'utilisation : YOLO11 peut être entraîné avec quelques lignes de code en utilisant la fonction ultralytics Python ou l'interface de ligne de commandeCLI. Cette accessibilité contraste avec YOLOX, qui nécessite généralement le clonage de dépôts et des configurations complexes.
  • Efficacité de la formation : Ultralytics fournit des poids pré-entraînés de haute qualité qui accélèrent l'apprentissage par transfert. Le pipeline de formation est hautement optimisé, prenant en charge des fonctionnalités telles que l'ajustement automatique de la taille des lots et la formation distribuée GPU .
  • Utilisation de la mémoire : Les modèles YOLO11 sont conçus pour être peu gourmands en mémoire lors de l'apprentissage et de l'inférence. Il s'agit d'un avantage crucial par rapport aux anciennes architectures et aux modèles lourds basés sur des transformateurs, qui permet à YOLO11 de fonctionner sur du matériel grand public et des appareils de pointe où la mémoire CUDA est limitée.
from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Polyvalence et application dans le monde réel

Alors que YOLOX est un détecteur d'objets dédié, YOLO11 sert de plateforme de vision globale.

  • Capacités multimodales : Les développeurs peuvent s'attaquer à des problèmes complexes en combinant les tâches. Par exemple, une application robotique peut utiliser la détection d'objet pour trouver un objet et l'estimation de la pose pour déterminer son orientation en vue d'une saisie, le tout dans le cadre unique de YOLO11 .
  • Un écosystème bien entretenu : Les modèles Ultralytics bénéficient d'une communauté active et de mises à jour fréquentes. Des fonctionnalités telles que le HUBUltralytics facilitent la gestion des données, la formation aux modèles et le déploiement, offrant un niveau de support que les projets open-source fragmentés ne peuvent égaler.

Cas d'utilisation idéaux

Quand choisir Ultralytics YOLO11

YOLO11 est le choix recommandé pour la grande majorité des applications commerciales et de recherche en raison de l'équilibre des performances et du soutien de l'écosystème.

  • Edge AI en temps réel : sa faible latence et sa grande efficacité en font un outil idéal pour le déploiement sur des appareils tels que NVIDIA Jetson, Raspberry Pi ou des téléphones portables.
  • Systèmes de vision complexes : Les projets nécessitant une segmentation, un suivi ou une estimation de la pose en plus de la détection bénéficieront du cadre unifié.
  • Solutions d'entreprise : La fiabilité, la documentation complète et la maintenance active garantissent une base stable pour un logiciel de qualité.

Quand envisager YOLOX

YOLOX reste pertinent dans des scénarios de niche spécifiques :

  • Recherche universitaire : Les chercheurs qui étudient les effets spécifiques des têtes découplées dans les détecteurs sans ancrage peuvent utiliser YOLOX comme base de comparaison.
  • Systèmes existants : Les pipelines existants fortement intégrés à la base de code spécifique de YOLOX (par exemple, les implémentations de MegEngine) peuvent continuer à l'utiliser pour éviter les coûts de refonte.

Conclusion

Alors que YOLOX a joué un rôle crucial dans la popularisation de la détection d'objets sans ancrage, Ultralytics YOLO11 représente le meilleur choix pour le développement moderne de la vision par ordinateur.

YOLO11 surpasse YOLOX dans tous les domaines critiques : il est plus précis, nettement plus rapide et beaucoup plus efficace en termes de paramètres. Au-delà des performances brutes, l'écosystème Ultralytics offre aux développeurs une facilité d'utilisation inégalée, une documentation solide et des capacités multitâches polyvalentes. Qu'il s'agisse de prototypage rapide ou de déploiement industriel à grande échelle, YOLO11 fournit les outils et les performances nécessaires à l'élaboration de solutions d'IA de pointe.

Autres comparaisons de modèles

Découvrez comment YOLO11 se compare à d'autres modèles de premier plan dans ce domaine :


Commentaires