YOLOX vs. YOLO11 : un examen technique approfondi de l’évolution de la détection d’objets

Le choix de l'architecture de détection d'objets optimale est crucial pour les développeurs qui cherchent à équilibrer la précision, la latence et l'efficacité computationnelle. Cette analyse complète compare YOLOX, un modèle sans ancrage pionnier de Megvii, et Ultralytics YOLO11, la dernière itération de pointe d'Ultralytics. Bien que YOLOX ait introduit des innovations significatives en 2021, YOLO11 représente le summum de la vision par ordinateur en 2024, offrant un framework unifié pour diverses tâches allant de la détection à la segmentation d'instance.

YOLOX : Relier la recherche et l’industrie

Lancé en 2021, YOLOX a marqué un tournant significatif dans la famille YOLO en adoptant un mécanisme sans ancres et en découplant la tête de prédiction. Il a été conçu pour combler le fossé entre la recherche académique et l'application industrielle.

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation :Megvii
Date : 2021-07-18
Arxiv:YOLOX : Dépasser la série YOLO en 2021
GitHub :Megvii-BaseDetection/YOLOX
Docs :Documentation YOLOX

Architecture et innovations

YOLOX s'est démarqué des itérations précédentes comme YOLOv5 en supprimant les boîtes d'ancrage, ce qui a réduit la complexité de la conception et le nombre d'hyperparamètres heuristiques. Son architecture comprend une tête découplée, séparant les tâches de classification et de régression en différentes branches, ce qui a amélioré la vitesse de convergence et la précision. De plus, il a introduit SimOTA, une stratégie avancée d'attribution d'étiquettes qui attribue dynamiquement des échantillons positifs, améliorant ainsi les performances.

Points forts et faiblesses

Points forts :

Conception sans ancres : Élimine le besoin de clustering manuel des boîtes d'ancrage, simplifiant ainsi le pipeline d'entraînement.
Tête découplée : Améliore la précision de la localisation en optimisant indépendamment la classification et la régression.
Base de référence pour la recherche : Sert de point de référence solide pour l’étude des détecteurs sans ancrage.

Faiblesses :

Support de tâche limité : Principalement axé sur la détection d'objets, manquant de support natif pour la segmentation, l'estimation de pose ou les boîtes englobantes orientées (OBB).
Écosystème fragmenté : Manque d’un ensemble d’outils unifié et activement maintenu pour le déploiement, le suivi et le MLOps par rapport aux frameworks modernes.
Efficacité inférieure : Nécessite généralement plus de paramètres et de FLOPs pour atteindre une précision comparable à celle des modèles plus récents comme YOLO11.

En savoir plus sur YOLOX

Ultralytics YOLO11 : La nouvelle norme pour l’IA de vision

Ultralytics YOLO11 affine l’héritage de la détection d’objets en temps réel en mettant l’accent sur l’efficacité, la flexibilité et la facilité d’utilisation. Il est conçu pour être la solution de référence pour le prototypage rapide et les déploiements de production à grande échelle.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :Dépôt Ultralytics
Docs :Documentation Ultralytics YOLO11

Avantages de l'architecture et de l'écosystème

YOLO11 utilise une architecture sans ancres hautement optimisée qui améliore l'extraction des caractéristiques tout en minimisant la surcharge de calcul. Contrairement à YOLOX, YOLO11 n'est pas seulement un modèle, mais fait partie d'un écosystème complet. Il prend en charge un large éventail de tâches de vision par ordinateur : classification, segmentation, estimation de pose et suivi, le tout au sein d'une seule API conviviale.

MLOps intégrés

YOLO11 s'intègre de manière transparente avec Ultralytics HUB et des outils tiers tels que Weights & Biases et Comet, vous permettant de visualiser les expériences et de gérer les ensembles de données sans effort.

Pourquoi choisir YOLO11 ?

Polyvalence : Un framework unique pour la detect d’objets, la segment d’instance, l’estimation de pose et la classify d’images.
Facilité d'utilisation : L'API Python et la CLI rationalisées permettent aux développeurs de former et de déployer des modèles avec seulement quelques lignes de code.
Équilibre des performances : Permet d'obtenir des résultats supérieurs en matière de mAP supérieur avec des vitesses d'inférence plus rapides sur les CPU et les GPU par rapport aux prédécesseurs et aux concurrents.
Efficacité de la mémoire : Conçu avec des besoins en mémoire plus faibles pendant l’entraînement et l’inférence, ce qui le rend plus accessible que les modèles basés sur transformateur comme RT-DETR.
Prêt pour le déploiement : La prise en charge native de l’exportation vers des formats tels que ONNX, TensorRT, CoreML et TFLite garantit la compatibilité avec divers matériels, de NVIDIA Jetson aux appareils mobiles.

En savoir plus sur YOLO11

Analyse des performances

Le tableau ci-dessous met en évidence les différences de performance entre YOLOX et YOLO11. YOLO11 démontre systématiquement une plus grande précision (mAP) avec moins de paramètres et de FLOPs, ce qui se traduit par des vitesses d'inférence plus rapides.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Points clés à retenir

Domination de l’efficacité : Les modèles YOLO11 offrent un compromis significativement meilleur entre la vitesse et la précision. Par exemple, YOLO11m atteint 51,5 mAP avec seulement 20,1 M de paramètres, surpassant le YOLOX-x massif (51,1 mAP, 99,1 M de paramètres) tout en étant environ 5 fois plus petit.
Vitesse d'inférence : Sur un GPU T4 utilisant TensorRT, YOLO11n atteint 1,5 ms, ce qui en fait un choix exceptionnel pour les applications d'inférence en temps réel où la latence est essentielle.
Performance du CPU : Ultralytics fournit des benchmarks CPU transparents, mettant en évidence la viabilité de YOLO11 pour le déploiement sur des appareils sans accélérateurs dédiés.
Efficacité de l'entraînement : L'architecture de YOLO11 permet une convergence plus rapide pendant l'entraînement, ce qui permet d'économiser un temps de calcul et des ressources précieux.

Applications concrètes

Où YOLO11 excelle

Villes intelligentes : Grâce à sa vitesse et à sa précision élevées, YOLO11 est idéal pour les systèmes de gestion du trafic et la surveillance de la sécurité des piétons.
Fabrication : La capacité d'effectuer la segmentation et la détection OBB le rend parfait pour le contrôle qualité et la détection des défauts dans les pièces orientées sur les chaînes de montage.
Santé : Une grande précision avec une utilisation efficace des ressources permet l'analyse d'images médicales sur des appareils périphériques dans des contextes cliniques.

Où YOLOX est utilisé

Systèmes existants : Projets établis autour de 2021-2022 qui n’ont pas encore migré vers des architectures plus récentes.
Recherche académique : Études portant spécifiquement sur les effets des têtes découplées ou des mécanismes sans ancrage de manière isolée.

Expérience utilisateur et comparaison de code

Ultralytics donne la priorité à une expérience utilisateur simplifiée. Alors que YOLOX nécessite souvent des fichiers de configuration complexes et une installation manuelle, YOLO11 peut être utilisé avec un minimum de code.

Utilisation de Ultralytics YOLO11

Les développeurs peuvent charger un modèle pré-entraîné, exécuter l'inférence et même effectuer un entraînement sur des données personnalisées avec quelques lignes de python :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Facilité d'entraînement

L'entraînement d'un modèle YOLO11 sur un ensemble de données personnalisé est tout aussi simple. La bibliothèque gère automatiquement l'augmentation des données, le réglage des hyperparamètres et la journalisation.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Conclusion

Bien que YOLOX ait joué un rôle essentiel dans la popularisation de la détection d'objets sans ancrage, Ultralytics YOLO11 représente le choix supérieur pour le développement moderne de l'IA.

YOLO11 surpasse YOLOX en termes de précision, de vitesse et d'efficacité tout en offrant un écosystème robuste et bien maintenu. Sa polyvalence dans de multiples tâches de vision—supprimant la nécessité de jongler avec différentes bibliothèques pour la détection, la segmentation et l'estimation de pose—réduit considérablement la complexité du développement. Pour les développeurs à la recherche d'une solution pérenne et performante, soutenue par un support communautaire actif et une documentation complète, YOLO11 est la voie à suivre.

Découvrir plus de modèles

Découvrez comment YOLO11 se compare à d'autres architectures de pointe afin de trouver la solution la mieux adaptée à vos besoins spécifiques :