YOLO11 YOLOX : évolution architecturale et analyse des performances
Dans le domaine en constante évolution de la vision par ordinateur, choisir le bon modèle de détection d'objets est essentiel à la réussite d'un projet. Deux étapes importantes dans cette aventure sont YOLO11 et YOLOX. Alors que YOLOX a introduit des concepts révolutionnaires sans ancrage en 2021, YOLO11 sorti fin 2024) affine ces idées grâce à des améliorations architecturales modernes, une efficacité supérieure et le soutien solide de Ultralytics .
Ce guide fournit une comparaison technique approfondie afin d'aider les développeurs, chercheurs et ingénieurs à choisir le modèle le mieux adapté à leurs besoins spécifiques, qu'il s'agisse d'un déploiement en temps réel en périphérie ou d'une analyse côté serveur de haute précision.
Résumé
YOLO11 est le fruit de plusieurs années de perfectionnement itératif par Ultralytics. Il excelle en termes de polyvalence, offrant une prise en charge native de la détection, de la segmentation, de l'estimation de pose et des boîtes englobantes orientées (OBB). Son architecture est optimisée pour le matériel moderne, offrant une précision par FLOP supérieure à celle des modèles plus anciens.
Développé par Megvii en 2021, YOLOX a été une version décisive qui a popularisé le paradigme de la détection sans ancrage. Il a simplifié le processus d'entraînement en supprimant les boîtes d'ancrage et a introduit des techniques d'augmentation avancées telles que MixUp Mosaic. Bien qu'il reste un détecteur performant, il ne dispose pas des capacités multitâches et du pipeline de déploiement transparent qui caractérisent Ultralytics plus récents.
Pour les développeurs qui lancent aujourd'hui de nouveaux projets, YOLO11 ou le très performant YOLO26 sont généralement recommandés en raison de leur rapport performances/efficacité supérieur et de leur facilité d'utilisation.
Indicateurs de comparaison technique
Le tableau suivant met en évidence les différences de performances entre les deux architectures pour différentes tailles de modèles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Analyse des performances
YOLO11m atteint un mAP 51,5 %) supérieur à celui du plus grand YOLOXx (51,1 %), tout en utilisant environ 5 fois moins de paramètres (20,1 millions contre 99,1 millions) et en fonctionnant près de 3 fois plus rapidement sur les GPU T4. Ce gain d'efficacité spectaculaire rend YOLO11 moins coûteux à déployer à grande échelle.
Plongée architecturale en profondeur
YOLO11 : Efficacité et polyvalence raffinées
Auteurs : Glenn Jocher, Jing Qiu (Ultralytics)
Date : septembre 2024
YOLO11 sur les modules C2f (CSP Bottleneck avec 2 convolutions) introduits dans les versions précédentes, mais les améliore pour un meilleur flux de gradient et une meilleure extraction des caractéristiques.
- Backbone : backbone optimisé basé sur CSP qui équilibre la profondeur et la largeur afin de minimiser la charge de calcul tout en maximisant les champs réceptifs.
- Tête : une tête de détection unifiée qui prend en charge plusieurs tâches (détection d'objets, segmentation d'instances et estimation de pose) sans nécessiter de modifications architecturales importantes.
- Sans ancrage : tout comme YOLOX, YOLO11 une approche sans ancrage, ce qui réduit le nombre de paramètres de conception (tels que les tailles et les ratios d'ancrage) et simplifie la complexité du modèle.
- Dynamique d'entraînement : intègre des stratégies avancées d'augmentation des données dans le pipeline Ultralytics , garantissant une robustesse face à des conditions d'éclairage et d'occlusion variées.
YOLOX : Le pionnier sans ancrage
Auteurs : Zheng Ge, et al. (Megvii)
Date : juillet 2021
YOLOX a été conçu pour combler le fossé entre la communauté scientifique et les applications industrielles.
- Tête découplée : YOLOX a introduit une structure de tête découplée dans laquelle les tâches de classification et de régression sont gérées par des branches distinctes. Cela s'est avéré améliorer la vitesse et la précision de convergence.
- SimOTA : Une innovation clé a été le « Simplified Optimal Transport Assignment » (SimOTA) pour l'attribution des étiquettes. Cette stratégie dynamique attribue les objets de référence aux prédictions de manière plus efficace que IoU fixes.
- Mécanisme sans ancrage : en supprimant les boîtes d'ancrage, YOLOX a éliminé le besoin de réglage manuel de l'ancrage, un point faible courant dans YOLO précédentes YOLO (v2-v5).
- Augmentation puissante : l'utilisation intensive des MixUp Mosaic et MixUp a permis à YOLOX de s'entraîner efficacement à partir de zéro.
Écosystème et facilité d'utilisation
L'un des facteurs les plus importants pour les développeurs est l'écosystème logiciel qui entoure un modèle. Celui-ci détermine la facilité avec laquelle un modèle peut être formé, validé et déployé.
L'avantage Ultralytics
YOLO11 de Ultralytics , mature et activement maintenu. Cette intégration offre plusieurs avantages distincts :
- API unifiée : passer d'une tâche à l'autre est un jeu d'enfant. Vous pouvez passer de la détection de voitures à la segmentation de tumeurs en modifiant un seul paramètre dans le Python ou CLI.
- Flexibilité de déploiement : le framework comprend une fonctionnalité d'exportation intégrée vers des formats tels que ONNX, TensorRT, CoreML et OpenVINO. Cela permet aux développeurs de déployer des modèles dans des environnements de production à l'aide d'une seule ligne de code.
- Prise en charge de la plateforme : la Ultralytics simplifie l'ensemble du cycle de vie, de l'annotation des ensembles de données à la formation dans le cloud et à la gestion des modèles.
from ultralytics import YOLO
# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")
# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for deployment
path = model.export(format="onnx")
Écosystème YOLOX
YOLOX est principalement hébergé en tant que référentiel de recherche. Bien que le code soit open source et de haute qualité, il nécessite souvent davantage de configuration manuelle. Les utilisateurs doivent généralement gérer leurs propres chargeurs de données, écrire des scripts d'exportation personnalisés pour du matériel spécifique et naviguer dans une base de code moins fréquemment mise à jour que le Ultralytics .
Applications concrètes
Le choix entre ces modèles dépend souvent des contraintes spécifiques de l'environnement d'application.
Cas d'utilisation idéaux pour YOLO11
- Analyse vidéo en temps réel : avec des vitesses d'inférence T4 aussi faibles que 1,5 ms, YOLO11n est idéal pour traiter des flux vidéo à haute fréquence d'images par seconde pour la gestion du trafic ou l'analyse sportive.
- Systèmes multitâches : si une application nécessite à la fois le suivi d'objets et l'estimation de poses (par exemple, l'analyse d'entraînements en salle de sport), l'architecture polyvalente YOLO11 réduit le besoin de recourir à plusieurs modèles lourds.
- Déploiement commercial : l'exportation transparente vers NVIDIA ou Raspberry Pi fait de YOLO11 norme pour les produits IoT commerciaux.
Cas d'utilisation idéaux pour YOLOX
- Référence académique : YOLOX reste une référence solide pour les chercheurs qui comparent les méthodes de détection sans ancrage de la période 2021-2022.
- Systèmes hérités : les projets qui ont déjà investi massivement dans le code source YOLOX et dans des pipelines d'intégration personnalisés peuvent trouver plus rentable de les maintenir plutôt que de les migrer.
- Contraintes mobiles spécifiques : le modèle YOLOX-Nano est extrêmement léger (0,91 M de paramètres), ce qui le rend utile pour les matériels mobiles très limités, bien que les modèles plus récents comme YOLO26n offrent désormais une taille compétitive avec une précision nettement supérieure.
L'avenir : entrez dans YOLO26
Pour les développeurs à la recherche d'une technologie de pointe, Ultralytics a Ultralytics lancé YOLO26 (janvier 2026). Ce modèle représente une avancée significative, supplantant efficacement YOLO11 YOLOX dans la plupart des cas d'utilisation.
YOLO26 introduit plusieurs innovations clés :
- De bout en bout de manière native : il élimine la suppression non maximale (NMS), une étape de post-traitement qui ralentit souvent la vitesse d'inférence. Cela se traduit par des résultats plus rapides et déterministes.
- Optimiseur MuSGD : inspiré des techniques d'entraînement LLM, cet optimiseur garantit une convergence stable et réduit le temps d'entraînement.
- Efficacité : YOLO26 offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un outil puissant pourGPU .
Si vous démarrez un nouveau projet, nous vous recommandons vivement d'évaluer YOLO26 parallèlement à YOLO11.
Conclusion
YOLO11 YOLOX ont tous deux gagné leur place dans l'histoire de la vision par ordinateur. YOLOX a été un pionnier qui a prouvé la viabilité de la détection sans ancrage. Cependant, YOLO11 offre un ensemble plus convaincant pour les développeurs d'aujourd'hui : il est plus rapide, plus précis, prend en charge un plus large éventail de tâches et s'appuie sur un écosystème qui réduit considérablement le temps de développement.
Autres modèles à explorer
- YOLO26: le dernier modèle de pointe Ultralytics, doté d'une détection de bout en bout NMS.
- RT-DETR: un détecteur basé sur un transformateur offrant une grande précision, idéal pour les scénarios où GPU est abondante.
- YOLOv9: Connu pour son information de gradient programmable (PGI) et son architecture GELAN.
- YOLOv8: un classique fiable et largement adopté dans la YOLO .