YOLOX vs YOLO11: faire le lien entre la recherche et les applications concrètes
Dans le domaine en pleine évolution de la détection d'objets, choisir le bon modèle implique souvent de trouver un équilibre entre les recherches de pointe et les besoins pratiques de déploiement. Cette comparaison explore deux architectures importantes : YOLOX, un détecteur haute performance sans ancrage lancé en 2021, et YOLO11, un modèle polyvalent et robuste Ultralytics pour les applications d'entreprise modernes. Bien que les deux modèles partagent la YOLO , ils divergent considérablement dans leurs philosophies architecturales, leur prise en charge de l'écosystème et leur facilité d'utilisation.
Comparaison des métriques de performance
Lors de l'évaluation des détecteurs d'objets, des indicateurs clés tels que la précision moyenne (mAP) et la vitesse d'inférence sont primordiaux. Le tableau ci-dessous montre comment la nouvelle architecture de YOLO11 une efficacité supérieure, en particulier en termes de compromis entre vitesse et précision.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
YOLOX : une évolution sans ancre
YOLOX a été lancé par Megvii en 2021 comme une version sans ancrage de la YOLO . Il visait à combler le fossé entre la recherche universitaire et l'application industrielle en simplifiant la tête de détection et en supprimant le besoin de boîtes d'ancrage prédéfinies.
Caractéristiques principales :
- Conception sans ancrage : élimine le processus complexe de regroupement des boîtes d'ancrage, simplifiant ainsi le pipeline de formation.
- Tête découplée : sépare les tâches de classification et de régression en différentes branches, améliorant ainsi la vitesse de convergence et la précision.
- SimOTA : une stratégie avancée d'attribution d'étiquettes qui attribue dynamiquement des échantillons positifs, améliorant ainsi la stabilité de l'entraînement.
Si YOLOX a représenté une avancée significative en 2021, sa mise en œuvre nécessite souvent une configuration plus complexe et ne bénéficie pas du support multitâche unifié que l'on trouve dans les frameworks plus récents.
Détails de YOLOX :
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation :Megvii
- Date : 2021-07-18
- Arxiv :https://arxiv.org/abs/2107.08430
- GitHub :https://github.com/Megvii-BaseDetection/YOLOX
YOLO11: polyvalence et puissance de l'écosystème
YOLO11, lancé par Ultralytics, s'appuie sur le succès de ses prédécesseurs pour offrir un modèle non seulement précis, mais aussi incroyablement facile à utiliser et à déployer. Il est conçu comme une solution complète pour un large éventail de tâches de vision par ordinateur.
Points forts clés :
- Facilité d'utilisation : Ultralytics est réputée pour sa simplicité. Le chargement, l'entraînement et la prédiction peuvent être effectués en quelques lignes de code seulement, ce qui réduit considérablement les obstacles à l'entrée pour les développeurs.
- Écosystème bien entretenu : YOLO11 d'une maintenance active, de mises à jour fréquentes et d'une communauté dynamique. Cela garantit la compatibilité avec les dernières versions de PyTorch et permet de corriger rapidement les bogues.
- Polyvalence : contrairement à YOLOX, qui est principalement un détecteur d'objets, YOLO11 prend en charge YOLO11 plusieurs tâches, notamment la segmentation d'instances, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB).
- Efficacité de l'entraînement : YOLO11 optimisé pour une utilisation efficace des ressources, nécessitant souvent moins de mémoire pendant l'entraînement que les alternatives basées sur des transformateurs telles que RT-DETR.
YOLO11 :
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 2024-09-27
- Documentation :https://docs.ultralytics.com/models/YOLO11/
Le saviez-vous ?
Pour bénéficier des toutes dernières performances en matière d'intelligence artificielle en périphérie, découvrez YOLO26. Lancé en janvier 2026, il se caractérise par une conception native de bout en bout NMS, un optimiseur MuSGD et CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour l'intelligence artificielle en périphérie.
Comparaison architecturale
Les différences architecturales entre YOLOX et YOLO11 l'évolution des stratégies de détection d'objets au fil du temps.
Architecture YOLOX
YOLOX utilise une structure CSPDarknet similaire à celle de YOLOv5 introduit une structure de tête découplée. Dans YOLO traditionnels, la classification et la localisation étaient effectuées de manière couplée. YOLOX les divise en deux branches distinctes, ce qui permet de résoudre le conflit entre la confiance de classification et la précision de localisation. Son mécanisme sans ancrage traite la détection d'objets comme un problème de régression ponctuelle, ce qui simplifie la conception du modèle, mais peut parfois poser des difficultés dans les scénarios où les objets sont extrêmement denses, par rapport aux approches basées sur l'ancrage.
Architecture de YOLO11
YOLO11 une architecture raffinée de backbone et de neck qui améliore les capacités d'extraction de caractéristiques à différentes échelles. Il intègre des modules avancés pour une meilleure attention spatiale et une meilleure fusion des caractéristiques. L'un des avantages essentiels de Ultralytics est l'intégration transparente de l'exportabilité. L'architecture est conçue dès le départ pour être facilement exportée vers des formats tels que ONNX, TensorRTet OpenVINO, garantissant ainsi que la haute précision observée pendant l'entraînement se traduise directement par une inférence efficace sur les appareils périphériques.
Cas d'utilisation idéaux
Le choix entre ces modèles dépend souvent des exigences spécifiques de votre projet.
Quand choisir YOLOX
- Références de recherche : YOLOX est une excellente référence pour la recherche universitaire axée sur les méthodes de détection sans ancrage ou la modification des têtes découplées.
- Systèmes hérités : si vous disposez déjà d'un pipeline basé sur le code source Megvii ou si vous avez spécifiquement besoin de la stratégie d'affectation SimOTA pour un ensemble de données de niche.
Quand choisir YOLO11
- Développement rapide : si vous devez passer rapidement d'un ensemble de données à un modèle déployé, la Ultralytics simplifiée et Python font de YOLO11 choix idéal.
- Exigences multitâches : les projets susceptibles de passer d'une simple détection à la segmentation ou au suivi bénéficient du cadre unifié YOLO11.
- Déploiement en production : pour les applications commerciales dans le commerce de détail, les villes intelligentes ou la sécurité, la prise en charge robuste de l'exportation et la fiabilité testée par la communauté de YOLO11 les risques liés au déploiement.
- Edge Computing : grâce à des variantes optimisées, YOLO11 des performances exceptionnelles sur des appareils aux ressources limitées tels que le Raspberry Pi ou NVIDIA .
Comparaison de code : Facilité d'utilisation
La différence en termes de facilité d'utilisation est flagrante lorsque l'on compare les workflows de formation.
Formation avec Ultralytics YOLO11: Ultralytics simplifie la complexité, vous permettant ainsi de vous concentrer sur vos données.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Formation avec YOLOX : YOLOX nécessite généralement de cloner le référentiel, de configurer un environnement spécifique et d'exécuter la formation via des scripts en ligne de commande avec de nombreux arguments, ce qui peut être moins intuitif pour les workflows Python.
Conclusion
YOLOX et YOLO11 deux modèles performants qui ont considérablement contribué au domaine de la vision par ordinateur. YOLOX a remis en question la prédominance des méthodes basées sur les ancrages et a introduit des concepts importants tels que les têtes découplées. Cependant, pour la plupart des développeurs et des entreprises aujourd'hui, YOLO11 offre un ensemble plus convaincant. Sa combinaison de hautes performances, de polyvalence et d'un écosystème inégalé en fait le choix pragmatique pour la création de solutions d'IA concrètes.
Pour ceux qui souhaitent repousser encore plus loin les limites, en particulier pour les déploiements en périphérie, nous recommandons vivement d'explorer YOLO26. Avec sa conception NMS de bout en bout et la suppression de la perte focale de distribution (DFL), YOLO26 représente une nouvelle avancée en matière d'efficacité et de vitesse.
Autres modèles à explorer
- YOLO26: le dernier modèle de pointe Ultralytics janvier 2026), doté d'une inférence NMS et de fonctions de perte spécialisées.
- YOLOv8: un classique largement adopté dans la YOLO , réputé pour son équilibre entre vitesse et précision.
- RT-DETR: un détecteur à transformateur offrant une grande précision, idéal pour les scénarios où la vitesse en temps réel est moins importante que la précision.
- SAM : le modèle Segment Anything de Meta, idéal pour les tâches de segmentation sans apprentissage préalable.