YOLO11 YOLOX : évolution de la détection d'objets haute performance
Le domaine de la vision par ordinateur a connu des progrès rapides au cours des dernières années, les modèles de détection d'objets en temps réel devenant de plus en plus sophistiqués. Lorsqu'ils choisissent une architecture pour un environnement de production ou la recherche universitaire, les développeurs évaluent souvent les compromis entre les avancées historiques et les innovations de pointe. Cette comparaison exhaustive explore les différences entre Ultralytics YOLO11 et YOLOX de Megvii, en fournissant des informations approfondies sur leurs architectures, leurs mesures de performance et leurs scénarios de déploiement idéaux.
Aperçu architectural
Les deux modèles représentent des avancées significatives dans la détection d'objets, mais ils découlent de philosophies de conception différentes et visent des expériences de développement différentes.
YOLO11: le moteur polyvalent multitâche
Publié en septembre 2024 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO11 est conçu comme un cadre unifié qui allie haute précision et efficacité extrême.
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation : Ultralytics
- Date : 2024-09-27
- GitHub :https://github.com/ultralytics/ultralytics
- Documentation :https://docs.ultralytics.com/models/YOLO11/
YOLO11 au-delà des boîtes englobantes standard, prenant en charge de manière native la segmentation d'instances, la classification d'images, l'estimation de pose et la détection de boîtes englobantes orientées (OBB). Son architecture raffinée optimise l'extraction de caractéristiques afin d'assurer une meilleure conservation des caractéristiques dans les hiérarchies spatiales complexes.
YOLOX : Le pionnier sans ancrage
Développé par les chercheurs de Megvii, YOLOX a suscité un vif intérêt en 2021 en comblant le fossé entre la recherche et les applications industrielles grâce à une approche purement sans ancrage.
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation : Megvii
- Date : 2021-07-18
- Arxiv :https://arxiv.org/abs/2107.08430
- GitHub :https://github.com/Megvii-BaseDetection/YOLOX
- Docs :https://yolox.readthedocs.io/en/latest/
YOLOX a introduit une tête découplée et un paradigme sans ancrage, ce qui a considérablement réduit le nombre de paramètres de conception et amélioré les performances sur les benchmarks académiques au moment de sa sortie.
Le saviez-vous ?
La conception sans ancrage popularisée par YOLOX a inspiré de nombreuses architectures ultérieures. Ultralytics et considérablement affiné ces concepts sans ancrage dans des itérations ultérieures telles que YOLOv8 et YOLO11 offrir une précision et une flexibilité de déploiement supérieures.
Performance et indicateurs
Lors de l'évaluation des modèles de détection, il est essentiel d'examiner l'équilibre entre les paramètres, le coût de calcul (FLOP) et la précision moyenne (mAP) pour le déploiement du modèle dans le monde réel.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Comme le montre le tableau, YOLO11x surpasse largement YOLOXx en termes de précision absolue (54,7 mAP contre 51,1 mAP), tout en nécessitant environ deux fois moins de paramètres (56,9 millions contre 99,1 millions). Cette efficacité se traduit par des besoins en mémoire réduits pendant l'entraînement et l'inférence, ce qui constitue un avantage considérable pour les environnements de production.
Écosystème et expérience du développeur
L'avantage Ultralytics
L'une des différences les plus marquantes entre YOLO11 YOLOX réside dans leur facilité d'utilisation. YOLOX fonctionne principalement comme une base de code de recherche, nécessitant une configuration complexe de l'environnement, une compilation manuelle des opérateurs C++ et des arguments de ligne de commande détaillés pour lancer l'entraînement d'un ensemble de données personnalisé.
À l'opposé, YOLO11 entièrement intégré auPython Ultralytics , offrant un workflow simplifié, « de zéro à héros ». La Ultralytics propose des outils complets pour l'annotation des données, le suivi des expériences et la formation basée sur le cloud, éliminant ainsi les tâches répétitives afin que les ingénieurs puissent se concentrer sur les performances des modèles.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model effortlessly using the Ultralytics API
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")
De plus, l'exportation d'un Ultralytics vers des formats tels que TensorRT, CoreML ou OpenVINO ne nécessite qu'une seule commande, alors que les référentiels hérités exigent souvent des outils tiers complexes ou des manipulations manuelles des graphiques.
Cas d'utilisation concrets
Quand envisager YOLOX
YOLOX reste une option valable pour les déploiements spécialisés et hérités, dans lesquels les développeurs ont déjà créé des pipelines d'inférence C++ hautement personnalisés autour de ses tensor de tête découplées spécifiques. De plus, les chercheurs qui mènent des études comparatives avec les architectures de pointe de 2021 continueront d'utiliser YOLOX comme base de référence pour leurs ensembles de données.
Où YOLO11 excelle
Dans presque tous les scénarios de production modernes, YOLO11 une expérience bien supérieure :
- Villes intelligentes et commerce de détail : grâce à son rapport vitesse/précision exceptionnel, YOLO11 sans effort les scènes encombrées, alimentant les systèmes automatisés d'analyse du commerce de détail et de gestion du trafic sans nécessiter GPU massifs.
- Edge Computing : grâce à son efficacité mémoire élevée et à ses options d'exportation robustes, YOLO11 est YOLO11 pour les déploiements d'IA en périphérie sur des appareils tels que les plateformes Raspberry Pi ou NVIDIA .
- Pipelines complexes : si un projet nécessite de combiner la détection d'objets avec des points clés de pose (par exemple, l'analyse sportive) ou une segmentation précise des instances (par exemple, l'imagerie médicale), YOLO11 toutes les tâches de manière native via une API unifiée.
Cas d'utilisation et recommandations
Le choix entre YOLO11 YOLOX dépend des exigences spécifiques de votre projet, des contraintes de déploiement et de vos préférences en matière d'écosystème.
Quand choisir YOLO11
YOLO11 un excellent choix pour :
- Déploiement en production : applications commerciales sur des appareils tels que Raspberry Pi ou NVIDIA , où la fiabilité et la maintenance active sont primordiales.
- Applications de vision multitâches : projets nécessitant la détection, la segmentation, l'estimation de la pose et l'OBB dans un cadre unique et unifié.
- Prototypage et déploiement rapides : équipes qui doivent passer rapidement de la collecte de données à la production à l'aide de Python Ultralytics simplifiée.
Quand choisir YOLOX
YOLOX est recommandé pour :
- Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
- Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
- Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Perspectives : La puissance de YOLO26
Si YOLO11 un choix exceptionnel, le paysage de l'IA ne cesse d'évoluer. Pour les équipes à la recherche d'une efficacité et d'une stabilité optimales, YOLO26 (sorti en janvier 2026) est la recommandation ultime pour les nouveaux projets de vision par ordinateur.
YOLO26 représente une avancée considérable grâce à la mise en œuvre d'une conception NMS de bout en bout. En éliminant le post-traitement NMS(Non-Maximum Suppression), il supprime complètement la variabilité de la latence, simplifiant considérablement la logique de déploiement, un concept lancé pour la première fois dans YOLOv10.
De plus, YOLO26 intègre la fonction DFL Removal (Distribution Focal Loss), qui optimise l'architecture pour atteindre CPU jusqu'à 43 % plus rapide, ce qui en fait le champion incontesté des appareils à faible consommation et des appareils périphériques. La stabilité de l'entraînement est également renforcée grâce à l'optimiseur MuSGD, un hybride inspiré du LLM, du SGD du Muon qui accélère la convergence. Associé à des fonctions de perte avancées telles que ProgLoss + STAL, YOLO26 excelle dans la détection de petits objets dans des environnements difficiles tels que les images de drones et les capteurs IoT périphériques.
Exploration approfondie
Vous souhaitez approfondir vos connaissances sur les architectures de détection d'objets ? Découvrez les capacités de vocabulaire ouvert de YOLO ou plongez-vous dans le RT-DETR documenté dans l'Ultralytics .
En conclusion, bien que YOLOX ait introduit des concepts architecturaux importants en 2021, l'ensemble complet d'outils, l'efficacité mémoire et les performances de pointe de YOLO11, et en particulier l'architecture révolutionnaire de YOLO26, font de Ultralytics le choix évident pour les chercheurs et les développeurs d'entreprise aujourd'hui.