YOLOv10 YOLO11: une analyse approfondie des architectures de détection d'objets en temps réel
Le paysage de la vision par ordinateur est en constante évolution, avec de nouvelles architectures repoussant les limites du possible en matière de traitement en temps réel. Pour les développeurs et les chercheurs qui évoluent dans ce domaine en pleine mutation, il est essentiel de comprendre les nuances entre les modèles de pointe. Cette comparaison détaillée explore les différences techniques, les compromis en termes de performances et les cas d'utilisation idéaux pour YOLOv10 et Ultralytics YOLO11, deux frameworks de détection d'objets très performants.
Bien que les deux modèles obtiennent des résultats remarquables sur les ensembles de données de référence, leurs philosophies de conception sous-jacentes et leurs intégrations dans l'écosystème diffèrent considérablement. En examinant leurs architectures, nous pouvons identifier la solution qui correspond le mieux à vos contraintes de déploiement et aux objectifs de votre projet.
YOLOv10: pionnier de la détection de bout en bout NMS
Sorti au printemps 2024, YOLOv10 une nouvelle approche du pipeline traditionnel de détection d'objets en s'attaquant directement à la latence associée au post-traitement.
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation :Tsinghua University
- Date : 23 mai 2024
- Article de recherche :arXiv:2405.14458
- Code source :THU-MIG/yolov10 sur GitHub
- Documentation :YOLOv10
L'innovation remarquable de YOLOv10 sa stratégie cohérente de double attribution, qui permet un apprentissage NMS. Les détecteurs d'objets traditionnels s'appuient fortement sur la suppression non maximale (NMS) pour filtrer les prédictions redondantes des cadres de sélection. En supprimant cette étape, YOLOv10 une véritable détection de bout en bout, réduisant ainsi la latence d'inférence et simplifiant le déploiement sur des accélérateurs matériels tels que les unités de traitement neuronal (NPU), où NMS personnalisées sont notoirement difficiles à optimiser.
YOLO11: polyvalence et performances optimisées par l'écosystème
Lancé plus tard dans la même année, YOLO11 le perfectionnement continu de la gamme Ultralytics , en mettant l'accent sur un équilibre optimal entre vitesse, précision et expérience développeur.
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 27 septembre 2024
- Code source :Ultralytics GitHub
- Intégration de la plateforme :Ultralytics
YOLO11 conçu pour la production. Bien qu'il excelle dans la détection standard des cadres de sélection, sa véritable force réside dans sa polyvalence. Contrairement à YOLOv10, qui se concentre principalement sur la détection d'objets, YOLO11 prend en charge YOLO11 la segmentation d'instances, l'estimation de pose, la classification d'images et les tâches OBB (Oriented Bounding Box) à l'aide d'une architecture unifiée. Il nécessite très peu de mémoire pendant l'entraînement, ce qui le rend très accessible aux équipes travaillant avec des GPU grand public par rapport aux architectures plus lourdes basées sur des transformateurs.
Comparaison des performances et des indicateurs
Lorsque l'on compare ces modèles côte à côte, il est essentiel d'examiner leurs performances sur différentes variantes d'échelle à l'aide de benchmarks standard tels que COCO .
Le tableau ci-dessous met en évidence les différences de performances. YOLO11 devance YOLO11 YOLOv10 mAP la plupart des catégories de taille, tout en restant très compétitif. TensorRT .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Accélération matérielle
Pour reproduire ces vitesses d'inférence rapides localement, veillez à exporter vos modèles vers des formats optimisés tels que OpenVINO pour Intel ou TensorRT NVIDIA .
Plongée architecturale en profondeur
Méthodologie et efficacité de la formation
L'architecture YOLOv10 met l'accent sur la réduction de la redondance informatique. En optimisant la conception de la colonne vertébrale et du cou à l'aide d'une stratégie holistique axée sur l'efficacité et la précision, les auteurs de l'université Tsinghua ont réussi à réduire considérablement le nombre de paramètres dans les modèles de niveau intermédiaire (comme YOLOv10m) par rapport aux itérations précédentes.
Cependant, Efficacité de l'entraînement est l'une des principales caractéristiques des Ultralytics . YOLO11 le très sophistiqué ultralytics Python , qui résume de manière abstraite les éléments complexes réglage des hyperparamètres. Ce cadre gère automatiquement les augmentations avancées de données, la planification du taux d'apprentissage et la formationGPU dès son installation. L'architecture YOLO11 présente également un excellent flux de gradient, ce qui se traduit par une convergence plus rapide et une utilisation moindre de la VRAM pendant la phase de formation.
Facilité d'utilisation et avantage de l'écosystème
Un facteur essentiel pour l'adoption par les entreprises est un écosystème bien entretenu. Les référentiels de recherche, bien que révolutionnaires, tombent souvent en désuétude après la publication initiale de l'article. Ultralytics , qui soutient YOLO11, offre une expérience de développement transparente et complète.
S'intègre parfaitement à des outils tels que Weights & Biases pour le suivi des expériences et Roboflow pour la gestion des ensembles de données, YOLO11 la transition du prototype à la production. La facilité d'utilisation est évidente dans l'API simplifiée, qui permet aux développeurs de former et d'exporter des modèles en quelques lignes de code seulement.
from ultralytics import YOLO
# Initialize the YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model efficiently with optimized memory handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="0")
# Export to ONNX format for deployment flexibility
model.export(format="onnx")
Cas d'utilisation et recommandations
Le choix entre YOLOv10 YOLO11 des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLOv10
YOLOv10 un choix judicieux pour :
- Détection en temps réelNMS: applications bénéficiant d'une détection de bout en bout sans suppression non maximale, réduisant ainsi la complexité du déploiement.
- Compromis équilibré entre vitesse et précision : projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection à différentes échelles de modèle.
- Applications à latence constante : scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, tels que la robotique ou les systèmes autonomes.
Quand choisir YOLO11
YOLO11 recommandé pour :
- Déploiement en production : applications commerciales sur des appareils tels que Raspberry Pi ou NVIDIA , où la fiabilité et la maintenance active sont primordiales.
- Applications de vision multitâches : projets nécessitant la détection, la segmentation, l'estimation de la pose et l'OBB dans un cadre unique et unifié.
- Prototypage et déploiement rapides : équipes qui doivent passer rapidement de la collecte de données à la production à l'aide de Python Ultralytics simplifiée.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Explorer d'autres architectures
Bien que YOLOv10 YOLO11 d'excellents choix, votre cas d'utilisation spécifique pourrait bénéficier d'autres architectures disponibles dans la documentation. Pour le raisonnement basé sur les séquences, les modèles de transformateurs tels que RT-DETR offrent une grande précision, mais ils nécessitent généralement davantage de mémoire. À l'inverse, si vous avez besoin de capacités zero-shot pour identifier de nouvelles classes sans réentraînement, YOLO propose une approche à vocabulaire ouvert basée sur des invites en langage naturel.
La prochaine génération : YOLO26
Pour les équipes à la recherche d'une technologie de pointe, le modèle Ultralytics récemment commercialisé combine les meilleures fonctionnalités des deux modèles présentés ci-dessus. Lancé en janvier 2026, YOLO26 est la solution idéale pour les scénarios de déploiement modernes.
S'appuyant sur les fondements de ses prédécesseurs, YOLO26 intègre nativement une conception de bout en bout NMS, éliminant efficacement les goulots d'étranglement du post-traitement auxquels YOLOv10 s'était attaqué YOLOv10 , mais en le faisant dans le Ultralytics robuste Ultralytics . De plus, YOLO26 dispose d 'une fonction de suppression DFL (Distribution Focal Loss), qui simplifie considérablement les graphiques d'exportation des modèles et améliore la compatibilité avec les appareils IoT de pointe et à faible consommation d'énergie.
La stabilité de l'entraînement a également fait un bond générationnel avec l'introduction du MuSGD Optimizer, une approche hybride inspirée des méthodologies d'entraînement LLM qui garantit une convergence incroyablement rapide. Associé à des fonctions de perte avancées telles que ProgLoss + STAL, YOLO26 apporte des améliorations notables dans la reconnaissance des petits objets. Pour un déploiement sur des appareils périphériques standard, ces améliorations architecturales se traduisent par CPU jusqu'à 43 % plus rapide, faisant de YOLO26 un choix inégalé pour toutes les tâches de vision par ordinateur.