YOLOv10 YOLO11: faire le lien entre l'innovation académique et l'échelle réelle
L'évolution de la détection d'objets en temps réel a été marquée par des progrès rapides en termes de vitesse, de précision et d'efficacité architecturale. Deux acteurs clés de cette histoire récente sont YOLOv10 et YOLO11. Si ces deux modèles repoussent les limites du possible en matière de vision par ordinateur, ils sont issus de philosophies de conception différentes et répondent à des besoins distincts au sein de la communauté de l'IA. Cette comparaison explore les spécifications techniques, les différences architecturales et les applications pratiques des deux modèles afin d'aider les développeurs à choisir l'outil le mieux adapté à leurs besoins spécifiques.
YOLOv10: le pionnier académique de la détection de bout en bout
Publié en mai 2024 par des chercheurs de l'université Tsinghua, YOLOv10 a introduit un changement de paradigme dans la YOLO en se concentrant sur une stratégie d'entraînementNMS. Historiquement, YOLO s'appuyaient sur la suppression non maximale (NMS) pour filtrer les boîtes englobantes qui se chevauchaient pendant l'inférence. Bien qu'efficace, NMS un goulot d'étranglement dans la latence de déploiement et complique le processus d'exportation vers des formats tels que TensorRT ou ONNX.
Principales innovations architecturales
YOLOv10 ces défis grâce à une stratégie à double affectation pendant l'entraînement. Il utilise une tête « one-to-many » pour une supervision riche pendant l'apprentissage et une tête « one-to-one » pour l'inférence, ce qui permet au modèle de prédire directement une seule meilleure boîte par objet. Cela élimine le besoin d'NMS , réduisant ainsi considérablement la latence sur les appareils périphériques.
De plus, YOLOv10 une conception de modèle holistique axée sur l'efficacité et la précision. Celle-ci comprend des têtes de classification légères, un sous-échantillonnage découplé des canaux spatiaux et une conception de blocs guidée par le classement, qui, ensemble, réduisent la redondance informatique.
Métadonnées techniques :
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation :Tsinghua University
- Date : 2024-05-23
- Arxiv:YOLOv10 : Détection d’objets de bout en bout en temps réel
- GitHub :THU-MIG/yolov10
Ultralytics YOLO11: optimisé pour les entreprises de grande envergure
Publié en septembre 2024, Ultralytics YOLO11 s'appuie sur le cadre robuste de YOLOv8 et YOLOv9. Tout en conservant une approche traditionnelle NMS(contrairement au YOLOv10, qui est nativement de bout en bout), YOLO11 fortement YOLO11 sur l'efficacité de l'extraction des caractéristiques et l'optimisation des paramètres. Il est conçu pour être le « couteau suisse » de la vision par ordinateur, excellant non seulement dans la détection, mais aussi dans un large éventail de tâches, notamment la segmentation d'instances, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB).
Progrès réalisés dans le cadre du projet YOLO11
YOLO11 une architecture backbone raffinée (C3k2) qui améliore l'intégration des fonctionnalités à toutes les échelles. Cela permet au modèle de capturer plus efficacement que ses prédécesseurs les détails complexes dans des scènes complexes, tels que les petits objets dans les images aériennes. De plus, son intégration dans Ultralytics garantit une prise en charge transparente de la formation, de la validation et du déploiement sur diverses plateformes matérielles, de NVIDIA aux processeurs de base.
Métadonnées techniques :
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 2024-09-27
- Docs :Documentation YOLO11
- GitHub :ultralytics/ultralytics
Comparaison des performances
Lorsqu'on compare les performances, il est essentiel de ne pas se limiter mAP bruts mAP et de prendre en compte les compromis entre la vitesse, la taille du modèle (paramètres) et le coût de calcul (FLOP).
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse des données
Alors que YOLOv10 présente un nombre de paramètres inférieur dans certaines configurations (comme le modèle « M »), YOLO11 atteint souvent un mAP et des vitesses d'inférence compétitives ou supérieures sur les GPU T4, démontrant ainsi l'efficacité de son architecture optimisée.
Cas d'utilisation idéaux
Quand choisir YOLOv10
YOLOv10 un excellent choix pour les projets axés sur la recherche ou les scénarios de déploiement spécifiques en périphérie où la suppression de NMS est essentielle pour réduire la latence. Son architecture de bout en bout simplifie le pipeline d'exportation pour certains systèmes embarqués où la logique de post-traitement est difficile à mettre en œuvre efficacement.
- Systèmes embarqués : appareils dont CPU sont limités pour le post-traitement.
- Recherche universitaire : étude des architectures NMS et des stratégies d'entraînement à double affectation.
- Applications critiques en termes de latence : robotique à grande vitesse où chaque milliseconde de latence d'inférence compte.
Quand choisir Ultralytics YOLO11
YOLO11 la solution privilégiée pour les applications de niveau production qui exigent un équilibre entre haute précision, polyvalence et facilité d'utilisation. Soutenu par la Ultralytics , il offre un flux de travail rationalisé, de l'annotation des données à la surveillance des modèles.
- Solutions d'entreprise : déploiements à grande échelle nécessitant des bases de code fiables et maintenues, ainsi que des licences commerciales.
- Tâches de vision complexes : projets nécessitant une estimation de la pose ou une segmentation en plus de la détection.
- Formation au cloud : intégration transparente avec la Ultralytics pour la gestion des ensembles de données et des cycles de formation.
- Polyvalence : développeurs qui ont besoin d'un framework unique pour gérer la classification, la détection et la segmentation à l'aide d'une API unifiée.
L'avantage de l'écosystème Ultralytics
L'un des principaux facteurs de différenciation pour YOLO11 est l'écosystème qui l'entoure. Si YOLOv10 une contribution académique impressionnante, YOLO11 de mises à jour continues, d'une documentation complète et d'une intégration étroite avec des outils tels Ultralytics .
- Facilité d'utilisation : une Python simple permet d'entraîner un modèle en quelques lignes de code seulement.
- Efficacité mémoire : Ultralytics sont optimisés pour une utilisation moindre de la mémoire pendant l'entraînement par rapport à de nombreuses alternatives basées sur Transformer, ce qui les rend accessibles sur les GPU grand public.
- Large compatibilité : exportez votre YOLO11 vers CoreML, OpenVINO, TensorRT, et bien plus encore, à l'aide d'une seule commande.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
Regard vers l'avenir : l'avenir avec YOLO26
Si YOLOv10 YOLO11 des étapes importantes, le domaine évolue rapidement. Pour les développeurs à la recherche de la technologie la plus avancée, YOLO26 (sorti en janvier 2026) combine le meilleur des deux mondes.
YOLO26 adopte la conception de bout en boutNMS mise au point par YOLOv10 l'améliore grâce à l'optimisation signature Ultralytics pour les entreprises. Il intègre la suppression DFL (Distribution Focal Loss) pour des exportations plus simples et l'optimiseur innovant MuSGD pour une convergence de formation stable, inspirée du LLM. Avec CPU jusqu'à 43 % plus rapide que les générations précédentes et des fonctions de perte améliorées telles que ProgLoss + STAL, YOLO26 est la recommandation ultime pour les projets modernes de vision par ordinateur.
Pour les utilisateurs intéressés par d'autres architectures spécialisées, la documentation couvre également RT-DETR pour la détection basée sur les transformateurs et YOLO pour les tâches à vocabulaire ouvert.