YOLOv10 vs. YOLO11: à la frontière de la détection d'objets en temps réel
Le choix du bon modèle de vision par ordinateur est essentiel pour la réussite de tout projet d'IA, car il permet de trouver un équilibre entre la vitesse, la précision et la facilité de déploiement. Ce guide fournit une comparaison technique détaillée entre YOLOv10une version académique qui se concentre sur la formation NMS, et Ultralytics YOLO11YOLO , la dernière évolution de la célèbre série YOLO , conçue pour des performances et une polyvalence de niveau entreprise.
Alors que YOLOv10 introduit des concepts architecturaux intéressants pour réduire la latence, YOLO11 affine l'état de l'art avec une précision supérieure, un support de tâches plus large et un écosystème robuste qui simplifie le flux de travail depuis l'annotation des données jusqu'au déploiement du modèle.
YOLOv10: Le spécialiste NMS
YOLOv10 est né de la recherche universitaire avec un objectif spécifique : optimiser le pipeline d'inférence en éliminant la nécessité d'une suppression non maximaleNMS. Cette approche vise à réduire la latence dans des scénarios spécifiques.
- Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
- Organisation :Université de Tsinghua
- Date : 2024-05-23
- Arxiv :2405.14458
- GitHub :THU-MIG/yolov10
- Docs :DocumentationYOLOv10
Architecture et innovation
La caractéristique principale de YOLOv10 est sa stratégie d'assignation double cohérente pour une formation NMS. Les modèles YOLO traditionnels prédisent souvent plusieurs boîtes de délimitation pour un seul objet, ce qui nécessite un post-traitement NMS pour filtrer les doublons. YOLOv10 modifie la perte d'apprentissage afin d'encourager le modèle à produire directement une seule boîte optimale par objet. En outre, il utilise une conception de modèle holistique axée sur l'efficacité et la précision, en utilisant des têtes de classification légères pour réduire les FLOP et le nombre de paramètres.
Points forts et faiblesses
Points forts :
- InférenceNMS: En supprimant l'étape NMS , le modèle réduit la latence du post-traitement, ce qui peut être bénéfique sur du matériel dont la puissance de CPU est limitée pour les opérations non matricielles.
- Efficacité des paramètres : L'architecture est conçue pour être légère, afin d'obtenir une bonne précision avec relativement peu de paramètres.
Faiblesses :
- Polyvalence limitée : YOLOv10 se concentre presque exclusivement sur la détection d'objets. Il ne prend pas en charge les tâches complexes telles que la segmentation des instances ou l'estimation de la pose, ce qui limite son utilité dans les applications d'IA à multiples facettes.
- Soutien axé sur la recherche : En tant que projet universitaire, il peut ne pas offrir le même niveau de maintenance à long terme, de fréquence de mise à jour ou d'intégration avec les outils de déploiement que les modèles soutenus par les entreprises.
Cas d'utilisation idéal
YOLOv10 est le mieux adapté aux applications hautement spécialisées, à tâche unique, où la suppression de l'étape NMS est essentielle pour respecter des budgets de latence stricts sur du matériel embarqué spécifique.
Ultralytics YOLO11: le summum de la polyvalence et de la performance
Ultralytics YOLO11 représente l'avant-garde de l'IA visionnaire, s'appuyant sur l'héritage de YOLOv8 et de YOLOv5. Il est conçu non seulement comme un modèle, mais aussi comme une solution complète pour relever les défis de l'IA dans le monde réel.
- Auteurs : Glenn Jocher, Jing Qiu
- Organisation :Ultralytics
- Date : 2024-09-27
- GitHub :ultralytics
- Docs :DocumentationYOLO11
Architecture et écosystème
YOLO11 affine le mécanisme de détection sans ancrage grâce à une architecture améliorée de l'épine dorsale et du cou, incorporant les modules C3k2 et C2PSA qui améliorent l'efficacité de l'extraction des caractéristiques. Contrairement à ses concurrents, YOLO11 est une centrale multitâche. Un cadre unique prend en charge la détection, la segmentation, la classification, l'estimation de la pose et les boîtes englobantes orientées (OBB), ce qui permet aux développeurs de consolider leur pile d'IA.
YOLO11 est soutenu par l'écosystèmeUltralytics . Cela garantit une intégration transparente avec les outils de gestion des données, une exportation facile des modèles vers des formats tels que ONNX et TensorRTet un soutien solide de la part de la communauté.
Principaux avantages
- Équilibre des performances supérieur : YOLO11 permet d'obtenir de façon constante des taux de mAP tout en maintenant des vitesses d'inférence exceptionnelles, surpassant souvent les alternatives NMS en termes de débit réel sur les GPU.
- Une polyvalence inégalée : Qu'il s'agisse de track joueurs sportifs, de segment images médicales ou de detect objets en rotation dans des vues aériennes, YOLO11 gère tout cela au sein d'une APIPython .
- Facilité d'utilisation : L'interface d'Ultralytics est réputée pour sa simplicité. La formation d'un modèle de pointe ne nécessite que quelques lignes de code, démocratisant ainsi l'accès à l'IA avancée.
- Efficacité de la formation : Les routines d'entraînement optimisées et les poids pré-entraînés de haute qualité permettent une convergence plus rapide, ce qui économise du temps et des ressources informatiques.
- Exigences de mémoire plus faibles : Par rapport aux architectures à base de transformateurs telles que RT-DETRYOLO11 est nettement plus économe en mémoire pendant l'apprentissage, ce qui le rend accessible à un plus grand nombre de matériels.
Bénéfice pour l'écosystème
L'utilisation de YOLO11 permet d'accéder à une série d'intégrations, notamment MLFlow pour le suivi des expériences et OpenVINO pour l'inférence optimisée sur le matériel Intel , garantissant que votre projet passe en douceur du prototype à la production.
Comparaison des performances : Vitesse, précision et efficacité
Lorsque l'on compare YOLOv10 et YOLO11, il est essentiel d'aller au-delà du nombre de paramètres et d'examiner les mesures de performance dans le monde réel. Alors que YOLOv10 réduit la complexité théorique en supprimant le NMS, YOLO11 démontre des vitesses d'inférence supérieures sur des configurations matérielles standard telles que le GPU T4 avec TensorRT.
Les données révèlent que YOLO11 offre un meilleur compromis pour la plupart des applications. Par exemple, YOLO11n atteint la même précision (39,5 mAP) que YOLOv10n, mais avec une architecture plus robuste soutenue par l'API Ultralytics . À mesure que la taille du modèle augmente, les avantages de YOLO11 en termes de précision deviennent plus prononcés, YOLO11x atteignant 54,7 mAP, ce qui place la barre très haut en matière de précision de détection.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse
- Vitesse : YOLO11 offre une inférence plus rapide sur les GPUTensorRT) pour presque toutes les tailles de modèles. Par exemple, YOLO11l s'exécute en 6,2 ms contre 8,33 ms pour YOLOv10l, ce qui représente un avantage significatif en termes de débit pour l'analyse vidéo en temps réel.
- Précision : YOLO11 surpasse systématiquement YOLOv10 en mAP, ce qui permet de réduire le nombre de faux négatifs et d'améliorer la localisation, ce qui est essentiel pour les tâches critiques en matière de sécurité, comme la navigation autonome ou la détection des défauts.
- Calcul : Alors que YOLOv10 minimise les paramètres, YOLO11 optimise le graphe de calcul réel pour offrir des temps d'exécution plus rapides, ce qui prouve que le nombre de paramètres ne suffit pas à dicter la vitesse.
Application dans le monde réel et exemple de code
Le véritable test d'un modèle est la facilité avec laquelle il s'intègre dans un flux de production. YOLO11 excelle dans ce domaine grâce à son interface Python simple. Vous trouverez ci-dessous un exemple de chargement d'un modèle YOLO11 pré-entraîné et d'exécution de l'inférence sur une image.
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
Ce simple extrait permet d'accéder à des performances de pointe. La même API vous permet de passer sans effort à l'entraînement sur des ensembles de données personnalisés, à la validation des performances du modèle ou au suivi d' objets dans des flux vidéo.
Conclusion : Le verdict
Tout en YOLOv10 offre un regard novateur sur les architectures NMS et constitue un choix respectable pour la recherche universitaire ou les scénarios très contraignants, Ultralytics YOLO11 s'impose comme le meilleur choix pour la grande majorité des développeurs et des entreprises.
La combinaison d'une plus grande précision, d'une vitesse d'inférence plus rapide dans le monde réel et d'une polyvalence inégalée fait de YOLO11 la solution définitive pour la vision par ordinateur moderne. Soutenus par l'écosystème Ultralytics activement entretenu, les développeurs bénéficient non seulement d'un modèle, mais aussi d'un partenaire à long terme dans leur voyage vers l'IA, garantissant que leurs applications restent robustes, évolutives et à la pointe de la technologie.
Pour ceux qui souhaitent aller plus loin, des comparaisons avec d'autres modèles tels que YOLOv9 ou RT-DETR peuvent fournir un contexte supplémentaire sur l'évolution du paysage de la détection d'objets.