YOLOv10 vs. YOLO11 : Naviguer à la frontière de la détection d’objets en temps réel

Choisir le bon modèle de vision par ordinateur est essentiel au succès de tout projet d'IA, en équilibrant les compromis entre la vitesse, la précision et la facilité de déploiement. Ce guide fournit une comparaison technique détaillée entre YOLOv10, une version académique axée sur la formation sans NMS, et Ultralytics YOLO11, la dernière évolution de la célèbre série YOLO conçue pour des performances et une polyvalence de niveau entreprise.

Alors que YOLOv10 introduit des concepts architecturaux intéressants pour réduire la latence, YOLO11 affine l'état de l'art avec une précision supérieure, une prise en charge plus large des tâches et un écosystème robuste qui simplifie le flux de travail de l'annotation des données au déploiement du modèle.

YOLOv10 : Le spécialiste sans NMS

YOLOv10 est issu de la recherche universitaire avec un objectif spécifique : optimiser le pipeline d'inférence en éliminant le besoin de suppression non maximale (NMS). Cette approche cible une latence plus faible dans des scénarios edge spécifiques.

Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organisation :Tsinghua University
Date : 2024-05-23
Arxiv :2405.14458
GitHub :THU-MIG/yolov10
Docs :Documentation YOLOv10

Architecture et innovation

La caractéristique déterminante de YOLOv10 est sa stratégie d'attribution double cohérente pour l'entraînement sans NMS. Les modèles YOLO traditionnels prédisent souvent plusieurs boîtes englobantes pour un seul objet, nécessitant un post-traitement NMS pour filtrer les doublons. YOLOv10 modifie la perte d'entraînement pour encourager le modèle à produire directement une seule meilleure boîte par objet. De plus, il emploie une conception de modèle holistique axée sur l'efficacité et la précision, utilisant des têtes de classification légères pour réduire les FLOPs et le nombre de paramètres.

Points forts et faiblesses

Points forts :

Inférence sans NMS : En supprimant l'étape de NMS, le modèle réduit la latence de post-traitement, ce qui peut être bénéfique sur du matériel avec une puissance CPU limitée pour les opérations non matricielles.
Efficacité des paramètres : L’architecture est conçue pour être légère, atteignant une bonne précision avec relativement moins de paramètres.

Faiblesses :

Polyvalence limitée : YOLOv10 se concentre presque exclusivement sur la détection d'objets. Il manque de support natif pour les tâches complexes comme la segmentation d'instance ou l'estimation de pose, ce qui limite son utilité dans les applications d'IA à multiples facettes.
Soutien axé sur la recherche : En tant que projet universitaire, il peut ne pas offrir le même niveau de maintenance à long terme, de fréquence de mise à jour ou d’intégration avec les outils de déploiement que les modèles pris en charge par l’entreprise.

Cas d'utilisation idéal

YOLOv10 est particulièrement adapté aux applications hautement spécialisées et à tâche unique où la suppression de l'étape NMS est essentielle pour respecter des budgets de latence stricts sur du matériel embarqué spécifique.

En savoir plus sur YOLOv10

Ultralytics YOLO11 : Le summum de la polyvalence et de la performance

Ultralytics YOLO11 représente la pointe de l'IA de vision, s'appuyant sur l'héritage de YOLOv8 et YOLOv5. Il est conçu non seulement comme un modèle, mais comme une solution complète pour les défis de l'IA dans le monde réel.

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :ultralytics/ultralytics
Docs :Documentation YOLO11

Architecture et écosystème

YOLO11 affine le mécanisme de détection sans ancrage avec une architecture dorsale et de cou améliorée, incorporant les modules C3k2 et C2PSA qui améliorent l'efficacité de l'extraction des caractéristiques. Contrairement à ses concurrents, YOLO11 est une centrale multitâche. Un seul cadre prend en charge la détection, la segmentation, la classification, l'estimation de pose et les boîtes englobantes orientées (OBB), ce qui permet aux développeurs de consolider leur pile d'IA.

Il est essentiel de noter que YOLO11 est soutenu par l'écosystème Ultralytics. Cela garantit une intégration transparente avec les outils de gestion des données, une exportation facile des modèles vers des formats tels que ONNX et TensorRT, et un soutien communautaire solide.

Avantages clés

Équilibre de performance supérieur : YOLO11 atteint constamment des scores mAP plus élevés tout en conservant des vitesses d’inférence exceptionnelles, surpassant souvent les alternatives sans NMS en termes de débit réel sur les GPU.
Polyvalence inégalée : Que vous ayez besoin de suivre les joueurs dans les sports, de segment l’imagerie médicale ou de detect les objets pivotés dans les vues aériennes, YOLO11 gère tout cela dans une seule API python.
Facilité d'utilisation : L'interface Ultralytics est réputée pour sa simplicité. L'entraînement d'un modèle de pointe ne nécessite que quelques lignes de code, démocratisant ainsi l'accès à l'IA avancée.
Efficacité de l'entraînement : Les routines d'entraînement optimisées et les poids pré-entraînés de haute qualité permettent une convergence plus rapide, ce qui permet d'économiser du temps et des ressources de calcul.
Exigences de mémoire plus faibles : Par rapport aux architectures à base de transformateurs telles que RT-DETRYOLO11 est nettement plus économe en mémoire pendant l'apprentissage, ce qui le rend accessible à un plus grand nombre de matériels.

Avantage de l'écosystème

L'utilisation de YOLO11 donne accès à une suite d'intégrations, y compris MLFlow pour le suivi des expériences et OpenVINO pour l'inférence optimisée sur le matériel Intel, garantissant ainsi que votre projet évolue en douceur du prototype à la production.

En savoir plus sur YOLO11

Comparaison des performances : rapidité, précision et efficacité

Lors de la comparaison de YOLOv10 et YOLO11, il est essentiel de regarder au-delà du nombre de paramètres et d'examiner les métriques de performance réelles. Bien que YOLOv10 réduise la complexité théorique en supprimant NMS, YOLO11 démontre des vitesses d'inférence supérieures sur des configurations matérielles standard comme le GPU T4 avec TensorRT.

Les données révèlent que YOLO11 offre un meilleur compromis pour la plupart des applications. Par exemple, YOLO11n atteint la même précision (39,5 mAP) que YOLOv10n, mais avec une architecture plus robuste prise en charge par l'API Ultralytics. À mesure que la taille du modèle augmente, les avantages de YOLO11 en termes de précision deviennent plus prononcés, avec YOLO11x atteignant 54,7 mAP, établissant une barre haute pour la précision de la détection.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

Analyse

Vitesse : YOLO11 offre une inférence plus rapide sur les GPU (TensorRT) dans presque toutes les tailles de modèles. Par exemple, YOLO11l fonctionne à 6,2 ms contre 8,33 ms pour YOLOv10l, ce qui représente un avantage de débit important pour l’analyse vidéo en temps réel.
Précision : YOLO11 surpasse constamment YOLOv10 en mAP, assurant moins de faux négatifs et une meilleure localisation, ce qui est essentiel pour les tâches critiques pour la sécurité comme la navigation autonome ou la détection de défauts.
Calcul : Bien que YOLOv10 minimise les paramètres, YOLO11 optimise le graphe de calcul réel pour offrir des temps d’exécution plus rapides, prouvant ainsi que le nombre de paramètres à lui seul ne dicte pas la vitesse.

Application dans le monde réel et exemple de code

Le véritable test d'un modèle est la facilité avec laquelle il s'intègre dans un flux de travail de production. YOLO11 excelle dans ce domaine grâce à son interface Python simple. Vous trouverez ci-dessous un exemple de la façon de charger un modèle YOLO11 pré-entraîné et d'exécuter l'inférence sur une image.

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Ce simple extrait de code donne accès à des performances de pointe. La même API vous permet de passer sans effort à l'entraînement sur des ensembles de données personnalisés, à la validation des performances du modèle ou au track d'objets dans les flux vidéo.

Conclusion : Le verdict

Alors que YOLOv10 offre un regard novateur sur les architectures sans NMS et est un choix respectable pour la recherche universitaire ou les scénarios périphériques très contraints, Ultralytics YOLO11 se distingue comme le choix supérieur pour la grande majorité des développeurs et des entreprises.

La combinaison d'une précision supérieure, d'une vitesse d'inférence en temps réel plus rapide et d'une polyvalence inégalée fait de YOLO11 la solution définitive pour la vision par ordinateur moderne. Soutenus par l'écosystème Ultralytics activement maintenu, les développeurs bénéficient non seulement d'un modèle, mais également d'un partenaire à long terme dans leur parcours d'IA, garantissant que leurs applications restent robustes, évolutives et à la pointe de la technologie.

Pour ceux qui souhaitent explorer davantage, les comparaisons avec d'autres modèles comme YOLOv9 ou RT-DETR peuvent fournir un contexte supplémentaire sur le paysage évolutif de la detect d'objets.