Passer au contenu

YOLO11 vs YOLOv8: évolution architecturale et analyse des performances

Le choix du modèle optimal de vision par ordinateur est une décision cruciale pour les développeurs et les chercheurs qui cherchent à équilibrer la précision, la vitesse et l'efficacité des ressources. Cette page présente une comparaison technique complète entre Ultralytics YOLO11 et Ultralytics YOLOv8deux architectures de pointe conçues pour la détection d'objets et les tâches de vision avancées. Nous analysons leurs innovations architecturales, les mesures de référence et les scénarios de déploiement idéaux pour vous aider à déterminer la meilleure solution pour vos applications d'intelligence artificielle.

Ultralytics YOLO11

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHubultralytics
Docsyolo11

YOLO11 représente la dernière évolution de la célèbre série YOLO et apporte des améliorations significatives en matière d'extraction de caractéristiques et d'efficacité de traitement. En affinant les architectures de l'épine dorsale et du cou, YOLO11 atteint une précision moyenne plus élevée (mAP) tout en utilisant moins de paramètres que ses prédécesseurs. Il prend en charge de manière native un large éventail de tâches, notamment la segmentation d'instances, la classification d'images, l'estimation de la pose et les boîtes de délimitation orientées (OBB).

Architecture et principales fonctionnalités

L'architecture YOLO11 introduit le bloc C3k2, une version optimisée du goulot d'étranglement CSP (Cross Stage Partial), et le module C2PSA (Cross Stage Partial with Spatial Attention). Ces composants améliorent la capacité du modèle à capturer des motifs visuels complexes et des relations spatiales tout en minimisant la charge de calcul. Cette philosophie de conception garantit que YOLO11 excelle dans les scénarios d'inférence en temps réel, en particulier sur les appareils périphériques où les ressources informatiques sont limitées.

Points forts

  • Précision de pointe : Offre des performances de détection supérieures à toutes les échelles de modèle, surpassant régulièrement les itérations précédentes sur l'ensemble de donnéesCOCO .
  • Efficacité duCPU : Les choix architecturaux optimisés se traduisent par des vitesses d'inférence nettement plus rapides sur les CPU, ce qui en fait un choix de premier ordre pour les déploiements sans serveur ou en périphérie.
  • Efficacité des paramètres : Permet d'obtenir une grande précision avec moins de paramètres et de FLOP, ce qui réduit les besoins de stockage du modèle.
  • Cadre unifié : Traite de manière transparente plusieurs tâches de vision au sein d'une API unique et facile à utiliser.

Faiblesses

  • Maturité de l'écosystème : S'agissant d'une version plus récente, le volume de tutoriels tiers et de contenu généré par la communauté augmente rapidement, mais peut être moins important que celui de YOLOv8, qui est déjà bien établi.
  • Intensité des ressources pour les grands modèles : Bien qu'efficaces, les variantes les plus grandes (par exemple, YOLO11x) nécessitent encore des ressources GPU importantes pour l'entraînement et l'inférence à haut débit.

Cas d'utilisation

YOLO11 est le premier choix pour les applications nécessitant le meilleur rapport précision/vitesse possible :

  • Edge AI : déploiement de la détection haute performance sur des appareils NVIDIA Jetson ou Raspberry Pi.
  • Robotique en temps réel : Permettre la navigation autonome et l'interaction avec les objets avec un temps de latence minimal.
  • Imagerie médicale : Aide à l'analyse précise des images médicales pour les diagnostics où la précision est primordiale.

En savoir plus sur YOLO11

Ultralytics YOLOv8

Auteurs : Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organisation :Ultralytics
Date : 2023-01-10
GitHubultralytics
Docsyolov8

Sorti au début de l'année 2023, YOLOv8 a redéfini la norme en matière de détection d'objets en temps réel. Il a introduit une tête de détection sans ancrage et le module dorsal C2f, marquant une rupture significative avec les approches basées sur l'ancrage. YOLOv8 est réputé pour sa stabilité, sa polyvalence et l'écosystème massif qui s'est développé autour de lui, ce qui en fait l'un des modèles de vision les plus largement adoptés à l'échelle mondiale.

Architecture et principales fonctionnalités

YOLOv8 utilise une modification de l'épine dorsale CSPDarknet53, incorporant des modules C2f qui permettent un flux de gradient plus riche. Sa conception sans ancrage simplifie le processus de suppression du non-maximum (NMS) et réduit la complexité du réglage des hyperparamètres liés aux boîtes d'ancrage. Le modèle est hautement évolutif, offrant des variantes de Nano (n) à Extra Large (x) pour s'adapter à différents budgets de calcul.

Points forts

  • Fiabilité éprouvée : testée à grande échelle dans des environnements de production du monde entier, elle garantit une grande stabilité.
  • Un écosystème riche : soutenu par des milliers de tutoriels, d'intégrations et de projets communautaires.
  • Polyvalence : Comme YOLO11, il prend en charge la détection, la segmentation, la classification et l'estimation de la pose.
  • Base solide : continue d'offrir des performances compétitives qui dépassent celles de nombreuses architectures non YOLO .

Faiblesses

  • Écart de performance : généralement surpassé par YOLO11 en termes de précisionmAP et de vitesse d'inférence, en particulier sur le matériel de l'CPU
  • Coût de calcul plus élevé : Nécessite un peu plus de paramètres et de FLOP pour atteindre une précision comparable à celle de YOLO11.

Cas d'utilisation

YOLOv8 reste une excellente option pour :

  • Systèmes anciens : Projets déjà intégrés aux flux de travail de YOLOv8 qui nécessitent une stabilité plutôt qu'une performance de pointe.
  • Outils pédagogiques : Apprentissage des concepts de vision par ordinateur à l'aide d'un modèle doté d'une vaste documentation et d'exemples communautaires.
  • Détection à usage général : Performances fiables pour les applications standard de sécurité et de surveillance.

En savoir plus sur YOLOv8

Comparaison directe des performances

La distinction la plus importante entre ces deux modèles réside dans leur efficacité. YOLO11 réalise une "amélioration de Pareto" par rapport à YOLOv8plus grande précision pour un coût de calcul moindre YOLOv8

Analyse de l'efficacité et de la rapidité

Les optimisations architecturales de YOLO11 (C3k2, C2PSA) lui permettent de traiter les images plus rapidement tout en conservant des caractéristiques plus fines. Ceci est particulièrement évident dans l'inférenceCPU , où les modèles YOLO11 montrent des accélérations substantielles. Par exemple, le modèle YOLO11n est environ 30% plus rapide sur CPU que YOLOv8n tout en atteignant un mAP plus élevé.

En ce qui concerne l'inférenceGPU , les modèles YOLO11 présentent également une latence plus faible pour la plupart des tailles, ce qui les rend très efficaces pour les pipelines de traitement vidéo en temps réel.

Efficacité de la mémoire

Ultralytics YOLO11 et YOLOv8 sont tous deux conçus pour consommer peu de mémoire lors de l'apprentissage et de l'inférence par rapport aux modèles basés sur des transformateurs tels que RT-DETR. Cela les rend beaucoup plus accessibles aux développeurs qui utilisent du matériel grand public ou des environnements en nuage avec une mémoire CUDA limitée.

Mesures comparatives

Le tableau ci-dessous illustre les améliorations de performance. Notez la réduction des paramètres et des FLOPs pour YOLO11 ainsi que l'augmentation du mAP.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

L'avantage de l'écosystème Ultralytics

Choisir un modèle Ultralytics , c'est accéder à un écosystème complet conçu pour rationaliser l'ensemble du cycle de vie des MLOps.

  • Facilité d'utilisation : Les deux modèles partagent la même API Python et l'interface de ligne de commandeCLI. Le passage de YOLOv8 à YOLO11 ne nécessite souvent que la modification d'un seul caractère dans votre chaîne de code (par exemple...), "yolov8n.pt" à "yolo11n.pt").
  • Efficacité de la formation : Les modèles Ultralytics utilisent des routines d'apprentissage avancées, notamment l'augmentation de la mosaïque et l'évolution des hyperparamètres. Les poids pré-entraînés sont facilement disponibles, ce qui permet un apprentissage par transfert efficace sur des ensembles de données personnalisés.
  • Polyvalence : Contrairement à de nombreux concurrents limités à des tâches spécifiques, les modèles Ultralytics offrent une prise en charge native de la détection, de la segmentation, de la classification, de la pose et de l'OBB au sein d'un ensemble unifié.
  • Déploiement : Exporter facilement des modèles dans des formats tels que ONNX, TensorRTCoreML et OpenVINO pour un déploiement optimisé sur différents matériels.

Exemple d'utilisation unifiée

La conception de l'API partagée permet une expérimentation sans effort. Voici comment charger et exécuter une prédiction avec l'un ou l'autre modèle :

from ultralytics import YOLO

# Load YOLO11 or YOLOv8 by simply changing the model name
model = YOLO("yolo11n.pt")  # or "yolov8n.pt"

# Train on a custom dataset
# model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Conclusion : Quel modèle devriez-vous choisir ?

Pour la grande majorité des nouveaux projets, YOLO11 est le choix recommandé. Ses avancées architecturales offrent un avantage certain en termes de précision et de rapidité, en particulier pour les applications de calcul en périphérie où l'efficacité est cruciale. Le nombre réduit de paramètres implique également des besoins de stockage plus légers et des temps de téléchargement plus rapides pour les déploiements mobiles.

YOLOv8 reste un outil puissant et pertinent, en particulier pour les équipes dont les pipelines existants sont profondément intégrés à des versions spécifiques de YOLOv8 ou pour celles qui s'appuient sur la maturité absolue de son écosystème de documentation. Cependant, la migration vers YOLO11 est généralement simple et offre des avantages immédiats en termes de performances.

Les deux modèles sont publiés sous la licence AGPL-3.0 afin de promouvoir la collaboration dans le domaine des logiciels libres. Des licences d'entreprise sont disponibles pour les produits commerciaux nécessitant des fonctionnalités propriétaires.

Explorer d'autres modèles

Si YOLO11 et YOLOv8 sont d'excellents détecteurs à usage général, d'autres architectures de la famille Ultralytics peuvent répondre à des besoins spécifiques :

  • YOLOv10: se concentre sur la formation NMS pour réduire la latence.
  • YOLOv9: met l'accent sur les informations de gradient programmables pour l'entraînement des modèles profonds.
  • RT-DETR: un détecteur basé sur un transformateur offrant une grande précision, mais avec des exigences plus élevées en matière de mémoire et de calcul.

Explorez notre gamme complète de modèles comparés pour trouver celui qui convient le mieux à votre projet.


Commentaires