Passer au contenu

YOLO11 vs. YOLOv6.0 : Comparaison de l'état de l'art en matière de détection d'objets

Le choix du meilleur modèle de vision par ordinateur est une décision cruciale qui a un impact sur l'efficacité, la précision et l'évolutivité des applications d'intelligence artificielle. Ce guide fournit une analyse technique complète comparant Ultralytics YOLO11 et YOLOv6.0. Nous examinons leurs innovations architecturales, leurs benchmarks de performance, leurs méthodologies de formation et leur adéquation à divers scénarios de déploiement dans le monde réel. Bien que les deux frameworks aient apporté des contributions significatives au domaine, YOLO11 représente la dernière évolution en termes d'efficacité, de polyvalence et d'expérience utilisateur.

Ultralytics YOLO11

Auteurs: Glenn Jocher et Jing Qiu
Organisation: Ultralytics
Date: 2024-09-27
GitHub ultralyticshttps://github.com/ultralytics/ultralytics
Docs :yolo11

YOLO11 est l'évolution de pointe de la série YOLO (You Only Look Once), lancée par Ultralytics à la fin de l'année 2024. S'appuyant sur le succès de ses prédécesseurs tels que YOLOv8il introduit une architecture raffinée conçue pour maximiser les performances tout en minimisant les coûts de calcul. YOLO11 est conçu pour gérer un large éventail de tâches de vision par ordinateur, ce qui en fait une solution polyvalente pour des secteurs allant de l'automobile aux soins de santé.

Architecture et principales fonctionnalités

L'architecture de YOLO11 est axée sur l'amélioration de l'efficacité de l'extraction et du traitement des caractéristiques. Elle intègre une conception améliorée de l'épine dorsale et du cou qui réduit les calculs redondants, ce qui permet des vitesses d'inférence plus rapides à la fois sur les appareils périphériques et sur les serveurs en nuage. En tant que détecteur sans ancrage, YOLO11 élimine la nécessité d'une configuration manuelle de la boîte d'ancrage, ce qui simplifie le pipeline d'apprentissage et améliore l'adaptabilité à des formes d'objets variées.

Points forts

  • Équilibre des performances inégalé: YOLO11 offre une précision moyenne plus élevée (mAP) avec beaucoup moins de paramètres et de FLOP que les modèles comparables. Cette efficacité réduit les besoins en stockage et accélère les temps de traitement.
  • Polyvalence totale: Contrairement à de nombreux détecteurs limités aux boîtes englobantes, YOLO11 prend nativement en charge la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de la pose et les boîtes englobantes orientées (OBB) au sein d'un cadre unique.
  • Écosystème rationalisé: Les utilisateurs bénéficient de l'écosystème robuste d'Ultralytics , qui comprend une APIPython conviviale, une intégration transparente avec Ultralytics HUB pour une formation sans code, et un soutien important de la part de la communauté.
  • Efficacité de la formation: Le modèle est optimisé pour une convergence plus rapide et une utilisation réduite de la mémoire pendant l'apprentissage. Il s'agit d'un avantage certain par rapport aux architectures basées sur les transformateurs, qui nécessitent souvent des ressources substantielles en GPU de la mémoire.

Faiblesses

  • Courbe d'adoption: S'agissant d'un modèle récent, le volume de tutoriels de tiers et de ressources externes augmente rapidement, mais il est actuellement inférieur à celui des versions plus anciennes, telles que YOLOv5.
  • Défis liés aux petits objets: Bien que considérablement améliorée, la détection d'objets extrêmement petits reste une tâche difficile pour les détecteurs d'objets en une étape par rapport aux approches spécialisées, bien que plus lentes.

Cas d'utilisation idéaux

YOLO11 excelle dans les scénarios exigeant un débit et une précision élevés :

  • Systèmes autonomes: Suivi d'objets en temps réel pour les voitures autonomes et les drones.
  • Fabrication intelligente: Tâches d'assurance qualité nécessitant la détection et la segmentation simultanées des défauts.
  • Santé: Analyse de l'imagerie médicale où il est souvent nécessaire de déployer des ressources limitées.
  • Analyse de la vente au détail: Analyse du comportement des clients et gestion des stocks à l'aide de l'estimation et du suivi des poses.

En savoir plus sur YOLO11

YOLOv6.0

Auteurs: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation: Meituan
Date: 2023-01-13
Arxiv :https://arxiv.org/abs/2301.05586
GitHub YOLOv6https://github.com/meituan/YOLOv6
Docs :ultralytics

YOLOv6.0 est un cadre de détection d'objets développé par Meituan, spécifiquement destiné aux applications industrielles. Publié au début de l'année 2023, il a été conçu pour offrir un compromis compétitif entre la vitesse d'inférence et la précision, afin de répondre aux besoins des systèmes en temps réel dans les domaines de la logistique et de l'automatisation.

Architecture et principales fonctionnalités

L'architecture YOLOv6.0 introduit un "rechargement complet" du réseau. Elle utilise un backbone efficace re-paramétrable (EfficientRep) et une structure de tête de découplage. Les principales innovations comprennent l'utilisation de techniques d'autodistillation pendant l'entraînement pour améliorer la précision sans augmenter les coûts d'inférence et des optimisations spécifiques pour les systèmes TensorRT et des optimisations spécifiques pour TensorRT.

Points forts

  • L'accent est mis sur l'industrie: L'architecture du modèle est adaptée au matériel industriel, notamment en optimisant la latence sur les GPU NVIDIA .
  • Préparation à la quantification: YOLOv6 offre un support spécifique pour la quantification des modèles, ce qui facilite le déploiement sur du matériel dont la précision de calcul est limitée.
  • Variantes mobiles: Le cadre comprend des versions YOLOv6 optimisées pour les architectures mobiles CPUS et DSP.

Faiblesses

  • Intensité des ressources: Comme l'illustrent les données de performance, YOLOv6.0 nécessite souvent beaucoup plus de paramètres et de FLOP pour atteindre une précision comparable à celle des modèles plus récents tels que YOLO11.
  • Portée limitée de la tâche: L'objectif principal est la détection d'objets. Il ne dispose pas de la prise en charge multitâche native et transparente (segmentation, pose, classification, OBB) que l'on trouve dans le cadre unifié d'Ultralytics .
  • Fragmentation de l'écosystème: Bien que libre, l'écosystème est moins intégré que celui d'Ultralytics, ce qui nécessite potentiellement plus d'efforts manuels pour des tâches telles que la gestion des ensembles de données, le suivi et la formation au cloud.

Cas d'utilisation idéaux

YOLOv6.0 est adapté pour :

  • Systèmes industriels hérités: Environnements spécifiquement adaptés à l'architecture YOLOv6 .
  • Tâches de détection dédiées: Applications où seule la détection de la boîte englobante est requise et où les capacités multitâches ne sont pas nécessaires.
  • Déploiements matériels spécifiques: Scénarios exploitant des pipelines de quantification spécifiques pris en charge par le cadre Meituan.

En savoir plus sur YOLOv6

Mesures de performance : Vitesse, précision et efficacité

Le tableau suivant présente une comparaison détaillée entre YOLO11 et YOLOv6.0 sur l'ensemble de donnéesCOCO . Les mesures mettent en évidence les progrès réalisés par l'architecture YOLO11 en termes d'efficacité.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Analyse des données

La comparaison révèle une tendance claire : YOLO11 atteint systématiquement une plus grande précision (mAP) avec un surcoût de calcul considérablement réduit.

  • Efficacité des paramètres: Le modèle YOLO11m atteint une performance supérieure de 51,5 mAP contre 50,0 mAP pour YOLOv6.0m, tout en n'utilisant que 20,1 millions de paramètres contre 34,9 millions. Cela représente une réduction de près de 42 % de la taille du modèle pour de meilleures performances.
  • Coût de calcul: de même, YOLO11l nécessite 86,9 milliards de FLOP pour atteindre 53,4 mAP, alors que YOLOv6.0l nécessite 150,7 milliards de FLOP pour atteindre 52,8 mAP. Des FLOPs plus faibles se traduisent directement par une consommation d'énergie et une production de chaleur réduites, des facteurs critiques pour les systèmes embarqués.
  • Vitesse d'inférence: Alors que YOLOv6.0n montre des vitesses TensorRT légèrement plus rapides, l'écart de précision substantiel (2.0 mAP) et la taille plus grande du modèle font de YOLO11n un choix plus équilibré pour les applications modernes où la précision est primordiale.

Avantage du déploiement

Le nombre réduit de paramètres de YOLO11 permet non seulement d'accélérer l'inférence, mais aussi de réduire les besoins en bande passante de la mémoire. YOLO11 est donc particulièrement efficace sur les appareils périphériques tels que le Raspberry Pi ou le NVIDIA Jetson, où les ressources mémoire constituent souvent un goulot d'étranglement.

Formation et facilité d'utilisation

Facilité d'utilisation et écosystème

L'un des principaux facteurs de différenciation est l'écosystème qui entoure les modèles. Ultralytics YOLO11 est intégré dans une plateforme complète qui simplifie l'ensemble du cycle de vie des opérations d'apprentissage automatique (MLOps).

  • API simple: Les développeurs peuvent charger, former et prédire avec YOLO11 en seulement quelques lignes de code Python .
  • Documentation: Une documentation complète et activement mise à jour permet aux utilisateurs de trouver facilement des guides sur tous les sujets, de l'annotation des données à l'exportation des modèles.
  • Communauté: Une communauté dynamique sur GitHub et Discord assure un soutien rapide et des améliorations continues.

En revanche, si YOLOv6 fournit une base de code solide, il ne dispose pas du même niveau d'outils intégrés ni de la même disponibilité de ressources gérées par la communauté, ce qui peut allonger le délai de déploiement des nouveaux projets.

Efficacité de la formation

YOLO11 est conçu pour être très efficace pendant la formation. Son architecture permet une convergence plus rapide, ce qui signifie que les utilisateurs peuvent souvent atteindre leur objectif de précision en moins d'époques que les anciennes architectures. En outre, les besoins en mémoire pendant l'entraînement sont optimisés, ce qui permet d'augmenter la taille des lots sur les GPU grand public.

Voici un exemple de la facilité avec laquelle on peut commencer à former un modèle YOLO11 :

from ultralytics import YOLO

# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

Conclusion

Si YOLOv6.0 reste un modèle performant pour des tâches de détection industrielle spécifiques, Ultralytics YOLO11 s'impose comme le meilleur choix pour la grande majorité des nouveaux projets de vision par ordinateur.

YOLO11 offre une combinaison convaincante d'une plus grande précision, d'une moindre consommation de ressources et d'une polyvalence inégalée. Sa capacité à gérer la détection, la segmentation, l'estimation de la pose et la classification au sein d'un cadre unique et facile à utiliser rationalise les flux de développement. Soutenu par l'écosystème Ultralytics activement entretenu et par des outils comme Ultralytics HUB, YOLO11 constitue une base à l'épreuve du temps pour la création de solutions d'IA évolutives et performantes.

Pour les développeurs qui recherchent le meilleur équilibre entre performance, efficacité et facilité d'utilisation, YOLO11 est la voie à suivre.

Explorer d'autres modèles

Si vous êtes intéressé par d'autres comparaisons, consultez les pages de la documentation qui s'y rapportent :


Commentaires