Passer au contenu

YOLOv6.0 vs. YOLO11: une plongée en profondeur dans la sélection des modèles

La sélection de l'architecture optimale de vision par ordinateur est une décision cruciale pour les développeurs et les chercheurs qui cherchent à équilibrer la précision, la vitesse et l'efficacité des ressources. Cette analyse fournit une comparaison technique complète entre YOLOv6.0 et Ultralytics YOLO11en examinant leurs innovations architecturales, leurs mesures de performance et leur aptitude au déploiement dans le monde réel. Alors que YOLOv6.0 a fait des progrès significatifs dans les applications industrielles dès sa sortie, YOLO11 représente la dernière évolution de l'IA de vision de pointe (SOTA), offrant une polyvalence accrue et un écosystème robuste.

YOLOv6.0

Auteurs: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation: Meituan
Date: 2023-01-13
Arxiv :https://arxiv.org/abs/2301.05586
GitHub YOLOv6https://github.com/meituan/YOLOv6
Docs :ultralytics

YOLOv6.0 a été conçu par Meituan avec un accent particulier sur les applications industrielles. Sorti au début de l'année 2023, il a été conçu pour optimiser le compromis entre la vitesse d'inférence et la précision de détection, en ciblant spécifiquement les scénarios en temps réel sur du matériel standard.

Architecture et principales fonctionnalités

L'architecture de YOLOv6.0 introduit une philosophie de conception tenant compte du matériel. Elle utilise une structure efficace de type "backbone " et "neck" destinée à maximiser le débit sur les GPU. Parmi les principales innovations, citons l'utilisation de techniques d'autodistillation pendant l'apprentissage, qui permet aux petits modèles d'apprendre des grands modèles afin d'améliorer la précision sans augmenter le coût de l'inférence. En outre, le cadre met l'accent sur la quantification des modèles, en fournissant un soutien spécifique pour le déploiement de modèles sur du matériel avec des ressources de calcul limitées.

Points forts

  • Optimisation industrielle : Adapté aux tâches industrielles de détection d'objets pour lesquelles des contraintes matérielles spécifiques sont définies.
  • Aide à la quantification : Offre des flux de travail établis pour la quantification post-entraînement, bénéfique pour les pipelines de déploiement spécifiques.
  • Variantes mobiles : Inclut les configurations YOLOv6Lite optimisées pour les processeurs mobiles.

Faiblesses

  • Polyvalence limitée : Principalement limité à la détection d'objets, il ne prend pas en charge les tâches complexes telles que la segmentation d'instances, l'estimation de la pose ou les boîtes de délimitation orientées (OBB).
  • Efficacité des ressources : Comme illustré dans la section sur les performances, les modèles YOLOv6 nécessitent souvent des FLOPs et des nombres de paramètres plus élevés pour atteindre des niveaux de précision comparables à ceux des architectures plus récentes.
  • Portée de l'écosystème : Bien que libre, l'écosystème est moins étendu que la plateforme Ultralytics , offrant potentiellement moins d'intégrations pour les MLOps, la gestion des données et le déploiement continu.

En savoir plus sur YOLOv6

Ultralytics YOLO11

Auteurs: Glenn Jocher et Jing Qiu
Organisation: Ultralytics
Date: 2024-09-27
GitHub ultralyticshttps://github.com/ultralytics/ultralytics
Docs :yolo11

Ultralytics YOLO11 est la dernière itération de la célèbre série YOLO , redéfinissant les attentes en matière de performance et de facilité d'utilisation. Sorti fin 2024, il s'appuie sur un héritage d'innovation pour offrir un modèle non seulement plus rapide et plus précis, mais aussi remarquablement polyvalent dans un large éventail de tâches de vision par ordinateur.

Architecture et principales fonctionnalités

YOLO11 est doté d'une architecture raffinée, sans ancrage, qui améliore considérablement les capacités d'extraction des caractéristiques tout en réduisant la charge de calcul. La conception donne la priorité à l'efficacité des paramètres, ce qui permet au modèle d'atteindre des valeurs de mAP avec moins de paramètres que ses prédécesseurs et concurrents. Cette efficacité se traduit par une utilisation réduite de la mémoire pendant l'apprentissage et l'inférence, un avantage essentiel par rapport aux modèles basés sur les transformateurs qui nécessitent souvent une mémoire GPU importante.

La polyvalence en action

Contrairement à de nombreux modèles spécialisés, YOLO11 prend nativement en charge la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de la pose et la détection de boîtes de délimitation orientées (OBB) au sein d'un cadre unique et unifié.

Points forts

  • Équilibre des performances inégalé : Fournit une précision de pointe avec une taille de modèle et des FLOPs considérablement réduits, ce qui en fait la solution idéale pour l'IA périphérique sur des appareils tels que le NVIDIA Jetson et les déploiements évolutifs dans le cloud.
  • Un écosystème complet : Soutenus par l'écosystème Ultralytics activement entretenu, les utilisateurs bénéficient de mises à jour fréquentes, d'une documentation complète et d'une intégration transparente avec des outils tels qu'Ultralytics HUB pour la formation et le déploiement.
  • Facilité d'utilisation : l'APIPython et le CLI simplifiés permettent aux développeurs de passer de l'installation à l'inférence en quelques minutes, démocratisant ainsi l'accès à l'IA avancée.
  • Efficacité de la formation : Les routines d'entraînement optimisées et les poids pré-entraînés disponibles garantissent une convergence plus rapide et des coûts de calcul réduits.

Faiblesses

  • Adoption de la nouvelle architecture : Comme il s'agit d'une version de pointe, les tutoriels de tiers et les ressources communautaires se développent rapidement, mais peuvent être moins abondants que ceux des modèles existants tels que YOLOv5.

En savoir plus sur YOLO11

Comparaison des performances

L'analyse comparative suivante met en évidence les gains d'efficacité de YOLO11 par rapport à YOLOv6.0. Évaluées sur l'ensemble de donnéesCOCO , les données démontrent que les modèles Ultralytics atteignent systématiquement une précision supérieure avec une empreinte informatique plus légère.

Par exemple, le modèle YOLO11m surpasse le modèle YOLOv6.0m en termes de précision (51,5 contre 50,0 mAP) tout en utilisant environ 42 % de paramètres en moins et 20 % de FLOP en moins. Cette efficacité est cruciale pour réduire la latence et la consommation d'énergie dans les applications réelles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Méthodologies de formation et écosystème

L'expérience de formation diffère considérablement entre les deux frameworks. YOLOv6 s'appuie sur des scripts d'apprentissage profond standard et met l'accent sur l'autodistillation pour atteindre ses mesures de performance maximales, ce qui peut ajouter de la complexité au pipeline de formation.

Au contraire, Ultralytics YOLO11 est conçu pour la productivité des développeurs. Il s'intègre de manière transparente dans une pile MLOps moderne, prenant en charge la journalisation automatique avec les éléments suivants Weights & Biases, Cometet TensorBoard. Le processus d'apprentissage est très efficace en termes de mémoire, ce qui permet souvent d'augmenter la taille des lots sur le même matériel par rapport à d'autres détecteurs.

Exemple de facilité d'utilisation

YOLO11 vous permet d'entraîner un modèle personnalisé avec seulement quelques lignes de code Python , démontrant ainsi la simplicité de l'API Ultralytics :

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Cas d'utilisation idéaux

Lorsque vous choisissez entre ces modèles, tenez compte des exigences spécifiques de votre projet :

YOLOv6.0 est un candidat viable pour :

  • Systèmes industriels hérités : Environnements dans lesquels les optimisations matérielles spécifiques de YOLOv6 correspondent à l'infrastructure existante.
  • Détection statique d'objets : Projets où l'exigence est strictement la détection d'une boîte englobante sans besoin d'expansion future vers la segmentation ou l'estimation de la pose.

Ultralytics YOLO11 est le choix recommandé pour :

  • Applications multitâches : Scénarios nécessitant simultanément la détection, l'estimation de la pose et la segmentation, tels que la robotique ou l'analyse sportive avancée.
  • Déploiement en périphérie : Applications fonctionnant sur des appareils aux ressources limitées comme le Raspberry Pi, où le faible nombre de paramètres et la grande précision de YOLO11 permettent d'obtenir les meilleures performances par watt.
  • Développement rapide : Les équipes qui ont besoin d'itérer rapidement, en tirant parti de la documentation complète et du soutien actif de la communauté pour résoudre les problèmes plus rapidement.
  • Solutions commerciales : Applications d'entreprise bénéficiant de la stabilité et des options de licence offertes par Ultralytics.

Conclusion

YOLOv6.0 reste un modèle respectable pour des niches industrielles spécifiques, Ultralytics YOLO11 établit une nouvelle norme pour la vision par ordinateur. Son équilibre supérieur entre la précision et l'efficacité, combiné à la capacité de gérer diverses tâches de vision, en fait la solution la plus évolutive et la plus polyvalente. Les exigences réduites en matière de mémoire et l'écosystème robuste et bien entretenu qui entoure YOLO11 garantissent que les développeurs peuvent créer, déployer et faire évoluer leurs solutions d'IA en toute confiance.

Pour ceux qui souhaitent aller plus loin, la documentation d'Ultralytics propose des comparaisons avec d'autres modèles tels que YOLOv8, YOLOv10et RT-DETR.


Commentaires