Passer au contenu

YOLOv7 vs YOLO11: De l'héritage en temps réel à l'efficacité de pointe

Naviguer dans le paysage des modèles de vision par ordinateur implique de comprendre la nuance entre les architectures établies et les dernières innovations de pointe (SOTA). Ce guide fournit une comparaison technique complète entre YOLOv7, une étape importante dans la série YOLO , et Ultralytics YOLO11le modèle de pointe conçu pour offrir des performances et une polyvalence supérieures.

Nous examinerons leurs différences architecturales, les mesures de référence et les applications pratiques afin d'aider les développeurs et les chercheurs à choisir l'outil optimal pour des tâches allant de la détection d'objets à la segmentation d'instances complexes.

YOLOv7: une référence en matière d'architecture efficace

Publié en juillet 2022, YOLOv7 a représenté une avancée majeure dans l'équilibre entre l'efficacité de la formation et la vitesse d'inférence. Il a été conçu pour surpasser les détecteurs précédents en se concentrant sur les optimisations architecturales qui réduisent le nombre de paramètres sans sacrifier la précision.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, et Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Date : 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Points forts de l'architecture

YOLOv7 a introduit le réseau d'agrégation de couches efficace étendu (E-ELAN). Cette architecture permet au modèle d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs, ce qui améliore la convergence pendant la formation. En outre, il a utilisé le "trainable bag-of-freebies", un ensemble de stratégies d'optimisation telles que le re-paramétrage du modèle et l'attribution dynamique d'étiquettes, qui améliorent la précision sans augmenter le coût de l'inférence.

Bien qu'il s'agisse principalement d'un modèle de détection d'objets, la communauté open-source a étudié la possibilité d'étendre YOLOv7 à l'estimation de la pose. Cependant, ces implémentations manquent souvent de l'intégration transparente que l'on trouve dans les cadres unifiés.

Points forts et limites

YOLOv7 est respecté pour son :

  • Des performances solides : Dès sa sortie, il a établi une nouvelle référence pour les détecteurs en temps réel, en obtenant de bons résultats sur l'ensemble de donnéesCOCO .
  • Innovation architecturale : L'introduction d'E-ELAN a influencé les recherches ultérieures en matière de conception de réseaux.

Cependant, elle est confrontée à des défis dans les flux de travail modernes :

  • Complexité : Le pipeline de formation peut être complexe et nécessiter une configuration manuelle importante par rapport aux normes modernes.
  • Polyvalence limitée : Il ne prend pas en charge de manière native des tâches telles que la classification ou les boîtes englobantes orientées (OBB).
  • Utilisation des ressources : L'entraînement de variantes plus importantes, telles que YOLOv7x, nécessite des ressources substantielles en GPU ce qui peut constituer un goulot d'étranglement pour les chercheurs disposant d'un matériel limité.

En savoir plus sur YOLOv7

Ultralytics YOLO11: Redéfinir la vitesse, la précision et la facilité d'utilisation

Ultralytics YOLO11 est la dernière évolution de la célèbre lignée YOLO , conçue pour offrir des performances SOTA dans un large éventail de tâches de vision par ordinateur. Construit sur la base d'un héritage d'amélioration continue, YOLO11 offre une architecture raffinée qui maximise l'efficacité pour un déploiement dans le monde réel.

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHubultralytics
Docsyolo11

Architecture avancée et polyvalence

YOLO11 utilise une épine dorsale modernisée avec des blocs C3k2 et un module SPPF amélioré pour capturer plus efficacement les caractéristiques à différentes échelles. Cette conception aboutit à un modèle qui est non seulement plus précis, mais aussi beaucoup plus léger en termes de paramètres et de FLOPs par rapport à ses prédécesseurs et concurrents.

L'une des caractéristiques de YOLO11 est sa prise en charge native des tâches multiples. Dans un cadre unique, les utilisateurs peuvent effectuer :

  • Détection : Identification d'objets à l'aide de boîtes de délimitation.
  • Segmentation : Masquage au niveau des pixels pour une analyse précise des formes.
  • Classification : attribution d'étiquettes de classe à des images entières.
  • Estimation de la pose : Détection de points clés sur les corps humains.
  • OBB : Détection d'objets en rotation, cruciale pour l'imagerie aérienne.

Écosystème unifié

Ultralytics YOLO11 s'intègre parfaitement à Ultralytics HUB, une plateforme pour la gestion des ensembles de données, la formation sans code et le déploiement en un clic. Cette intégration accélère considérablement le cycle de vie des MLOps.

Pourquoi les développeurs choisissent YOLO11

  • Facilité d'utilisation : Avec une conception centrée sur l'utilisateur, YOLO11 peut être mis en œuvre en seulement quelques lignes de code Python ou via un simple CLI.
  • Un écosystème bien entretenu : Soutenu par une communauté active et l'équipe Ultralytics , le modèle reçoit des mises à jour fréquentes, assurant la compatibilité avec les dernières versions de PyTorch et les accélérateurs matériels les plus récents.
  • Équilibre des performances : Il réalise un compromis exceptionnel entre la vitesse d'inférence et la précision moyenne (mAP), ce qui le rend idéal à la fois pour les appareils périphériques et les serveurs en nuage.
  • Efficacité de la mémoire : Les modèles YOLO11 nécessitent généralement moins de mémoire CUDA pendant l'apprentissage que les architectures plus anciennes ou les modèles basés sur les transformateurs, ce qui permet d'augmenter la taille des lots ou d'effectuer l'apprentissage sur du matériel modeste.

En savoir plus sur YOLO11

Comparaison des performances : Critères de référence techniques

Le tableau suivant illustre les différences de performance entre YOLOv7 et YOLO11. Les données soulignent comment les optimisations modernes permettent à YOLO11 d'atteindre une précision supérieure avec une fraction du coût de calcul.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Analyse :

  • Efficacité : YOLO11m atteint la précision de YOLOv7l (51,5 contre 51,4 mAP) tout en utilisant près de la moitié des paramètres (20,1M contre 36,9M) et beaucoup moins de FLOP.
  • Vitesse : Pour les applications en temps réel, YOLO11n est nettement plus rapide, avec un temps de réponse de 1,5 ms sur un GPU T4, ce qui le rend parfait pour le traitement des vidéos à haute fréquence.
  • Précision : Le plus grand modèle, YOLO11x, dépasse YOLOv7x en termes de précision (54,7 contre 53,1 mAP) tout en conservant un nombre de paramètres compétitif.

Cas d'utilisation concrets

Agriculture et surveillance de l'environnement

Dans l'agriculture de précision, la détection des maladies des cultures ou le suivi de la croissance nécessitent des modèles qui peuvent fonctionner sur des appareils à puissance limitée, tels que des drones ou des capteurs de terrain.

  • YOLO11: son architecture légère (en particulier YOLO11n/s) permet un déploiement sur des appareils Raspberry Pi ou NVIDIA Jetson, ce qui permet une surveillance en temps réel de la santé des cultures.
  • YOLOv7: Bien qu'il soit précis, sa demande de calcul plus élevée limite son utilité sur les appareils périphériques alimentés par batterie.

Fabrication intelligente et contrôle de la qualité

Les systèmes d'inspection visuelle automatisés nécessitent une grande précision pour detect défauts les plus infimes dans les chaînes de fabrication.

  • YOLO11: La capacité du modèle à effectuer la segmentation et l'OBB est cruciale ici. Par exemple, l'OBB est essentiel pour détecter les composants en rotation sur une bande transporteuse, une fonctionnalité prise en charge de manière native par YOLO11 mais qui nécessite des implémentations personnalisées dans YOLOv7
  • YOLOv7: convient à la détection de boîtes englobantes standard, mais s'adapte moins bien aux défauts géométriques complexes sans modification importante.

Surveillance et sécurité

Les systèmes de sécurité traitent souvent plusieurs flux vidéo simultanément.

  • YOLO11: La vitesse d'inférence élevée permet à un seul serveur de traiter plus de flux en parallèle, ce qui réduit les coûts d'infrastructure.
  • YOLOv7: Efficace, mais la latence plus élevée par image réduit le nombre total de canaux qu'une seule unité peut gérer.

Efficacité de la mise en œuvre et de la formation

L'une des principales caractéristiques de l'écosystème Ultralytics est la rationalisation de l'expérience des développeurs. Vous trouverez ci-dessous une comparaison de la façon de commencer.

Simplicité dans le code

Ultralytics YOLO11 est conçu pour être "piles incluses", en faisant abstraction du code de base complexe.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En revanche, les dépôts plus anciens nécessitent souvent de cloner le dépôt, d'ajuster manuellement les fichiers de configuration et d'exécuter des scripts shell complexes pour l'apprentissage et l'inférence.

Flexibilité des exportations

YOLO11 permet d'exporter en un clic vers différents formats pour le déploiement, y compris ONNX, TensorRTCoreML et TFLite. Cette flexibilité garantit que votre modèle est prêt pour la production dans n'importe quel environnement.

Conclusion : Le grand gagnant

Tout en YOLOv7 reste un modèle respectable dans l'histoire de la vision par ordinateur, Ultralytics YOLO11 représente l'avenir. Pour les développeurs et les chercheurs, YOLO11 offre un ensemble convaincant :

  1. Des mesures supérieures : Un mAP plus élevé et des vitesses d'inférence plus rapides.
  2. Un écosystème riche : Accès au HUBUltralytics , à une documentation complète et au soutien de la communauté.
  3. Polyvalence : Un cadre unique pour la détection, la segmentation, la pose, la classification et l'OBB.
  4. Protection de l'avenir : Des mises à jour et une maintenance continues garantissent la compatibilité avec les nouvelles bibliothèques matérielles et logicielles.

Pour tout nouveau projet, il convient de tirer parti de l'efficacité et de la facilité d'utilisation de YOLO11 est la voie recommandée pour obtenir des résultats de pointe avec un minimum de friction.

Explorer d'autres modèles

Si vous êtes intéressé par d'autres comparaisons, consultez les pages de la documentation qui s'y rapportent :


Commentaires