Passer au contenu

YOLOv7 vs. YOLO: Comparaison technique détaillée

La sélection de l'architecture optimale de détection d'objets est une décision cruciale dans le développement de la vision par ordinateur, car elle permet d'équilibrer les demandes concurrentes de latence d'inférence, de précision et d'allocation des ressources informatiques. Cette analyse technique compare YOLOv7 et YOLO, deux modèles influents sortis fin 2022 qui ont repoussé les limites de la détection en temps réel. Nous examinons leurs innovations architecturales uniques, leurs performances de référence et leur adéquation à divers scénarios de déploiement afin de vous aider à naviguer dans votre processus de sélection.

YOLOv7: Optimiser la formation pour une précision en temps réel

YOLOv7 a marqué une évolution significative dans la famille YOLO , en donnant la priorité à l'efficacité architecturale et aux stratégies d'apprentissage avancées pour améliorer les performances sans gonfler les coûts d'inférence. Développé par les auteurs originaux de Scaled-YOLOv4, il a introduit des méthodes permettant au réseau d'apprendre plus efficacement pendant la phase de formation.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy, et Hong-Yuan Mark Liao
Organisation:Institute of Information Science, Academia Sinica, Taiwan
Date : 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
Docsultralytics

Innovations architecturales

Le cœur de YOLOv7 est constitué du réseau d'agrégation de couches efficace étendu (E-ELAN). Cette architecture permet au modèle d'apprendre diverses caractéristiques en contrôlant les chemins de gradient les plus courts et les plus longs, ce qui améliore la convergence sans perturber le flux de gradient existant. En outre, YOLOv7 utilise un "bag-of-freebies entraînable", un ensemble de techniques d'optimisation appliquées pendant le traitement des données d'entraînement qui n'affectent pas la structure du modèle pendant le déploiement. Il s'agit notamment de la re-paramétrisation du modèle et des têtes auxiliaires pour la supervision approfondie, ce qui garantit que l'épine dorsale capture des caractéristiques robustes.

Sac de cadeaux

Le terme "bag-of-freebies" fait référence aux méthodes qui augmentent la complexité de l'apprentissage pour améliorer la précision, mais qui n'entraînent aucun coût lors de l'inférence en temps réel. Cette philosophie garantit que le modèle final exporté reste léger.

Points forts et faiblesses

YOLOv7 est réputé pour son excellent équilibre sur le benchmark MS COCO, offrant une précision moyenne élevée (mAP) pour sa taille. Sa principale force réside dans les tâches à haute résolution où la précision est primordiale. Cependant, la complexité de l'architecture peut rendre difficile sa modification pour des recherches personnalisées. En outre, si l'inférence est efficace, le processus d'apprentissage est gourmand en ressources et nécessite une mémoire GPU importante par rapport aux architectures plus récentes.

En savoir plus sur YOLOv7

YOLO: Architecture neuronale à la recherche de l'avant-garde

YOLO, issu de l'équipe de recherche d'Alibaba, adopte une approche différente en s'appuyant sur la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des structures de réseau efficaces adaptées aux environnements à faible latence.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation:Alibaba Group
Date : 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHubYOLO

Innovations architecturales

YOLO présente MAE-NAS, une méthode permettant de générer un réseau fédérateur appelé GiraffeNet, qui maximise le débit sous des contraintes de latence spécifiques. En complément, ZeroHead est une tête de détection légère qui dissocie les tâches de classification et de régression tout en supprimant les paramètres lourds, ce qui réduit considérablement la taille du modèle. L'architecture utilise également un cou efficace connu sous le nom de RepGFPN (Generalized Feature Pyramid Network) pour la fusion de caractéristiques multi-échelles et aligne les scores de classification sur la précision de la localisation en utilisant AlignedOTA pour l'attribution des étiquettes.

Points forts et faiblesses

YOLO excelle dans les scénarios d'intelligence artificielle en périphérie. Ses variantes plus petites (Tiny/Small) offrent des vitesses impressionnantes, ce qui les rend adaptées aux appareils mobiles et aux applications IoT. L'utilisation de NAS garantit que l'architecture est mathématiquement optimisée pour l'efficacité. À l'inverse, les plus grands modèles YOLO sont parfois à la traîne des modèles YOLOv7 de niveau supérieur en termes de précision pure. En outre, en tant que projet centré sur la recherche, il ne dispose pas de l'écosystème étendu et du support d'outils que l'on trouve dans des cadres plus larges.

En savoir plus sur DAMO-YOLO

Comparaison des mesures de performance

Le tableau suivant met en évidence les compromis en matière de performances. YOLOv7 atteint généralement une plus grande précisionmAP) au prix d'une plus grande complexité de calcul (FLOPs), tandis que YOLO donne la priorité à la vitesse et à l'efficacité des paramètres, en particulier dans ses plus petites configurations.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Applications concrètes

Le choix entre ces modèles dépend souvent du matériel de déploiement et des tâches spécifiques de vision par ordinateur requises.

  • Sécurité et analyse haut de gamme (YOLOv7) : Pour les applications fonctionnant sur des serveurs puissants où chaque point de pourcentage de précision compte, comme les systèmes d'alarme de sécurité ou la gestion détaillée du trafic, YOLOv7 est un candidat de choix. Sa capacité à résoudre les détails les plus fins lui permet de détecter les petits objets dans les flux vidéo haute résolution.
  • Appareils périphériques et robotique (YOLO) : Dans les scénarios avec des budgets de latence stricts, tels que la robotique autonome ou les applications mobiles, l'architecture légère de YOLO brille. Le faible nombre de paramètres réduit la pression sur la bande passante de la mémoire, ce qui est essentiel pour les appareils alimentés par batterie qui effectuent la détection d'objets.

L'avantage Ultralytics : Pourquoi moderniser ?

Bien que YOLOv7 et YOLO soient des modèles performants, le paysage de l'IA progresse rapidement. Les développeurs et les chercheurs à la recherche d'une solution à l'épreuve du temps, efficace et conviviale devraient considérer l'écosystèmeUltralytics , en particulier YOLO11. La mise à niveau vers les modèles Ultralytics modernes offre plusieurs avantages distincts :

1. Simplicité d'utilisation

Les modèles Ultralytics donnent la priorité à l'expérience des développeurs. Contrairement aux référentiels de recherche qui nécessitent souvent des configurations d'environnement complexes et l'exécution manuelle de scripts, Ultralytics fournit une API et une CLI Python unifiées. Vous pouvez former, valider et déployer des modèles en quelques lignes de code seulement.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

2. Une grande polyvalence

YOLOv7 et YOLO sont principalement conçus pour la détection de boîtes englobantes. En revanche, YOLO11 prend en charge un large éventail de tâches dans le même cadre, notamment la segmentation d'instances, l'estimation de la pose, la détection d'objets orientés (OBB) et la classification d'images. Cela vous permet de vous attaquer à des problèmes complexes, comme l'analyse de la posture humaine dans les sports, sanschanger de bibliothèque.

3. Performance et efficacité supérieures

YOLO11 s'appuie sur des années de R&D pour offrir une précision de pointe tout en réduisant considérablement la charge de calcul. Il utilise une tête de détection sans ancrage et des opérations dorsales optimisées, ce qui permet de réduire l'utilisation de la mémoire pendant l'apprentissage et l'inférence par rapport aux anciennes versions de YOLO ou aux modèles basés sur des transformateurs tels que RT-DETR. Cette efficacité se traduit par une réduction des coûts de l'informatique en nuage et un traitement plus rapide sur le matériel périphérique.

4. Un écosystème et un soutien solides

L'adoption d'un modèle Ultralytics vous connecte à un écosystème prospère et bien entretenu. Grâce à des mises à jour fréquentes, une documentation complète et des canaux communautaires actifs, vous n'aurez jamais à déboguer un code non pris en charge. De plus, les intégrations transparentes avec des outils comme Ultralytics HUB facilitent le déploiement des modèles et la gestion des ensembles de données.

En savoir plus sur YOLO11

Conclusion

YOLOv7 et YOLO ont tous deux contribué de manière significative au domaine de la détection d'objets en 2022. YOLOv7 a démontré comment les techniques d'optimisation entraînables pouvaient améliorer la précision, tandis que YOLO a mis en évidence la puissance de la recherche d'architecture neuronale pour créer des modèles efficaces et prêts à l'emploi.

Cependant, dans les environnements de production actuels, YOLO11 représente l'apogée de la technologie de l'IA visionnaire. En combinant la vitesse de YOLO, la précision de YOLOv7 et la convivialité inégalée du framework Ultralytics , YOLO11 offre une solution polyvalente qui accélère les cycles de développement et améliore les performances des applications. Qu'il s'agisse de construire une infrastructure de ville intelligente ou d'optimiser le contrôle de la qualité de fabrication, les modèles Ultralytics offrent la fiabilité et l'efficacité nécessaires à la réussite.

Explorer d'autres modèles

Si vous souhaitez explorer d'autres options dans le domaine de la vision par ordinateur, envisagez ces modèles :

  • Ultralytics YOLOv8: Le prédécesseur de YOLO11, connu pour sa robustesse et sa large adoption par l'industrie.
  • YOLOv10: Un détecteur en temps réel axé sur la formation NMS pour une latence réduite.
  • YOLOv9: Introduit l'information de gradient programmable (PGI) pour réduire la perte d'information dans les réseaux profonds.
  • RT-DETR: Un détecteur basé sur un transformateur qui offre une grande précision mais nécessite généralement plus de mémoire GPU .
  • YOLOv6: Un autre modèle axé sur l'efficacité et optimisé pour les applications industrielles.

Commentaires