Passer au contenu

YOLOv7 vs. YOLOv9 : Une comparaison technique détaillée

Lors de la sélection d'un modèle YOLO pour la détection d'objets, il est essentiel de comprendre les nuances entre les différentes versions. Cette page fournit une comparaison technique détaillée entre YOLOv7 et YOLOv9, deux modèles importants de la série YOLO développés par des chercheurs de l'Institute of Information Science, Academia Sinica, Taïwan. Nous explorerons leurs innovations architecturales, leurs benchmarks de performance et leur adéquation à diverses applications pour vous aider à prendre une décision éclairée pour votre prochain projet de vision par ordinateur.

YOLOv7 : Détection d'objets efficace et rapide

Lancé en juillet 2022, YOLOv7 était un modèle phare qui visait à optimiser de manière significative la vitesse et la précision pour la détection d'objets en temps réel, établissant de nouvelles normes d'efficacité à l'époque.

Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2022-07-06
Arxiv : https://arxiv.org/abs/2207.02696
GitHub : https://github.com/WongKinYiu/yolov7
Docs : https://docs.ultralytics.com/models/yolov7/

Architecture et principales fonctionnalités

La philosophie de conception de YOLOv7 est axée sur la maximisation de la vitesse d'inférence sans compromettre la précision. Elle a introduit plusieurs éléments architecturaux clés et stratégies d'entraînement pour atteindre cet équilibre :

  • Extended Efficient Layer Aggregation Network (E-ELAN) : Cette composante essentielle du backbone améliore la capacité d’apprentissage du réseau en gérant plus efficacement l’agrégation des caractéristiques. Comme indiqué dans l’article de recherche, il permet au modèle d’apprendre des caractéristiques plus robustes sans augmentation substantielle du coût de calcul.
  • Mise à l'échelle composite du modèle : YOLOv7 a introduit des méthodes de mise à l'échelle composite pour la profondeur et la largeur du modèle, permettant une optimisation efficace sur une gamme de tailles de modèle afin de s'adapter à différents budgets de calcul.
  • Sac de cadeaux entraînable : Ce concept implique l'intégration de diverses techniques d'optimisation pendant le processus d'entraînement, telles que l'augmentation des données avancée et les stratégies d'attribution d'étiquettes. Ces méthodes améliorent la précision du modèle final sans ajouter de surcharge au coût de l'inférence.

Points forts et faiblesses

Points forts

  • Vitesse d'inférence élevée : Optimisé pour les applications en temps réel, YOLOv7 offre souvent une inférence plus rapide que de nombreux modèles ultérieurs dans certaines configurations matérielles et de taille de lot.
  • Performance élevée : Il atteint des scores mAP compétitifs, ce qui en fait un choix fiable et puissant pour de nombreuses tâches de détection.
  • Modèle établi : Disponible depuis un certain temps, YOLOv7 bénéficie d’une adoption plus large, de ressources communautaires étendues et de nombreux exemples de déploiement éprouvés.

Faiblesses

  • Précision de pointe inférieure : Comparé au nouveau YOLOv9, YOLOv7 peut présenter une précision maximale légèrement inférieure, en particulier dans les scénarios complexes avec de nombreux objets petits ou qui se chevauchent.
  • Détection basée sur les ancres : Elle repose sur des boîtes d'ancrage prédéfinies, qui peuvent parfois être moins flexibles que les approches sans ancres pour détecter des objets avec des rapports d'aspect inhabituels ou très variés.

Cas d'utilisation

YOLOv7 est exceptionnellement bien adapté aux applications où la vitesse d'inférence est le facteur le plus critique :

  • Systèmes d'analyse vidéo et de surveillance en temps réel.
  • Déploiements d'IA en périphérie sur des appareils aux ressources limitées, tels que ceux que l'on trouve en robotique et dans les drones.
  • Prototypage et développement rapides de systèmes de détection d'objets où un délai d'exécution rapide est essentiel.

En savoir plus sur YOLOv7

YOLOv9 : Information de gradient programmable pour une précision améliorée

Présenté en février 2024, YOLOv9 représente une évolution architecturale significative en s'attaquant directement au problème de la perte d'informations dans les réseaux neuronaux profonds, ce qui entraîne des gains substantiels en précision.

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2024-02-21
Arxiv : https://arxiv.org/abs/2402.13616
GitHub : https://github.com/WongKinYiu/yolov9
Docs : https://docs.ultralytics.com/models/yolov9/

Architecture et principales fonctionnalités

YOLOv9 introduit de nouveaux concepts conçus pour améliorer le flux d'informations à travers le réseau, ce qui se traduit par un apprentissage plus efficace et une plus grande précision.

  • Informations de gradient programmables (PGI) : Il s'agit de l'innovation maîtresse de YOLOv9. PGI s'attaque au problème du goulot d'étranglement de l'information inhérent aux réseaux profonds en générant des gradients fiables grâce à des branches réversibles auxiliaires. Cela garantit que les informations cruciales sont préservées pour les mises à jour dans les couches plus profondes, empêchant ainsi la perte de détails clés nécessaires à une détection précise.
  • Generalized Efficient Layer Aggregation Network (GELAN) : S'appuyant sur les succès d'architectures telles que CSPNet (utilisée dans YOLOv5), GELAN est une nouvelle architecture de réseau très efficace. Il optimise l'utilisation des paramètres et l'efficacité computationnelle, permettant à YOLOv9 d'atteindre de meilleures performances avec moins de ressources.

Points forts et faiblesses

Points forts

  • Précision améliorée : La combinaison de PGI et de GELAN permet une extraction de caractéristiques supérieure et des scores mAP considérablement plus élevés par rapport à YOLOv7, ce qui est particulièrement évident dans les variantes de modèles plus grands.
  • Amélioration de l'efficacité : YOLOv9 offre une meilleure précision avec moins de paramètres et de calculs que les modèles précédents. Pour un niveau de précision donné, YOLOv9 est souvent plus efficace que YOLOv7.
  • Innovations à la pointe de la technologie : Il représente les dernières avancées de la lignée de recherche YOLO originale, repoussant les limites de ce qui est possible dans la détection d'objets en temps réel.

Faiblesses

  • Demande de calcul : Bien qu'elle soit efficace pour sa précision, l'architecture avancée, en particulier dans les variantes plus grandes comme YOLOv9e, peut toujours nécessiter des ressources de calcul importantes pour l'entraînement et le déploiement.
  • Nouveau modèle : En tant que version plus récente, le soutien de la communauté et les tutoriels de déploiement de tiers pourraient être moins nombreux que pour un modèle bien établi comme YOLOv7. Cependant, son intégration dans l'écosystème Ultralytics contribue à atténuer cet inconvénient en offrant une expérience utilisateur simplifiée.

Cas d'utilisation

YOLOv9 est le choix idéal pour les applications qui exigent les plus hauts niveaux de précision et d’efficacité :

  • Tâches de détection complexes dans les véhicules autonomes et les systèmes avancés d'aide à la conduite.
  • Systèmes de sécurité de haute précision qui nécessitent de minimiser les faux positifs et les faux négatifs.
  • Applications où la taille du modèle et le coût de calcul sont des contraintes critiques, mais où une haute précision ne peut être compromise.

En savoir plus sur YOLOv9

Comparaison directe des performances et de l’efficacité

Lors de la comparaison directe de YOLOv7 et YOLOv9, une tendance claire se dégage : YOLOv9 offre un meilleur compromis entre la précision et le coût de calcul. Par exemple, le modèle YOLOv9m atteint le même mAP de 51,4 % que YOLOv7l, mais avec près de la moitié des paramètres (20,0 M contre 36,9 M) et moins de FLOPs. De même, YOLOv9c offre des performances comparables à YOLOv7x (53,0 % contre 53,1 % mAP) tout en étant significativement plus efficace, utilisant seulement 25,3 M de paramètres contre 71,3 M pour YOLOv7x. Ce gain d'efficacité est le résultat direct des améliorations architecturales de YOLOv9, en particulier PGI et GELAN, qui permettent un apprentissage plus efficace.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
YOLOv9t 640 38.3 - 2.30 2.0 7.7
YOLOv9s 640 46.8 - 3.54 7.1 26.4
YOLOv9m 640 51.4 - 6.43 20.0 76.3
YOLOv9c 640 53.0 - 7.16 25.3 102.1
YOLOv9e 640 55.6 - 16.77 57.3 189.0

Conclusion et recommandations

YOLOv7 et YOLOv9 sont tous deux des modèles de détection d'objets redoutables, mais ils répondent à des priorités légèrement différentes.

  • YOLOv7 reste un concurrent sérieux, en particulier pour les applications où la vitesse d'inférence brute est la principale préoccupation et où une architecture établie et largement prise en charge est préférable. C'est un cheval de trait éprouvé pour de nombreux systèmes en temps réel.

  • YOLOv9 est le successeur évident et le choix recommandé pour les nouveaux projets qui nécessitent une précision et une efficacité de pointe. Son architecture innovante résout des problèmes clés de l'apprentissage profond, ce qui en fait un modèle à la fois plus précis et plus efficace sur le plan informatique que son prédécesseur.

Bien que les deux modèles soient excellents, les développeurs à la recherche d'une solution plus intégrée et polyvalente devraient également envisager les modèles de l'écosystème Ultralytics, tels que Ultralytics YOLOv8 et le dernier YOLO11. Ces modèles offrent une expérience utilisateur rationalisée, une documentation complète et une prise en charge d'un large éventail de tâches au-delà de la détection, notamment la segmentation d'instance, l'estimation de pose et la classification, le tout dans un framework unique et bien maintenu.

Explorer d'autres modèles

Pour d'autres comparaisons et pour explorer d'autres modèles de pointe, consultez ces autres pages de la documentation Ultralytics :

  • YOLOv5 : Reconnu pour son équilibre entre performance et adoption généralisée.
  • YOLOv8 : Un modèle polyvalent et puissant prenant en charge plusieurs tâches de vision.
  • YOLOv10 : Se concentre sur la détection d'objets en temps réel et de bout en bout en éliminant le besoin de NMS.
  • YOLO11 : Le dernier modèle de pointe d'Ultralytics, offrant des performances et une efficacité de premier ordre.
  • RT-DETR : Un détecteur basé sur un transformateur qui offre une approche architecturale différente.


📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires