Passer au contenu

YOLOv5 YOLOv9: évolution de la détection d'objets en temps réel

Le paysage de la détection d'objets en temps réel a considérablement évolué au cours des dernières années. Alors que YOLOv5 a établi la norme en matière de convivialité et d'adoption industrielle en 2020, YOLOv9 a introduit en 2024 de nouveaux concepts architecturaux afin de repousser les limites de la précision et de l'efficacité. Ce guide fournit une comparaison technique détaillée afin d'aider les développeurs à choisir l'outil adapté à leurs projets de vision par ordinateur.

Origines du modèle et spécifications techniques

Comprendre la provenance de ces modèles permet de contextualiser leur philosophie de conception et leurs cas d'utilisation prévus.

YOLOv5 : La norme industrielle

Lancé en juin 2020 par Glenn Jocher et Ultralytics, YOLOv5 la facilité d'utilisation, YOLOv5 l'exportabilité et YOLOv5 la vitesse. Il est devenu le premier YOLO implémenté nativement dans PyTorch, le rendant accessible à une vaste communauté de Python .

  • Auteur : Glenn Jocher
  • Organisation :Ultralytics
  • Date : 2020-06-26
  • Référence :GitHub
  • Priorités : facilité d'utilisation, voies d'exportation robustes (ONNX, CoreML, TFLite) et formation rapide.

En savoir plus sur YOLOv5

YOLOv9: Innovation architecturale

Publié en février 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao de l'Academia Sinica, YOLOv9 sur la résolution du problème du « goulot d'étranglement de l'information » dans les réseaux profonds.

  • Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
  • Organisation : Institute of Information Science, Academia Sinica
  • Date : 2024-02-21
  • Référence :GitHub
  • Article :arXiv:2402.13616
  • Focus : Efficacité des paramètres et supervision approfondie à l'aide des informations de gradient programmables (PGI).

En savoir plus sur YOLOv9

Différences architecturales

La différence fondamentale réside dans la manière dont ces modèles gèrent l'extraction des caractéristiques et le flux de gradient.

YOLOv5 utilise une infrastructure CSPNet (Cross Stage Partial Network). Cette conception divise le flux de gradient afin de réduire les calculs tout en conservant la précision, ce qui a révolutionné la création de modèles compacts adaptés aux systèmes embarqués. Sa tête de détection basée sur des ancrages est hautement optimisée pour les tâches générales, offrant un équilibre qui reste compétitif pour de nombreuses applications existantes.

YOLOv9 introduit deux innovations clés : GELAN (Generalized Efficient Layer Aggregation Network) et PGI (Programmable Gradient Information). GELAN optimise l'utilisation des paramètres, permettant au modèle d'être plus léger tout en apprenant des caractéristiques plus complexes. PGI remédie à la perte d'informations lors de la propagation des données à travers les couches profondes en fournissant une branche de supervision auxiliaire, garantissant une génération fiable des gradients même dans des architectures très profondes.

Le saviez-vous ?

Si YOLOv9 une architecture novatrice, l' Ultralytics YOLOv5 reste inégalé en matière de déploiement. Il prend en charge nativement l'exportation vers des formats tels que TensorRT Edge TPU, simplifiant ainsi le passage de la formation à la production.

Analyse des performances

Lorsqu'on compare les mesures, YOLOv9 obtient YOLOv9 un mAPval plus élevé pour un nombre de paramètres donné, en particulier dans les variantes de modèles plus volumineuses. Cependant, YOLOv5 incroyablement compétitif en termes de vitesse d'inférence sur les processeurs et le matériel traditionnel grâce à son architecture plus simple.

Métriques de référence

Le tableau ci-dessous met en évidence les compromis. YOLOv9c atteint mAP de 53,0 %, surpassant YOLOv5x (50,7 %) tout en utilisant beaucoup moins de paramètres (25,3 millions contre 97,2 millions). Cela démontre l'efficacité de l'architecture GELAN. À l'inverse, les YOLOv5 plus petites (Nano et Small) offrent une latence extrêmement faible, ce qui les rend viables pour les appareils à très faible consommation d'énergie.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv5n64028.073.61.121.94.5
YOLOv5s64037.4120.71.927.216.5
YOLOv5m64045.4233.94.0321.249.0
YOLOv5l64049.0408.46.6146.5109.1
YOLOv5x64050.7763.211.8986.7205.7
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

Remarque : le tableau reflète les mesures COCO standard. Les valeurs en gras indiquent les meilleures performances dans cette catégorie spécifique.

Facilité d'utilisation et écosystème

C'est là que la distinction devient la plus pratique pour les développeurs.

Ultralytics (YOLOv5)

YOLOv5 conçu pour l'expérience développeur. Ultralytics offre un flux de travail fluide :

  1. API simple : chargez et entraînez des modèles en quelques lignes de Python.
  2. Outils intégrés : intégration automatique avec des outils de suivi des expériences tels que Comet ClearML.
  3. Déploiement : exportation en un clic vers ONNX, CoreML, TFLite et OpenVINO.
from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5su.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export to ONNX for deployment
model.export(format="onnx")

YOLOv9

Bien que très précis, le YOLOv9 original est axé sur la recherche. Cependant, YOLOv9 désormais entièrement pris en charge dans le Ultralytics , offrant la même facilité d'utilisation à cette nouvelle architecture. Cela signifie que vous n'avez pas à sacrifier la facilité d'utilisation pour accéder aux dernières améliorations architecturales ; il vous suffit de changer la chaîne de caractères du nom du modèle.

Efficacité de l'entraînement et mémoire

L'un des principaux avantages des Ultralytics , notamment YOLOv5 YOLOv9 intégré, réside dans leur efficacité en termes de mémoire.

  • GPU : les boucles Ultralytics sont optimisées pour minimiser l'utilisation CUDA . Cela permet aux utilisateurs d'entraîner des lots plus volumineux sur du matériel grand public (comme NVIDIA 3060/4090) par rapport aux modèles basés sur des transformateurs qui sont souvent gourmands en mémoire.
  • Convergence : YOLOv5 réputé pour sa capacité à « s'entraîner dès sa sortie de l'emballage », ne nécessitant qu'un réglage minimal des hyperparamètres. YOLOv9, avec sa branche auxiliaire PGI, démontre également une convergence stable, bien que son architecture soit plus complexe.

Applications concrètes

Le choix du modèle approprié dépend de vos contraintes de déploiement.

Cas d'utilisation idéaux pour YOLOv5

  • IA de pointe sur matériel existant : si vous effectuez un déploiement sur des modèles Raspberry Pi plus anciens ou des appareils mobiles où chaque milliseconde de latence d'inférence compte, YOLOv5n (Nano) est imbattable.
  • Prototypage rapide : pour les hackathons ou les startups qui ont besoin d'une preuve de concept (PoC) en quelques heures, la documentation complète et les tutoriels communautaires pour YOLOv5 le développement.
  • Applications mobiles : prise en charge native de iOS CoreML et Android TFLite enTFLite un outil incontournable pour les développeurs mobiles.

Cas d'utilisation idéaux pour YOLOv9

  • Inspection haute précision : dans le contrôle qualité de la fabrication, où la détection des défauts infimes est essentielle, la fonction supérieure d'extraction de caractéristiques de GELAN fait de YOLOv9 choix plus judicieux.
  • Imagerie médicale : pour des tâches telles que la détection de tumeurs, où la précision prime sur la vitesse brute, YOLOv9e apporte mAP nécessaire mAP .
  • Scènes complexes : les environnements présentant un niveau élevé d'occlusion ou d'encombrement bénéficient des gradients programmables qui aident le modèle à conserver les informations critiques à travers les couches profondes.

L'avenir : rencontre avec YOLO26

Si YOLOv5 un outil fiable et performant et YOLOv9 une grande précision, le domaine a encore évolué. Pour les nouveaux projets démarrant en 2026, Ultralytics représente le summum en matière de performances et d'efficacité.

Pourquoi passer à YOLO26 ?

  • De bout en bout natif : contrairement à YOLOv5 v9 qui nécessitent NMS , YOLO26 NMS nécessite NMS, ce qui simplifie les pipelines de déploiement.
  • Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur garantit une formation plus rapide et plus stable.
  • Polyvalence : prend en charge la détection, la segmentation, la pose, l'OBB et la classification dès l'installation.

En savoir plus sur YOLO26

Pour les utilisateurs qui utilisent actuellement YOLOv5, la migration vers YOLO26 offre des gains de vitesse significatifs (jusqu'à 43 % plus rapide CPU ) et une meilleure détection des petits objets grâce à ProgLoss + STAL, ce qui en fait la solution recommandée pour les déploiements en périphérie et dans le cloud.

Conclusion

Les deux architectures ont leur place. YOLOv5 reste le roi de la simplicité et de la compatibilité avec un large éventail d'appareils, parfait pour les développeurs qui ont besoin d'une solution « qui fonctionne tout simplement ». YOLOv9 offre un aperçu de l'avenir du deep learning efficace grâce à ses gradients programmables, offrant une précision de pointe.

Cependant, l'utilisation de Ultralytics vous garantit une liberté totale. Vous pouvez entraîner YOLOv5, YOLOv9 et le tout dernier YOLO26 à l'aide de la même API, ce qui vous permet de les comparer à partir de vos propres données et de choisir celui qui convient le mieux à votre application spécifique.

Résumé de la comparaison

FonctionnalitéYOLOv5YOLOv9
Objectif principalRapidité, facilité d'utilisation, déploiementPrécision, efficacité des paramètres
ArchitectureRéseau fédérateur CSPNet, basé sur des points d'ancrageGELAN Backbone, PGI, basé sur des ancres
ÉcosystèmeUltralytics native UltralyticsIntégré à Ultralytics
Idéal pourMobile, périphérique, systèmes héritésRecherche de haute précision, scènes complexes
InférenceExtrêmement rapide (GPU)Haute précision / Plus lent

Découvrez les autres modèles de la Ultralytics :

  • YOLO11 - Le prédécesseur robuste de YOLO26.
  • YOLOv8 - Un cadre unifié pour la détection, la segmentation et la pose.
  • RT-DETR - Détection en temps réel basée sur un transformateur.

Commentaires