Passer au contenu

YOLOv9 YOLO: comparaison technique des modèles de détection d'objets

L'évolution rapide de la vision par ordinateur a donné naissance à toute une série d'architectures puissantes adaptées à diverses contraintes de déploiement et exigences de précision. Deux entrées notables dans ce domaine sont YOLOv9, réputé pour sa gestion robuste des goulots d'étranglement informationnels, et YOLO, qui met fortement l'accent sur la recherche d'architecture neuronale (NAS) et les pyramides de caractéristiques efficaces.

Ce guide propose une comparaison technique approfondie entre YOLOv9 YOLO, en mettant en évidence leurs différences architecturales, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux. Nous explorerons également comment Ultralytics offre un parcours fluide du développement à la production, et pourquoi les modèles modernes tels que YOLO26 sont devenus la norme recommandée pour les nouveaux projets.

Plongée architecturale en profondeur

Comprendre les mécanismes fondamentaux qui régissent chaque modèle permet de comprendre pourquoi leurs performances varient selon les différents indicateurs.

YOLOv9 : Informations de gradient programmables

YOLOv9 conçu pour remédier directement à la perte d'informations qui se produit lorsque les données transitent par des réseaux neuronaux profonds.

Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 21 février 2024
Liens :Arxiv, GitHub, Docs

En savoir plus sur YOLOv9

YOLOv9 les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN). Les PGI garantissent la conservation des informations spatiales et sémantiques essentielles pendant le processus de transmission, empêchant ainsi la dégradation des gradients utilisés pour les mises à jour des poids. Le GELAN complète cette fonctionnalité en optimisant l'efficacité des paramètres, ce qui permet au modèle d'atteindre une précision moyenne (mAP) de pointe avec moins de FLOP que de nombreux CNN conventionnels.

DAMO-YOLO : Efficacité axée sur la NAS

Développé par Alibaba Group,YOLO une approche différente, en tirant parti de la recherche architecturale automatisée pour trouver l'équilibre optimal entre vitesse et précision.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 23 novembre 2022
Liens :Arxiv, GitHub

En savoir plus sur DAMO-YOLO

YOLO sur une infrastructure MAE-NAS (Masked Autoencoders for Neural Architecture Search) pour générer automatiquement des structures de réseau efficaces. Il utilise un RepGFPN (Reparameterized Generalized Feature Pyramid Network) pour une fusion robuste des caractéristiques et une conception « ZeroHead » afin de minimiser la charge de calcul de la tête de détection. De plus, il intègre AlignedOTA pour l'attribution d'étiquettes et la distillation des connaissances afin d'améliorer les performances de ses variantes plus petites.

Le rôle du NAS dans la vision par ordinateur

La recherche d'architecture neuronale (NAS) automatise la conception de réseaux neuronaux artificiels. Bien qu'elle permette de produire des modèles très efficaces commeYOLO, elle nécessite souvent d'énormes ressources informatiques pour rechercher l'espace architectural, contrairement à la philosophie de conception plus déterministe de modèles comme YOLOv9.

Comparaison des performances et des indicateurs

Lors du choix d'un modèle de détection d'objets, il est essentiel de trouver le juste équilibre entre précision, vitesse et empreinte informatique.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse

  • Précision vs paramètres : YOLOv9 affiche YOLOv9 un rapport paramètres/précision supérieur. Par exemple, YOLOv9c atteint mAP de 53,0 % mAP 25,3 millions de paramètres, tandis que DAMO-YOLOl atteint mAP de 50,8 %, mAP nécessite beaucoup plus de paramètres (42,1 millions).
  • Vitesse d'inférence : l'architectureYOLO offre des vitesses TensorRT compétitives sur les GPU T4, dépassant légèrement YOLOv9 les niveaux intermédiaires. Cependant, l'efficacité YOLOv9 en termes de FLOP et de nombre de paramètres se traduit par une efficacité exceptionnelle GPU .
  • Exigences en matière de mémoire :YOLO Ultralytics YOLO , y compris YOLOv9, présentent généralement une utilisation de mémoire inférieure pendant l'entraînement et l'inférence par rapport aux modèles complexes générés par NAS ou aux architectures de transformateurs lourdes, ce qui les rend très accessibles pour un déploiement sur du matériel périphérique limité.

L'avantage de l'écosystème Ultralytics

Si les mesures théoriques sont importantes, la mise en œuvre pratique détermine largement la réussite d'un projet. C'est là que la Ultralytics et son écosystème logiciel complet surpassent les référentiels autonomes tels queYOLO.

Facilité d'utilisation et efficacité de la formation

La formation d'un YOLOv9 personnalisé nécessite un minimum de code standard. Python Ultralytics résume des processus complexes tels que l'augmentation des données, la formation distribuée et l'optimisation matérielle.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

À l'inverse, l'utilisationYOLO nécessiteYOLO de naviguer dans des fichiers de configuration rigides et des chaînes de dépendances complexes spécifiques à son pipeline de formation unique, ce qui se traduit par une courbe d'apprentissage plus raide.

Polyvalence dans toutes les tâches

Ultralytics se caractérisent par leur polyvalence inhérente. Au-delà de la détection standard des cadres de sélection, le Ultralytics prend en charge de manière transparente des tâches telles que la segmentation d'instances, l'estimation de poses, la classification d'images et la détection de cadres de sélection orientés (OBB).YOLO strictement optimisé pour la détection d'objets en 2D, ce qui nécessite une refonte importante pour s'adapter à d'autres paradigmes visuels.

Exportation vers des périphériques Edge

Ultralytics le pipeline de déploiement en proposant l'exportation de modèles en un clic vers des formats tels que TensorRT, OpenVINOet CoreML, garantissant ainsi des performances optimales quel que soit votre matériel cible.

Cas d'utilisation et recommandations

Le choix entre YOLOv9 YOLO des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir YOLOv9

YOLOv9 un excellent choix pour :

  • Recherche sur les goulots d'étranglement de l'information : projets universitaires étudiant les architectures PGI (Programmable Gradient Information) et GELAN (Generalized Efficient Layer Aggregation Network).
  • Études sur l'optimisation du flux de gradient : recherches axées sur la compréhension et l'atténuation de la perte d'informations dans les couches profondes du réseau pendant l'entraînement.
  • Benchmarking de détection haute précision : scénarios dans lesquels les performances élevées YOLOv9 COCO sont nécessaires comme point de référence pour les comparaisons architecturales.

Quand choisir DAMO-YOLO

YOLO recommandé pour :

  • Analyse vidéo à haut débit : traitement de flux vidéo à fréquence d'images élevée surGPU NVIDIA fixe où le débit du lot 1 est la principale métrique.
  • Lignes de fabrication industrielle : scénarios avec des contraintes strictes GPU sur du matériel dédié, tels que le contrôle qualité en temps réel sur les chaînes de montage.
  • Recherche sur la recherche d'architecture neuronale : étude des effets de la recherche automatisée d'architecture (MAE-NAS) et des structures de base reparamétrées efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

L'avenir : passage à YOLO26

Si YOLOv9 YOLO des étapes historiques importantes, la vision par ordinateur moderne s'est orientée vers des architectures natives de bout en bout. Pour tout nouveau développement, YOLO26 est la norme recommandée.

Sorti en 2026, YOLO26 s'appuie sur les succès de ses prédécesseurs et offre un bond en avant tant en termes de précision que de simplicité de déploiement.

Principales innovations de YOLO26

  • Conception NMS de bout en bout : YOLO26 élimine complètement le post-traitement par suppression non maximale (NMS). Cela permet de créer un pipeline de déploiement rationalisé qui est nativement de bout en bout, une avancée révolutionnaire lancée pour la première fois dans YOLOv10.
  • Suppression de DFL : suppression de la perte focale de distribution pour simplifier l'exportation et améliorer la compatibilité avec les périphériques à faible consommation d'énergie.
  • CPU jusqu'à 43 % plus rapide : en supprimant le post-traitement complexe et en optimisant les convolutions de base, YOLO26 est particulièrement adapté aux scénarios d'informatique en périphérie ne disposant pas de GPU dédiés.
  • Optimiseur MuSGD : inspiré des innovations en matière de formation LLM, YOLO26 utilise un hybride de SGD Muon (MuSGD) pour garantir des cycles de formation plus stables et des temps de convergence nettement plus rapides.
  • ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations remarquables dans la reconnaissance des petits objets, rendant YOLO26 idéal pour l'imagerie aérienne à haute altitude et les appareils IoT.

Si vous effectuez actuellement des recherches sur YOLO11 ou YOLOv8 pour votre prochain projet, la mise à niveau vers YOLO26 vous garantit d'utiliser le framework d'IA visuelle le plus optimisé et le plus avancé disponible à ce jour.

Résumé

Le choix du modèle approprié dépend de vos contraintes opérationnelles spécifiques :

  • YOLO offre un aperçu fascinant de l'optimisation basée sur NAS, fournissant des vitesses compétitives pour des profils matériels très spécifiques où son architecture RepGFPN excelle.
  • YOLOv9 est un excellent choix pour les chercheurs qui souhaitent conserver les détails visuels fins, grâce à son architecture PGI qui empêche la perte d'informations dans les réseaux profonds.
  • Ultralytics s'impose comme le choix incontournable pour les applications modernes destinées aux entreprises et à la recherche. Sa facilité d'utilisation inégalée, son architecture NMS et ses optimisations de formation MuSGD de pointe en font le modèle le plus fiable, le plus précis et le plus facile à déployer dans le domaine de la vision par ordinateur.

Commentaires