Passer au contenu

YOLOv9 YOLOv7: comprendre l'évolution de la détection d'objets à la pointe de la technologie

Dans le domaine en pleine évolution de la vision par ordinateur, il est essentiel de se tenir au courant des dernières architectures pour créer des applications efficaces et précises. Cette comparaison examine deux étapes importantes dans la lignée YOLO You Only Look Once) : YOLOv9, introduit début 2024 avec de nouvelles techniques d'optimisation des gradients, et YOLOv7, la référence en matière de détection en temps réel en 2022. Ces deux modèles ont façonné le paysage de la détection d'objets, offrant des atouts uniques aux chercheurs et aux développeurs.

Référence de performance

Le tableau suivant met en évidence les mesures de performance de YOLOv9 YOLOv7 l'COCO . Alors que YOLOv7 la barre très haut en matière de vitesse et de précision en 2022, YOLOv9 des améliorations architecturales qui repoussent encore ces limites, en particulier en termes d'efficacité des paramètres.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9 : Informations de gradient programmables

YOLOv9 un changement dans la manière dont les architectures d'apprentissage profond gèrent le flux d'informations. Publié en février 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao, il résout le problème du « goulot d'étranglement informationnel », qui consiste en une perte de données lors de leur passage à travers des couches profondes.

Principales innovations architecturales

La principale innovation de YOLOv9 le PGI (Programmable Gradient Information). Le PGI fournit un cadre de supervision auxiliaire qui garantit que la branche principale conserve les informations essentielles tout au long du processus d'entraînement. Il est complété par l'architecture GELAN (Generalized Efficient Layer Aggregation Network), qui optimise l'utilisation des paramètres au-delà des méthodes précédentes telles que CSPNet.

En savoir plus sur YOLOv9

YOLOv7 : L'ensemble d'optimisations entraînables

YOLOv7 conçu pour être le détecteur d'objets en temps réel le plus rapide et le plus précis lors de sa sortie en juillet 2022. Il a introduit plusieurs méthodes d'optimisation « bag-of-freebies » qui améliorent la précision sans augmenter le coût de l'inférence.

Principales innovations architecturales

YOLOv7 sur E-ELAN (Extended Efficient Layer Aggregation Network), qui permet au réseau d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs. Il a également été le pionnier des techniques de mise à l'échelle des modèles qui ajustent simultanément la profondeur et la largeur, ce qui le rend très adaptable à différentes contraintes matérielles.

En savoir plus sur YOLOv7

Analyse comparative : Architecture et cas d'utilisation

Précision et conservation des caractéristiques

YOLOv9 surpasse YOLOv9 YOLOv7 les scénarios nécessitant la détection d'objets petits ou occultés. Le cadre PGI garantit que les gradients ne sont pas dilués, ce qui est particulièrement avantageux pour l'analyse d'images médicales où le fait de passer à côté d'une petite anomalie peut être critique. YOLOv7 un choix robuste pour la détection à usage général, mais peut rencontrer un peu plus de difficultés avec les goulots d'étranglement extrêmes dans les réseaux très profonds.

Vitesse et efficacité de l'inférence

Bien que les deux modèles soient conçus pour des applications en temps réel, YOLOv9 un meilleur compromis entre les paramètres et la précision. Par exemple, YOLOv9c atteint une précision similaire à celle de YOLOv7x, mais avec beaucoup moins de paramètres (25,3 millions contre 71,3 millions) et de FLOP. Cela rend YOLOv9 adapté au déploiement sur des appareils où la bande passante mémoire est limitée, comme les caméras IA de pointe.

Flexibilité de déploiement

Ultralytics sont réputés pour leur portabilité. YOLOv9 YOLOv7 tous deux être facilement exportés vers des formats tels que ONNX et TensorRT à l'aide dePython Ultralytics , ce qui simplifie le passage de la recherche à la production.

Efficacité de l'entraînement

L'un des principaux avantages de Ultralytics réside dans l'optimisation de l'utilisation de la mémoire pendant l'entraînement. YOLOv9, intégré nativement à Ultralytics, bénéficie de chargeurs de données et d'une gestion de la mémoire efficaces. Cela permet aux développeurs de former des modèles compétitifs sur des GPU grand public (par exemple, RTX 3060 ou 4070) sans rencontrer d'erreurs de mémoire insuffisante (OOM) qui sont courantes avec les architectures à forte utilisation de transformateurs ou les référentiels non optimisés.

Applications concrètes

Le choix entre ces modèles dépend souvent de l'environnement de déploiement spécifique.

  • Véhicules autonomes :YOLOv7 a été largement testé dans des scénarios de conduite autonome, prouvant sa fiabilité dans la détection des piétons et des panneaux de signalisation à des fréquences d'images élevées.
  • Imagerie médicale :YOLOv9 excelle dans l'imagerie médicale, notamment pour la détection de tumeurs ou de fractures, où il est primordial de préserver les détails les plus fins à travers des couches profondes.
  • Analyse commerciale : pour la gestion des stocks, YOLOv9 offre une grande précision pour le comptage d'articles densément emballés sur les étagères, grâce à ses capacités supérieures d'intégration des fonctionnalités.
  • Villes intelligentes : les systèmes de surveillance du trafic bénéficient de YOLOv7, essentielles pour la gestion du trafic en temps réel.

L'avantage Ultralytics

L'utilisation de l'un ou l'autre de ces modèles dans Ultralytics offre des avantages distincts par rapport aux implémentations autonomes :

  1. Facilité d'utilisation : une API unifiée vous permet de passer de YOLOv7 à YOLOv9 et à des modèles plus récents à l'aide d'une seule ligne de code.
  2. Écosystème bien entretenu : le soutien actif de la communauté et les mises à jour fréquentes garantissent la compatibilité avec les dernières versions de PyTorch et CUDA .
  3. Polyvalence : au-delà de la détection, le Ultralytics prend en charge la segmentation d'instances, l'estimation de pose et les tâches OBB (Oriented Bounding Box), vous permettant ainsi d'élargir la portée de votre projet sans avoir à apprendre à utiliser de nouveaux outils.

Exemple de code : Formation avec Ultralytics

La formation des deux modèles est transparente. Voici comment vous pouvez former un YOLOv9 sur un ensemble de données personnalisé :

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

Préparer l'avenir avec YOLO26

Si YOLOv9 YOLOv7 des outils puissants, le domaine évolue rapidement. La dernière version YOLO26, sortie en janvier 2026, représente la pointe de la technologie en matière de vision par ordinateur.

YOLO26 présente une conception native de bout en bout NMS, éliminant ainsi la latence post-traitement pour un déploiement plus simple. Il supprime la perte focale de distribution (DFL) pour une meilleure compatibilité avec les périphériques et introduit l'optimiseur MuSGD, un hybride de SGD Muon inspiré de la formation LLM, pour une stabilité sans précédent. Grâce à des fonctions de perte spécialisées telles que ProgLoss + STAL, YOLO26 améliore considérablement la reconnaissance des petits objets, ce qui en fait le choix recommandé pour les nouvelles applications hautes performances.

En savoir plus sur YOLO26

Pour ceux qui explorent d'autres options, des modèles tels que YOLO11 et RT-DETR offrent également des avantages uniques pour des cas d'utilisation spécifiques dans Ultralytics .


Commentaires