YOLOv7 YOLOv9: évolution de la détection d'objets en temps réel
Le domaine de la vision par ordinateur a connu une évolution rapide, la famille YOLO You Only Look Once) étant constamment à la pointe de la détection d'objets en temps réel. Deux étapes importantes dans cette lignée sont YOLOv7, sortie en juillet 2022, et YOLOv9, sortie en février 2024. Bien que ces deux architectures aient été développées par des chercheurs de l'Institut des sciences de l'information de l'Académie Sinica, elles représentent des générations distinctes d'optimisation de l'apprentissage profond.
Ce guide fournit une comparaison technique de ces deux modèles performants, en analysant leurs innovations architecturales, leurs indicateurs de performance et leurs cas d'utilisation idéaux au sein de Ultralytics .
Innovations architecturales
La différence fondamentale entre ces modèles réside dans la manière dont ils gèrent la propagation des caractéristiques et le flux de gradient à travers les réseaux profonds.
YOLOv7: Le sac de cadeaux
Rédigé par Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao, YOLOv7 a introduit le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette architecture permet au réseau d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs.
YOLOv7 célèbre pour son « Bag-of-Freebies », un ensemble de méthodes d'entraînement qui améliorent la précision sans augmenter le coût de l'inférence. Il s'agit notamment de techniques de reparamétrisation et de supervision auxiliaire, qui aident le modèle à apprendre de meilleures représentations pendant l'entraînement, mais qui sont fusionnées ou supprimées lors de l'exportation du modèle pour un déploiement plus rapide.
YOLOv9 : Informations de gradient programmables
YOLOv9, développé par Chien-Yao Wang et Hong-Yuan Mark Liao, résout le problème du « goulot d'étranglement informationnel » inhérent aux réseaux profonds. Lorsque les données transitent par plusieurs couches successives, les informations d'entrée sont souvent perdues. YOLOv9 deux concepts révolutionnaires détaillés dans leur article Arxiv:
- GELAN (Generalized Efficient Layer Aggregation Network) : architecture qui combine les atouts de CSPNet et d'ELAN afin d'optimiser l'efficacité des paramètres.
- PGI (Programmable Gradient Information) : un cadre de supervision auxiliaire qui génère des gradients fiables pour mettre à jour les poids du réseau, garantissant ainsi que le modèle conserve les informations cruciales tout au long de la profondeur du réseau.
Analyse des performances
Lorsqu'ils choisissent entre différentes architectures, les développeurs doivent trouver un équilibre entre la précision moyenne (mAP), la vitesse d'inférence et le coût de calcul (FLOP). Le tableau ci-dessous met en évidence les différences de performances sur l'COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Points clés à retenir
- Efficacité : YOLOv9m atteint la même précision (51,4 % mAP) que YOLOv7l, mais avec près de 45 % de paramètres en moins (20,0 millions contre 36,9 millions) et un nombre de FLOP nettement inférieur.
- Vitesse : pour les applications en temps réel où chaque milliseconde compte, YOLOv9t offre des vitesses incroyables (2,3 ms sur T4 TensorRT) adaptées aux appareils périphériques.
- Précision :YOLOv9e repousse les limites de la précision de détection, atteignant mAP de 55,6 %, ce qui le rend supérieur pour les tâches nécessitant une grande précision.
L'avantage de l'écosystème Ultralytics
Que vous choisissiez YOLOv7 YOLOv9, leur utilisation via le Python Ultralytics offre une expérience unifiée et simplifiée.
Facilité d'utilisation et formation
Ultralytics les boucles d'entraînement complexes présentes dans PyTorch brutes. Les développeurs peuvent passer d'une architecture à l'autre en modifiant un seul argument de chaîne, ce qui simplifie le réglage des hyperparamètres et l'expérimentation.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model (or substitute with "yolov7.pt")
model = YOLO("yolov9c.pt")
# Train on the COCO8 dataset with efficient memory management
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
Gestion de la mémoire et des ressources
L'un des avantages significatifs de la Ultralytics réside dans l'optimisation de l'utilisation de la mémoire. Contrairement à de nombreux modèles basés sur Transformer (comme les variantes DETR) ou aux anciens détecteurs à deux étapes,YOLO Ultralytics sont conçus pour minimiser les pics CUDA . Cela permet aux chercheurs d'utiliser des lots plus importants sur des GPU grand public, démocratisant ainsi l'accès à la formation de modèles haut de gamme.
Gestion intégrée des ensembles de données
Ultralytics automatiquement le téléchargement et le formatage des ensembles de données. Vous pouvez commencer immédiatement la formation avec des ensembles de données standard tels que COCO8 ou Objects365 sans avoir à écrire de programmes de chargement de données complexes.
Applications concrètes
Quand choisir YOLOv7
YOLOv7 un choix robuste pour les systèmes où la compatibilité avec les versions antérieures est essentielle.
- Pipelines établis : les projets déjà intégrés aux pipelines d'exportation C++ de l'ère 2022 pourraient trouver plus facile de rester avec YOLOv7.
- Détection à usage général : pour les analyses vidéo standard où le nombre absolu de paramètres le plus bas n'est pas la contrainte principale, YOLOv7 très performant.
Quand choisir YOLOv9
YOLOv9 généralement recommandé pour les nouveaux déploiements en raison de son efficacité supérieure en termes de paramètres.
- Edge Computing : La légèreté de GELAN rend YOLOv9 pour les systèmes embarqués et les applications mobiles où le stockage et la puissance de calcul sont limités.
- Imagerie médicale : l'architecture PGI aide à préserver les informations détaillées, ce qui est essentiel pour détecter les petites anomalies dans les scans médicaux.
- Surveillance aérienne : l'amélioration de la conservation des caractéristiques facilite la détection de petits objets tels que des véhicules ou du bétail à partir d'images prises par des drones à haute altitude.
La prochaine génération : YOLO26
Si YOLOv7 YOLOv9 d'excellents modèles, le domaine de l'IA évolue vers encore plus de simplicité et de rapidité. Découvrez YOLO26, la dernière version Ultralytics en janvier 2026.
YOLO26 représente un changement de paradigme avec sa conception End-to-End NMS. En supprimant la suppression non maximale (NMS), YOLO26 élimine un goulot d'étranglement majeur dans les pipelines d'inférence, simplifiant ainsi le déploiement vers TensorRT et ONNX.
- Optimiseur MuSGD : inspiré par les innovations dans la formation LLM (comme Kimi K2 de Moonshot AI), YOLO26 utilise l'optimiseur MuSGD pour une convergence plus rapide et une plus grande stabilité.
- Optimisation de la périphérie : grâce à la suppression de la perte focale de distribution (DFL) et à l'optimisation des fonctions de perte telles que ProgLoss + STAL, YOLO26 fonctionne jusqu'à 43 % plus rapidement sur les processeurs, ce qui en fait le choix idéal pour l'IA en périphérie.
- Polyvalence : contrairement aux modèles précédents qui pouvaient être spécifiques à la détection, YOLO26 prend en charge nativement l'estimation de la pose, la segmentation et les boîtes englobantes orientées (OBB).
Conclusion
YOLOv7 YOLOv9 tous deux contribué de manière significative à l'avancement de la vision par ordinateur. YOLOv7 la barre très haut en matière de vitesse et de précision en 2022, tandis que YOLOv9 de nouveaux changements architecturaux afin d'améliorer le flux de gradient et l'efficacité des paramètres en 2024.
Pour les développeurs d'aujourd'hui, le choix se porte généralement vers YOLOv9 pour son efficacité ou le modèle de pointe YOLO26 pour son architecture NMS et CPU . Grâce à la robustesse Ultralytics , il n'a jamais été aussi facile de passer d'un modèle à l'autre pour trouver celui qui correspond le mieux à vos contraintes spécifiques, qu'il s'agisse de la surveillance des villes intelligentes ou de la robotique agricole.