YOLOv9 vs. YOLOv8 : une comparaison technique pour la détection d’objets

La sélection du modèle de détection d'objets optimal implique d'équilibrer l'innovation architecturale avec les besoins pratiques de déploiement. Cette comparaison technique analyse YOLOv9, un modèle axé sur la recherche introduisant de nouvelles techniques d'information de gradient, et Ultralytics YOLOv8, un framework prêt pour la production conçu pour la polyvalence et la vitesse. Nous examinons leurs architectures, leurs mesures de performance sur le COCO dataset et leurs cas d'utilisation idéaux pour vous aider à décider quel modèle convient le mieux à votre pipeline de vision par ordinateur.

YOLOv9 : Résoudre la perte d’informations avec une architecture novatrice

Lancé début 2024, YOLOv9 cible le problème fondamental de la perte d'informations dans les réseaux neuronaux profonds. À mesure que les réseaux deviennent plus profonds, les données d'entrée essentielles peuvent disparaître avant d'atteindre les couches finales, ce qui complique le processus d'entraînement.

Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation :Institute of Information Science, Academia Sinica, Taïwan
Date : 2024-02-21
Arxiv :arXiv:2402.13616
GitHub :Dépôt YOLOv9
Docs :Documentation Ultralytics YOLOv9

Innovations clés : PGI et GELAN

YOLOv9 introduit deux avancées architecturales principales pour lutter contre les goulots d'étranglement de l'information :

Informations de gradient programmables (PGI) : Un framework de supervision auxiliaire qui génère des gradients fiables pour la mise à jour des poids du réseau, garantissant que les corrélations d'entrée clés sont préservées dans toutes les couches. Ceci est particulièrement efficace pour l'entraînement de modèles très profonds.
Generalized Efficient Layer Aggregation Network (GELAN) : Une architecture de réseau légère qui priorise l’efficacité des paramètres et la vitesse de calcul (FLOPs). GELAN permet à YOLOv9 d’atteindre une grande précision avec une vitesse d’inférence respectable.

Forces et limitations

YOLOv9 excelle dans les benchmarks académiques, avec le YOLOv9-E variante atteignant le plus haut niveau scores mAP. C'est un excellent choix pour les chercheurs visant à repousser les limites de la précision de la détection. Cependant, en tant que modèle profondément enraciné dans la recherche, il manque le large support multi-tâches que l'on trouve dans les écosystèmes plus matures. Son implémentation principale se concentre sur la détection de boîtes englobantes, et les flux de travail d'entraînement peuvent être plus gourmands en ressources par rapport aux solutions industrielles rationalisées.

En savoir plus sur YOLOv9

Ultralytics YOLOv8 : La norme pour l’IA de production

Ultralytics YOLOv8 représente une approche holistique de l’IA de vision. Plutôt que de se concentrer uniquement sur une seule métrique, YOLOv8 est conçu pour offrir la meilleure expérience utilisateur, la polyvalence de déploiement et l’équilibre des performances. Il fait partie du vaste écosystème Ultralytics, ce qui garantit qu’il reste robuste et facile à utiliser pour les développeurs de tous niveaux.

Auteurs : Glenn Jocher, Ayush Chaurasia, Jing Qiu
Organisation :Ultralytics
Date : 2023-01-10
GitHub :Dépôt Ultralytics
Docs :Documentation Ultralytics YOLOv8

Avantages de l'architecture et de l'écosystème

YOLOv8 utilise une tête de détection sans ancrage et un backbone C2f (Cross-Stage Partial bottleneck avec 2 convolutions), ce qui améliore le flux de gradient tout en maintenant un faible encombrement. Au-delà de l'architecture, sa force réside dans son intégration :

Facilité d'utilisation : Grâce à une API Python unifiée et à une interface de ligne de commande (CLI), l'entraînement et le déploiement d'un modèle ne nécessitent que quelques lignes de code.
Polyvalence : Contrairement à ses concurrents souvent limités à la détection, YOLOv8 prend en charge nativement la segmentation d’instance, l’estimation de pose, les boîtes englobantes orientées (OBB) et la classification d’images.
Équilibre des performances : Il offre un compromis exceptionnel entre latence et précision, ce qui le rend adapté à l'inférence en temps réel sur des appareils périphériques tels que le NVIDIA Jetson ou le Raspberry Pi.
Efficacité de la mémoire : YOLOv8 nécessite généralement moins de mémoire CUDA pendant l’entraînement par rapport aux architectures basées sur des transformateurs, ce qui abaisse la barrière à l’entrée pour le matériel.

Flux de travail intégrés

Les modèles Ultralytics s'intègrent parfaitement à des outils tels que TensorBoard pour la visualisation et MLflow pour le suivi des expériences, rationalisant ainsi le cycle de vie des MLOps.

En savoir plus sur YOLOv8

Analyse des performances : Vitesse, précision et efficacité

Le choix entre les modèles se résume souvent aux exigences spécifiques du projet en matière de vitesse par rapport à la précision pure. Le tableau ci-dessous compare les variantes standard sur l'ensemble de validation COCO.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

Points clés à retenir

Précision haut de gamme : L'argument YOLOv9e modèle atteint un mAP remarquable de 55,6 %, dépassant YOLOv8x. Si votre application nécessite de détecter les objets les plus difficiles et que la latence est secondaire, YOLOv9e est un concurrent sérieux.
Vitesse en temps réel : Pour les applications qui dépendent de la vitesse, YOLOv8n et YOLOv8s présentent des performances supérieures. YOLOv8n est particulièrement efficace pour déploiement mobile, offrant une solution légère qui est incroyablement rapide sur CPU et GPU.
Préparation au déploiement : Le tableau met en évidence les vitesses CPU ONNX pour YOLOv8, une mesure essentielle pour les environnements non-GPU. Cette transparence des données reflète la conception de YOLOv8 pour de vastes scénarios de déploiement, tandis que YOLOv9 est souvent évalué principalement sur des GPU haut de gamme comme les V100 ou T4 dans des contextes de recherche.

Entraînement et convivialité

L'une des différences les plus importantes réside dans l'expérience développeur. Ultralytics privilégie une approche "batteries incluses".

La simplicité avec Ultralytics

L'entraînement d'un modèle YOLOv8 nécessite une configuration minimale. La bibliothèque gère automatiquement l'augmentation des données, le réglage des hyperparamètres et le téléchargement des poids pré-entraînés.

from ultralytics import YOLO

# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

Complexité de la recherche

Bien que YOLOv9 soit intégré dans la base de code Ultralytics pour un accès plus facile, les référentiels de recherche originaux nécessitent souvent des configurations d'environnement complexes et une gestion manuelle des hyperparamètres. L'Écosystème bien maintenu d'Ultralytics garantit que, que vous utilisiez YOLOv8 ou YOLOv9 porté, vous bénéficiez de pipelines CI/CD stables, d'une documentation complète et d'un support communautaire via Discord.

Cas d'utilisation idéaux

Choisissez YOLOv9 si :

La précision maximale est essentielle : Projets tels que l'analyse d'images médicales (par exemple, la détection de tumeurs) où chaque point de pourcentage de mAP compte.
Recherche académique : Vous étudiez de nouvelles architectures comme PGI ou vous menez des études comparatives sur l’efficacité des réseaux neuronaux.
Environnements à forte puissance de calcul : Les cibles de déploiement sont des serveurs puissants (par exemple, NVIDIA A100) où des FLOPs plus élevés sont acceptables.

Choisissez Ultralytics YOLOv8 si :

Diverses tâches requises : Vous devez effectuer le suivi d’objets, la segmentation ou l’estimation de pose dans une structure de projet unique.
Déploiement en périphérie : Applications s’exécutant sur du matériel limité, tel que les caméras intelligentes ou les drones, où la mémoire et les cycles du CPU sont rares.
Développement rapide : Startups et équipes d'entreprises qui ont besoin de passer rapidement du concept à la production en utilisant des formats d'exportation comme ONNX, TensorRT ou OpenVINO.
Stabilité et assistance : Vous avez besoin d’un modèle soutenu par des mises à jour fréquentes et une grande communauté pour résoudre les problèmes efficacement.

Conclusion

Bien que YOLOv9 introduise des avancées théoriques impressionnantes et atteigne une grande précision de détection, Ultralytics YOLOv8 reste le choix le plus pratique pour la grande majorité des applications du monde réel. Son équilibre entre vitesse, précision et polyvalence, combiné à une API conviviale et à un processus d'entraînement efficace, en fait la solution de référence pour les développeurs.

Pour ceux qui recherchent le nec plus ultra de la gamme Ultralytics, pensez à explorer YOLO11, qui affine encore ces attributs pour des performances de pointe. Cependant, entre les deux modèles présentés ici, YOLOv8 offre une expérience soignée et prête à la production qui accélère le passage des données au déploiement.

Explorer d'autres modèles

Si vous êtes intéressé par d'autres architectures, la documentation Ultralytics fournit des comparaisons pour plusieurs autres modèles :

RT-DETR : Un détecteur basé sur les transformateurs offrant une haute précision, mais avec des demandes de ressources différentes.
YOLOv5 : le prédécesseur légendaire connu pour son extrême stabilité et sa large adoption.
YOLO11 : La dernière itération d'Ultralytics, qui repousse encore plus loin les limites de l'efficacité.