YOLO11 vs YOLOv9 : Une comparaison technique complète

Dans le domaine de la vision par ordinateur, qui évolue rapidement, le choix du bon modèle de détection d'objets est essentiel pour la réussite d'un projet. Cette comparaison explore les nuances techniques entre Ultralytics YOLO11, le dernier modèle de pointe conçu pour l'efficacité dans le monde réel, et YOLOv9, une architecture axée sur la recherche, connue pour ses innovations théoriques. Nous analysons leurs différences architecturales, leurs mesures de performance et leur adéquation à divers scénarios de déploiement.

Ultralytics YOLO11 : La norme pour l’IA de production

Lancé le 27 septembre 2024 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO11 représente le point culminant d’une vaste R&D sur la conception efficace de réseaux neuronaux. Contrairement aux modèles universitaires qui privilégient souvent les mesures théoriques par rapport à la convivialité pratique, YOLO11 est conçu pour offrir l’équilibre optimal entre la vitesse, la précision et l’efficacité des ressources pour les développeurs et les entreprises.

Détails techniques :

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :ultralytics/ultralytics
Docs :Documentation YOLO11

Architecture et fonctionnalités

YOLO11 introduit une architecture affinée qui améliore l'extraction des caractéristiques tout en conservant un format compact. Il utilise une structure de backbone et de neck améliorée, spécialement conçue pour capturer des motifs complexes avec moins de paramètres par rapport aux générations précédentes comme YOLOv8. Cette philosophie de conception garantit que les modèles YOLO11 fonctionnent exceptionnellement bien sur du matériel aux ressources limitées, tel que les appareils edge, sans sacrifier la capacité de détection.

Une caractéristique remarquable de YOLO11 est sa polyvalence native. Alors que de nombreux modèles sont strictement des détecteurs d'objets, YOLO11 prend en charge un large éventail de tâches de vision par ordinateur au sein d'un seul framework :

Points forts en production

Pour les développeurs, le principal avantage de YOLO11 est son intégration dans l'écosystème Ultralytics. Cela garantit une expérience utilisateur simplifiée avec une API Python simple et une CLI complète.

Pourquoi les développeurs choisissent YOLO11

YOLO11 réduit considérablement le "délai de commercialisation" des solutions d'IA. Ses besoins en mémoire réduits pendant l'entraînement et l'inférence le rendent accessible à une gamme plus large de matériel, évitant ainsi les coûts élevés de VRAM associés aux alternatives basées sur les transformateurs.

En savoir plus sur YOLO11

YOLOv9 : Résoudre les goulots d’étranglement de l’information

Introduit début 2024 par Chien-Yao Wang et Hong-Yuan Mark Liao, YOLOv9 se concentre sur la résolution des défis de la théorie de l'apprentissage profond, en particulier le problème du goulet d'étranglement de l'information. Il témoigne de la rigueur académique, repoussant les limites de ce qui est possible en matière de préservation des caractéristiques.

Détails techniques :

Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation :Academia Sinica
Date : 2024-02-21
Arxiv :arXiv:2402.13616
GitHub :WongKinYiu/yolov9
Docs :Documentation YOLOv9

Innovations architecturales

YOLOv9 est construit autour de deux concepts clés : l'Information de Gradient Programmable (PGI) et le Réseau d'Agrégation de Couches Efficace Généralisé (GELAN). Le PGI vise à préserver les informations d'entrée lors de leur passage à travers les couches profondes, en calculant un gradient fiable pour la fonction de perte. GELAN optimise l'utilisation des paramètres, permettant au modèle d'atteindre une grande précision sur l'ensemble de données COCO par rapport à sa taille.

Performance et compromis

YOLOv9 excelle dans les benchmarks de précision brute, sa plus grande variante, YOLOv9-E, atteignant des scores mAP impressionnants. Cependant, cette orientation académique peut se traduire par une plus grande complexité lors du déploiement. Bien que puissante, la mise en œuvre originale ne possède pas la polyvalence multitâche native que l'on trouve dans le framework Ultralytics, se concentrant principalement sur la détection. De plus, l'entraînement de ces architectures peut nécessiter plus de ressources que les pipelines hautement optimisés de YOLO11.

En savoir plus sur YOLOv9

Métriques de performance : vitesse vs. précision

Lors de la sélection d'un modèle, il est essentiel de comprendre le compromis entre la vitesse d'inférence et la précision de la détection. Le tableau ci-dessous compare les performances des deux familles de modèles sur l'ensemble de données COCO.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Analyse

Les données mettent en évidence l'équilibre des performances intégré à YOLO11.

Efficacité : YOLO11n surpasse YOLOv9t en précision (39,5 % contre 38,3 %) tout en consommant moins de FLOPs (6,5B contre 7,7B), ce qui le rend supérieur pour le déploiement mobile.
Vitesse : De manière générale, YOLO11 démontre des temps d’inférence plus rapides sur les GPU T4 à l’aide de TensorRT, un facteur essentiel pour l’analyse vidéo en temps réel.
Précision : Bien que YOLOv9-E détienne la première place pour le mAP brut, cela se fait au prix d’une latence considérablement plus élevée (16,77 ms contre 11,3 ms pour YOLO11x). Pour la plupart des applications pratiques, l’avantage de vitesse de YOLO11 l’emporte sur le gain marginal en mAP.

Facilité d'utilisation et écosystème

La différence en termes de "soft skills" —facilité d'utilisation, documentation et support—est là où les modèles Ultralytics brillent vraiment.

Facilité d'utilisation et efficacité de la formation

YOLO11 est conçu pour être accessible. Avec un environnement Python standard, vous pouvez entraîner, valider et déployer des modèles en quelques lignes de code. Ultralytics fournit des poids pré-entraînés qui permettent l'apprentissage par transfert, réduisant considérablement le temps d'entraînement et l'empreinte carbone du développement de l'IA.

En revanche, bien que YOLOv9 soit disponible dans le package Ultralytics, sa base de code de recherche originale nécessite une compréhension plus approfondie des configurations d'apprentissage profond. Les utilisateurs de YOLO11 bénéficient d'une interface unifiée qui fonctionne de manière identique, que vous effectuiez une segmentation ou une classification.

Comparaison de code : Simplicité de YOLO11

L'entraînement d'un modèle YOLO11 est simple grâce à l'API Python Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

Écosystème bien entretenu

Choisir YOLO11, c'est entrer dans un environnement pris en charge. L'écosystème Ultralytics comprend :

Développement actif : Mises à jour fréquentes assurant la compatibilité avec les dernières versions de PyTorch et les pilotes matériels.
Soutien communautaire : Une communauté massive sur GitHub et Discord pour le dépannage.
Documentation : Guides complets couvrant tous les aspects, du réglage des hyperparamètres à l’exportation des modèles vers ONNX.

Cas d'utilisation idéaux

Quand choisir YOLO11

YOLO11 est le choix recommandé pour 95 % des projets commerciaux et de loisirs en raison de sa polyvalence et de sa rapidité.

IA en périphérie : Déploiement sur des appareils tels que Raspberry Pi ou NVIDIA Jetson où la mémoire et les FLOP sont limités.
Surveillance en temps réel : Applications nécessitant un nombre élevé d’images par seconde pour la surveillance de la sécurité.
Applications multi-tâches : Projets nécessitant la détection, la segmentation et l'estimation de pose simultanées sans avoir à gérer plusieurs architectures de modèles distinctes.

Quand choisir YOLOv9

YOLOv9 est plus adapté aux scénarios académiques spécifiques ou de haute précision.

Évaluation comparative de la recherche : Lorsque l’objectif principal est de comparer des architectures théoriques ou de battre un score mAP spécifique sur un ensemble de données comme COCO.
Traitement hors ligne : Scénarios où la vitesse d’inférence n’est pas une contrainte, et où chaque fraction de pour cent de précision compte, comme l’analyse d’imagerie médicale hors ligne.

Conclusion

Alors que YOLOv9 introduit des concepts fascinants comme PGI et GELAN à la communauté universitaire, Ultralytics YOLO11 se distingue comme le choix pratique supérieur pour la création de produits d'IA. Sa combinaison inégalée de vitesse, de précision, de polyvalence et de facilité d'utilisation en fait le modèle de référence pour la vision par ordinateur moderne. Soutenu par un écosystème robuste et conçu pour l'efficacité, YOLO11 permet aux développeurs de passer du concept au déploiement en toute confiance.

Explorer d'autres modèles

Si vous souhaitez d'autres comparaisons, envisagez d'explorer ces autres modèles haute performance dans la bibliothèque Ultralytics :

YOLOv10: Détection d'objets de bout en bout en temps réel.
YOLOv8 : Le prédécesseur de YOLO11, toujours largement utilisé en production.
RT-DETR : Un détecteur basé sur un transformateur offrant une haute précision pour ceux qui disposent d'environnements riches en GPU.