YOLOv9 YOLOv6.0 : innovation architecturale et analyse des performances
Le paysage de la détection d'objets en temps réel évolue rapidement, les chercheurs repoussant sans cesse les limites de la précision et de l'efficacité. Deux étapes importantes dans cette évolution sont YOLOv9, présenté par Academia Sinica début 2024, et YOLOv6.YOLOv6, une version robuste lancée par Meituan en 2023. Si les deux modèles visent à résoudre des défis industriels, ils adoptent des approches architecturales fondamentalement différentes pour atteindre des performances élevées.
Philosophies architecturales
La différence fondamentale entre ces deux modèles réside dans la manière dont ils gèrent le flux d'informations et l'extraction de caractéristiques à travers le réseau neuronal.
YOLOv9: récupération des informations perdues
YOLOv9 aborde un problème fondamental dans l'apprentissage profond : la perte d'informations lors de la propagation des données à travers les couches profondes. Les auteurs, Chien-Yao Wang et Hong-Yuan Mark Liao, ont introduit le concept d'informations de gradient programmables (PGI). Les PGI fournissent une branche de supervision auxiliaire qui garantit la préservation des informations sémantiques critiques, permettant au modèle d'apprendre des caractéristiques plus robustes sans ajouter de coût d'inférence.
De plus, YOLOv9 l'architecture GELAN (Generalized Efficient Layer Aggregation Network). GELAN optimise l'utilisation des paramètres, combinant les atouts de CSPNet et ELAN pour atteindre une précision supérieure avec moins de FLOP que les générations précédentes.
YOLOv6-3.0 : Optimisation industrielle
Développé par l'équipe Meituan Vision, YOLOv6.YOLOv6 met l'accent sur le déploiement industriel pratique. Surnommée « A Full-Scale Reloading » (une recharge à grande échelle), cette version introduit l'Anchor-Aided Training (AAT), qui combine les avantages des détecteurs basés sur des ancres et sans ancres pour stabiliser l'entraînement. Elle présente également une conception du cou repensée utilisant la concaténation bidirectionnelle (BiC) pour améliorer la fusion des caractéristiques.
YOLOv6 bien connu pour son utilisation intensive de la reparamétrisation de type RepVGG, qui permet de créer des structures d'entraînement complexes qui se réduisent à des blocs d'inférence plus simples et plus rapides.
Comparaison des performances
Lorsqu'on compare les performances, YOLOv9 affiche YOLOv9 une précision moyenne (mAP) supérieure pour des coûts de calcul similaires ou inférieurs. L'architecture GELAN permet à YOLOv9 traiter les images avec une grande efficacité, ce qui en fait un choix idéal pour les tâches nécessitant une grande précision.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Alors que YOLOv6 affiche TensorRT compétitives, principalement grâce à sa conception backbone adaptée au matériel,YOLOv9 atteintYOLOv9 une précision plus élevée par paramètre. Par exemple, YOLOv9m surpasse YOLOv6.YOLOv6 en termes de précision (51,4 % contre 50,0 %) tout en utilisant beaucoup moins de paramètres (20,0 millions contre 34,9 millions).
Écosystème et facilité d'utilisation
L'un des facteurs les plus importants pour les développeurs est l'écosystème qui entoure un modèle. C'est là que la Ultralytics et la bibliothèque Ultralytics offrent un avantage distinct.
L'avantage Ultralytics
YOLOv9 entièrement intégré à Ultralytics , offrant une API unifiée qui simplifie l'ensemble du cycle de vie des opérations d'apprentissage automatique (MLOps).
- Formation simple : vous pouvez former un YOLOv9 à partir de données personnalisées en quelques lignes de Python seulement.
- Efficacité mémoire : Ultralytics sont optimisés pour réduire l'utilisation GPU pendant l'entraînement, ce qui évite les erreurs de mémoire insuffisante (OOM) courantes avec d'autres référentiels.
- Polyvalence : l'écosystème prend en charge l'exportation facile vers des formats tels que ONNX, OpenVINOet TensorRT.
Flux de travail simplifié
L'utilisation Ultralytics un temps considérable en matière d'ingénierie par rapport à la configuration de référentiels de recherche autonomes.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
En revanche, l'utilisation YOLOv6 implique YOLOv6 de cloner le référentiel Meituan spécifique, de configurer un environnement dédié et de gérer manuellement les fichiers de configuration et les pipelines d'augmentation des données.
Applications concrètes
Le choix entre ces modèles dépend souvent des contraintes spécifiques de votre environnement de déploiement.
Scénarios haute précision (YOLOv9)
La capacité YOLOv9 à conserver les informations sémantiques le rend idéal pour les tâches de détection complexes où les petits détails comptent.
- Imagerie médicale : dans des tâches telles que la détection de tumeurs, l'architecture PGI aide à préserver les caractéristiques subtiles qui pourraient autrement être perdues dans les couches profondes du réseau.
- Surveillance aérienne : pour détecter de petits objets tels que des véhicules ou des personnes à partir d'images prises par drone, la fonction améliorée de conservation des caractéristiques YOLOv9 augmente les taux de rappel.
Automatisation industrielle (YOLOv6.0)
YOLOv6 explicitement conçu pour les applications industrielles où le matériel est fixe et où le débit est primordial.
- Lignes de fabrication : dans les environnements contrôlés tels que la fabrication de batteries, où des caméras inspectent les pièces sur un tapis roulant, les TensorRT de YOLOv6 s'avérer très efficaces.
Perspectives : La puissance de YOLO26
Bien que YOLOv9 YOLOv6. YOLOv6 soient d'excellents modèles, le domaine a continué à progresser. Le dernier YOLO26 représente l'état de l'art actuel pour les développeurs qui recherchent l'équilibre parfait entre vitesse, précision et facilité d'utilisation.
YOLO26 introduit plusieurs fonctionnalités révolutionnaires :
- NMS de bout en bout : en supprimant la suppression non maximale (NMS), YOLO26 simplifie les pipelines de déploiement et réduit la variabilité de la latence.
- Optimiseur MuSGD : un hybride de SGD et Muon, cet optimiseur apporte des améliorations en matière de stabilité inspirées de la formation des grands modèles linguistiques (LLM).
- Efficacité améliorée : grâce à la suppression de la perte focale de distribution (DFL) et à d'autres optimisations, YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui le rend parfait pour les appareils périphériques tels que le Raspberry Pi.
- Polyvalence des tâches : au-delà de la détection, YOLO26 offre des améliorations spécialisées pour l'estimation de la pose (à l'aide de l'estimation de la vraisemblance résiduelle) et la segmentation.
Conclusion
Les deux YOLOv9 et YOLOv6.YOLOv6 offrent des capacités impressionnantes. YOLOv6. YOLOv6 reste un concurrent sérieux pour certains workflows industriels TensorRT. Cependant, pour la plupart des chercheurs et développeurs, YOLOv9 offre une efficacité et une précision supérieures en termes de paramètres. De plus, son intégration à Ultralytics garantit un support à long terme, un accès facile aux poids pré-entraînés et une mise à niveau transparente vers des architectures plus récentes telles que YOLO26.
Références
- YOLOv9: Wang, C.-Y., & Liao, H.-Y. M. (2024). «YOLOv9: Apprendre ce que vous voulez apprendre à l'aide d'informations de gradient programmables ». arXiv:2402.13616.
- YOLOv6 .0 : Li, C., et al. (2023). «YOLOv6 .0 : A Full-Scale Reloading ». arXiv:2301.05586.
- Ultralytics :ultralytics