YOLOv9 vs. YOLOX : une comparaison technique
Le choix du modèle de détection d'objets optimal est crucial pour atteindre les résultats souhaités dans les projets de vision par ordinateur. Les modèles diffèrent considérablement en termes d'architecture, de performance et d'exigences en ressources. Cette page fournit une comparaison technique détaillée entre YOLOv9 et YOLOX, en analysant leurs principales caractéristiques pour vous aider à choisir la solution la mieux adaptée à vos besoins.
YOLOv9 : Amélioration de la détection d'objets en temps réel
Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 2024-02-21
Arxiv : arXiv:2402.13616
GitHub : github.com/WongKinYiu/yolov9
Docs : docs.ultralytics.com/models/yolov9/
Ultralytics YOLOv9 représente un bond en avant significatif dans la détection d'objets, introduisant des techniques innovantes telles que l'Information de Gradient Programmable (PGI) et le Réseau d'Agrégation de Couches Efficace Généralisé (GELAN). Développé par Chien-Yao Wang et Hong-Yuan Mark Liao, YOLOv9 s'attaque à la perte d'informations dans les réseaux neuronaux profonds, améliorant à la fois la précision et l'efficacité. Intégré à l'écosystème Ultralytics, YOLOv9 bénéficie d'une expérience utilisateur simplifiée, d'une documentation complète et d'un support communautaire robuste.
Architecture et principales fonctionnalités
L’architecture de YOLOv9 est conçue pour préserver le flux d’informations essentielles à travers les couches profondes à l’aide de PGI. Cela permet d’atténuer le problème des goulots d’étranglement de l’information, qui est fréquent dans les réseaux profonds. GELAN optimise la structure du réseau pour une meilleure utilisation des paramètres et une meilleure efficacité du calcul, en s’appuyant sur les concepts de CSPNet et d’ELAN. Il en résulte des performances de pointe avec une efficacité remarquable. L’implémentation Ultralytics garantit une facilité d’utilisation grâce à une simple API Python et à des processus de formation efficaces, tirant parti des poids pré-entraînés facilement disponibles.
Points forts
- Précision à la pointe de la technologie : Atteint des scores mAP de premier plan sur des benchmarks comme COCO, surpassant souvent d'autres modèles de tailles similaires.
- Haute efficacité : Offre une haute précision avec moins de paramètres et d’opérations en virgule flottante par seconde (FLOPs) par rapport à de nombreuses alternatives, ce qui le rend approprié pour le déploiement de l’IA en périphérie.
- Préservation de l'information : PGI atténue efficacement la perte d'informations, améliorant la capacité d'apprentissage du modèle et les performances finales.
- Écosystème Ultralytics : Bénéficie d'un développement actif, de ressources complètes, de l'intégration d'Ultralytics HUB pour le MLOps et de besoins en mémoire réduits pendant l'entraînement.
- Polyvalence : Bien que l'article original se concentre sur la détection, l'architecture montre un potentiel pour des tâches telles que la segmentation d'instance et plus encore, s'alignant sur les capacités multitâches de modèles comme YOLOv8.
Faiblesses
- En tant que modèle plus récent, l’éventail d’exemples de déploiement axés sur la communauté pourrait encore croître par rapport aux modèles établis de longue date. Cependant, son intégration au sein de la structure Ultralytics accélère considérablement l’adoption et fournit un système de soutien robuste.
YOLOX : Détecteur haute performance sans ancres
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 2021-07-18
Arxiv : https://arxiv.org/abs/2107.08430
GitHub : https://github.com/Megvii-BaseDetection/YOLOX
Docs : https://yolox.readthedocs.io/en/latest/
YOLOX, développé par Megvii, est un modèle de détection d'objets sans ancrage qui vise la simplicité et la haute performance. En supprimant le mécanisme de la boîte d'ancrage, YOLOX simplifie le pipeline d'entraînement et réduit le nombre de paramètres de conception, ce qui peut améliorer la généralisation.
Architecture et principales fonctionnalités
YOLOX se distingue par plusieurs choix architecturaux clés. Le plus important est sa conception sans ancres, qui traite la détection d'objets comme un problème de prédiction par pixel. Les autres caractéristiques clés comprennent une tête découplée qui sépare les tâches de classification et de localisation, une stratégie avancée d'attribution d'étiquettes appelée SimOTA, et l'utilisation de techniques fortes d'augmentation de données comme MixUp et Mosaic.
Points forts
- Conception sans ancres : Simplifie l'architecture du modèle et le processus d'entraînement en éliminant le besoin de réglage des boîtes d'ancrage.
- Performance élevée : Atteint un équilibre compétitif entre la précision moyenne (mAP) et la vitesse d'inférence pour son époque.
- Scalabilité : Offre une gamme de tailles de modèles, de YOLOX-Nano à YOLOX-X, permettant un déploiement sur diverses ressources de calcul.
Faiblesses
- Dépassé par les modèles plus récents : Bien qu'innovant, YOLOX a été surpassé en termes de précision et d'efficacité par des modèles plus récents tels que YOLOv9.
- Écosystème fragmenté : Bien qu'il soit open source, il lui manque l'écosystème intégré et les outils rationalisés fournis par Ultralytics, tels que l'intégration transparente avec Ultralytics HUB pour MLOps.
- Coût de calcul plus élevé : Pour un niveau de précision donné, les modèles YOLOX plus grands ont tendance à avoir plus de paramètres et de FLOP que les modèles YOLOv9 comparables.
Comparaison des performances : YOLOv9 vs YOLOX
Lors de la comparaison des performances sur l'ensemble de données COCO, YOLOv9 démontre un avantage clair en termes de précision et d'efficacité. Le tableau ci-dessous montre que les modèles YOLOv9 atteignent systématiquement des scores mAP plus élevés avec moins de paramètres et de FLOP que leurs homologues YOLOX. Par exemple, YOLOv9-C atteint un mAP de 53,0 % avec 25,3 millions de paramètres, surpassant YOLOX-L (mAP de 49,7 % avec 54,2 millions de paramètres) et YOLOX-X (mAP de 51,1 % avec 99,1 millions de paramètres) tout en étant nettement plus efficace. Le plus grand modèle, YOLOv9-E, pousse la limite de précision à 55,6 % mAP, un niveau que YOLOX n'atteint pas. Cette performance par calcul supérieure fait de YOLOv9 un choix plus puissant et plus économe en ressources pour les applications modernes.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Cas d'utilisation idéaux
YOLOv9
La précision et l'efficacité supérieures de YOLOv9 en font le choix idéal pour les applications exigeantes où la performance est essentielle. Il excelle dans des scénarios tels que :
- Systèmes avancés d’aide à la conduite (ADAS) : Détection des véhicules, des piétons et des panneaux de signalisation avec une grande précision pour la conduite autonome.
- Sécurité haute fidélité : Surveillance de scènes complexes dans les systèmes de sécurité avec de faibles taux de faux positifs.
- Automatisation industrielle : Effectuer un contrôle qualité détaillé dans la fabrication en identifiant les petits défauts.
- Imagerie médicale : Aide à l’analyse des analyses médicales en fournissant une détection d’objets précise des anomalies.
YOLOX
YOLOX est bien adapté aux applications qui nécessitent un bon équilibre entre précision et vitesse, en particulier lorsque sa conception sans ancrage peut offrir des avantages pour des ensembles de données spécifiques. Les cas d’utilisation idéaux comprennent :
- Suivi en temps réel : Applications dans les systèmes de robotique et de surveillance où le suivi d'objets en temps réel est nécessaire.
- Recherche académique : Sa conception modulaire et sans ancrage en fait un modèle intéressant pour la recherche et l'expérimentation dans les architectures de détection d'objets.
- Déploiements en périphérie (Edge Deployments) : Les variantes plus petites YOLOX-Nano et YOLOX-Tiny peuvent être déployées sur des appareils aux ressources limitées, bien que les modèles plus récents comme YOLOv9 offrent souvent de meilleures performances pour le même coût en ressources.
Conclusion et recommandation
YOLOv9 et YOLOX ont tous deux contribué de manière significative au domaine de la détection d'objets. YOLOX a repoussé les limites avec sa conception sans ancrage et sa tête découplée, offrant une base solide pour la détection en temps réel. Cependant, YOLOv9 a établi une nouvelle norme en matière de précision et d'efficacité. Ses architectures innovantes PGI et GELAN lui permettent d'obtenir des performances supérieures avec moins de ressources de calcul.
Pour les développeurs et les chercheurs à la recherche des meilleures performances, de l'efficacité et de la facilité d'utilisation, YOLOv9 est le choix évident. Son intégration dans l'écosystème Ultralytics offre des avantages inégalés:
- Facilité d'utilisation : Une API Python simplifiée, une documentation exhaustive et une utilisation de la CLI directe simplifient le développement.
- Écosystème bien maintenu : Développement actif, fort soutien de la communauté, mises à jour fréquentes et intégration avec Ultralytics HUB pour un MLOps transparent.
- Équilibre des performances : Un excellent compromis entre la vitesse et la précision, ce qui le rend adapté à divers scénarios du monde réel, de la périphérie au cloud.
- Efficacité de l'entraînement : Temps d'entraînement plus rapides, poids pré-entraînés facilement disponibles et utilisation efficace des ressources.
Explorer d'autres modèles
Bien que cette page se concentre sur YOLOv9 et YOLOX, le domaine de la vision par ordinateur est vaste. Nous vous encourageons à explorer d'autres modèles de pointe disponibles dans l'écosystème Ultralytics. Pensez à consulter nos comparaisons YOLOv9 vs. YOLOv8 pour obtenir des informations sur les derniers modèles Ultralytics, ou YOLOv9 vs. YOLOv5 pour voir à quel point la technologie a progressé par rapport à une norme industrielle établie. Pour ceux qui s'intéressent aux architectures basées sur des transformeurs, notre comparaison RT-DETR vs. YOLOv9 offre une analyse détaillée.