YOLOv9 vs. RTDETRv2 : une comparaison technique pour la détection d'objets
Choisir le modèle de détection d'objets optimal est une décision essentielle pour tout projet de vision par ordinateur, nécessitant un équilibre délicat entre la précision, la vitesse d'inférence et le coût de calcul. Cette page fournit une comparaison technique détaillée entre deux modèles puissants : YOLOv9, un modèle de pointe connu pour son efficacité et sa précision, et RTDETRv2, un modèle basé sur un transformateur salué pour sa haute précision. Cette analyse vous aidera à déterminer quel modèle convient le mieux aux exigences spécifiques de votre projet.
YOLOv9 : Amélioration de la détection en temps réel avec l'efficacité
YOLOv9 représente une avancée significative dans la série YOLO, introduisant des techniques révolutionnaires pour améliorer les performances et l'efficacité. Développé par des chercheurs de premier plan, il s'attaque aux principaux défis de l'apprentissage profond pour fournir des résultats supérieurs.
- Auteurs : Chien-Yao Wang, Hong-Yuan Mark Liao
- Organisation : Institute of Information Science, Academia Sinica, Taiwan
- Date : 2024-02-21
- Arxiv : https://arxiv.org/abs/2402.13616
- GitHub : https://github.com/WongKinYiu/yolov9
- Documentation : https://docs.ultralytics.com/models/yolov9/
Architecture et principales fonctionnalités
L’architecture de YOLOv9 introduit deux innovations majeures : Programmable Gradient Information (PGI) et Generalized Efficient Layer Aggregation Network (GELAN). PGI est conçu pour lutter contre le problème de la perte d’informations lorsque les données circulent dans les réseaux neuronaux profonds, garantissant que le modèle reçoit des informations de gradient fiables pour des mises à jour précises. GELAN est une nouvelle architecture de réseau qui optimise l’utilisation des paramètres et l’efficacité du calcul, permettant à YOLOv9 d’atteindre une grande précision sans un nombre massif de paramètres.
Lorsqu'il est intégré à l'écosystème Ultralytics, la puissance de YOLOv9 est amplifiée. Les développeurs bénéficient d'une expérience utilisateur simplifiée avec une API Python simple et une documentation exhaustive. Cet écosystème assure un entraînement efficace avec des poids pré-entraînés facilement disponibles et bénéficie d'un développement actif et d'un fort soutien de la communauté.
Points forts et faiblesses
Points forts :
- Précision à la pointe de la technologie : Atteint des scores mAP de premier plan sur des benchmarks comme COCO, surpassant souvent des modèles avec plus de paramètres.
- Haute efficacité : GELAN et PGI offrent des performances exceptionnelles avec moins de paramètres et d’opérations en virgule flottante par seconde (FLOPs), ce qui le rend idéal pour le déploiement sur les appareils d’IA en périphérie.
- Préservation de l'information : PGI atténue efficacement la perte d'informations, ce qui conduit à un apprentissage plus robuste et à une meilleure représentation des caractéristiques.
- Écosystème bien maintenu : Bénéficie d'un développement actif, de ressources complètes, de l'intégration de Ultralytics HUB pour le MLOps et d'un fort soutien de la communauté.
- Besoins en mémoire inférieurs : par rapport aux modèles basés sur les transformateurs, YOLOv9 nécessite généralement beaucoup moins de mémoire pendant l’entraînement et l’inférence, ce qui le rend plus accessible aux utilisateurs disposant de matériel limité.
- Polyvalence : Bien que l'article original se concentre sur la détection d'objets, l'architecture prend en charge plusieurs tâches telles que la segmentation d'instance, s'alignant sur les capacités multitâches d'autres modèles Ultralytics comme YOLOv8.
Faiblesses :
- Nouveauté : En tant que modèle plus récent, le nombre d’exemples de déploiement pilotés par la communauté peut être inférieur à celui des modèles établis de longue date, bien que son intégration au sein d’Ultralytics accélère rapidement l’adoption.
Cas d'utilisation idéaux
YOLOv9 est idéalement adapté aux applications où une haute précision et une efficacité en temps réel sont primordiales :
- Systèmes autonomes : Parfait pour les véhicules autonomes et les drones qui nécessitent une perception rapide et précise.
- Sécurité avancée : Alimente les systèmes de sécurité sophistiqués avec une détection des menaces en temps réel.
- Automatisation industrielle : Excellent pour le contrôle qualité dans la fabrication et les tâches robotiques complexes.
- Edge Computing : Sa conception efficace le rend approprié pour un déploiement dans des environnements aux ressources limitées.
RTDETRv2 : Détection en temps réel axée sur la précision
RTDETRv2 (Real-Time Detection Transformer v2) est un modèle conçu pour les applications exigeant une haute précision dans la détection d'objets en temps réel, tirant parti de la puissance des architectures de type transformer.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation : Baidu
- Date : 2023-04-17 (RT-DETR original), 2024-07-24 (document RTDETRv2)
- Arxiv : https://arxiv.org/abs/2304.08069 (Original), https://arxiv.org/abs/2407.17140 (v2)
- GitHub : https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Docs : https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Architecture et principales fonctionnalités
L'architecture de RTDETRv2 est basée sur les Vision Transformers (ViT), ce qui lui permet de capturer le contexte global dans les images grâce à des mécanismes d'auto-attention. Cette approche basée sur les transformateurs permet une extraction de caractéristiques supérieure à celle des réseaux neuronaux convolutionnels (CNN) traditionnels, ce qui conduit à une plus grande précision, en particulier dans les scènes complexes avec des relations d'objets complexes.
Points forts et faiblesses
Points forts :
- Haute précision : L’architecture Transformer offre une excellente précision de détection d’objets, ce qui en fait un choix judicieux pour les tâches axées sur la précision.
- Extraction de caractéristiques robuste : Capture efficacement le contexte global et les dépendances à longue portée dans les images.
- Compatible temps réel : atteint des vitesses d’inférence compétitives adaptées aux applications en temps réel, à condition qu’un matériel adéquat soit disponible.
Faiblesses :
- Demande de ressources plus élevée : Les modèles RTDETRv2 ont un nombre de paramètres et de FLOP considérablement plus élevé, ce qui nécessite plus de puissance de calcul et de mémoire.
- Inférence plus lente : Généralement plus lent que YOLOv9, en particulier sur le matériel non-GPU ou les appareils moins puissants.
- Utilisation élevée de la mémoire : Les architectures Transformer sont connues pour être gourmandes en mémoire, en particulier pendant l'entraînement, ce qui exige souvent une mémoire CUDA élevée et peut constituer un obstacle pour de nombreux utilisateurs.
- Moins polyvalent : Principalement axé sur la détection d’objets, sans la polyvalence multitâche intégrée des modèles de l’écosystème Ultralytics.
- Complexité : Peut être plus complexe à entraîner, à régler et à déployer par rapport aux modèles Ultralytics YOLO rationalisés et conviviaux.
Cas d'utilisation idéaux
RTDETRv2 est particulièrement adapté aux scénarios où l'obtention de la plus grande précision possible est l'objectif principal et où les ressources de calcul ne sont pas une contrainte majeure :
- Imagerie médicale : Analyse d’analyses médicales complexes où la précision est essentielle pour le diagnostic.
- Imagerie satellite: Détection d'objets petits ou obscurcis dans des images satellite à haute résolution.
- Recherche scientifique : Utilisé dans les environnements de recherche où la performance du modèle est priorisée par rapport à l’efficacité du déploiement.
Comparaison directe des performances : YOLOv9 contre RTDETRv2
Le tableau suivant fournit une comparaison détaillée des performances entre différentes tailles de modèles YOLOv9 et RTDETRv2 sur l'ensemble de données COCO val.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
D'après les données, plusieurs informations clés émergent :
- Précision maximale : YOLOv9-E atteint le mAP le plus élevé de 55,6 %, surpassant tous les autres modèles de la comparaison.
- Efficacité : Lorsque l'on compare des modèles avec une précision similaire, YOLOv9 démontre systématiquement une efficacité supérieure. Par exemple, YOLOv9-C (53,0 mAP) est plus rapide et nécessite beaucoup moins de paramètres (25,3M contre 42M) et de FLOPs (102,1B contre 136B) que RTDETRv2-L (53,4 mAP).
- Vitesse : Les modèles YOLOv9 offrent généralement des vitesses d'inférence plus rapides sur GPU avec TensorRT. Le modèle YOLOv9-C est notamment plus rapide que le RTDETRv2-L comparable.
Conclusion : Quel modèle devriez-vous choisir ?
Pour la grande majorité des applications du monde réel, YOLOv9 est le choix recommandé. Il offre une combinaison supérieure de précision, de vitesse et d'efficacité. Son architecture innovante garantit des performances de pointe tout en tenant compte des ressources de calcul. Les principaux avantages du choix de YOLOv9, en particulier dans le cadre d'Ultralytics, sont sa facilité d'utilisation, ses besoins réduits en mémoire, sa polyvalence dans de multiples tâches et le support robuste d'un écosystème bien entretenu.
RTDETRv2 est un modèle puissant pour les applications de niche où la précision est la priorité absolue et où les coûts de calcul et de mémoire plus élevés sont acceptables. Cependant, sa complexité et sa nature gourmande en ressources le rendent moins pratique pour un déploiement généralisé par rapport au YOLOv9, hautement optimisé et convivial.
Autres modèles à considérer
Si vous explorez différentes options, vous pourriez également être intéressé par d'autres modèles de pointe disponibles dans l'écosystème Ultralytics :
- Ultralytics YOLO11 : Le modèle le plus récent et le plus avancé d'Ultralytics, repoussant encore plus les limites de la vitesse et de la précision.
- Ultralytics YOLOv8 : Un modèle mature et très populaire, reconnu pour son équilibre exceptionnel entre performances et polyvalence dans un large éventail de tâches de vision.
- YOLOv5 : Un modèle standard de l'industrie, réputé pour sa fiabilité, sa vitesse et sa facilité de déploiement, en particulier sur les appareils périphériques.