RTDETRv2 vs YOLOv9 : une comparaison technique pour la détection d'objets
Le choix du modèle de détection d'objets optimal est une décision cruciale pour les projets de vision par ordinateur. Ultralytics propose une gamme variée de modèles, dont la série YOLO , connue pour sa rapidité et son efficacité, et la série RT-DETR , qui met l'accent sur la haute précision. Cette page présente une comparaison technique détaillée entre RTDETRv2 et YOLOv9, deux modèles de détection d'objets à la pointe de la technologie, afin de vous aider à faire un choix éclairé.
RTDETRv2 : Haute précision alimentée par transformateur
RTDETRv2(Real-Time Detection Transformer v2) est un modèle de détection d'objets de pointe développé par Baidu, connu pour sa précision exceptionnelle et ses performances en temps réel. Publié sur arXiv le 2023-04-17, avec un code disponible sur GitHub, RTDETRv2 est écrit par Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, et Yi Liu. Il s'appuie sur une architecture Vision Transformer (ViT) pour réaliser une localisation et une classification précises des objets, ce qui le rend adapté à des applications exigeantes.
Architecture et caractéristiques principales
L'architecture de RTDETRv2 repose sur les transformateurs de vision, ce qui lui permet de capturer le contexte global des images grâce à des mécanismes d'auto-attention. Cela diffère considérablement des réseaux neuronaux convolutionnels (CNN) traditionnels et permet à RTDETRv2 d'évaluer l'importance des différentes régions de l'image, ce qui se traduit par une meilleure extraction des caractéristiques et une précision supérieure, en particulier dans les scènes complexes. La conception basée sur les transformateurs permet une détection sans ancrage, ce qui simplifie le processus de détection et améliore potentiellement la généralisation.
Mesures de performance
RTDETRv2 fait preuve d'une grande performance, en particulier en ce qui concerne la mAP. Comme le montre le tableau de comparaison, la variante RTDETRv2-x atteint une mAPval50-95 de 54,3. Les vitesses d'inférence sont également compétitives, RTDETRv2-s atteignant 5,03 ms sur TensorRT, ce qui le rend viable pour les applications en temps réel lors de l'utilisation de matériel capable tel que les GPU NVIDIA T4. Pour une compréhension plus approfondie de l'évaluation des performances, consultez notre guideYOLO Performance Metrics.
Forces et faiblesses
Points forts :
- Haute précision : L'architecture du transformateur offre une excellente précision de détection des objets, essentielle pour les applications exigeant de la précision.
- Capable de fonctionner en temps réel : Atteint des vitesses d'inférence compétitives, en particulier lorsqu'il est optimisé avec TensorRT et exécuté sur du matériel adéquat.
- Compréhension du contexte global : Les transformateurs de vision saisissent efficacement le contexte global, ce qui permet une détection robuste dans des environnements complexes.
Faiblesses :
- Taille plus importante du modèle : Les modèles RTDETRv2, en particulier les variantes plus grandes comme RTDETRv2-x, ont un nombre important de paramètres et de FLOPs, ce qui nécessite plus de ressources de calcul.
- Limitations de la vitesse d'inférence : Bien que le temps réel soit réalisable, la vitesse d'inférence peut être plus lente que les modèles hautement optimisés basés sur le CNN comme YOLOv9, en particulier sur les appareils dont les ressources sont limitées.
Cas d'utilisation idéaux
RTDETRv2 est parfaitement adapté aux applications où la précision est primordiale et où les ressources informatiques sont facilement disponibles. Il s'agit notamment des applications suivantes
- Véhicules autonomes : Pour une perception précise et fiable de l'environnement. En savoir plus sur l'IA dans les voitures autonomes.
- Imagerie médicale : Pour une détection précise des anomalies dans les images médicales, afin d'aider au diagnostic. En savoir plus sur l'IA dans les soins de santé.
- Robotique : Permettre aux robots d'interagir avec des objets dans des environnements complexes et de les manipuler avec précision. Comprendre le rôle de l'IA dans la robotique.
- Analyse d'images à haute résolution : Pour l'analyse détaillée d'images de grande taille, comme dans l'imagerie satellitaire ou l'inspection industrielle. Voir comment analyser l'imagerie satellitaire à l'aide de la vision par ordinateur.
YOLOv9 : Information programmable sur le gradient pour plus d'efficacité et de précision
YOLOv9(You Only Look Once 9) est un modèle de détection d'objets de pointe issu de la célèbre familleYOLO d'Ultralytics . Présenté sur arXiv le 2024-02-21, YOLOv9 est écrit par Chien-Yao Wang et Hong-Yuan Mark Liao de l'Institut des sciences de l'information, Academia Sinica, Taiwan, avec un code disponible sur GitHub. YOLOv9 introduit les techniques PGI (Programmable Gradient Information) et GELAN, améliorant à la fois la précision et l'efficacité de la formation par rapport aux versions précédentes de YOLO .
Architecture et caractéristiques principales
YOLOv9 s'appuie sur l'efficacité des modèles YOLO précédents tout en incorporant de nouvelles améliorations architecturales. Il utilise GELAN (Generalized Efficient Layer Aggregation Network) pour optimiser l'architecture du réseau et PGI pour maintenir l'intégrité de l'information du gradient, ce qui permet de remédier à la perte d'information lors de la propagation en profondeur du réseau. Ces innovations permettent d'améliorer la précision et l'efficacité de la formation. YOLOv9 conserve une tête de détection sans ancrage et une conception rationalisée en une seule étape, en mettant l'accent sur les performances en temps réel.
Mesures de performance
YOLOv9 atteint un équilibre convaincant entre vitesse et précision. Le modèle YOLOv9-e atteint un mAPval50-95 de 55,6, surpassant en précision des modèles RTDETRv2 encore plus grands, tout en conservant des vitesses d'inférence compétitives. La variante YOLOv9-t, plus petite, est exceptionnellement rapide, atteignant une vitesse d'inférence de 2,3 ms sur TensorRT, ce qui la rend adaptée aux applications extrêmement sensibles à la latence.
Forces et faiblesses
Points forts :
- Précision et efficacité élevées : PGI et GELAN contribuent à la fois à une plus grande précision et à une utilisation efficace des paramètres.
- Vitesse d'inférence rapide : Optimisée pour des performances en temps réel, en particulier pour les variantes plus petites adaptées au déploiement en périphérie.
- Une formation efficace : L'IGP contribue à des processus de formation plus stables et plus efficaces.
Faiblesses :
- Contexte global inférieur : L'architecture basée sur le CNN pourrait être moins efficace pour capturer les dépendances à longue distance que les modèles basés sur les transformateurs dans les scènes très complexes.
- Compromis entre précision et rapidité : tout en étant très précis, l'obtention des vitesses d'inférence les plus rapides peut impliquer l'utilisation de modèles plus petits dont la précision est légèrement inférieure à celle des modèles les plus grands.
Cas d'utilisation idéaux
YOLOv9 est bien adapté aux applications nécessitant un équilibre entre une grande précision et des performances en temps réel, en particulier dans les environnements où les ressources sont limitées :
- Surveillance en temps réel : Pour une surveillance efficace et précise des systèmes de sécurité. Explorer la vision par ordinateur pour la prévention des vols.
- Informatique de périphérie : Déploiement sur des appareils périphériques disposant de ressources informatiques limitées. En savoir plus sur l'IA périphérique.
- Robotique : Pour une perception rapide et précise dans les systèmes robotiques. Voir le rôle de l'IA dans la robotique.
- Automatisation industrielle : Pour les applications de fabrication nécessitant la détection d'objets en temps réel pour le contrôle de la qualité et l'optimisation des processus. Découvrez l'IA dans l'industrie manufacturière.
Tableau de comparaison des modèles
Modèle | taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Conclusion
RTDETRv2 et YOLOv9 sont tous deux de puissants modèles de détection d'objets, chacun possédant des atouts uniques. RTDETRv2 excelle dans les scénarios privilégiant une précision maximale et tirant parti de l'architecture du transformateur pour une extraction robuste des caractéristiques, ce qui convient aux applications disposant de ressources informatiques importantes. YOLOv9, quant à lui, est idéal lorsque les performances et l'efficacité en temps réel sont primordiales, offrant un mélange convaincant de précision et de vitesse, particulièrement bénéfique pour le déploiement sur des appareils périphériques et des systèmes sensibles à la latence.
Pour les utilisateurs souhaitant explorer d'autres modèles, Ultralytics propose un large éventail d'options, notamment
- YOLOv8: La génération précédente Ultralytics YOLOv8 qui offre un équilibre entre vitesse et précision.
- YOLO11: Pour une efficacité et une rapidité accrues, pensez à YOLO11.
- FastSAM et MobileSAM: pour les tâches de segmentation d'instances en temps réel, explorez FastSAM et MobileSAM.
Le choix entre RTDETRv2, YOLOv9 et d'autres modèles Ultralytics dépend des besoins spécifiques de votre projet, en considérant soigneusement l'équilibre entre la précision, la vitesse et les ressources disponibles. Reportez-vous à la documentationUltralytics et au dépôt GitHubUltralytics pour des détails complets et des guides d'implémentation.