RTDETRv2 vs YOLOX : une comparaison technique pour la détection d'objets
Le choix du bon modèle de détection d'objets est crucial pour les projets de vision par ordinateur. Ultralytics propose une gamme variée de modèles, dont la série YOLO et la série RT-DETR , chacun présentant des atouts uniques. Cette page présente une comparaison technique détaillée entre RTDETRv2 et YOLOX, deux modèles de pointe pour la détection d'objets, afin de vous aider à prendre une décision éclairée en fonction des exigences de votre projet.
RTDETRv2 : Détection en temps réel de haute précision
RTDETRv2(Real-Time Detection Transformer v2) est un modèle avancé de détection d'objets développé par Baidu, connu pour sa grande précision et ses performances en temps réel. Présenté le 2023-04-17 et détaillé dans son article Arxiv, RTDETRv2 utilise une architecture Vision Transformer (ViT) pour obtenir des résultats de pointe. L'implémentation officielle est disponible sur GitHub.
Architecture et caractéristiques principales
L'architecture de RTDETRv2 est basée sur les transformateurs de vision, ce qui lui permet de capturer le contexte global dans les images grâce à des mécanismes d'auto-attention. Cette approche basée sur les transformateurs permet une extraction robuste des caractéristiques et une localisation précise des objets, en particulier dans les scènes complexes. Contrairement aux modèles traditionnels basés sur le CNN, RTDETRv2 excelle dans la compréhension des relations entre les différentes parties d'une image, ce qui permet d'améliorer la précision de la détection.
Mesures de performance
Les modèles RTDETRv2 affichent des scores mAP impressionnants, avec des variantes plus importantes comme RTDETRv2-x atteignant une mAPval50-95 de 54,3. Bien que les mesures détaillées de la vitesseONNX CPU ne soient pas fournies dans le tableau ci-dessous, ses vitesses TensorRT sont compétitives, ce qui le rend approprié pour les applications en temps réel sur du matériel capable tel que les GPU NVIDIA T4. Pour obtenir des mesures de performances détaillées, consultez le tableau de comparaison des modèles ci-dessous.
Forces et faiblesses
Points forts :
- Précision supérieure : L'architecture à transformateur offre une excellente précision de détection des objets.
- Capable de fonctionner en temps réel : Permet d'atteindre des vitesses d'inférence compétitives grâce à l'accélération matérielle, adaptée aux systèmes en temps réel.
- Extraction efficace des caractéristiques : Les transformateurs de vision capturent efficacement le contexte global et les détails complexes.
Faiblesses :
- Taille plus importante du modèle : Les modèles RTDETRv2, en particulier les versions les plus grandes, ont un nombre de paramètres et de FLOPs plus élevé, ce qui nécessite davantage de ressources informatiques.
- Limitations de la vitesse d'inférence : Bien qu'en temps réel, il peut ne pas être aussi rapide que des modèles hautement optimisés comme YOLOX sur des appareils moins puissants.
Cas d'utilisation idéaux
RTDETRv2 est mieux adapté aux applications où la précision est primordiale et où des ressources de calcul suffisantes sont disponibles. Les cas d'utilisation idéaux sont les suivants
- Véhicules autonomes : Pour une perception fiable et précise de l'environnement dans les systèmes de conduite autonome. L'IA dans les voitures autonomes
- Robotique : Permettre aux robots de percevoir avec précision des objets dans des environnements complexes et d'interagir avec eux. Des algorithmes à l'automatisation : Le rôle de l'IA dans la robotique
- Imagerie médicale : Pour la détection de haute précision des anomalies dans les images médicales, afin d'aider au diagnostic. L'IA dans les soins de santé
- Analyse d'images à haute résolution : Applications nécessitant une analyse détaillée d'images de grande taille, telles que des images satellitaires ou aériennes. Utilisation de la vision par ordinateur pour analyser l'imagerie satellitaire
YOLOX : Détection d'objets efficace et polyvalente
YOLOX(You Only Look Once X) est un modèle de détection d'objets sans ancrage développé par Megvii, connu pour ses hautes performances et son efficacité. Présenté le 2021-07-18 et détaillé dans son article Arxiv, YOLOX s'appuie sur la série YOLO , offrant une conception simplifiée avec des résultats de pointe. La documentation officielle fournit des détails complets.
Architecture et caractéristiques principales
YOLOX adopte une approche sans ancrage, éliminant le besoin de boîtes d'ancrage prédéfinies, ce qui simplifie le modèle et réduit les hyperparamètres. Il comporte une tête découplée pour la classification et la localisation, ce qui améliore l'efficacité et la précision de l'apprentissage. Des techniques avancées d'augmentation des données, telles que MixUp et Mosaic, sont utilisées pour améliorer la robustesse. YOLOX est conçu pour une vitesse et une efficacité élevées, ce qui le rend adapté aux applications en temps réel et au déploiement sur diverses plates-formes matérielles.
Mesures de performance
YOLOX propose une gamme de tailles de modèles, de Nano à XLarge, pour répondre aux différents budgets de calcul et aux besoins de précision. Les modèles YOLOX offrent un bon équilibre entre vitesse et précision. Par exemple, YOLOX-s atteint une mAPval50-95 de 40,5 avec des vitesses d'inférence rapides sur TensorRT. Consultez le tableau de comparaison des modèles ci-dessous pour obtenir des mesures de performance détaillées sur les différentes variantes de YOLOX.
Forces et faiblesses
Points forts :
- Efficacité et rapidité élevées : Optimisé pour une inférence rapide, il est idéal pour les applications en temps réel.
- Conception sans ancrage : Simplifie l'architecture et le processus de formation, améliorant ainsi la généralisation.
- Taille des modèles polyvalente : Offre une gamme de tailles de modèles pour répondre aux différentes contraintes de calcul.
- De bonnes performances : Un bon équilibre entre vitesse et précision.
Faiblesses :
- Compromis de précision : bien qu'efficace, sa précision peut être légèrement inférieure à celle des modèles basés sur les transformateurs comme RTDETRv2 dans les scénarios complexes.
- Performance dans les scènes complexes : En tant que détecteur à une étape, il peut être moins robuste dans les scènes extrêmement encombrées que certains détecteurs à deux étapes, bien que YOLOX atténue considérablement cette lacune par rapport aux versions antérieures de YOLO .
Cas d'utilisation idéaux
YOLOX est parfaitement adapté aux applications nécessitant une détection d'objets en temps réel, avec un souci de rapidité et d'efficacité. Parmi ces applications, on peut citer
- Robotique : Perception en temps réel pour la navigation et l'interaction des robots dans des environnements dynamiques. L'IA en robotique
- Systèmes de surveillance : Détection efficace d'objets dans les flux vidéo pour les applications de sécurité et de surveillance. Vision par ordinateur pour la prévention des vols : Amélioration de la sécurité
- Inspection industrielle : Inspection visuelle automatisée sur les chaînes de production pour la détection des défauts et le contrôle de la qualité. Améliorer la fabrication grâce à la vision par ordinateur
- Appareils périphériques : Déploiement sur des appareils à ressources limitées où l'efficacité des calculs est essentielle. Renforcer l'IA en périphérie avec Sony IMX500 et Aitrios
Tableau de comparaison des modèles
Modèle | taille(pixels) | mAPval 50-95 |
CPU ONNX (ms) |
SpeedT4TensorRT10 (ms) |
params(M) | FLOPs(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Conclusion
RTDETRv2 et YOLOX sont tous deux de puissants modèles de détection d'objets, mais ils répondent à des priorités différentes. RTDETRv2 est le meilleur choix lorsqu'une précision maximale est requise et que les ressources informatiques ne sont pas un facteur limitant. YOLOX, en revanche, excelle dans les scénarios où les performances en temps réel, l'efficacité et le déploiement sur du matériel moins puissant sont essentiels.
Pour les utilisateurs explorant d'autres options, Ultralytics propose une large gamme de modèles, y compris :
- YOLOv8 et YOLOv9 : Successeurs de la série YOLO , offrant un éventail de compromis entre vitesse et précision. Ultralytics YOLOv8 : une année de percées et d'innovations, YOLOv9 Documentation
- YOLO: modèles conçus à l'aide d'une architecture neuronale pour des performances optimales. YOLO de Deci AI - un modèle de détection d'objets à la pointe de la technologie
- FastSAM et MobileSAM: pour les tâches de segmentation d'instances en temps réel. DocumentationFastSAM , DocumentationMobileSAM
Le choix entre RTDETRv2, YOLOX et les autres modèles Ultralytics doit être guidé par les besoins spécifiques de votre projet de vision par ordinateur, en équilibrant soigneusement la précision, la vitesse et les ressources disponibles. Consultez la documentationUltralytics et le dépôt GitHub pour obtenir des informations plus approfondies et des détails sur la mise en œuvre.