Skip to content

RTDETRv2 vs YOLOX : une comparaison technique pour la détection d'objets

Le choix du bon modèle de détection d'objets est crucial pour les projets de vision par ordinateur. Ultralytics propose une gamme variée de modèles, dont la série YOLO et la série RT-DETR , chacun présentant des atouts uniques. Cette page présente une comparaison technique détaillée entre RTDETRv2 et YOLOX, deux modèles de pointe pour la détection d'objets, afin de vous aider à prendre une décision éclairée en fonction des exigences de votre projet.

RTDETRv2 : Détection en temps réel de haute précision

RTDETRv2(Real-Time Detection Transformer v2) est un modèle avancé de détection d'objets développé par Baidu, connu pour sa grande précision et ses performances en temps réel. Présenté le 2023-04-17 et détaillé dans son article Arxiv, RTDETRv2 utilise une architecture Vision Transformer (ViT) pour obtenir des résultats de pointe. L'implémentation officielle est disponible sur GitHub.

Architecture et caractéristiques principales

L'architecture de RTDETRv2 est basée sur les transformateurs de vision, ce qui lui permet de capturer le contexte global dans les images grâce à des mécanismes d'auto-attention. Cette approche basée sur les transformateurs permet une extraction robuste des caractéristiques et une localisation précise des objets, en particulier dans les scènes complexes. Contrairement aux modèles traditionnels basés sur le CNN, RTDETRv2 excelle dans la compréhension des relations entre les différentes parties d'une image, ce qui permet d'améliorer la précision de la détection.

Mesures de performance

Les modèles RTDETRv2 affichent des scores mAP impressionnants, avec des variantes plus importantes comme RTDETRv2-x atteignant une mAPval50-95 de 54,3. Bien que les mesures détaillées de la vitesseONNX CPU ne soient pas fournies dans le tableau ci-dessous, ses vitesses TensorRT sont compétitives, ce qui le rend approprié pour les applications en temps réel sur du matériel capable tel que les GPU NVIDIA T4. Pour obtenir des mesures de performances détaillées, consultez le tableau de comparaison des modèles ci-dessous.

Forces et faiblesses

Points forts :

  • Précision supérieure : L'architecture à transformateur offre une excellente précision de détection des objets.
  • Capable de fonctionner en temps réel : Permet d'atteindre des vitesses d'inférence compétitives grâce à l'accélération matérielle, adaptée aux systèmes en temps réel.
  • Extraction efficace des caractéristiques : Les transformateurs de vision capturent efficacement le contexte global et les détails complexes.

Faiblesses :

  • Taille plus importante du modèle : Les modèles RTDETRv2, en particulier les versions les plus grandes, ont un nombre de paramètres et de FLOPs plus élevé, ce qui nécessite davantage de ressources informatiques.
  • Limitations de la vitesse d'inférence : Bien qu'en temps réel, il peut ne pas être aussi rapide que des modèles hautement optimisés comme YOLOX sur des appareils moins puissants.

Cas d'utilisation idéaux

RTDETRv2 est mieux adapté aux applications où la précision est primordiale et où des ressources de calcul suffisantes sont disponibles. Les cas d'utilisation idéaux sont les suivants

En savoir plus sur RTDETRv2

YOLOX : Détection d'objets efficace et polyvalente

YOLOX(You Only Look Once X) est un modèle de détection d'objets sans ancrage développé par Megvii, connu pour ses hautes performances et son efficacité. Présenté le 2021-07-18 et détaillé dans son article Arxiv, YOLOX s'appuie sur la série YOLO , offrant une conception simplifiée avec des résultats de pointe. La documentation officielle fournit des détails complets.

Architecture et caractéristiques principales

YOLOX adopte une approche sans ancrage, éliminant le besoin de boîtes d'ancrage prédéfinies, ce qui simplifie le modèle et réduit les hyperparamètres. Il comporte une tête découplée pour la classification et la localisation, ce qui améliore l'efficacité et la précision de l'apprentissage. Des techniques avancées d'augmentation des données, telles que MixUp et Mosaic, sont utilisées pour améliorer la robustesse. YOLOX est conçu pour une vitesse et une efficacité élevées, ce qui le rend adapté aux applications en temps réel et au déploiement sur diverses plates-formes matérielles.

Mesures de performance

YOLOX propose une gamme de tailles de modèles, de Nano à XLarge, pour répondre aux différents budgets de calcul et aux besoins de précision. Les modèles YOLOX offrent un bon équilibre entre vitesse et précision. Par exemple, YOLOX-s atteint une mAPval50-95 de 40,5 avec des vitesses d'inférence rapides sur TensorRT. Consultez le tableau de comparaison des modèles ci-dessous pour obtenir des mesures de performance détaillées sur les différentes variantes de YOLOX.

Forces et faiblesses

Points forts :

  • Efficacité et rapidité élevées : Optimisé pour une inférence rapide, il est idéal pour les applications en temps réel.
  • Conception sans ancrage : Simplifie l'architecture et le processus de formation, améliorant ainsi la généralisation.
  • Taille des modèles polyvalente : Offre une gamme de tailles de modèles pour répondre aux différentes contraintes de calcul.
  • De bonnes performances : Un bon équilibre entre vitesse et précision.

Faiblesses :

  • Compromis de précision : bien qu'efficace, sa précision peut être légèrement inférieure à celle des modèles basés sur les transformateurs comme RTDETRv2 dans les scénarios complexes.
  • Performance dans les scènes complexes : En tant que détecteur à une étape, il peut être moins robuste dans les scènes extrêmement encombrées que certains détecteurs à deux étapes, bien que YOLOX atténue considérablement cette lacune par rapport aux versions antérieures de YOLO .

Cas d'utilisation idéaux

YOLOX est parfaitement adapté aux applications nécessitant une détection d'objets en temps réel, avec un souci de rapidité et d'efficacité. Parmi ces applications, on peut citer

En savoir plus sur YOLOX

Tableau de comparaison des modèles

Modèle taille(pixels) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

Conclusion

RTDETRv2 et YOLOX sont tous deux de puissants modèles de détection d'objets, mais ils répondent à des priorités différentes. RTDETRv2 est le meilleur choix lorsqu'une précision maximale est requise et que les ressources informatiques ne sont pas un facteur limitant. YOLOX, en revanche, excelle dans les scénarios où les performances en temps réel, l'efficacité et le déploiement sur du matériel moins puissant sont essentiels.

Pour les utilisateurs explorant d'autres options, Ultralytics propose une large gamme de modèles, y compris :

Le choix entre RTDETRv2, YOLOX et les autres modèles Ultralytics doit être guidé par les besoins spécifiques de votre projet de vision par ordinateur, en équilibrant soigneusement la précision, la vitesse et les ressources disponibles. Consultez la documentationUltralytics et le dépôt GitHub pour obtenir des informations plus approfondies et des détails sur la mise en œuvre.

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires