Skip to content

YOLOv10 vs RTDETRv2 : Une comparaison technique pour la détection d'objets

Le choix du modèle de détection d'objets optimal est une décision cruciale pour les projets de vision par ordinateur. Ultralytics propose une série de modèles adaptés à différents besoins, allant de la sérieYOLO d'Ultralytics à la série RT-DETR de haute précision. Cette page propose une comparaison technique détaillée entre YOLOv10 et RTDETRv2, deux modèles de pointe pour la détection d'objets, afin de vous aider à faire un choix éclairé.

RTDETRv2 : Détection en temps réel de haute précision

RTDETRv2(Real-Time Detection Transformer v2) est un modèle avancé de détection d'objets qui privilégie la haute précision et les performances en temps réel. Développé par Baidu et détaillé dans son article Arxiv publié en juillet 2024, RTDETRv2 s'appuie sur une architecture Vision Transformer (ViT) pour obtenir des résultats de pointe dans des scénarios exigeant une localisation et une classification précises des objets.

Architecture et caractéristiques principales

L'architecture de RTDETRv2 exploite les forces des transformateurs, ce qui lui permet de capturer le contexte global des images grâce à des mécanismes d'auto-attention. Cette approche basée sur les transformateurs permet au modèle d'évaluer l'importance des différentes régions de l'image, ce qui améliore l'extraction des caractéristiques et la précision, en particulier dans les scènes complexes. Contrairement aux réseaux neuronaux convolutionnels (CNN) traditionnels, RTDETRv2 excelle dans la compréhension du contexte plus large d'une image, ce qui contribue à ses capacités de détection robustes. Le dépôtRT-DETR GitHub fournit de plus amples détails sur sa mise en œuvre.

Mesures de performance

RTDETRv2 affiche des scores mAP impressionnants, en particulier avec des variantes plus importantes comme RTDETRv2-x qui atteignent un mAPval50-95 de 54,3. Les vitesses d'inférence sont également compétitives, ce qui le rend adapté aux applications en temps réel lorsqu'on utilise l'accélération matérielle comme les GPU NVIDIA T4. Le tableau de comparaison ci-dessous fournit une ventilation détaillée des mesures de performance entre les différentes variantes de RTDETRv2 et YOLO10.

Forces et faiblesses

Points forts :

  • Précision supérieure : L'architecture du transformateur permet une grande précision dans la détection des objets.
  • Capacité en temps réel : Permet d'atteindre des vitesses d'inférence compétitives, en particulier avec l'accélération matérielle de moteurs d'inférence tels que TensorRT.
  • Extraction efficace des caractéristiques : Les transformateurs de vision capturent habilement le contexte global et les détails complexes des images.

Faiblesses :

  • Taille plus importante du modèle : Les modèles tels que RTDETRv2-x ont un plus grand nombre de paramètres et un plus grand nombre de FLOP par rapport aux modèles YOLO plus petits, ce qui nécessite plus de ressources de calcul.
  • Limitations de la vitesse d'inférence : Bien que capable de fonctionner en temps réel, la vitesse d'inférence peut être inférieure à celle des modèles YOLO les plus rapides, en particulier sur les appareils dont les ressources sont limitées.

Cas d'utilisation idéaux

RTDETRv2 convient parfaitement aux applications pour lesquelles la précision est primordiale et qui disposent de ressources informatiques suffisantes. Il s'agit notamment des applications suivantes

  • Véhicules autonomes : Pour une perception fiable et précise de l'environnement, cruciale pour la sécurité et la navigation en IA dans les voitures autonomes.
  • Robotique : Permettre aux robots d'interagir avec précision avec des objets dans des environnements complexes, renforcer les capacités du rôle de l'IA dans la robotique.
  • Imagerie médicale : Détection précise des anomalies dans les images médicales, aide au diagnostic et amélioration de l'efficacité de l'IA dans les soins de santé.
  • Analyse d'images à haute résolution : Applications nécessitant une analyse détaillée de grandes images, telles que l'imagerie satellitaire ou l'inspection industrielle, similaires à l'utilisation de la vision par ordinateur pour analyser l'imagerie satellitaire.

En savoir plus sur RTDETRv2

YOLOv10 : Détection d'objets efficace et polyvalente

YOLOv10(You Only Look Once 10) est la dernière itération de la sérieYOLO d'Ultralytics , réputée pour sa rapidité et son efficacité dans la détection d'objets. Introduit en mai 2024 par des auteurs de l'Université Tsinghua, comme le détaille leur article Arxiv, YOLOv10 s'appuie sur les versions précédentes de YOLO , améliorant à la fois la précision et les performances tout en conservant son avantage en temps réel. Le dépôt officiel GitHub fournit l'implémentation officielle PyTorch .

Architecture et caractéristiques principales

YOLOv10 perpétue la tradition YOLO de détection d'objets en une seule étape, en mettant l'accent sur l'efficacité et la rapidité. Il intègre des innovations architecturales et des optimisations pour réduire la redondance des calculs et améliorer la précision. L'une de ses principales caractéristiques est son approche sans NMS, qui permet un déploiement de bout en bout et une réduction de la latence d'inférence. YOLOv10 est donc particulièrement avantageux pour les applications en temps réel et le déploiement sur des appareils aux ressources limitées.

Mesures de performance

YOLOv10 atteint un équilibre entre vitesse et précision, en proposant différentes tailles de modèles, de YOLOv10n à YOLOv10x. Bien que légèrement inférieur à RTDETRv2 en termes de précision, YOLOv10 excelle en termes de vitesse d'inférence et d'efficacité. Par exemple, YOLOv10n atteint une vitesse d'inférence de 1,56 ms sur TensorRT, ce qui le rend idéal pour les applications sensibles à la latence. Le guideYOLO Performance Metrics fournit plus de détails sur ces mesures.

Forces et faiblesses

Points forts :

  • Efficacité et rapidité élevées : Optimisé pour une inférence rapide, cruciale pour les applications en temps réel et le déploiement en périphérie.
  • Polyvalence : Disponible en plusieurs tailles (n, s, m, b, l, x) offrant des performances et une utilisation des ressources évolutives.
  • Formation sans NMS : Permet un déploiement de bout en bout et réduit la latence d'inférence.
  • Modèle plus petit : Le nombre de paramètres et de FLOPs est inférieur à celui de RTDETRv2, ce qui permet de l'utiliser dans des environnements où les ressources sont limitées.

Faiblesses :

  • Précision inférieure à celle de RTDETRv2 : Bien que très précis, il peut ne pas atteindre le niveau de précision supérieur de RTDETRv2 dans des scénarios complexes.
  • Compromis potentiel : l'obtention d'une vitesse extrême peut impliquer un léger compromis en termes de précision par rapport à des modèles plus grands et plus intensifs en termes de calcul.

Cas d'utilisation idéaux

L'efficacité et la rapidité de YOLOv10 en font un excellent choix pour les applications nécessitant une détection d'objets en temps réel, en particulier sur les appareils disposant de ressources limitées. Parmi ces applications, citons

En savoir plus sur YOLO10

Tableau de comparaison des modèles

Modèle taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv10n 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
YOLOv10m 640 51.3 - 5.48 15.4 59.1
YOLOv10b 640 52.7 - 6.54 24.4 92.0
YOLOv10l 640 53.3 - 8.33 29.5 120.3
YOLOv10x 640 54.4 - 12.2 56.9 160.4
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

Conclusion

RTDETRv2 et YOLOv10 sont tous deux de puissants modèles de détection d'objets, chacun conçu pour des priorités différentes. RTDETRv2 excelle lorsqu'une précision de premier ordre est requise et que des ressources informatiques sont disponibles, ce qui le rend adapté aux applications complexes et critiques. YOLOv10, en revanche, est le choix préféré lorsque les performances en temps réel, l'efficacité et le déploiement sur des plates-formes à ressources limitées sont primordiaux.

Pour les utilisateurs qui explorent d'autres options, Ultralytics offre une gamme variée de modèles, y compris des modèles avec des compromis vitesse/précision différents :

En fin de compte, le choix entre RTDETRv2 et YOLOv10, ou d'autres modèles Ultralytics , dépend des besoins spécifiques de votre projet de vision par ordinateur, en équilibrant soigneusement la précision, la vitesse et les contraintes de ressources. Consultez la documentationUltralytics et le dépôt GitHub pour obtenir des informations complètes et des guides de mise en œuvre.

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires