Skip to content

RTDETRv2 vs YOLO: une comparaison technique pour la détection d'objets

Le choix du modèle de détection d'objets optimal est essentiel pour la réussite des applications de vision par ordinateur. Ultralytics offre une gamme variée de modèles, et cette page présente une comparaison technique détaillée entre RTDETRv2 et YOLO, deux modèles avancés dans le domaine de la détection d'objets. Cette analyse vous aidera à prendre une décision éclairée en fonction des exigences de votre projet.

RTDETRv2 : Détection de haute précision basée sur les transformateurs

RTDETRv2(Real-Time Detection Transformer v2) est un modèle de détection d'objets de pointe développé par Baidu, connu pour sa grande précision et ses performances efficaces en temps réel. Présenté le 2023-04-17 dans l'article"DETRs Beat YOLOs on Real-time Object Detection" par Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu, RTDETRv2 s'appuie sur une architecture Vision Transformer (ViT) pour réaliser une extraction robuste des caractéristiques et une compréhension globale du contexte.

Architecture et caractéristiques

RTDETRv2 se distingue par son architecture basée sur les transformateurs, qui lui permet de capturer le contexte global des images plus efficacement que les détecteurs traditionnels basés sur le CNN. Cette architecture permet une précision supérieure, en particulier dans les scènes complexes où la compréhension du contexte global est cruciale. Le modèle est implémenté dans PyTorch et est disponible sur GitHub.

Performance

RTDETRv2 démontre des performances impressionnantes, atteignant un mAPval50-95 de 54,3 pour sa plus grande variante, RTDETRv2-x. Les vitesses d'inférence sont également compétitives, ce qui permet de l'utiliser pour des applications en temps réel avec du matériel performant.

Forces et faiblesses

Points forts :

  • Haute précision: L'architecture à transformateur offre une excellente précision de détection des objets.
  • Capacité en temps réel: Permet d'obtenir des vitesses d'inférence rapides, en particulier avec l'accélération TensorRT .
  • Apprentissage contextuel efficace: Les transformateurs de vision excellent dans l'art de saisir le contexte global en images.

Faiblesses :

  • Taille plus importante du modèle: Les modèles RTDETRv2, en particulier les variantes les plus grandes, comportent un nombre important de paramètres et de FLOP, ce qui nécessite davantage de ressources informatiques.
  • Exigence en matière de calcul: Bien qu'il soit optimisé pour la vitesse, il peut ne pas être aussi léger que d'autres modèles pour un déploiement sur des appareils aux ressources très limitées.

Cas d'utilisation

RTDETRv2 convient parfaitement aux applications qui privilégient une grande précision et qui ont accès à des ressources informatiques importantes :

En savoir plus sur RTDETRv2

YOLO: Détection d'objets efficace et rapide

YOLO(DAMO series YOLO), développé par Alibaba Group et présenté le 2022-11-23 dans l'article"YOLO: Rethinking Scalable and Accurate Object Detection" par Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, et Xiuyu Sun, est conçu pour la vitesse et l'efficacité tout en maintenant une précision compétitive. YOLO se concentre sur les performances en temps réel et est disponible sur GitHub.

Architecture et caractéristiques

YOLO intègre plusieurs techniques innovantes pour améliorer l'efficacité, y compris des backbones de recherche d'architecture neuronale (NAS), un RepGFPN efficace et un ZeroHead. Ces choix architecturaux contribuent à sa vitesse et à la réduction des exigences de calcul, ce qui en fait un excellent choix pour les applications en temps réel et les déploiements en périphérie.

Performance

YOLO excelle dans la vitesse d'inférence, offrant des performances très rapides sur diverses plates-formes matérielles. Bien que sa précision soit légèrement inférieure à celle de RTDETRv2, il offre un équilibre convaincant entre vitesse et précision, en particulier pour les applications nécessitant un traitement rapide.

Forces et faiblesses

Points forts :

  • Haute vitesse: Optimisé pour une inférence extrêmement rapide, idéal pour les systèmes en temps réel.
  • Efficacité: La taille réduite des modèles et les exigences de calcul moindres en font un outil adapté aux appareils périphériques.
  • Évolutivité: Conçu pour être évolutif et adaptable à divers scénarios de déploiement.

Faiblesses :

  • Précision: Bien qu'il soit précis, il risque de ne pas atteindre les mêmes scores mAP que RTDETRv2, en particulier dans les scénarios exigeant la plus grande précision.
  • Compréhension du contexte: Centré sur le CNN, il peut ne pas saisir le contexte global aussi efficacement que les modèles basés sur les transformateurs dans les scènes très complexes.

Cas d'utilisation

YOLO est bien adapté aux applications où la vitesse et l'efficacité sont primordiales, et où le déploiement sur du matériel moins puissant est nécessaire :

  • Surveillance vidéo en temps réel: Idéale pour les applications telles que les systèmes d'alarme de sécurité nécessitant une détection immédiate.
  • Informatique périphérique: Parfait pour un déploiement sur des appareils périphériques tels que Raspberry Pi et NVIDIA Jetson.
  • Applications de traitement rapide: Convient à la robotique(ROS Quickstart) et à d'autres applications nécessitant une prise de décision rapide.
  • Déploiements mobiles: Suffisamment efficace pour les applications mobiles et les environnements à ressources limitées.

En savoir plus sur YOLO

Tableau de comparaison des modèles

Modèle taille(pixels) mAPval
50-95
CPU ONNX
(ms)
SpeedT4TensorRT10
(ms)
params(M) FLOPs(B)
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3

Conclusion

RTDETRv2 et YOLO sont tous deux de puissants modèles de détection d'objets, chacun présentant des avantages distincts. RTDETRv2 se distingue lorsque la précision maximale est la priorité et que les ressources informatiques sont disponibles. YOLO est le choix préféré pour les applications qui nécessitent un traitement en temps réel et un déploiement efficace, en particulier sur les appareils périphériques.

Pour les utilisateurs qui envisagent d'autres options, Ultralytics propose une large gamme de modèles, notamment :

Le choix entre RTDETRv2, YOLO, ou d'autres modèles Ultralytics doit être basé sur les besoins spécifiques de votre projet de vision par ordinateur, en considérant soigneusement l'équilibre entre la précision, la vitesse, et les ressources disponibles. Pour plus de détails et de guides d'implémentation, reportez-vous à la documentationUltralytics et au dépôt GitHubUltralytics .

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires