Skip to content

YOLOv7 vs RTDETRv2 : Une comparaison détaillée des modèles

Le choix du bon modèle de détection d'objets est crucial pour les projets de vision par ordinateur. Cette page présente une comparaison technique entre YOLOv7 et RTDETRv2, deux modèles de pointe, afin de vous aider à prendre une décision éclairée. Nous examinons en détail leurs différences architecturales, leurs performances et leurs applications idéales.

Modèle taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRv2-s 640 48.1 - 5.03 20 60
RTDETRv2-m 640 51.9 - 7.51 36 100
RTDETRv2-l 640 53.4 - 9.76 42 136
RTDETRv2-x 640 54.3 - 15.03 76 259

YOLOv7 : L'expert en efficacité en temps réel

YOLOv7, présenté en juillet 2022 par les auteurs Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao de l'Institute of Information Science, Academia Sinica, Taiwan, est réputé pour sa rapidité et son efficacité dans les tâches de détection d'objets. Il affine l'architecture des modèles YOLO précédents, en donnant la priorité à l'inférence rapide sans sacrifier de manière significative la précision.

Architecture et caractéristiques principales

L'architecture de YOLOv7 repose sur des réseaux neuronaux convolutifs (CNN) et intègre plusieurs caractéristiques essentielles pour optimiser les performances :

  • E-ELAN (Extended Efficient Layer Aggregation Network) : Améliore l'efficacité de l'extraction des caractéristiques, ce qui permet au modèle d'apprendre plus efficacement.
  • Mise à l'échelle du modèle : Emploie des techniques de mise à l'échelle composées pour ajuster la profondeur et la largeur du modèle, ce qui permet de s'adapter aux différentes ressources de calcul et aux besoins de performance.
  • Formation de têtes auxiliaires : Utilise des têtes de perte auxiliaires pendant la formation pour approfondir l'apprentissage du réseau et améliorer la précision globale.

Ces choix architecturaux permettent à YOLOv7 d'atteindre un bon équilibre entre vitesse et précision, ce qui le rend adapté aux applications en temps réel. Pour plus de détails, consultez l'article sur YOLOv7 sur Arxiv et le dépôt officiel YOLOv7 GitHub.

Mesures de performance

YOLOv7 est conçu pour exceller dans les scénarios où une faible latence est essentielle. Ses performances sont caractérisées par :

  • mAPval50-95: Permet d'obtenir jusqu'à 53,1 % de mAP sur l'ensemble de données COCO.
  • Vitesse d'inférence (T4 TensorRT10): Aussi rapide que 6,84 ms, permettant un traitement en temps réel.
  • Taille du modèle (paramètres): Commence à 36,9 millions de paramètres, offrant une taille de modèle compacte pour un déploiement efficace.

Cas d'utilisation et points forts

YOLOv7 est particulièrement bien adapté aux applications nécessitant une détection d'objets en temps réel sur des appareils aux ressources limitées, notamment :

  • Robotique : Fournir une perception rapide pour la navigation et l'interaction robotiques.
  • Surveillance : Permettre la surveillance et l'analyse en temps réel des systèmes de sécurité. Découvrez comment YOLOv8 peut améliorer les systèmes d'alarme de sécurité.
  • Appareils périphériques : Déploiement sur des appareils périphériques dotés d'une puissance de calcul limitée, tels que NVIDIA Jetson ou Raspberry Pi.

Son principal atout est sa vitesse et la taille relativement réduite de son modèle, ce qui lui permet d'être déployé sur diverses plates-formes matérielles. Pour en savoir plus sur l'architecture et les capacités de YOLOv7, consultez la documentation YOLOv7.

En savoir plus sur YOLOv7

RTDETRv2 : Précision avec l'efficacité du transformateur

RTDETRv2 (Real-Time Detection Transformer version 2), présenté en juillet 2024 par les auteurs Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu de Baidu, adopte une approche différente en intégrant des transformateurs de vision (ViT) pour la détection d'objets. Contrairement à la base CNN de YOLO, RTDETRv2 s'appuie sur les transformateurs pour capturer le contexte global de l'image, ce qui peut conduire à une plus grande précision, tout en maintenant les performances en temps réel.

Architecture et caractéristiques principales

L'architecture de RTDETRv2 est définie par :

  • Backbone de transformateur de vision (ViT) : Emploie un encodeur transformateur pour traiter l'ensemble de l'image, capturant les dépendances à longue portée cruciales pour la compréhension de scènes complexes.
  • Extraction de caractéristiques par CNN hybride : Combine les CNN pour l'extraction initiale des caractéristiques avec des couches de transformation pour intégrer efficacement le contexte global.
  • Détection sans ancrage : Simplifie le processus de détection en supprimant le besoin de boîtes d'ancrage prédéfinies, en améliorant la flexibilité du modèle et en réduisant la complexité.

Cette conception basée sur un transformateur permet au RTDETRv2 d'atteindre potentiellement une précision supérieure, en particulier dans les environnements complexes et encombrés. Pour en savoir plus sur les transformateurs de vision, consultez notre page de glossaire sur les transformateurs de vision (ViT). L'article sur RTDETRv2 est disponible sur Arxiv et le dépôt officiel GitHub fournit des détails sur l'implémentation.

Mesures de performance

RTDETRv2 donne la priorité à la précision tout en maintenant une vitesse compétitive, offrant les mesures de performance suivantes :

  • mAPval50-95: Atteint jusqu'à 54,3 % de mAPval50-95, ce qui démontre une grande précision dans la détection des objets.
  • Vitesse d'inférence (T4 TensorRT10): Commence à partir de 5,03 ms, ce qui garantit une capacité en temps réel sur un matériel adapté.
  • Taille du modèle (paramètres): Commence à 20M paramètres, offrant une gamme de tailles de modèles pour différents besoins de déploiement.

Cas d'utilisation et points forts

RTDETRv2 est idéalement adapté aux applications où une grande précision est primordiale et où les ressources informatiques sont disponibles :

  • Véhicules autonomes : Fournir une perception fiable et précise de l'environnement pour une navigation sûre. Explorer l'IA dans les voitures autonomes pour des applications connexes.
  • Imagerie médicale : Détection précise d'anomalies dans les images médicales pour faciliter le diagnostic et la planification des traitements. En savoir plus sur les applications de l 'IA dans le domaine de la santé.
  • Analyse d'images à haute résolution : Tâches nécessitant une analyse détaillée de grandes images, telles que l'analyse d'images satellites ou l'inspection industrielle.

La force de RTDETRv2 réside dans son architecture de transformateur, qui facilite l'extraction de caractéristiques robustes et une plus grande précision, ce qui en fait un excellent outil pour les tâches de détection complexes. De plus amples détails sont disponibles dans le README deRT-DETR sur GitHub.

En savoir plus sur RTDETRv2

Conclusion

YOLOv7 et RTDETRv2 sont tous deux de puissants modèles de détection d'objets, chacun possédant des atouts uniques. YOLOv7 excelle dans les applications en temps réel nécessitant rapidité et efficacité, tandis que RTDETRv2 privilégie la précision grâce à son architecture basée sur les transformateurs. Votre choix doit s'aligner sur les exigences spécifiques de votre projet - la vitesse pour les tâches sensibles au temps ou la précision pour les analyses détaillées.

Pour d'autres comparaisons et modèles, vous pourriez également être intéressé par :

📅C réé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires