YOLOv5 vs RTDETRv2 : Une comparaison détaillée des modèles
Le choix du bon modèle de détection d'objets est crucial pour les projets de vision par ordinateur. Ultralytics propose une suite de modèles adaptés à différents besoins, y compris le modèle très efficace Ultralytics YOLOv5 et en le comparant à d'autres architectures comme RTDETRv2. Cette page fournit une comparaison technique entre YOLOv5 et RTDETRv2, mettant en évidence leurs différences architecturales, les mesures de performance, les méthodologies de formation et les applications idéales.
YOLOv5: Rapidité et efficacité
Auteur : Glenn Jocher
Organisation : Ultralytics
Date : 2020-06-26
GitHub :yolov5
Docs :yolov5
Ultralytics YOLOv5 est un détecteur d'objets en une étape largement adopté et réputé pour sa vitesse d'inférence et son efficacité opérationnelle exceptionnelles. Développé par Ultralytics, il est devenu une référence pour les tâches de détection d'objets en temps réel.
Architecture
YOLOv5 utilise une architecture basée sur le CNN et optimisée pour la vitesse :
- Réseau de base : CSPDarknet53 pour une extraction efficace des caractéristiques.
- Neck : PANet pour une fusion efficace des caractéristiques à toutes les échelles.
- Tête : tête de détection YOLOv5 pour la prédiction et la classification de la boîte englobante. Elle est disponible en plusieurs tailles (n, s, m, l, x), ce qui permet aux utilisateurs de choisir le meilleur compromis entre vitesse et précision en fonction de leurs besoins spécifiques.
Points forts
YOLOv5 offre des avantages significatifs, en particulier pour les développeurs qui souhaitent un déploiement pratique :
- Facilité d'utilisation : L'expérience utilisateur est simplifiée grâce à une API simple, une documentation complète et de nombreux tutoriels.
- Un écosystème bien entretenu : Bénéficie de l'écosystème intégré d'Ultralytics , qui comprend un développement actif, un soutien communautaire solide via GitHub et Discord, des mises à jour fréquentes et des plateformes comme Ultralytics HUB pour une formation et un déploiement sans code.
- Équilibre des performances : Il atteint un bon équilibre entre la vitesse d'inférence et la précision, ce qui lui permet de s'adapter à divers scénarios du monde réel.
- Exigences en matière de mémoire : Requiert généralement moins de mémoire (en particulier la mémoire CUDA pendant l'entraînement) que les modèles basés sur des transformateurs tels que RTDETRv2.
- Efficacité de la formation : Offre des processus de formation efficaces, une convergence plus rapide et des poids pré-entraînés facilement disponibles sur des ensembles de données tels que COCO.
- Polyvalence : Bien que principalement axé sur la détection, le référentiel YOLOv5 prend également en charge les tâches de segmentation d'instances et de classification d'images.
Faiblesses
- Précision : Bien que très précis, les modèles plus grands et plus complexes comme RTDETRv2-x peuvent atteindre un mAP légèrement plus élevé sur des ensembles de données difficiles, mais au détriment de la vitesse et des ressources.
Cas d'utilisation idéaux
YOLOv5 excelle dans :
- Détection d'objets en temps réel : Vidéosurveillance, systèmes d'alarme de sécurité et IA dans la gestion du trafic.
- Informatique périphérique : Déploiement sur des appareils à ressources limitées tels que Raspberry Pi et NVIDIA Jetson.
- Applications mobiles : Modèles légers adaptés au déploiement mobile.
- Prototypage rapide : Installation et formation rapides pour diverses tâches de vision par ordinateur.
RTDETRv2 : Détection en temps réel de haute précision
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2023-04-17 ( RT-DETR initial), 2024-07-24 (améliorations RT-DETRv2)
Arxiv : https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub :RT-DETR
Docs :RT-DETR
RTDETRv2 (Real-Time Detection Transformer v2) est un détecteur d'objets de pointe qui exploite la puissance des transformateurs de vision (ViT) pour atteindre une grande précision tout en maintenant des performances en temps réel.
Architecture
RTDETRv2 utilise une approche hybride :
- Epine dorsale : Généralement un CNN (comme les variantes de ResNet) pour l'extraction initiale des caractéristiques.
- Encodeur-décodeur : Une structure de codage-décodage basée sur un transformateur qui utilise des mécanismes d'auto-attention pour capturer le contexte global dans les caractéristiques de l'image. Cela permet au modèle de mieux comprendre les relations entre des objets distants et des scènes complexes.
Points forts
- Haute précision : L'architecture du transformateur permet à RTDETRv2 d'obtenir d'excellents scores mAP, en particulier sur des ensembles de données complexes comportant des objets denses ou de petite taille.
- Capacité en temps réel : Optimisé pour fournir des vitesses d'inférence compétitives, en particulier lorsqu'il est accéléré à l'aide d'outils tels que NVIDIA TensorRT.
- Extraction robuste des caractéristiques : Capture efficacement le contexte global, ce qui permet d'améliorer les performances dans des scénarios difficiles tels que l'occlusion.
Faiblesses
- Coût de calcul : Le nombre de paramètres et de FLOPs est généralement plus élevé que pour YOLOv5, ce qui nécessite des ressources de calcul plus importantesGPU mémoireGPU , puissance de traitement).
- Complexité de la formation : La formation de modèles basés sur des transformateurs peut nécessiter plus de ressources et être potentiellement plus lente que la formation de modèles basés sur des CNN comme YOLOv5.
- Vitesse d'inférence : Bien que capable de fonctionner en temps réel sur du matériel puissant, elle peut être plus lente que les variantes YOLOv5 les plus rapides, en particulier sur les processeurs ou les appareils périphériques moins puissants.
- Ecosystème : Ne dispose pas de l'écosystème étendu et unifié, de l'outillage (comme Ultralytics HUB) et du large soutien de la communauté fourni par Ultralytics pour les modèles YOLO .
Cas d'utilisation idéaux
RTDETRv2 est mieux adapté aux applications où la précision est primordiale et où l'on dispose de ressources informatiques suffisantes :
- Conduite autonome : Perception précise pour l'IA dans les voitures auto-conduites.
- Imagerie médicale : Détection détaillée d'anomalies dans AI in Healthcare.
- Analyse d'images à haute résolution : Analyse d'images satellitaires ou de données d'inspection industrielle(amélioration de la fabrication grâce à la vision par ordinateur).
- Compréhension de scènes complexes : Scénarios avec une forte occlusion ou de nombreux petits objets.
Comparaison des performances : YOLOv5 vs RTDETRv2
Modèle | taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Le tableau met en évidence les compromis :
- YOLOv5 (en particulier n/s/m) offrent des vitesses d'inférence beaucoup plus rapides sur le CPU et le GPU TensorRT) avec un nombre de paramètres et de FLOPs beaucoup plus faible, ce qui les rend idéaux pour les environnements à ressources limitées.
- Les modèles RTDETRv2 atteignent des scores mAP plus élevés (en particulier les variantes l/x) mais s'accompagnent d'une latence et d'exigences de calcul accrues. Notamment, RTDETRv2-s/m offre une précision compétitive par rapport à YOLOv5l/x avec des vitesses TensorRT potentiellement plus rapides, mais les performances de l'CPU ne sont pas indiquées.
Formation et écosystème
Ultralytics YOLOv5 se distingue par sa facilité de formation et son écosystème complet. La formation est simple grâce à l'CLI ) ou à l'API Python , et s'appuie sur une documentation et des tutoriels détaillés. L'écosystème Ultralytics offre des outils tels que Ultralytics HUB pour une formation et un déploiement simplifiés, un support communautaire actif et des intégrations transparentes avec des outils tels que Weights & Biases et ClearML. En outre, l'architecture CNN de YOLOv5 nécessite généralement moins de mémoire GPU et s'entraîne plus rapidement que les modèles à transformateur.
RTDETRv2, bien que puissant, implique l'apprentissage d'une architecture de transformateur plus complexe. Cela nécessite généralement des ressources informatiques plus importantes (en particulier une mémoire GPU élevée) et des temps d'apprentissage potentiellement plus longs. Bien que le dépôt GitHub fournisse des scripts d'entraînement, l'écosystème environnant et la structure de support sont moins étendus que ceux offerts par Ultralytics.
Conclusion
YOLOv5 et RTDETRv2 sont tous deux des modèles de détection d'objets performants, mais ils répondent à des priorités différentes.
- Ultralytics YOLOv5 est le choix recommandé pour les applications exigeant une vitesse élevée, de l'efficacité, une facilité d'utilisation et une polyvalence de déploiement, en particulier sur les appareils en périphérie ou lorsque les ressources de calcul sont limitées. Son écosystème robuste et ses faibles exigences en matière de formation le rendent très accessible aux développeurs et aux chercheurs.
- RTDETRv2 convient lorsque la précision maximale est la priorité absolue et que des ressources informatiques suffisantes (y compris des GPU puissants pour l'entraînement et l'inférence) sont disponibles.
Pour la plupart des applications pratiques, YOLOv5 offre un équilibre excellent et souvent supérieur entre performance, vitesse et facilité d'utilisation, soutenu par le support et les outils de l'écosystème Ultralytics .
Explorer d'autres modèles
Si vous envisagez d'autres solutions, considérez d'autres modèles au sein de l'écosystème Ultralytics :
- YOLOv8: successeur de YOLOv5, il offre une précision et une rapidité accrues pour diverses tâches, notamment la détection, la segmentation, la pose et le suivi.
- YOLOv10: Des innovations telles que la formation sans NMS pour des gains d'efficacité supplémentaires.
- YOLO11: La dernière génération d'Ultralytics, qui repousse les limites de la performance et de l'efficacité.
La comparaison de modèles tels que YOLOv8 vs RTDETRv2 ou YOLOv10 vs RTDETRv2 peut fournir des indications supplémentaires sur la meilleure solution pour votre projet.