RTDETRv2 vs YOLOv5 : Une comparaison technique détaillée
Choisir le modèle de détection d'objets optimal est une décision essentielle pour tout projet de vision par ordinateur. Les compromis entre la précision, la vitesse et le coût de calcul définissent l'adéquation d'un modèle à une application donnée. Cette page fournit une comparaison technique détaillée entre RTDETRv2, un modèle basé sur un transformateur de haute précision, et Ultralytics YOLOv5, une norme industrielle très efficace et largement adoptée. Nous allons explorer leurs différences architecturales, leurs benchmarks de performance et leurs cas d'utilisation idéaux afin de vous aider à faire un choix éclairé.
RTDETRv2 : Transformateur de détection en temps réel de haute précision
RTDETRv2 (Real-Time Detection Transformer v2) est un détecteur d'objets de pointe de Baidu qui exploite la puissance des Vision Transformers pour atteindre une haute précision tout en maintenant des performances en temps réel. Il représente une étape importante dans l'intégration d'architectures de transformateurs complexes dans des applications pratiques en temps réel.
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2023-04-17 (RT-DETR initial), 2024-07-24 (améliorations de RT-DETRv2)
Arxiv : https://arxiv.org/abs/2304.08069, https://arxiv.org/abs/2407.17140
GitHub : https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs : https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Architecture
RTDETRv2 utilise une architecture hybride qui combine les forces des réseaux neuronaux convolutionnels (CNN) et des Transformers.
- Backbone : Un CNN (comme ResNet ou HGNetv2) est utilisé pour l'extraction initiale des caractéristiques, capturant efficacement les caractéristiques d'image de bas niveau.
- Encodeur-Décodeur : Le cœur du modèle est un encodeur-décodeur basé sur Transformer. Il utilise des mécanismes d'auto-attention pour traiter les cartes de caractéristiques du backbone, ce qui permet au modèle de capturer le contexte global et les dépendances à longue portée entre les objets de la scène. Ceci est particulièrement efficace pour détecter les objets dans des environnements complexes ou encombrés.
Points forts
- Haute précision : L’architecture Transformer permet à RTDETRv2 d’obtenir d’excellents scores mAP, surpassant souvent les modèles classiques basés sur CNN sur des ensembles de données complexes comme COCO.
- Extraction de caractéristiques robuste : En considérant le contexte de l'image entière, il fonctionne bien dans des scénarios difficiles avec des objets occlus ou petits, ce qui le rend approprié pour des applications comme la conduite autonome.
- Capacité en temps réel : le modèle est optimisé pour fournir des vitesses d’inférence compétitives, en particulier lorsqu’il est accéléré avec des outils comme NVIDIA TensorRT.
Faiblesses
- Coût de calcul : Les modèles basés sur les transformateurs ont généralement un nombre de paramètres et des FLOPs plus élevés, ce qui exige des ressources de calcul plus importantes, comme la mémoire GPU et la puissance de traitement.
- Complexité de l'entraînement : L'entraînement de RTDETRv2 peut être gourmand en ressources et plus lent que l'entraînement de modèles basés sur CNN. Il nécessite souvent beaucoup plus de mémoire CUDA, ce qui peut être un obstacle pour les utilisateurs disposant de matériel limité.
- Vitesse d'inférence sur CPU : Bien que rapide sur les GPU haut de gamme, ses performances peuvent être considérablement plus lentes que les modèles optimisés comme YOLOv5 sur les CPU ou les appareils périphériques moins puissants.
- Écosystème : Il lui manque l'écosystème étendu et unifié, l'outillage et le large support communautaire qu'Ultralytics fournit pour ses modèles YOLO.
Ultralytics YOLOv5 : la norme industrielle établie
Ultralytics YOLOv5, initialement publié en 2020, est rapidement devenu une référence industrielle en raison de son équilibre exceptionnel entre vitesse, précision et une facilité d'utilisation inégalée. Développé en PyTorch par Glenn Jocher, YOLOv5 est un modèle mature, fiable et hautement optimisé qui a été déployé dans d'innombrables applications du monde réel.
Auteur : Glenn Jocher
Organisation : Ultralytics
Date : 2020-06-26
GitHub : https://github.com/ultralytics/yolov5
Documentation : https://docs.ultralytics.com/models/yolov5/
Architecture
YOLOv5 dispose d’une architecture CNN classique et très efficace. Il utilise une dorsale CSPDarknet53 pour l’extraction des caractéristiques, un neck PANet pour l’agrégation des caractéristiques à différentes échelles et une tête de détection basée sur des ancres. Cette conception s’est avérée extrêmement efficace pour la détection d’objets en temps réel.
Points forts
- Vitesse et efficacité exceptionnelles : YOLOv5 est hautement optimisé pour une inférence rapide sur une large gamme de matériels, des GPU haut de gamme aux appareils périphériques aux ressources limitées comme le NVIDIA Jetson et le Raspberry Pi.
- Facilité d'utilisation : Ultralytics YOLOv5 est réputé pour son expérience utilisateur simplifiée. Grâce à une API Python simple et à une documentation exhaustive, les développeurs peuvent former, valider et déployer des modèles avec un minimum d'effort.
- Écosystème bien maintenu : YOLOv5 bénéficie de l'écosystème robuste d'Ultralytics, qui comprend un développement actif, une communauté large et solidaire, des mises à jour fréquentes et des outils intégrés tels que Ultralytics HUB pour l'entraînement et le déploiement sans code.
- Équilibre des performances : La famille de modèles (n, s, m, l, x) offre un excellent compromis entre la vitesse et la précision, permettant aux utilisateurs de sélectionner le modèle parfait pour leurs besoins spécifiques.
- Efficacité de la mémoire : Comparé aux modèles basés sur des transformateurs comme RTDETRv2, YOLOv5 nécessite beaucoup moins de mémoire CUDA pour l’entraînement, ce qui le rend accessible à un plus large éventail de développeurs et de chercheurs.
- Polyvalence : YOLOv5 prend en charge plusieurs tâches, notamment la détection d'objets, la segmentation d'instance et la classification d'images, le tout dans un framework unifié.
- Efficacité de l'entraînement : Le processus d'entraînement est rapide et efficace, avec des poids pré-entraînés facilement disponibles qui accélèrent la convergence sur des ensembles de données personnalisés.
Faiblesses
- Précision sur les scènes complexes : Bien que très précis, YOLOv5 peut être légèrement surpassé par RTDETRv2 en mAP sur les ensembles de données avec des objets très denses ou petits, où le contexte global est essentiel.
- Basée sur des ancres : Sa dépendance à des boîtes d’ancrage prédéfinies peut parfois nécessiter un réglage supplémentaire pour les ensembles de données avec des rapports d’aspect d’objet inhabituels, une étape qui n’est pas nécessaire dans les détecteurs sans ancres.
Cas d'utilisation idéaux
YOLOv5 excelle dans les applications où la vitesse, l’efficacité et le développement rapide sont prioritaires :
- Vidéosurveillance en temps réel : Alimente les systèmes d'alarme de sécurité et la surveillance des flux vidéo en direct.
- Edge Computing : Déploiement sur des appareils basse consommation pour des applications dans la robotique et l’automatisation industrielle.
- Applications mobiles : Ses modèles légers sont parfaits pour l’inférence sur l’appareil sur les smartphones.
- Prototypage rapide : La facilité d’utilisation et les cycles de formation rapides le rendent idéal pour développer et tester rapidement de nouvelles idées.
Analyse des performances : Vitesse vs. Précision
La principale distinction entre RTDETRv2 et YOLOv5 réside dans leur philosophie de conception. RTDETRv2 privilégie l'obtention de la plus haute précision possible en tirant parti d'une architecture de transformateur gourmande en calcul. En revanche, YOLOv5 est conçu pour un équilibre optimal entre la vitesse et la précision, ce qui en fait un choix plus pratique pour un plus large éventail de scénarios de déploiement, en particulier sur du matériel non-GPU.
Le tableau ci-dessous fournit une comparaison quantitative sur l'ensemble de données COCO val2017. Bien que les modèles RTDETRv2 atteignent un mAP plus élevé, les modèles YOLOv5, en particulier les variantes plus petites, offrent des vitesses d'inférence considérablement plus rapides, en particulier sur CPU.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Conclusion et recommandation
RTDETRv2 et YOLOv5 sont tous deux des modèles de détection d'objets puissants, mais ils répondent à des besoins différents.
RTDETRv2 est un excellent choix pour les applications où l'obtention de la plus haute précision absolue est la priorité absolue et où des ressources de calcul substantielles (en particulier des GPU haut de gamme) sont disponibles. Sa capacité à comprendre le contexte global le rend supérieur pour les benchmarks académiques et les tâches industrielles spécialisées avec des scènes complexes.
Cependant, pour la grande majorité des applications du monde réel, Ultralytics YOLOv5 reste le choix le plus pratique et le plus polyvalent. Son équilibre exceptionnel entre vitesse et précision, combiné à ses faibles besoins en ressources, le rend adapté au déploiement partout, du cloud à la périphérie. Les principaux avantages de YOLOv5—la facilité d'utilisation, un écosystème bien entretenu, l'efficacité de la formation et la polyvalence—en font le modèle de référence pour les développeurs et les chercheurs qui ont besoin de fournir des solutions robustes et performantes rapidement et efficacement.
Pour ceux qui recherchent les dernières avancées s'appuyant sur cette base solide, nous recommandons vivement d'explorer les nouveaux modèles Ultralytics tels que YOLOv8 et YOLO11, qui offrent des performances encore meilleures et plus de fonctionnalités dans le même cadre convivial.
Autres comparaisons de modèles
Si vous souhaitez savoir comment ces modèles se comparent à d'autres, consultez ces pages de comparaison :
- YOLOv5 vs YOLOv8
- YOLOv5 vs YOLOv9
- RTDETR vs YOLOv8
- RTDETR vs YOLO11
- EfficientDet vs YOLOv5
- YOLOX vs YOLOv5