RTDETRv2 vs. YOLOv5 : Une comparaison technique
Le choix de l'architecture de détection d'objets appropriée est une décision cruciale qui a des répercussions sur tous les aspects, des coûts de déploiement à l'expérience utilisateur. Dans cette comparaison détaillée, nous explorons les compromis entre RTDETRv2, un transformateur en temps réel de pointe développé par Baidu, et Ultralytics YOLOv5, le modèle légendaire basé sur CNN qui a établi la norme en matière de facilité d'utilisation et de fiabilité dans le domaine de la vision par ordinateur.
Alors que RTDETRv2 introduit des innovations passionnantes basées sur les transformateurs, YOLOv5 ses successeurs (comme le très performant YOLO26) restent les références du secteur en matière de polyvalence, de rapidité de déploiement et d'expérience développeur.
Résumé
RTDETRv2 (Real-Time Detection Transformer v2) est une évolution de l'architecture DETR, conçue pour éliminer la suppression non maximale (NMS) tout en offrant une grande précision sur GPU . Elle est idéale pour les environnements de recherche et les déploiements de serveurs haut de gamme où la VRAM est abondante.
YOLOv5 (You Only Look Once v5) est une architecture CNN mature et prête à l'emploi. Réputée pour sa simplicité d'installation et d'utilisation, elle excelle dans le domaine de l'edge computing, de l'apprentissage rapide et de la compatibilité matérielle étendue. Pour les développeurs à la recherche d'une vitesse et d'une précision optimales, Ultralytics recommande Ultralytics YOLO26, qui combine les avantages des transformateurs NMS avec la vitesse de YOLO.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Architecture et conception
La différence fondamentale réside dans la manière dont ces modèles traitent les informations visuelles : transformateurs vs réseaux neuronaux convolutifs (CNN).
RTDETRv2 : L’approche Transformer
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 17 avril 2023 ( RT-DETR original), 2024 (v2)
Liens :ArXiv | GitHub
RTDETRv2 utilise une architecture hybride encodeur-décodeur. Il utilise une structure CNN (souvent ResNet ou HGNetv2) pour extraire des caractéristiques, qui sont ensuite traitées par un encodeur transformateur efficace. L'innovation clé réside dans l'encodeur hybride, qui découple l'interaction intra-échelle et la fusion inter-échelle afin de réduire les coûts de calcul.
Sa caractéristique la plus remarquable est sa prédictionNMS. En utilisant l'appariement bipartite pendant l'entraînement, le modèle apprend à produire exactement une boîte par objet, ce qui élimine le besoin d'étapes de post-traitement telles que la suppression non maximale (NMS). Cependant, cela se fait au prix d'une consommation de mémoire plus élevée et d'une convergence d'entraînement plus lente par rapport aux CNN purs.
YOLOv5: la norme CNN
Auteur : Glenn Jocher
Organisation :Ultralytics
Date : 26/06/2020
Liens :Docs | GitHub
YOLOv5 une architecture CNN hautement optimisée basée sur le backbone CSPNet et un neck PANet. Cette conception privilégie le flux de gradient et la réutilisation des caractéristiques, ce qui donne un modèle exceptionnellement léger et rapide. Contrairement aux transformateurs, qui nécessitent des ensembles de données massifs pour apprendre le contexte global, le biais inductif YOLOv5 lui permet d'apprendre efficacement à partir d'ensembles de données plus petits avec beaucoup moins de calculs.
L'évolution : YOLO26
Alors que YOLOv5 sur NMS, le nouveau Ultralytics adopte une conception End-to-End NMS similaire à RTDETRv2, tout en conservant la vitesse et l'efficacité d'entraînement de la YOLO . Il introduit également l'optimiseur MuSGD, qui accélère considérablement la convergence.
Analyse des performances
Vitesse d'inférence et latence
Lors du déploiement en production, la latence est souvent le goulot d'étranglement. YOLOv5 dans les environnements CPU et les appareils périphériques. La simplicité architecturale des CNN s'adapte efficacement aux processeurs standard et aux NPU mobiles.
RTDETRv2 excelle sur les GPU modernes (comme les NVIDIA ou A100), où ses opérations de multiplication matricielle sont parallélisées efficacement. Cependant, sur les appareils périphériques comme le Raspberry Pi, les opérations du transformateur peuvent être extrêmement lourdes, ce qui entraîne un FPS inférieur à celui de YOLOv5n ou YOLOv5s.
Précision (mAP)
RTDETRv2 obtient généralement une précision moyenne (mAP) supérieure à celle YOLOv5 sur COCO , en particulier pour les objets de grande taille et les scènes complexes où le contexte global est crucial. Par exemple, RTDETRv2-L atteint une mAP 53,4 %, surpassant YOLOv5x (50,7 %) tout en utilisant moins de paramètres.
Cependant, la précision n'est pas le seul critère. Dans des scénarios réels impliquant de petits objets ou des flux vidéo avec flou de mouvement, la différence s'amenuise. De plus, Ultralytics nouveaux Ultralytics tels que YOLO11 et YOLO26, ont comblé cet écart, offrant une précision comparable ou supérieure avec une meilleure efficacité.
Efficacité de l'entraînement et écosystème
C'est là que Ultralytics offre un avantage distinct.
Ultralytics YOLOv5 YOLO26 :
- Convergence rapide : les CNN convergent généralement plus rapidement que les transformateurs. Vous pouvez entraîner un YOLOv5 utilisable en quelques heures sur un seul GPU.
- Faible empreinte mémoire : l'entraînement YOLO beaucoup moins de VRAM, ce qui le rend accessible aux chercheurs utilisant des cartes grand public (par exemple, RTX 3060).
- Augmentation des données : le Ultralytics comprend des stratégies d'augmentation de pointe (Mosaic, MixUp) activées par défaut.
- Intégration de la plateforme : connectez-vous en toute transparence à la Ultralytics pour la gestion des ensembles de données, la formation dans le cloud et le déploiement en un clic.
RTDETRv2 :
- Gourmand en ressources : les transformateurs sont connus pour être gourmands en données et en puissance de calcul pendant l'entraînement. La stabilisation du mécanisme d'attention nécessite souvent des programmes d'entraînement plus longs (souvent plus de 72 époques pour égaler ce que YOLO en moins).
- Configuration complexe : en tant que référentiel axé sur la recherche, la configuration de RTDETRv2 pour des ensembles de données personnalisés implique souvent de modifier les fichiers de configuration et d'adapter manuellement les chargeurs de données.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Cas d'utilisation concrets
Scénarios idéaux pour YOLOv5 YOLO26
Ultralytics est le « couteau suisse » de la vision par ordinateur, adapté à 90 % des applications commerciales.
- Edge AI & IoT : idéal pour NVIDIA ou les applications mobiles où la consommation électrique et les limites thermiques constituent des contraintes strictes.
- Fabrication : utilisé dans le contrôle qualité des chaînes de montage où les déductions doivent être effectuées en quelques millisecondes pour suivre le rythme de production.
- Tâches variées : au-delà de la détection, Ultralytics prennent en charge de manière native la segmentation d'instances, l'estimation de pose, l'OBB et la classification.
- Agriculture : les modèles légers tels que YOLOv5n sont idéaux pour la surveillance des cultures à l'aide de drones, car ils fonctionnent directement sur le matériel du drone.
Scénarios idéaux pour RTDETRv2
- Surveillance haut de gamme : caméras de sécurité fixes connectées à des serveurs puissants où la précision maximale est préférée à la latence périphérique.
- Recherche universitaire : exploration des mécanismes de l'attention et des transformateurs de vision.
- Scènes encombrées : le mécanisme d'attention global peut parfois mieux gérer les occlusions importantes que les CNN purs, à condition que le matériel puisse supporter la charge de calcul.
Conclusion
RTDETRv2 et YOLOv5 tous deux des étapes importantes dans l'histoire de la détection d'objets. RTDETRv2 prouve que les transformateurs peuvent fonctionner en temps réel sur des GPU haut de gamme, offrant une grande précision et une architecture élégante NMS.
Cependant, pour la grande majorité des développeurs et des applications commerciales, Ultralytics restent le choix le plus judicieux. La combinaison de la maturité YOLOv5 et des innovations de pointe de YOLO26 vous garantit de disposer de l'outil adapté à toutes les contraintes.
Pourquoi passer à YOLO26 ? Si vous comparez ces modèles pour un nouveau projet en 2026, nous vous recommandons vivement YOLO26. Il combine le meilleur des deux mondes :
- De bout en bout en mode natif : comme RTDETRv2, il supprime NMS simplifier le déploiement.
- CPU jusqu'à 43 % plus rapide : optimisée spécifiquement pour la périphérie, contrairement aux transformateurs lourds.
- Polyvalence des tâches : prend en charge la détection, la segmentation, la pose et l'OBB dans un cadre unique.
Pour en savoir plus sur d'autres architectures, consultez nos comparaisons entre RT-DETR YOLO11, ainsi YOLOv8 EfficientDet.