RTDETRv2 vs YOLO11: comparaison entre les architectures Transformer et CNN
Le paysage de la détection d'objets en temps réel a évolué rapidement, avec deux philosophies architecturales distinctes en tête : l'approche Vision Transformer (ViT) défendue par des modèles tels que RTDETRv2, et la lignée des réseaux neuronaux convolutifs (CNN) perfectionnée par Ultralytics YOLO11.
Alors que RTDETRv2 (Real-Time Detection Transformer version 2) repousse les limites de ce que les architectures basées sur les transformateurs peuvent accomplir en termes de précision et de compréhension du contexte global, YOLO11 représente le summum de l'efficacité, de la polyvalence et de la facilité de déploiement. Cette comparaison explore leurs spécifications techniques, leurs différences architecturales et leurs applications pratiques afin d'aider les développeurs à choisir l'outil adapté à leurs projets de vision par ordinateur.
Tableau comparatif : mesures et spécifications
Le tableau suivant met en évidence les indicateurs de performance des deux modèles. Remarquez comment YOLO11 offre une gamme plus large de tailles de modèles, ce qui le rend adaptable à tout, des microcontrôleurs aux serveurs haut de gamme, tandis que RTDETRv2 se concentre principalement sur les modèles à haute capacité.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
Analyse architecturale
La principale différence entre ces deux modèles de pointe réside dans la manière dont ils traitent les informations visuelles.
RTDETRv2 : L’approche Transformer
Développé par les chercheurs de Baidu, RTDETRv2 s'appuie sur le succès du RT-DETR original. Il exploite la puissance des transformateurs pour capturer les dépendances à longue portée dans les images, une fonctionnalité souvent difficile à mettre en œuvre pour les CNN traditionnels.
- Encodeur hybride : RTDETRv2 utilise un encodeur hybride qui traite des caractéristiques multi-échelles, permettant au modèle de « s'intéresser » simultanément à différentes parties d'une image.
- PrédictionNMS: l'une de ses caractéristiques principales est l'élimination de la suppression non maximale (NMS). En prédisant directement les objets à l'aide d'un ensemble de requêtes, elle simplifie le pipeline de post-traitement, bien que cela se fasse souvent au prix d'une plus grande complexité de formation.
- Bag-of-Freebies : la mise à jour « v2 » introduit des stratégies d'entraînement optimisées et des ajustements architecturaux afin d'améliorer la vitesse et la précision de convergence par rapport à la base de référence d'origine.
Métadonnées :
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organisation : Baidu
- Date : 17 juillet 2024 (Arxiv v2)
- Arxiv :Document RT-DETRv2
- GitHub :Dépôt RT-DETR
YOLO11: la norme CNN perfectionnée
Ultralytics YOLO11 représente l'évolution de l'architecture CNN, en mettant l'accent sur l'optimisation de l'efficacité de l'extraction des caractéristiques tout en minimisant la charge de calcul.
- Blocs C3k2 et C2PSA : YOLO11 des blocs avancés dans son squelette et son cou. Le bloc C3k2 utilise différentes tailles de noyau pour une représentation plus riche des caractéristiques, tandis que le bloc C2PSA intègre efficacement des mécanismes d'attention sans le coût élevé des transformateurs complets.
- Prise en charge unifiée des tâches : contrairement à RTDETRv2, qui est principalement un détecteur d'objets, YOLO11 conçu comme une base visuelle universelle. Il prend en charge nativement la segmentation d'instances, l'estimation de pose, l'OBB et la classification dans le même cadre.
- Optimisation de la périphérie : l'architecture est spécialement conçue pour offrir une vitesse optimale sur divers matériels, des processeurs aux accélérateurs d'IA de périphérie tels que NVIDIA .
Métadonnées :
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 2024-09-27
- Docs :Documentation YOLO11
Le saviez-vous ?
Alors que RTDETRv2 supprime NMS conception, Ultralytics YOLO26 propose également une conception native NMS de bout en bout, combinant la vitesse des CNN avec le déploiement rationalisé des transformateurs.
Écosystème et facilité d'utilisation
Pour les développeurs et les ingénieurs en apprentissage automatique, l'écosystème logiciel qui entoure un modèle est souvent aussi important que les métriques brutes du modèle.
AvantagesUltralytics : YOLO11 de la Ultralytics , leader du secteur, qui offre une expérience cohérente, de la gestion des données au déploiement.
- Efficacité de la formation : YOLO11 sont réputés pour leur rapidité de formation. Le code source comprend un réglage automatisé des hyperparamètres et des vérifications intelligentes des ensembles de données.
- Flexibilité de déploiement : les utilisateurs peuvent exporter des modèles vers des formats tels que ONNX, TensorRT, CoreML et TFLite une seule ligne de code.
- Assistance communautaire : avec des millions de téléchargements, la Ultralytics fournit des ressources complètes, allant des tutoriels YouTube aux discussions actives sur GitHub.
Considérations relatives à RTDETRv2 : RTDETRv2 est avant tout un référentiel de recherche. Bien que puissant, il manque souvent d'expérience « clé en main ». La mise en place de pipelines de formation, la gestion des ensembles de données et l'exportation vers des périphériques de pointe nécessitent généralement davantage de configuration manuelle et Python .
Exigences en matière de performances et de ressources
Lors du déploiement dans le monde réel, il est essentiel de trouver le juste équilibre entre précision et consommation des ressources.
GPU et formation
Les transformateurs sont connus pour être très gourmands en mémoire. RTDETRv2 nécessite généralement une quantité importante de GPU pour stabiliser ses mécanismes d'attention pendant l'entraînement. Cela peut rendre difficile l'entraînement sur du matériel grand public ou nécessiter des lots de taille réduite, ce qui peut affecter les statistiques de normalisation des lots.
YOLO11 est nettement plus économe en mémoire. Son architecture basée sur un réseau neuronal convolutif (CNN) permet de traiter des lots plus volumineux sur des GPU standard, ce qui accélère l'entraînement et réduit les coûts de développement. Cette efficacité s'étend à l'inférence, où les modèles YOLO11n peuvent fonctionner en temps réel sur des CPU, une prouesse que les modèles basés sur des transformateurs ont du mal à égaler en raison de leur complexité computationnelle quadratique par rapport aux jetons d'image.
Compromis entre précision et rapidité
Comme le montre le tableau comparatif, YOLO11x atteint un mAP supérieur mAP (54,7) que RTDETRv2-x (54,3) tout en conservant des vitesses d'inférence compétitives. Pour les applications nécessitant une vitesse extrême, les YOLO11 plus petites (n/s) offrent un niveau de performance que RTDETRv2 ne vise pas, ce qui fait de YOLO11 gagnant incontestable pour les déploiements mobiles et IoT.
Exemple de code : utilisation de YOLO11 RT-DETR
Ultralytics une assistance de premier ordre pour ses YOLO natifs et les versions prises en charge de RT-DETR, vous permettant ainsi de passer d'une architecture à l'autre en toute transparence.
from ultralytics import RTDETR, YOLO
# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
# Visualize the YOLO11 results
for result in results_yolo:
result.show()
Applications concrètes
Où YOLO11 excelle
Grâce à son faible encombrement et à sa grande vitesse, YOLO11 le choix privilégié pour :
- Systèmes autonomes : drones et robotique où une faible latence est essentielle pour la sécurité.
- Villes intelligentes : surveillance du trafic en temps réel sur des appareils périphériques tels que NVIDIA .
- Agriculture : surveillance des cultures et détection des mauvaises herbes sur des équipements mobiles alimentés par batterie.
- Tâches polyvalentes : projets nécessitant une estimation de la pose ou des boîtes englobantes orientées en plus de la détection.
Où RTDETRv2 s'Intègre
RTDETRv2 est bien adapté pour :
- Serveurs haute performance : scénarios dans lesquels une puissance et GPU illimitées sont disponibles.
- Occlusions complexes : environnements dans lesquels le champ réceptif global des transformateurs aide à résoudre les chevauchements importants entre les objets.
- Recherche : exploration académique des transformateurs de vision (ViT).
Conclusion
Ces deux architectures démontrent les progrès incroyables réalisés dans le domaine de la vision par ordinateur. RTDETRv2 met en évidence le potentiel des transformateurs pour remettre en cause la domination des CNN dans les tâches de détection. Cependant, pour la grande majorité des applications pratiques, Ultralytics YOLO11 reste le choix le plus judicieux.
Grâce à son cadre unifié, ses besoins en ressources réduits, sa gamme étendue de tâches prises en charge et son écosystème de déploiement mature, YOLO11 aux développeurs de passer plus rapidement du prototype à la production. Pour ceux qui recherchent une efficacité optimale et une conception NMS, nous recommandons également d'explorer le tout dernier YOLO26, qui combine les meilleurs atouts des deux mondes dans une solution unifiée et complète.