YOLO11 RTDETRv2 : comparaison de l'évolution des CNN et des transformateurs de vision
Le domaine de la vision par ordinateur s'est rapidement développé, offrant aux développeurs une multitude de choix pour créer des applications robustes basées sur la vision. Dans le domaine de la détection d'objets en temps réel, le débat entre les réseaux neuronaux convolutifs (CNN) et les transformateurs de vision (ViT) est plus vif que jamais. Cette comparaison technique examine en détail deux architectures de pointe : YOLO11, qui représente le summum des frameworks CNN hautement optimisés, et RTDETRv2, une puissante itération de la famille des transformateurs de détection.
En analysant leurs architectures, leurs indicateurs de performance et leurs scénarios de déploiement idéaux, ce guide vise à aider les ingénieurs en apprentissage automatique à prendre des décisions éclairées. Si les deux modèles repoussent les limites de la précision, Ultralytics YOLO offrent généralement un meilleur équilibre entre vitesse, prise en charge de l'écosystème et facilité d'utilisation pour la production en conditions réelles.
YOLO11: la référence en matière de polyvalence dans le monde réel
Présenté par Ultralytics, YOLO11 sur des années de recherche fondamentale pour offrir un modèle rapide, précis et incroyablement polyvalent. Il est conçu pour gérer de manière transparente la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de poses et l'extraction de cadres de sélection orientés (OBB) de manière native.
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation :Ultralytics
- Date : 2024-09-27
- GitHub :Dépôt Ultralytics
- Docs :Documentation YOLO11
Architecture et points forts
YOLO11 une structure CNN raffinée et YOLO11 pyramides de caractéristiques spatiales avancées, ce qui le rend exceptionnellement économe en ressources. Il est particulièrement performant dans les environnements soumis à des contraintes matérielles strictes, offrant une empreinte mémoire minimale pendant l'entraînement et l'inférence. La Ultralytics fournit une prise en charge native de YOLO11, permettant une surveillance rationalisée des modèles, l'annotation des données et l'entraînement dans le cloud sans avoir à assembler des outils MLops disparates.
Pour les développeurs qui ciblent l'informatique de pointe, YOLO11 une latence ultra-faible. Sa légèreté lui permet de fonctionner efficacement sur des appareils allant des Raspberry Pi aux téléphones mobiles grand public, ce qui en fait une référence pour le commerce de détail intelligent, le contrôle qualité dans le secteur manufacturier et la gestion automatisée du trafic.
RTDETRv2 : Transformateurs en temps réel par Baidu
RTDETRv2 (Real-Time Detection Transformer version 2) représente les efforts déployés par Baidu pour rendre les architectures basées sur les transformateurs viables pour les tâches en temps réel. Il s'appuie sur le RT-DETR original RT-DETR intégrant une approche « bag-of-freebies » afin d'améliorer la précision de base sans augmenter la latence d'inférence.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2024-07-24
- Arxiv :2407.17140
- GitHub :Dépôt RT-DETRv2
- Documents :RTDETRv2 README
Architecture et points forts
Contrairement aux CNN traditionnels, RTDETRv2 utilise une architecture encodeur-décodeur avec des mécanismes d'auto-attention, ce qui lui permet de capturer le contexte global d'une image. Cela est particulièrement avantageux dans les scènes encombrées où les occlusions sont fréquentes. RTDETRv2 élimine le besoin de suppression non maximale (NMS) dans le post-traitement, en s'appuyant plutôt sur l'appariement hongrois pendant l'entraînement pour un appariement bipartite un-à-un.
Cependant, les modèles de transformateurs sont connus pour être très gourmands en CUDA VRAM et CUDA . L'entraînement de RTDETRv2 à partir de zéro ou le réglage fin sur des ensembles de données personnalisés nécessite souvent GPU haut de gamme importants, ce qui peut constituer un obstacle pour les petites équipes agiles par rapport à l'empreinte d'entraînement légère Ultralytics .
Analyse des performances et des indicateurs
Lorsque nous évaluons ces modèles sur COCO standard COCO , nous observons des compromis évidents entre les paramètres, les FLOP et la précision brute.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analyse des résultats
Comme le montre le tableau, YOLO11 un rapport performances/taille incroyable. Le YOLO11x atteint unmAPval plus élevé (54,7) que le RTDETRv2-x (54,3), tout en utilisant beaucoup moins de paramètres (56,9 millions contre 76 millions) et nettement moins de FLOPs de calcul (194,9 milliards contre 259 milliards).
De plus, les vitesses d'inférence YOLO11 sur T4 TensorRT est exceptionnellement rapide. YOLO11s effectue l'inférence en seulement 2,5 ms, tandis que le plus petit RTDETRv2-s prend 5,03 ms. Cela fait de YOLO11 choix incontournable pour les flux d'analyse vidéo en temps réel à haute vitesse, où le temps de traitement des images est le principal goulot d'étranglement.
Le coût des transformateurs
Si RTDETRv2 atteint une excellente précision grâce à ses couches d'attention, ces mécanismes évoluent de manière quadratique avec la résolution de l'image, ce qui entraîne une consommation plus élevée de VRAM pendant l'entraînement et l'inférence. YOLO11 ce problème grâce à ses blocs convolutifs hyper-efficaces.
Écosystème d'entraînement et convivialité
L'avantage principal de l'adoption d'un Ultralytics réside dans l'écosystème qui l'entoure. La formation RTDETRv2 implique souvent de naviguer dans des référentiels complexes de niveau recherche, d'ajuster des poids de perte de correspondance bipartite complexes et de gérer une charge mémoire importante.
À l'inverse, Ultralytics fortement Ultralytics sur l'expérience développeur. Python unifiée supprime le code standard et s'intègre de manière transparente à des outils tels que Weights & Biases pour le suivi des expériences et la gestion automatique des augmentations de données.
Voici à quel point il est simple de former et d'exporter un modèle à l'aide du ultralytics package :
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
Une fois formé, exporter un YOLO11 vers des formats tels que ONNX, OpenVINOou CoreML ne nécessite qu'une seule commande, garantissant ainsi que votre pipeline de vision peut s'adapter sans effort à divers backends matériels.
Capacités multitâches
N'oubliez pas que, tandis que RTDETRv2 se concentre exclusivement sur la détection de boîtes englobantes, YOLO11 prend en charge nativement l'estimation de pose et la segmentation d'instances, ce qui vous permet de regrouper plusieurs tâches de vision dans une seule famille de modèles.
Cas d'utilisation et recommandations
Le choix entre YOLO11 RT-DETR des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLO11
YOLO11 un excellent choix pour :
- Déploiement en production : applications commerciales sur des appareils tels que Raspberry Pi ou NVIDIA , où la fiabilité et la maintenance active sont primordiales.
- Applications de vision multitâches : projets nécessitant la détection, la segmentation, l'estimation de la pose et l'OBB dans un cadre unique et unifié.
- Prototypage et déploiement rapides : équipes qui doivent passer rapidement de la collecte de données à la production à l'aide de Python Ultralytics simplifiée.
Quand choisir RT-DETR
RT-DETR recommandé pour :
- Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Perspectives : La puissance de YOLO26
Si YOLO11 un excellent choix en termes de production, les équipes à la recherche d'une technologie de pointe devraient sérieusement envisager YOLO26. Lancé en janvier 2026, YOLO26 comble le fossé architectural en intégrant directement dans son cœur une conception de bout en bout NMS (introduite pour la première fois dans YOLOv10), éliminant ainsi totalement la latence post-traitement et la complexité de la logique de déploiement.
YOLO26 introduit également plusieurs fonctionnalités révolutionnaires :
- Optimiseur MuSGD : inspiré des techniques d'entraînement LLM de Kimi K2 de Moonshot AI, cet hybride de SGD Muon garantit un entraînement incroyablement stable et une convergence nettement plus rapide.
- Suppression de la perte focale de distribution (DFL) : la perte focale de distribution a été supprimée afin de simplifier et d'optimiser le processus d'exportation, améliorant ainsi considérablement la compatibilité des appareils périphériques à faible consommation d'énergie.
- ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, une exigence essentielle pour la surveillance par drone, la surveillance agricole et les capteurs IoT périphériques.
- CPU jusqu'à 43 % plus rapide : pour les déploiements ne disposant pas de GPU dédiés, YOLO26 est spécialement optimisé pour CPU , surpassant largement les générations précédentes.
Pour ceux qui souhaitent explorer un éventail plus large d'architectures, la Ultralytics fournit également des informations sur YOLOv8, le très répandu YOLOv5, et des modèles spécialisés tels que YOLO pour les applications de détection à vocabulaire ouvert. En fin de compte, que vous privilégiez la stabilité éprouvée de YOLO11 les innovations révolutionnaires de YOLO26, Ultralytics offre des outils inégalés pour donner vie à vos solutions de vision par ordinateur.