Link to this sectionYOLO11 vs RTDETRv2#
Le paysage de la vision par ordinateur s'est rapidement élargi, offrant aux développeurs une myriade de choix pour construire des applications robustes basées sur la vision. Dans le domaine de la détection d'objets en temps réel, le débat entre les réseaux de neurones convolutifs (CNN) et les transformateurs de vision (ViTs) est plus présent que jamais. Cette comparaison technique se penche sur deux architectures de premier plan : YOLO11, représentant le summum des frameworks CNN hautement optimisés, et RTDETRv2, une itération puissante de la famille Detection Transformer.
En analysant leurs architectures, leurs métriques de performance et leurs scénarios de déploiement idéaux, ce guide vise à aider les ingénieurs en machine learning à prendre des décisions éclairées. Bien que les deux modèles repoussent les limites de la précision, les modèles Ultralytics YOLO offrent généralement un meilleur équilibre entre vitesse, support de l'écosystème et facilité d'utilisation pour la production réelle.
Link to this sectionYOLO11 : La référence en matière de polyvalence pour le monde réel#
Introduit par Ultralytics, YOLO11 s'appuie sur des années de recherche fondamentale pour fournir un modèle rapide, précis et incroyablement polyvalent. Il est conçu pour gérer nativement la détection d'objets, la segmentation d'instances, la classification d'images, l'estimation de pose et l'extraction de boîtes englobantes orientées (OBB).
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation : Ultralytics
- Date : 2024-09-27
- GitHub : Dépôt Ultralytics
- Docs : Documentation YOLO11
Link to this sectionArchitecture et points forts#
YOLO11 intègre une architecture CNN raffinée et des pyramides de caractéristiques spatiales avancées, le rendant exceptionnellement efficace en ressources. Il excelle dans les environnements soumis à des contraintes matérielles strictes, offrant une empreinte mémoire minimale lors de l'entraînement et de l'inférence. La plateforme Ultralytics fournit un support natif pour YOLO11, permettant une surveillance rationalisée des modèles, l'annotation de données et l'entraînement dans le cloud sans avoir besoin d'assembler des outils MLOps disparates.
Pour les développeurs ciblant l'edge computing, YOLO11 se vante d'une latence ultra-faible. Sa nature légère lui permet de fonctionner efficacement sur des appareils allant des Raspberry Pi aux téléphones mobiles grand public, ce qui en fait un standard pour le commerce intelligent, le contrôle qualité en fabrication et la gestion automatisée du trafic.
Link to this sectionRTDETRv2 : Les transformeurs en temps réel par Baidu#
RTDETRv2 (Real-Time Detection Transformer version 2) représente l'effort de Baidu pour rendre les architectures basées sur les transformateurs viables pour les tâches en temps réel. Il s'appuie sur le RT-DETR original en incorporant une approche "bag-of-freebies" pour améliorer la précision de base sans augmenter la latence d'inférence.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation : Baidu
- Date : 24-07-2024
- Arxiv : 2407.17140
- GitHub : Dépôt RT-DETRv2
- Documentation : README RTDETRv2
Link to this sectionArchitecture et points forts#
Contrairement aux CNN traditionnels, RTDETRv2 utilise une architecture encodeur-décodeur avec des mécanismes d'auto-attention, lui permettant de capturer le contexte global à travers une image. Cela est particulièrement avantageux dans les scènes encombrées où les occlusions sont fréquentes. RTDETRv2 élimine le besoin de suppression non-maximale (NMS) dans le post-traitement, s'appuyant plutôt sur le matching hongrois pendant l'entraînement pour un appariement biparti un-à-un.
Cependant, les modèles de transformateurs sont notoirement gourmands en VRAM et en mémoire CUDA. Entraîner RTDETRv2 à partir de zéro ou effectuer un réglage fin sur des jeux de données personnalisés nécessite souvent des clusters GPU haut de gamme substantiels, ce qui peut constituer un obstacle pour les petites équipes agiles par rapport à l'empreinte d'entraînement légère des modèles Ultralytics.
Link to this sectionAnalyse des performances et des mesures#
Lors de l'évaluation de ces modèles sur le jeu de données COCO standard, nous observons des compromis clairs entre les paramètres, les FLOPs et la précision brute.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11,3 | 56,9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionAnalyse des résultats#
Comme le montre le tableau, YOLO11 offre un rapport performance/taille incroyable. Le YOLO11x atteint un mAPval plus élevé (54,7) par rapport au RTDETRv2-x (54,3), tout en utilisant significativement moins de paramètres (56,9M contre 76M) et beaucoup moins de FLOPs computationnels (194,9B contre 259B).
De plus, les vitesses d'inférence de YOLO11 sur TensorRT T4 sont exceptionnellement rapides. YOLO11s termine l'inférence en seulement 2,5 ms, alors que le plus petit RTDETRv2-s prend 5,03 ms. Cela fait de YOLO11 le choix définitif pour les flux d'analyse vidéo haute vitesse en temps réel où le temps de traitement des images est le principal goulot d'étranglement.
Bien que RTDETRv2 atteigne une excellente précision grâce à ses couches d'attention, ces mécanismes évoluent de manière quadratique avec la résolution de l'image, entraînant une consommation de VRAM plus élevée pendant l'entraînement et l'inférence. YOLO11 contourne cela avec ses blocs convolutifs hyper-efficaces.
Link to this sectionÉcosystème d'entraînement et utilisabilité#
L'avantage principal d'adopter un modèle Ultralytics réside dans l'écosystème environnant. L'entraînement de RTDETRv2 implique souvent de naviguer dans des dépôts complexes de niveau recherche, d'ajuster des poids de perte d'appariement biparti complexes et de gérer une surcharge mémoire importante.
À l'inverse, Ultralytics se concentre fortement sur l'expérience développeur. L'API Python unifiée résume le code répétitif, s'intégrant de manière transparente avec des outils comme Weights & Biases pour le suivi d'expérimentation, et gérant automatiquement les augmentations de données.
Voici à quel point il est simple d'entraîner et d'exporter un modèle en utilisant le package ultralytics :
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")Une fois entraîné, l'exportation d'un modèle YOLO11 vers des formats comme ONNX, OpenVINO ou CoreML ne nécessite qu'une seule commande, garantissant que ton pipeline de vision peut évoluer sans effort à travers divers backends matériels.
N'oublie pas que, bien que RTDETRv2 se concentre exclusivement sur la détection par boîte englobante, l'architecture YOLO11 prend nativement en charge l'estimation de pose et la segmentation d'instances, te permettant de consolider plusieurs tâches de vision en une seule famille de modèles.
Link to this sectionCas d'utilisation et recommandations#
Choisir entre YOLO11 et RT-DETR dépend de tes exigences de projet spécifiques, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.
Link to this sectionQuand choisir YOLO11#
YOLO11 est un choix solide pour :
- Déploiement en production en périphérie : Applications commerciales sur des appareils comme Raspberry Pi ou NVIDIA Jetson où la fiabilité et la maintenance active sont primordiales.
- Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et l'OBB au sein d'un cadre unifié unique.
- Prototypage et déploiement rapides : Équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python Ultralytics simplifiée.
Link to this sectionQuand choisir RT-DETR#
RT-DETR est recommandé pour :
- Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Link to this sectionQuand choisir Ultralytics (YOLO26)#
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
- Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Link to this sectionRegard vers l'avenir : La puissance de YOLO26#
Bien que YOLO11 soit un excellent choix pour la production, les équipes à la recherche de la pointe absolue devraient sérieusement envisager YOLO26. Sorti en janvier 2026, YOLO26 comble le fossé architectural en intégrant directement une conception End-to-End sans NMS (pionnière dans YOLOv10) au cœur de son fonctionnement, éliminant totalement la latence de post-traitement et la complexité de la logique de déploiement.
YOLO26 introduit également plusieurs fonctionnalités révolutionnaires :
- Optimiseur MuSGD : Inspiré par les techniques d'entraînement LLM de Kimi K2 de Moonshot AI, cet hybride de SGD et Muon garantit un entraînement incroyablement stable et une convergence nettement plus rapide.
- Suppression de DFL : La Distribution Focal Loss a été supprimée pour un processus d'exportation plus propre et simplifié, améliorant radicalement la compatibilité avec les appareils edge à faible consommation.
- ProgLoss + STAL : Ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance de petits objets, une exigence critique pour la surveillance par drone, le suivi agricole et les capteurs IoT edge.
- Jusqu'à 43 % d'inférence CPU plus rapide : Pour les déploiements dépourvus de GPU dédiés, YOLO26 est spécifiquement optimisé pour l'exécution sur CPU, surpassant largement les générations précédentes.
Pour ceux qui souhaitent explorer un plus large éventail d'architectures, la documentation Ultralytics fournit également des perspectives sur YOLOv8, le très adopté YOLOv5, et des modèles spécialisés comme YOLO-World pour les applications de détection à vocabulaire ouvert. En fin de compte, qu'il s'agisse de privilégier la stabilité éprouvée de YOLO11 ou les innovations révolutionnaires de YOLO26, l'écosystème Ultralytics fournit des outils inégalés pour donner vie à tes solutions de vision par ordinateur.