RTDETRv2 vs YOLOX : une analyse approfondie de l'évolution de la détection d'objets en temps réel
Le domaine de la détection d'objets a évolué rapidement au cours des dernières années, passant d'architectures basées sur des ancrages à des conceptions sans ancrages et, plus récemment, à des modèles hybrides basés sur des transformateurs. RTDETRv2 et YOLOX constituent deux étapes importantes de cette évolution. Alors que YOLOX a redéfini les capacités de la YOLO en 2021 en supprimant les ancrages et NMS , RTDETRv2 (lancé en 2024) a repoussé les limites en intégrant Vision Transformers (ViT) pour une précision supérieure dans les scènes complexes.
Ce guide fournit une comparaison technique complète de ces deux modèles influents, en analysant leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux afin de vous aider à choisir l'outil adapté à vos projets de vision par ordinateur.
RTDETRv2 : le concurrent basé sur le transformateur
RTDETRv2 (Real-Time Detection Transformer version 2) représente une avancée significative dans l'application des architectures de transformateurs à des scénarios en temps réel. Alors que les transformateurs traditionnels étaient puissants mais lents, RTDETRv2 optimise ce compromis pour offrir une précision de pointe à des vitesses compétitives.
Principales caractéristiques architecturales
RTDETRv2 s'appuie sur le RT-DETR original, en utilisant une structure hybride encodeur-décodeur. Il utilise une structure CNN (généralement ResNet ou HGNetv2) pour extraire efficacement les caractéristiques, suivie d'un encodeur transformateur pour capturer les dépendances à longue portée dans l'image.
- Intégration du transformateur de vision : contrairement aux modèles purement basés sur les CNN, RTDETRv2 utilise des mécanismes d'auto-attention pour comprendre la relation entre les parties éloignées d'une image, ce qui le rend particulièrement efficace pour gérer les occlusions et les scènes encombrées.
- Prédiction de bout en bout : elle vise à rationaliser le processus de détection, même si certaines implémentations peuvent encore être optimisées.
- Mise à l'échelle dynamique : l'architecture est conçue pour gérer plus efficacement les fonctionnalités multi-échelles que ses prédécesseurs.
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 17 avril 2023 (v1), juillet 2024 (v2)
Liens :Arxiv | GitHub
YOLOX : Le pionnier sans ancrage
Sorti en 2021, YOLOX a révolutionné le domaine en s'écartant de la YOLO traditionnelle YOLO (YOLOv3, v4, v5) en adoptant un mécanisme sans ancrage et une tête découplée.
Principales caractéristiques architecturales
YOLOX a simplifié le processus de détection en supprimant le besoin de boîtes d'ancrage prédéfinies, qui nécessitaient souvent un réglage heuristique pour des ensembles de données spécifiques.
- Mécanisme sans ancrage : en prédisant directement les centres et les tailles des objets, YOLOX a réduit la complexité de la conception et amélioré la généralisation sur divers ensembles de données.
- Tête découplée : la séparation des tâches de classification et de régression en différentes branches de la tête du réseau a permis d'améliorer la convergence et la précision.
- Attribution d'étiquettes SimOTA : cette stratégie avancée d'attribution d'étiquettes a traité le processus d'apprentissage comme un problème de transport optimal, ce qui a permis une convergence plus rapide et une meilleure attribution dynamique des étiquettes.
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation :Megvii
Date : 18 juillet 2021
Liens :Arxiv | GitHub
Comparaison technique des performances
Lors du choix d'un modèle pour la production, les mesures brutes sont cruciales. Vous trouverez ci-dessous une comparaison détaillée des performances sur l'ensemble COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Analyse des métriques
Les données révèlent un écart générationnel évident. RTDETRv2 surpasse systématiquement YOLOX en termes de précision (mAP) pour des modèles de taille similaire. Par exemple, RTDETRv2-l atteint mAP de 53,4 %, nettement supérieur à celui de YOLOX-l (49,7 %), tout en conservant des vitesses d'inférence comparables sur GPU .
Cependant, YOLOX conserve un avantage dans la catégorie des systèmes ultra-légers. Les variantes YOLOX-Nano et Tiny sont extrêmement petites (à partir de 0,91 Mo de paramètres), ce qui les rend viables pour le matériel informatique de pointe existant où chaque kilo-octet de mémoire compte.
Utilisation de la mémoire par les Transformers
Bien que RTDETRv2 offre une plus grande précision, les modèles basés sur des transformateurs consomment généralement beaucoup plus de VRAM pendant l'entraînement et l'inférence que les architectures CNN pures telles que YOLOX. Ces besoins élevés en mémoire peuvent constituer un goulot d'étranglement lors de l'entraînement sur des GPU grand public dotés CUDA limitée.
L'avantage Ultralytics
Si l'analyse de modèles historiques tels que YOLOX et RTDETRv2 est précieuse pour la recherche, le développement moderne exige des outils faciles à utiliser, dotés d'un écosystème bien entretenu et d'une efficacité supérieure.
Ultralytics , y compris YOLOv8 et le modèle de pointe YOLO26, sont conçus pour combler le fossé entre les performances élevées et l'expérience des développeurs.
- API simplifiée : passer d'un modèle à l'autre ne nécessite qu'une seule ligne de code.
- Polyvalence : contrairement à YOLOX qui se concentre uniquement sur la détection, Ultralytics de manière native la segmentation, l'estimation de la pose et la détection des boîtes englobantes orientées (OBB).
- Efficacité de l'entraînement : Ultralytics sont optimisés pour s'entraîner plus rapidement avec une mémoire moins gourmande, rendant ainsi l'IA haut de gamme accessible sans matériel industriel.
Performances de nouvelle génération : YOLO26
Pour les développeurs qui recherchent les meilleures performances possibles en 2026, nous recommandons YOLO26. Il intègre les meilleures fonctionnalités des CNN et des Transformers tout en éliminant leurs faiblesses.
- NMS de bout en bout : YOLO26 est nativement de bout en bout, ce qui élimine le besoin de suppression non maximale (NMS). Cela simplifie considérablement les pipelines de déploiement par rapport à YOLOX.
- Optimiseur MuSGD : tirant parti des innovations issues de la formation LLM (inspirée par Moonshot AI), YOLO26 utilise l'optimiseur MuSGD pour une convergence stable et rapide.
- Optimisation de la périphérie : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 est jusqu'à 43 % plus rapide en termes CPU , ce qui le rend bien supérieur à RTDETRv2 pour les appareils périphériques qui ne disposent pas de GPU puissants.
Cas d'utilisation concrets
Le choix entre ces architectures dépend fortement de votre environnement de déploiement spécifique.
Idéal pour RTDETRv2
- Surveillance dans les foules : le mécanisme d'attention transformateur excelle dans les scénarios de gestion de foules où les objets (les personnes) se chevauchent fortement.
- Compréhension de scènes complexes : les applications nécessitant une prise en compte du contexte, telles que la navigation autonome des véhicules, tirent parti du champ réceptif global du transformateur.
Idéal pour YOLOX
- Appareils périphériques hérités : pour les appareils extrêmement limités tels que les anciens Raspberry Pi ou les microcontrôleurs, le YOLOX-Nano est une option légère qui s'adapte là où les transformateurs ne peuvent pas être utilisés.
- Références académiques : grâce à sa conception découplée et sans ancrage, YOLOX reste une référence populaire pour l'étude des mécanismes fondamentaux de détection d'objets dans la recherche.
Exemple de code : Ultralytics
L'un des arguments les plus convaincants en faveur de l'utilisation de Ultralytics est son interface unifiée. Que vous utilisiez un modèle basé sur un transformateur comme RT-DETR un YOLO basé sur un CNN, le code reste cohérent.
Voici comment charger et exécuter l'inférence à l'aide duPython Ultralytics :
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
Suivi des expériences
Ultralytics parfaitement à des outils tels que MLflow et Weights & Biases, vous permettant ainsi de track de différents modèles en parallèle sans modifier vos scripts d'entraînement.
Conclusion
RTDETRv2 et YOLOX ont tous deux apporté une contribution significative au domaine de la vision par ordinateur. YOLOX a prouvé que les conceptions sans ancrage pouvaient être très efficaces, tandis que RTDETRv2 a démontré que les transformateurs pouvaient fonctionner en temps réel.
Cependant, pour la plupart des applications pratiques en 2026, le modèle Ultralytics offre la solution la plus équilibrée. Sa conceptionNMS, ses fonctions ProgLoss pour les petits objets et CPU offrent le meilleur des deux mondes : une grande précision sans le coût de calcul élevé des transformateurs. Que vous développiez des solutions pour la fabrication intelligente ou la surveillance agricole, Ultralytics , bien entretenu, garantit la pérennité de votre projet.
Pour approfondir vos recherches, vous pourriez également être intéressé par une comparaison RT-DETR YOLO11 ou par une analyse des avantages spécifiques de YOLO26 par rapport à YOLOv10.