YOLOX vs. RTDETRv2 : une comparaison technique pour la détection d’objets
Dans le paysage en rapide évolution de la vision par ordinateur, le choix de la bonne architecture pour votre projet implique souvent de trouver un compromis complexe entre la vitesse d'inférence, la précision et l'efficacité des ressources de calcul. Cette comparaison explore deux approches distinctes de la détection d'objets : YOLOX, un CNN sans ancrage haute performance, et RTDETRv2, un transformateur de détection en temps réel de pointe.
Bien que YOLOX ait représenté un changement important vers les méthodologies sans ancrage dans la famille YOLO, RTDETRv2 exploite la puissance des Vision Transformers (ViTs) pour capturer le contexte global, défiant les réseaux neuronaux convolutifs (CNN) traditionnels. Ce guide analyse leurs architectures, leurs métriques de performance et leurs cas d'utilisation idéaux pour vous aider à prendre une décision éclairée.
Analyse des performances : Vitesse vs. Précision
Les mesures de performance ci-dessous illustrent les philosophies de conception fondamentales de ces deux modèles. RTDETRv2 atteint généralement une précision moyenne (mAP) plus élevée en utilisant des mécanismes d'attention pour comprendre des scènes complexes. Cependant, cette précision s'accompagne souvent d'un coût de calcul accru. YOLOX, en particulier dans ses variantes plus petites, privilégie une faible latence d'inférence et une exécution efficace sur du matériel standard.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Comme le montre le tableau, RTDETRv2-x atteint la plus haute précision avec un mAP de 54,3, surpassant la plus grande variante de YOLOX. Inversement, YOLOX-s démontre une vitesse supérieure sur le matériel GPU, ce qui le rend très efficace pour les applications sensibles à la latence.
YOLOX : Efficacité sans ancrage
YOLOX affine la série YOLO en passant à un mécanisme sans ancres et en découplant la tête de détection. En supprimant le besoin de boîtes d'ancrage prédéfinies, YOLOX simplifie le processus d'entraînement et améliore la généralisation à travers différentes formes d'objets.
Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation :Megvii
Date : 2021-07-18
Arxiv :YOLOX : Dépasser la série YOLO en 2021
Principaux atouts
- Conception sans ancres : Élimine le réglage manuel des hyperparamètres d'ancrage, réduisant la complexité de la conception.
- Tête découplée : Sépare les tâches de classification et de régression, ce qui aide le modèle à converger plus rapidement et à obtenir une meilleure précision.
- SimOTA : Une stratégie avancée d'attribution de label qui attribue dynamiquement des échantillons positifs, améliorant la stabilité de la formation.
Faiblesses
- Architecture vieillissante : Sorti en 2021, il lui manque certaines des optimisations modernes que l’on trouve dans les itérations plus récentes comme YOLO11.
- Support de tâche limité : Principalement axé sur la détection, manquant de support natif pour la segmentation ou l'estimation de pose au sein du même framework.
RTDETRv2 : La centrale Transformer
RTDETRv2 (Real-Time Detection Transformer version 2) représente un bond en avant dans l’application des architectures Transformer à la détection d’objets en temps réel. Il s’attaque au coût de calcul élevé généralement associé aux transformateurs en introduisant un encodeur hybride efficace.
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2023-04-17 (v1), 2024-07 (v2)
Arxiv :RT-DETRv2 : Ligne de base améliorée avec Bag-of-Freebies
Principaux atouts
- Contexte global : Le mécanisme d'auto-attention permet au modèle de comprendre les relations entre les objets distants dans une image, réduisant ainsi les faux positifs dans les scènes complexes.
- Haute précision : Obtient systématiquement des scores de mAP plus élevés que les modèles basés sur CNN de taille similaire.
- Aucun NMS requis : L'architecture de transformateur élimine naturellement les détections en double, supprimant ainsi le besoin de post-traitement de suppression non maximale (NMS).
Faiblesses
- Intensité de la mémoire : Nécessite beaucoup plus de VRAM GPU pendant l’entraînement par rapport aux CNN, ce qui rend l’entraînement plus difficile sur du matériel grand public.
- Latence du CPU : Bien qu’elles soient optimisées pour le GPU, les opérations Transformer peuvent être plus lentes sur les appareils périphériques uniquement CPU que les CNN légers comme YOLOX-Nano.
Cas d'utilisation idéaux
Le choix entre ces modèles dépend souvent des contraintes spécifiques de l'environnement de déploiement.
- Choisissez YOLOX si : Vous déployez sur des appareils périphériques aux ressources limitées comme le Raspberry Pi ou les téléphones mobiles où chaque milliseconde de latence compte. Il est également excellent pour les lignes d'inspection industrielle où les objets sont rigides et prévisibles.
- Choisissez RTDETRv2 si : Vous avez accès à des GPU puissants (comme NVIDIA T4 ou A100) et que la précision est primordiale. Il excelle dans les scènes encombrées, la conduite autonome ou la surveillance aérienne où le contexte et les relations entre les objets sont essentiels.
Optimisation du déploiement
Quel que soit le modèle choisi, l'utilisation de frameworks d'optimisation tels que TensorRT ou OpenVINO est essentielle pour atteindre des vitesses en temps réel dans les environnements de production. Les deux modèles bénéficient considérablement de la quantification en FP16 ou INT8.
Pourquoi les modèles Ultralytics YOLO sont-ils le choix supérieur ?
Bien que YOLOX et RTDETRv2 soient impressionnants, l'écosystème Ultralytics YOLO, mené par YOLO11, offre une solution plus holistique pour les développeurs et les chercheurs. Ultralytics privilégie l'expérience utilisateur, garantissant que l'IA de pointe est accessible, efficace et polyvalente.
1. Polyvalence et écosystème inégalés
Contrairement à YOLOX, qui est principalement un modèle de détection, Ultralytics YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur, notamment la segmentation d'instance, l'estimation de pose, la classification et la détection de boîtes englobantes orientées (OBB). Cela vous permet de résoudre plusieurs problèmes avec une seule API unifiée.
2. Facilité d'utilisation et de maintenance
Le package Ultralytics simplifie le monde complexe du MLOps. Grâce à une base de code bien maintenue, des mises à jour fréquentes et une documentation complète, les utilisateurs peuvent passer de l'installation à l'entraînement en quelques minutes.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. Efficacité de l'entraînement et empreinte mémoire
L'un des principaux avantages des modèles Ultralytics YOLO est leur efficacité. Les modèles basés sur des transformateurs comme RTDETRv2 sont connus pour être gourmands en données et en mémoire, nécessitant souvent des GPU haut de gamme avec une VRAM massive pour l'entraînement. En revanche, les modèles Ultralytics YOLO sont optimisés pour s'entraîner efficacement sur une gamme plus large de matériel, y compris les GPU grand public, tout en utilisant moins de mémoire CUDA. Cette efficacité d'entraînement démocratise l'accès à l'IA haute performance.
4. Équilibre des performances
Les modèles Ultralytics sont conçus pour atteindre le « sweet spot » entre la vitesse et la précision. Pour la plupart des applications du monde réel : de l'analyse de la vente au détail à la surveillance de la sécurité : YOLO11 offre une précision comparable à celle des transformateurs tout en conservant les vitesses d'inférence ultra-rapides requises pour les flux vidéo en direct.
Conclusion
YOLOX et RTDETRv2 ont tous deux contribué de manière significative au domaine de la vision par ordinateur. YOLOX reste un choix solide pour les systèmes embarqués hérités strictement contraints, tandis que RTDETRv2 repousse les limites de la précision pour le matériel haut de gamme.
Cependant, pour la majorité des développeurs à la recherche d'une solution évolutive, polyvalente et facile à utiliser, Ultralytics YOLO11 se distingue comme le premier choix. Sa combinaison de faibles besoins en mémoire, de prise en charge étendue des tâches et d'une communauté florissante garantit que votre projet est construit sur une base de fiabilité et de performance.
Explorer d’autres comparaisons
Pour affiner davantage votre sélection de modèle, vous pouvez explorer ces comparaisons techniques connexes :