YOLOX vs RTDETRv2 : évaluation de l'évolution des modèles de détection d'objets en temps réel
Le choix de l'architecture optimale pour les applications de vision par ordinateur nécessite un équilibre minutieux entre précision, vitesse d'inférence et faisabilité du déploiement. Dans cette analyse technique complète, nous explorons les différences fondamentales entre YOLOX, une architecture CNN sans ancrage très performante, et RTDETRv2, un transformateur de détection en temps réel à la pointe de la technologie.
Bien que ces deux modèles aient apporté une contribution significative au domaine de la détection d'objets, les développeurs qui créent des applications prêtes à être mises en production constatent souvent que des alternatives modernes telles Ultralytics offrent une efficacité de formation supérieure, des besoins en mémoire réduits et un écosystème de déploiement plus robuste.
YOLOX : combler le fossé entre la recherche et l'industrie
YOLOX s'est imposé comme une adaptation très populaire de la YOLO , sans ancrage, avec un design simplifié qui offrait des améliorations de performances impressionnantes au moment de sa sortie.
- Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
- Organisation :Megvii
- Date : 18 juillet 2021
- Liens :Arxiv, GitHub, Docs
Innovations architecturales
YOLOX a fait passer la YOLO à un paradigme sans ancrage, en intégrant une tête découplée et la stratégie avancée d'attribution d'étiquettes SimOTA. En éliminant les boîtes d'ancrage, l'architecture a considérablement réduit le nombre de paramètres de conception et amélioré la généralisation à travers divers ensembles de données de référence. Ses versions allégées, YOLOX-Nano et YOLOX-Tiny, sont devenues des choix populaires pour le déploiement d'applications d'IA visuelle sur des appareils périphériques.
Considérations relatives à l'héritage
Bien que YOLOX ait apporté des avancées notables, son recours à des pipelines d'augmentation lourds et à des routines de post-traitement plus anciennes (comme NMS traditionnel) peut entraîner une latence plus élevée par rapport aux modèles natifs de bout en bout.
RTDETRv2 : faire progresser les transformateurs de vision en temps réel
S'appuyant sur les fondements de son prédécesseur, RTDETRv2 exploite la puissance des Vision Transformers (ViT) pour atteindre une précision hautement compétitive sans sacrifier les vitesses d'inférence en temps réel.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2024-07-24
- Liens :Arxiv, GitHub
Innovations architecturales
RTDETRv2 repense fondamentalement le pipeline de détection en utilisant une architecture basée sur un transformateur qui contourne nativement la suppression non maximale (NMS). Ceci est rendu possible grâce à un encodeur hybride et à une sélection de requêtes IoU, qui améliore l'initialisation des requêtes d'objets. Le modèle gère efficacement les caractéristiques multi-échelles, ce qui lui permet de capturer des détails complexes dans des environnements complexes, tels que la détection vidéo du trafic nocturne.
Cependant, les transformateurs sont intrinsèquement gourmands en ressources. L'entraînement du RTDETRv2 nécessite généralement beaucoup plus GPU et de cycles de calcul que les alternatives basées sur les CNN, ce qui peut constituer un obstacle pour les équipes opérant avec des contraintes budgétaires strictes ou celles qui ont besoin d'ajuster fréquemment leurs modèles.
Tableau comparatif des performances
Afin d'évaluer objectivement ces architectures, nous examinons leurs performances sur COCO . Le tableau ci-dessous illustre les compromis entre précision (mAP), le nombre de paramètres et la complexité computationnelle.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Si RTDETRv2 atteint une précision impressionnante, YOLOX conserve un avantage en termes de profils de paramètres légers, en particulier avec ses variantes Nano et Tiny.
Cas d'utilisation et recommandations
Le choix entre YOLOX et RT-DETR des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir YOLOX
YOLOX est un choix judicieux pour :
- Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
- Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
- Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.
Quand choisir RT-DETR
RT-DETR recommandé pour :
- Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Ultralytics : YOLO26
Si YOLOX et RTDETRv2 offrent tous deux des atouts distincts, le tout nouveau Ultralytics redéfinit l'état de l'art en matière d'IA visuelle, en résolvant les compromis historiques entre vitesse, précision et facilité de déploiement.
1. Architecture de bout en bout NMS
S'inspirant des modèles de transformateurs tout en conservant l'efficacité des CNN, YOLO26 se caractérise par une conception native de bout en bout NMS. En éliminant la suppression non maximale comme étape de post-traitement, YOLO26 simplifie considérablement les pipelines de déploiement, garantissant une latence d'inférence cohérente sur divers appareils périphériques sans la surcharge liée au réglage complexe des seuils.
2. CPU jusqu'à 43 % plus rapide
Contrairement aux architectures de transformateurs telles que RTDETRv2, qui dépendent fortement des GPU haut de gamme, YOLO26 est spécialement optimisé pour les environnements informatiques de pointe. Grâce à la suppression de la perte focale de distribution (DFL), YOLO26 rationalise l'exportation des modèles et permet CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour une intégration dans du matériel tel que le Raspberry Pi ou les appareils mobiles standard.
3. Efficacité de la formation avec MuSGD
Les modèles de transformateurs d'entraînement entraînent souvent une consommation excessive CUDA et des temps d'entraînement prolongés. YOLO26 introduit le nouvel optimiseur MuSGD, un hybride entre la descente stochastique du gradient et l'optimiseur Muon inspiré du LLM. Cette innovation offre un entraînement exceptionnellement stable et une convergence plus rapide, réduisant considérablement les exigences matérielles par rapport à RTDETRv2.
4. Écosystème et polyvalence inégalés
Ultralytics offre une expérience de développement intuitive et rationalisée. Grâce à une documentation complète, au soutien actif de la communauté et à Ultralytics alimentée par le cloud, la gestion du cycle de vie complet de l'IA n'a jamais été aussi simple. De plus, YOLO26 est très polyvalent. Alors que RTDETRv2 se concentre sur la détection d'objets, YOLO26 prend en charge de manière transparente et native la segmentation d'instances, l'estimation de poses, la classification d'images et les tâches OBB (Oriented Bounding Box). Amélioré par les nouvelles fonctions de perte ProgLoss + STAL, YOLO26 excelle également dans la reconnaissance de petits objets, une fonctionnalité essentielle pour l'imagerie aérienne et la détection des défauts industriels.
Autres modèles pris en charge
Ultralytics prend également en charge la génération précédente YOLO11 et YOLOv8, permettant aux utilisateurs de comparer facilement les performances et de faire évoluer les pipelines existants.
Intégration transparente avec Ultralytics
Le déploiement de modèles ne devrait pas nécessiter de se débattre avec des bases de code complexes et fragmentées.Python Ultralytics vous permet de charger, d'entraîner et d'exporter des modèles de pointe en quelques lignes de code seulement.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)
En tirant parti Ultralytics, vous contournez les configurations d'environnement complexes généralement associées aux référentiels de recherche, ce qui accélère votre mise sur le marché.
Conclusion
YOLOX et RTDETRv2 représentent des étapes importantes dans l'évolution de la détection d'objets en temps réel. YOLOX a prouvé la viabilité des CNN sans ancrage hautement efficaces, tandis que RTDETRv2 a réussi à adapter les transformateurs aux contraintes du temps réel.
Cependant, pour les applications modernes allant de l'analyse intelligente du commerce de détail à la robotique embarquée, Ultralytics offre la solution définitive. En combinant une inférence NMS avec CPU inégalées, une empreinte mémoire réduite et le soutien robuste de la Ultralytics , YOLO26 permet aux développeurs de créer la prochaine génération de systèmes de vision par ordinateur fiables et hautement performants.