Passer au contenu

YOLOX vs RTDETRv2 : évaluation de l'évolution des modèles de détection d'objets en temps réel

Le choix de l'architecture optimale pour les applications de vision par ordinateur nécessite un équilibre minutieux entre précision, vitesse d'inférence et faisabilité du déploiement. Dans cette analyse technique complète, nous explorons les différences fondamentales entre YOLOX, une architecture CNN sans ancrage très performante, et RTDETRv2, un transformateur de détection en temps réel à la pointe de la technologie.

Bien que ces deux modèles aient apporté une contribution significative au domaine de la détection d'objets, les développeurs qui créent des applications prêtes à être mises en production constatent souvent que des alternatives modernes telles Ultralytics offrent une efficacité de formation supérieure, des besoins en mémoire réduits et un écosystème de déploiement plus robuste.

YOLOX : combler le fossé entre la recherche et l'industrie

YOLOX s'est imposé comme une adaptation très populaire de la YOLO , sans ancrage, avec un design simplifié qui offrait des améliorations de performances impressionnantes au moment de sa sortie.

  • Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
  • Organisation :Megvii
  • Date : 18 juillet 2021
  • Liens :Arxiv, GitHub, Docs

Innovations architecturales

YOLOX a fait passer la YOLO à un paradigme sans ancrage, en intégrant une tête découplée et la stratégie avancée d'attribution d'étiquettes SimOTA. En éliminant les boîtes d'ancrage, l'architecture a considérablement réduit le nombre de paramètres de conception et amélioré la généralisation à travers divers ensembles de données de référence. Ses versions allégées, YOLOX-Nano et YOLOX-Tiny, sont devenues des choix populaires pour le déploiement d'applications d'IA visuelle sur des appareils périphériques.

Considérations relatives à l'héritage

Bien que YOLOX ait apporté des avancées notables, son recours à des pipelines d'augmentation lourds et à des routines de post-traitement plus anciennes (comme NMS traditionnel) peut entraîner une latence plus élevée par rapport aux modèles natifs de bout en bout.

En savoir plus sur YOLOX

RTDETRv2 : faire progresser les transformateurs de vision en temps réel

S'appuyant sur les fondements de son prédécesseur, RTDETRv2 exploite la puissance des Vision Transformers (ViT) pour atteindre une précision hautement compétitive sans sacrifier les vitesses d'inférence en temps réel.

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation :Baidu
  • Date : 2024-07-24
  • Liens :Arxiv, GitHub

Innovations architecturales

RTDETRv2 repense fondamentalement le pipeline de détection en utilisant une architecture basée sur un transformateur qui contourne nativement la suppression non maximale (NMS). Ceci est rendu possible grâce à un encodeur hybride et à une sélection de requêtes IoU, qui améliore l'initialisation des requêtes d'objets. Le modèle gère efficacement les caractéristiques multi-échelles, ce qui lui permet de capturer des détails complexes dans des environnements complexes, tels que la détection vidéo du trafic nocturne.

Cependant, les transformateurs sont intrinsèquement gourmands en ressources. L'entraînement du RTDETRv2 nécessite généralement beaucoup plus GPU et de cycles de calcul que les alternatives basées sur les CNN, ce qui peut constituer un obstacle pour les équipes opérant avec des contraintes budgétaires strictes ou celles qui ont besoin d'ajuster fréquemment leurs modèles.

En savoir plus sur RTDETR

Tableau comparatif des performances

Afin d'évaluer objectivement ces architectures, nous examinons leurs performances sur COCO . Le tableau ci-dessous illustre les compromis entre précision (mAP), le nombre de paramètres et la complexité computationnelle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Si RTDETRv2 atteint une précision impressionnante, YOLOX conserve un avantage en termes de profils de paramètres légers, en particulier avec ses variantes Nano et Tiny.

Cas d'utilisation et recommandations

Le choix entre YOLOX et RT-DETR des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir YOLOX

YOLOX est un choix judicieux pour :

  • Recherche sur la détection sans ancrage : recherche universitaire utilisant l'architecture propre et sans ancrage de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Dispositifs périphériques ultra-légers : déploiement sur des microcontrôleurs ou du matériel mobile existant où l'empreinte extrêmement réduite (0,91 M de paramètres) de la variante YOLOX-Nano est essentielle.
  • Études sur l'attribution des étiquettes SimOTA : projets de recherche visant à étudier les stratégies optimales d'attribution des étiquettes basées sur le transport et leur impact sur la convergence de l'apprentissage.

Quand choisir RT-DETR

RT-DETR recommandé pour :

  • Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Ultralytics : YOLO26

Si YOLOX et RTDETRv2 offrent tous deux des atouts distincts, le tout nouveau Ultralytics redéfinit l'état de l'art en matière d'IA visuelle, en résolvant les compromis historiques entre vitesse, précision et facilité de déploiement.

1. Architecture de bout en bout NMS

S'inspirant des modèles de transformateurs tout en conservant l'efficacité des CNN, YOLO26 se caractérise par une conception native de bout en bout NMS. En éliminant la suppression non maximale comme étape de post-traitement, YOLO26 simplifie considérablement les pipelines de déploiement, garantissant une latence d'inférence cohérente sur divers appareils périphériques sans la surcharge liée au réglage complexe des seuils.

2. CPU jusqu'à 43 % plus rapide

Contrairement aux architectures de transformateurs telles que RTDETRv2, qui dépendent fortement des GPU haut de gamme, YOLO26 est spécialement optimisé pour les environnements informatiques de pointe. Grâce à la suppression de la perte focale de distribution (DFL), YOLO26 rationalise l'exportation des modèles et permet CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour une intégration dans du matériel tel que le Raspberry Pi ou les appareils mobiles standard.

3. Efficacité de la formation avec MuSGD

Les modèles de transformateurs d'entraînement entraînent souvent une consommation excessive CUDA et des temps d'entraînement prolongés. YOLO26 introduit le nouvel optimiseur MuSGD, un hybride entre la descente stochastique du gradient et l'optimiseur Muon inspiré du LLM. Cette innovation offre un entraînement exceptionnellement stable et une convergence plus rapide, réduisant considérablement les exigences matérielles par rapport à RTDETRv2.

4. Écosystème et polyvalence inégalés

Ultralytics offre une expérience de développement intuitive et rationalisée. Grâce à une documentation complète, au soutien actif de la communauté et à Ultralytics alimentée par le cloud, la gestion du cycle de vie complet de l'IA n'a jamais été aussi simple. De plus, YOLO26 est très polyvalent. Alors que RTDETRv2 se concentre sur la détection d'objets, YOLO26 prend en charge de manière transparente et native la segmentation d'instances, l'estimation de poses, la classification d'images et les tâches OBB (Oriented Bounding Box). Amélioré par les nouvelles fonctions de perte ProgLoss + STAL, YOLO26 excelle également dans la reconnaissance de petits objets, une fonctionnalité essentielle pour l'imagerie aérienne et la détection des défauts industriels.

Autres modèles pris en charge

Ultralytics prend également en charge la génération précédente YOLO11 et YOLOv8, permettant aux utilisateurs de comparer facilement les performances et de faire évoluer les pipelines existants.

Intégration transparente avec Ultralytics

Le déploiement de modèles ne devrait pas nécessiter de se débattre avec des bases de code complexes et fragmentées.Python Ultralytics vous permet de charger, d'entraîner et d'exporter des modèles de pointe en quelques lignes de code seulement.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

En tirant parti Ultralytics, vous contournez les configurations d'environnement complexes généralement associées aux référentiels de recherche, ce qui accélère votre mise sur le marché.

Conclusion

YOLOX et RTDETRv2 représentent des étapes importantes dans l'évolution de la détection d'objets en temps réel. YOLOX a prouvé la viabilité des CNN sans ancrage hautement efficaces, tandis que RTDETRv2 a réussi à adapter les transformateurs aux contraintes du temps réel.

Cependant, pour les applications modernes allant de l'analyse intelligente du commerce de détail à la robotique embarquée, Ultralytics offre la solution définitive. En combinant une inférence NMS avec CPU inégalées, une empreinte mémoire réduite et le soutien robuste de la Ultralytics , YOLO26 permet aux développeurs de créer la prochaine génération de systèmes de vision par ordinateur fiables et hautement performants.


Commentaires