YOLOX vs. RTDETRv2 : Évaluation de l'évolution des modèles de détection d'objets en temps réel

Choisir l'architecture optimale pour des applications de vision par ordinateur nécessite un équilibre minutieux entre précision, vitesse d'inférence et faisabilité du déploiement. Dans cette analyse technique complète, nous explorons les différences fondamentales entre YOLOX, une architecture CNN sans ancres hautement performante, et RTDETRv2, un transformer de détection en temps réel à la pointe de la technologie.

Bien que les deux modèles aient apporté des contributions significatives au domaine de la détection d'objets, les développeurs qui créent des applications prêtes pour la production constatent souvent que des alternatives modernes comme Ultralytics YOLO26 offrent une meilleure efficacité d'entraînement, des besoins en mémoire réduits et un écosystème de déploiement plus robuste.

YOLOX : Combler le fossé entre la recherche et l'industrie

YOLOX s'est imposé comme une adaptation sans ancres très populaire de la série YOLO, introduisant une conception simplifiée qui a permis des améliorations de performances impressionnantes au moment de sa sortie.

  • Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
  • Organisation : Megvii
  • Date : 18 juillet 2021
  • Liens : Arxiv, GitHub, Docs

Innovations architecturales

YOLOX a fait passer la famille YOLO à un paradigme sans ancres, en intégrant une tête découplée et la stratégie avancée d'affectation d'étiquettes SimOTA. En éliminant les boîtes d'ancrage, l'architecture a considérablement réduit le nombre de paramètres de conception et amélioré la généralisation sur divers jeux de données de référence. Ses versions légères, YOLOX-Nano et YOLOX-Tiny, sont devenues des choix populaires pour le déploiement d'applications d'IA de vision sur des appareils de pointe.

Considérations sur l'héritage

Bien que YOLOX ait apporté des avancées notables, sa dépendance à des pipelines d'augmentation lourds et à des routines de post-traitement plus anciennes (comme le NMS traditionnel) peut entraîner une latence plus élevée par rapport aux modèles nativement de bout en bout.

En savoir plus sur YOLOX

RTDETRv2 : Faire progresser les transformers de vision en temps réel

S'appuyant sur les bases de son prédécesseur, RTDETRv2 exploite la puissance des Vision Transformers (ViTs) pour atteindre une précision hautement compétitive sans sacrifier les vitesses d'inférence en temps réel.

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation : Baidu
  • Date : 2024-07-24
  • Liens : Arxiv, GitHub

Innovations architecturales

RTDETRv2 repense fondamentalement le pipeline de détection en utilisant une architecture basée sur un transformer qui contourne nativement le Non-Maximum Suppression (NMS). Cela est réalisé grâce à un encodeur hybride et une sélection de requêtes sensible à l'IoU, ce qui améliore l'initialisation des requêtes d'objets. Le modèle gère efficacement les caractéristiques multi-échelles, ce qui lui permet de capturer des détails complexes dans des environnements exigeants, tels que la détection vidéo du trafic la nuit.

Cependant, les transformers sont intrinsèquement gourmands en ressources. L'entraînement de RTDETRv2 exige généralement beaucoup plus de mémoire GPU et de cycles de calcul que les alternatives basées sur les CNN, ce qui peut constituer un obstacle pour les équipes travaillant avec des contraintes budgétaires strictes ou celles nécessitant un réglage de modèle fréquent.

En savoir plus sur RTDETR

Tableau de comparaison des performances

Pour évaluer objectivement ces architectures, nous examinons leurs performances sur le jeu de données COCO. Le tableau ci-dessous illustre les compromis entre la précision (mAP), le nombre de paramètres et la complexité computationnelle.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051,1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Bien que RTDETRv2 atteigne une précision impressionnante, YOLOX conserve un avantage en termes de profils de paramètres légers, en particulier avec ses variantes Nano et Tiny.

Cas d'utilisation et recommandations

Le choix entre YOLOX et RT-DETR dépend de tes exigences de projet spécifiques, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.

Quand choisir YOLOX

YOLOX est un choix solide pour :

  • Recherche sur la détection sans ancres (anchor-free) : Recherche universitaire utilisant l'architecture propre et sans ancres de YOLOX comme base pour expérimenter de nouvelles têtes de détection ou fonctions de perte.
  • Appareils Edge ultra-légers : Déploiement sur des microcontrôleurs ou du matériel mobile ancien où l'empreinte extrêmement faible de la variante YOLOX-Nano (0,91M de paramètres) est critique.
  • Études d'assignation de labels SimOTA : Projets de recherche étudiant les stratégies d'assignation de labels basées sur le transport optimal et leur impact sur la convergence de l'entraînement.

Quand choisir RT-DETR

RT-DETR est recommandé pour :

  • Recherche sur la détection basée sur les Transformer : Projets explorant les mécanismes d'attention et les architectures Transformer pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des Transformer offre un avantage naturel.

Quand choisir Ultralytics (YOLO26)

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
  • Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

L'avantage Ultralytics : YOLO26

Bien que YOLOX et RTDETRv2 offrent des forces distinctes, le nouveau Ultralytics YOLO26 redéfinit l'état de l'art de l'IA de vision, en résolvant les compromis historiques entre vitesse, précision et facilité de déploiement.

Architecture de bout en bout sans NMS

S'inspirant des modèles transformer tout en conservant l'efficacité des CNN, YOLO26 présente une conception native de bout en bout sans NMS. En éliminant le Non-Maximum Suppression comme étape de post-traitement, YOLO26 simplifie considérablement les pipelines de déploiement, garantissant une latence d'inférence cohérente sur divers appareils de pointe sans la surcharge liée au réglage complexe des seuils.

Jusqu'à 43 % d'inférence CPU plus rapide

Contrairement aux architectures transformer comme RTDETRv2 qui dépendent fortement des GPU haut de gamme, YOLO26 est spécifiquement optimisé pour les environnements d'informatique en périphérie. Grâce à la suppression de la Distribution Focal Loss (DFL), YOLO26 rationalise l'exportation du modèle et permet une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour une intégration dans du matériel comme le Raspberry Pi ou des appareils mobiles standard.

Efficacité de l'entraînement avec MuSGD

L'entraînement de modèles transformer conduit souvent à une consommation excessive de mémoire CUDA et à des temps d'entraînement prolongés. YOLO26 introduit le nouvel optimiseur MuSGD — un hybride de Stochastic Gradient Descent et de l'optimiseur Muon inspiré des LLM. Cette innovation offre un entraînement exceptionnellement stable et une convergence plus rapide, réduisant considérablement les exigences matérielles par rapport à RTDETRv2.

Écosystème et polyvalence inégalés

L'écosystème Ultralytics offre une expérience développeur intuitive et rationalisée. Avec une documentation étendue, un soutien communautaire actif et la plateforme Ultralytics basée sur le cloud, la gestion du cycle de vie complet de l'IA n'a jamais été aussi simple. De plus, YOLO26 est très polyvalent. Alors que RTDETRv2 se concentre sur la détection d'objets, YOLO26 prend nativement en charge la segmentation d'instance, l'estimation de pose, la classification d'images et les tâches de boîte englobante orientée (OBB). Amélioré par les nouvelles fonctions de perte ProgLoss + STAL, YOLO26 excelle également dans la reconnaissance de petits objets, une caractéristique essentielle pour l'imagerie aérienne et la détection des défauts industriels.

Autres modèles pris en charge

Le framework Ultralytics prend également en charge la génération précédente YOLO11 et YOLOv8, permettant aux utilisateurs d'évaluer et de migrer facilement leurs anciens pipelines.

Intégration transparente avec Ultralytics

Le déploiement de modèles ne devrait pas nécessiter de lutter avec des bases de code complexes et fragmentées. L'API Python Ultralytics te permet de charger, d'entraîner et d'exporter des modèles de pointe en quelques lignes de code seulement.

from ultralytics import YOLO

# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)

En tirant parti d'Ultralytics, tu évites les configurations d'environnement compliquées généralement associées aux dépôts de recherche, ce qui accélère ta mise sur le marché.

Conclusion

YOLOX et RTDETRv2 représentent des étapes importantes dans la progression de la détection d'objets en temps réel. YOLOX a prouvé la viabilité des CNN sans ancres très efficaces, tandis que RTDETRv2 a réussi à adapter les transformers aux contraintes du temps réel.

Cependant, pour les applications modernes allant de l'analyse intelligente du commerce de détail à la robotique embarquée, Ultralytics YOLO26 fournit la solution définitive. En fusionnant l'inférence sans NMS avec des vitesses CPU inégalées, des empreintes mémoire réduites et le soutien robuste de la plateforme Ultralytics, YOLO26 équipe les développeurs pour construire la prochaine génération de systèmes de vision par ordinateur fiables et performants.

Commentaires