Passer au contenu

YOLOX vs RT-DETRv2: équilibre entre architectures traditionnelles et innovation Transformer

Le choix de l'architecture optimale pour la détection d'objets est une décision cruciale qui a un impact sur la latence, la précision et l'évolutivité de vos projets de vision par ordinateur. Cette analyse technique compare YOLOX, une base de référence CNN robuste sans ancrage datant de 2021, à RT-DETRv2, un modèle de pointe basé sur un transformateur et optimisé pour les applications en temps réel.

Si ces deux modèles ont représenté des avancées significatives à leur sortie respective, les workflows modernes exigent de plus en plus des solutions qui allient hautes performances et facilité de déploiement. Tout au long de cette comparaison, nous explorerons également comment Ultralytics , à la pointe de la technologie, synthétise les meilleures fonctionnalités de ces architectures, telles que l'inférence NMS, dans un cadre unique et efficace.

Bancs d'essai de performance

Le tableau suivant présente une comparaison directe des indicateurs clés. Il convient de noter que, si RT-DETRv2 offre RT-DETRv2 une précision moyenne (mAP) plus élevée, il nécessite également beaucoup plus de ressources informatiques, comme le montre le nombre de FLOP.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOX : Le pionnier sans ancrage

YOLOX a été introduit en 2021 par des chercheurs de Megvii, marquant ainsi une rupture avec les mécanismes basés sur des ancres qui dominaient YOLO précédentes YOLO (comme YOLOv4 et YOLOv5). Il a simplifié la conception en supprimant les boîtes d'ancrage et en introduisant une tête découplée, qui sépare les tâches de classification et de localisation pour une meilleure convergence.

Architecture et points forts

YOLOX utilise une stratégie d'attribution d'étiquettes SimOTA (Simplified Optimal Transport Assignment), qui attribue de manière dynamique des échantillons positifs à des objets de référence. Cela permet au modèle de gérer les occlusions et les échelles d'objets variables plus efficacement que les seuils rigides IoU.

La simplicité de son architecture en fait une référence privilégiée dans la recherche universitaire. Sa conception « découplée » (traitement des caractéristiques de classification et de régression dans des branches distinctes) améliore la stabilité et la précision de l'apprentissage.

Compatibilité héritée

YOLOX reste un choix judicieux pour les systèmes hérités construits autour de bases de code datant de 2021 ou pour les chercheurs qui ont besoin d'une base de référence CNN propre et sans ancrage pour tester de nouveaux composants théoriques.

Cependant, par rapport aux itérations modernes, YOLOX s'appuie sur la suppression non maximale (NMS) pour le post-traitement. Cette étape introduit une variabilité de latence, ce qui la rend moins prévisible pour les applications industrielles strictement en temps réel par rapport aux modèles de bout en bout plus récents.

En savoir plus sur YOLOX

RT-DETRv2: Transformateurs en temps réel

RT-DETRv2 (Real-Time Detection Transformer v2) est l'évolution du RT-DETR original, développé par Baidu. Il résout le problème du coût de calcul élevé généralement associé aux transformateurs de vision (ViT) en utilisant un encodeur hybride efficace qui traite rapidement les caractéristiques multi-échelles.

Architecture et innovations

La caractéristique principale de RT-DETRv2 son inférenceNMS. En utilisant un décodeur transformateur avec des requêtes d'objets, le modèle prédit directement un ensemble fixe de cadres de sélection. Cela élimine le besoin de NMS, simplifiant les pipelines de déploiement et garantissant des temps d'inférence cohérents, quel que soit le nombre d'objets dans une scène.

RT-DETRv2 son prédécesseur grâce à un encodeur hybride flexible et une quantification optimisée de l'incertitude, ce qui lui permet d'atteindre une plus grande précision (jusqu'à 54,3 % mAP) sur COCO .

Intensité des ressources

Bien que précis, les blocs de transformateurs RT-DETRv2 sont très gourmands en mémoire. L'entraînement nécessite généralement beaucoup plus CUDA que les modèles basés sur CNN, et les vitesses d'inférence surGPU (comme les CPU standard) peuvent être lentes en raison de la complexité des mécanismes d'attention.

En savoir plus sur RT-DETR

L'avantage Ultralytics : Pourquoi choisir YOLO26 ?

Alors que YOLOX sert de base de référence fiable pour la recherche et que RT-DETRv2 les limites de la précision des transformateurs, Ultralytics offre une solution qui combine le meilleur des deux mondes. Ultralytics est conçu pour les développeurs qui ont besoin de performances de pointe sans la complexité des référentiels expérimentaux.

Nativement de bout en bout et sans NMS

YOLO26 adopte la philosophie de conception « End-to-End NMS » (sans gestionnaire de réseau) lancée par YOLOv10 et RT-DETR la met en œuvre dans une architecture CNN hautement efficace. Cela signifie que vous bénéficiez du déploiement simplifié de RT-DETRv2(sans logique de post-traitement complexe) combiné à la vitesse brute d'un CNN.

Une efficacité inégalée pour l'Edge Computing

Contrairement aux blocs de transformateurs lourds de RT-DETRv2, YOLO26 est optimisé pour divers matériels.

  • Suppression de la perte focale de distribution (DFL) : la suppression de la perte focale de distribution simplifie la structure du modèle, améliorant ainsi la compatibilité avec les accélérateurs de pointe et les appareils à faible consommation d'énergie.
  • CPU : YOLO26 offre une inférence jusqu'à 43 % plus rapide sur les processeurs par rapport aux générations précédentes, ce qui en fait le choix idéal pour les déploiements d'IA en périphérie où les processeurs graphiques ne sont pas disponibles.

Dynamique de formation avancée

YOLO26 intègre l'optimiseur MuSGD, un hybride entre SGD l'optimiseur Muon inspiré de l'entraînement LLM. Cette innovation apporte la stabilité de l'entraînement des grands modèles linguistiques à la vision par ordinateur, ce qui se traduit par une convergence plus rapide et des poids plus robustes. De plus, des fonctions de perte améliorées telles que ProgLoss et STAL améliorent considérablement les performances sur les petits objets, une faiblesse courante dans les anciens modèles tels que YOLOX.

Flux de travail fluide avec Ultralytics

Le plus grand avantage réside peut-être dans la Ultralytics . Alors que YOLOX et RT-DETRv2 nécessitent RT-DETRv2 de naviguer dans des bases de code GitHub fragmentées, Ultralytics une interface unifiée. Vous pouvez passer d'une tâche à l'autre (détection, segmentation, estimation de pose, classification et OBB) en modifiant simplement le nom du modèle.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

En savoir plus sur YOLO26

Conclusion

Pour la recherche universitaire nécessitant une base de référence CNN pure, YOLOX reste une option valable. Pour les scénarios disposant GPU suffisante où la précision maximale est le seul critère, RT-DETRv2 est un concurrent sérieux. Cependant, pour les systèmes de production réels qui exigent un équilibre entre vitesse, précision et facilité de maintenance, Ultralytics s'impose comme le choix idéal, offrant des capacités de bout en bout de nouvelle génération avec l'efficacité requise pour un déploiement moderne.

Lectures complémentaires

Pour découvrir d'autres modèles haute performance de la Ultralytics , consultez :

  • YOLO11: un modèle polyvalent robuste prenant en charge une grande variété de tâches de vision.
  • YOLOv10: première YOLO à introduire la détection d'objets en temps réel de bout en bout.
  • RT-DETR: Notre implémentation du Real-Time Detection Transformer pour ceux qui préfèrent les architectures basées sur des transformateurs.

Commentaires