Passer au contenu

RTDETRv2 vs YOLOv10: comparaison des architectures de détection en temps réel

Dans le domaine en constante évolution de la vision par ordinateur, la recherche d'un équilibre optimal entre précision, rapidité et efficacité continue de stimuler l'innovation. Deux architectures importantes qui ont marqué les discussions récentes sont RT-DETRv2 et YOLOv10. Ces deux modèles visent à résoudre le défi de longue date que représente la détection d'objets en temps réel, mais l'abordent sous des angles architecturaux fondamentalement différents : les transformateurs d'une part, et les innovations basées sur les CNN d'autre part.

Cette comparaison technique examine leurs architectures, leurs indicateurs de performance et leurs cas d'utilisation idéaux afin d'aider les développeurs et les chercheurs à choisir l'outil le mieux adapté à leurs applications spécifiques.

Tableau comparatif

Le tableau suivant présente les principaux indicateurs de performance du COCO . Les valeurs en gras indiquent les meilleures performances dans chaque catégorie.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

RTDETRv2 : Affiner le Transformeur en Temps Réel

RT-DETRv2 Real-Time Detection Transformer version 2) s'appuie sur le succès du RT-DETR original, qui était le premier détecteur basé sur un transformateur à rivaliser véritablement avec la vitesse des modèles basés sur CNN tels que YOLOv8.

Architecture et innovation

RT-DETRv2 le principal atout des transformateurs: la capacité à modéliser le contexte global d'une image, ce qui est particulièrement utile pour détecter des objets dans des scènes complexes et encombrées. Contrairement aux CNN traditionnels qui s'appuient sur des champs réceptifs locaux, RT-DETRv2 un encodeur hybride qui traite efficacement les caractéristiques multi-échelles.

Une caractéristique clé de la mise à jour v2 est l'introduction d'un mécanisme d'échantillonnage discret qui permet un échantillonnage plus flexible de la grille, optimisant ainsi davantage le compromis entre vitesse et précision. Le modèle élimine le besoin de suppression non maximale (NMS) en prédisant directement un ensemble d'objets, ce qui simplifie le pipeline de post-traitement.

Utilisation de la mémoire par les Transformers

Si les transformateurs excellent dans un contexte global, ils nécessitent généralement beaucoup plus de GPU pendant l'entraînement que les CNN. Les utilisateurs disposant d'un matériel limité pourraient trouver l'entraînement de RTDETRv2 difficile par rapport YOLO plus légères.

Performance

RT-DETRv2 une précision exceptionnelle, surpassant souvent YOLO de taille similaire sur le COCO . Il est particulièrement performant dans les scénarios nécessitant une grande précision et une résistance à l'occlusion. Cependant, cette précision s'accompagne souvent d'exigences informatiques plus élevées, ce qui le rend moins adapté à un déploiement en périphérie purement CPU par rapport à laYOLO Ultralytics YOLO .

En savoir plus sur RT-DETR

YOLOv10: l'évolution de bout en bout des réseaux CNN

YOLOv10 un changement majeur dans la YOLO en introduisant un entraînement NMS dans l'architecture CNN traditionnelle. Cette innovation comble le fossé entre la simplicité des CNN et les capacités de bout en bout des transformateurs.

Architecture et innovation

YOLOv10 une stratégie d'attributions doubles cohérentes pour un entraînement NMS. Pendant l'entraînement, le modèle utilise à la fois des attributions d'étiquettes un-à-plusieurs et un-à-un. Cela permet au modèle de bénéficier de signaux de supervision riches tout en garantissant que, pendant l'inférence, il ne prédit qu'une seule boîte par objet.

De plus, l'architecture se caractérise par une conception holistique axée sur l'efficacité et la précision. Elle comprend des têtes de classification légères et un sous-échantillonnage découplé des canaux spatiaux, qui réduisent la charge de calcul (FLOP) et le nombre de paramètres.

Performance

YOLOv10 en matière de latence d'inférence. En supprimant NMS, il atteint une variance de latence plus faible, ce qui est essentiel pour les applications en temps réel telles que la conduite autonome. Les variantes plus petites, telles que YOLOv10n et YOLOv10s, offrent une vitesse incroyable sur les appareils périphériques, ce qui les rend très efficaces dans les environnements aux ressources limitées.

En savoir plus sur YOLOv10

Différences essentielles et cas d'utilisation

1. Architectures NMS

Les deux modèles revendiquent des capacités « de bout en bout », mais ils y parviennent différemment. RT-DETRv2 le mécanisme inhérent basé sur les requêtes des transformateurs pour prédire des objets uniques. YOLOv10 y YOLOv10 grâce à une nouvelle stratégie d'entraînement appliquée à une structure CNN. Cela rend YOLOv10 plus rapide sur du matériel standard optimisé pour les convolutions, tandis que RT-DETRv2 sur les GPU où le calcul parallèle des transformateurs est efficace.

2. Efficacité de l'entraînement et mémoire

L'efficacité de la formation est un domaine dans lequel Ultralytics excellent depuis toujours. Les transformateurs tels que RT-DETRv2 connus pour RT-DETRv2 gourmands en mémoire et lents à converger. En revanche, les modèles basés sur les réseaux neuronaux convolutifs (CNN) tels que YOLOv10 YOLO11 sont beaucoup moins gourmands en ressources matérielles.

YOLO Ultralytics conservent ici un avantage distinct :

  • Mémoire inférieure : l'entraînement YOLO nécessite généralement moins de VRAM, ce qui permet d'utiliser des lots plus volumineux sur les GPU grand public.
  • Convergence plus rapide : les CNN nécessitent généralement moins d'époches pour atteindre la convergence que les architectures basées sur des transformateurs.

3. Polyvalence et écosystème

Bien que RT-DETRv2 YOLOv10 des détecteurs puissants, ils sont principalement axés sur la détection de cadres de sélection. En revanche, Ultralytics fournit des modèles qui prennent en charge un éventail plus large de tâches dès leur installation.

Ultralytics garantit aux utilisateurs qu'ils n'obtiennent pas seulement un modèle, mais un flux de travail complet. Cela inclut une intégration transparente avec la Ultralytics pour la gestion des ensembles de données et une exportation facile vers des formats tels que ONNX, TensorRT et OpenVINO.

Ultralytics : présentation de YOLO26

Bien que RT-DETRv2 YOLOv10 des fonctionnalités intéressantes, le domaine continue d'évoluer. Pour les développeurs à la recherche du summum en matière de performances, d'efficacité et de facilité d'utilisation, Ultralytics s'impose comme le choix idéal.

Lancé en janvier 2026, YOLO26 synthétise les meilleures innovations des transformateurs et des CNN dans une architecture unifiée de nouvelle génération.

  1. Nativement de bout en bout : tout comme YOLOv10, YOLO26 présente une conception de bout en bout NMS. Cela élimine le goulot d'étranglement lié à la latence du post-traitement, garantissant des vitesses d'inférence cohérentes et prévisibles, essentielles pour les systèmes critiques en matière de sécurité.
  2. Optimisé pour tous les matériels : YOLO26 supprime la perte focale de distribution (DFL), ce qui simplifie considérablement le graphe du modèle. Cela permet une meilleure compatibilité avec les accélérateurs IA de pointe et CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes.
  3. Dynamique d'entraînement avancée : grâce à l'optimiseur MuSGD, un hybride de SGD Muon (inspiré de l'entraînement LLM chez Moonshot AI), YOLO26 permet un entraînement stable et une convergence plus rapide, apportant ainsi les innovations des grands modèles linguistiques à la vision par ordinateur.
  4. Polyvalence des tâches : contrairement à RT-DETRv2 se concentre sur la détection, YOLO26 prend en charge nativement la détection d'objets, la segmentation d'instances, l'estimation de pose, les boîtes englobantes orientées (OBB) et la classification.

Migration transparente

Le passage à YOLO26 est très simple grâce à Ultralytics . Il suffit de modifier le nom du modèle dans votre Python :

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)

En savoir plus sur YOLO26

Conclusion

Pour la recherche pure ou les scénarios où GPU sont illimitées et où les mécanismes d'attention des transformateurs sont spécifiquement requis, RT-DETRv2 est un concurrent sérieux. Pour les utilisateurs qui privilégient une faible latence sur les appareils périphériques avec une architecture CNN NMS, YOLOv10 reste une option académique solide.

Cependant, pour les déploiements à l'échelle industrielle qui exigent un équilibre entre vitesse, précision et robustesse des outils, Ultralytics est la solution incontournable. Son intégration dans un écosystème bien entretenu, sa prise en charge de diverses tâches de vision par ordinateur et ses améliorations architecturales révolutionnaires en font la solution la plus pérenne pour 2026 et au-delà.

Voir aussi

  • Ultralytics YOLO11 - Le prédécesseur robuste largement adopté par l'industrie.
  • RT-DETR - Le transformateur de détection en temps réel original.
  • YOLOv8 - Un classique polyvalent de la YOLO .

Commentaires