Passer au contenu

RTDETRv2 vs YOLOv6.0 : évaluation des transformateurs en temps réel par rapport aux CNN industriels

Le paysage de la vision par ordinateur est en constante évolution, offrant aux développeurs une multitude de choix architecturaux pour la détection d'objets. Deux modèles phares qui représentent des approches divergentes sont RTDETRv2, un transformateur de vision de pointe, et YOLOv6.YOLOv6, un réseau neuronal convolutif (CNN) hautement optimisé et adapté aux applications industrielles.

Cette comparaison technique complète explore leurs architectures respectives, leurs mesures de performance et leurs scénarios de déploiement idéaux. Nous examinerons également comment Ultralytics au sens large offre une expérience développeur supérieure, en nous tournant finalement vers les capacités de nouvelle génération Ultralytics .

RTDETRv2 : l'approche Vision Transformer

Développé par les chercheurs de Baidu, RTDETRv2 s'appuie sur les fondements du RT-DETR original et représente une avancée significative dans la détection d'objets basée sur les transformateurs.

Points forts architecturaux

RTDETRv2 utilise une architecture hybride qui combine un extracteur de caractéristiques CNN avec un puissant décodeur transformateur. La caractéristique la plus marquante de ce modèle est sa conception native NMS. En éliminant la suppression non maximale (NMS) pendant le post-traitement, le modèle prédit directement les cadres de sélection, ce qui simplifie le déploiement et stabilise la latence d'inférence.

Le « Bag-of-Freebies » intégré à RTDETRv2 améliore sa capacité à gérer des scènes complexes et des objets qui se chevauchent, car les mécanismes d'attention globale comprennent intrinsèquement mieux les relations spatiales que les convolutions localisées.

Utilisation de la mémoire par les Transformers

Si les transformateurs excellent dans la compréhension de scènes complexes, ils nécessitent généralement beaucoup plus CUDA pendant l'entraînement que les CNN. Cela peut limiter la taille des lots sur les GPU grand public standard et augmenter la durée totale de l'entraînement.

En savoir plus sur RTDETR

YOLOv6.0 : optimisation du débit industriel

Issu du département Vision AI de Meituan, YOLOv6. YOLOv6 a été spécialement conçu pour servir de détecteur de nouvelle génération pour les pipelines industriels où GPU est primordial.

  • Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
  • Organisation : Meituan
  • Date : 13 janvier 2023
  • Arxiv : 2301.05586
  • GitHub : YOLOv6

Focus architectural

YOLOv6.YOLOv6 s'appuie sur une infrastructure EfficientRep, méticuleusement conçue pour minimiser les coûts d'accès à la mémoire sur les accélérateurs matériels tels que NVIDIA . L'architecture du cou comprend un module de concaténation bidirectionnelle (BiC) afin d'améliorer la fusion des fonctionnalités à différentes échelles.

Pendant l'entraînement, il utilise une stratégie d'entraînement assisté par ancrage (AAT) afin de tirer parti des paradigmes basés sur l'ancrage tout en conservant un mode d'inférence sans ancrage pour une exécution plus rapide. Bien qu'il atteigne un débit exceptionnel sur les GPU de niveau serveur (par exemple, T4, A100), son architecture spécialisée peut entraîner une latence sous-optimale lorsqu'il est déployé sur des périphériques de pointe CPU.

En savoir plus sur YOLOv6

Comparaison des performances

Lors de l'évaluation des modèles pour la production, il est essentiel de trouver le juste équilibre entre la précision (mAP) et la vitesse d'inférence et le coût de calcul (FLOP). Le tableau ci-dessous illustre la comparaison entre ces différents modèles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

Alors que YOLOv6. YOLOv6 domine en termes de vitesse de traitement pure sur TensorRT, RTDETRv2 obtient mAP plus élevés, notamment grâce à une meilleure évolutivité avec des variantes de modèles plus volumineuses. Cependant, les deux modèles ne disposent pas de la polyvalence étendue que l'on trouve dans les frameworks unifiés modernes. YOLOv6. YOLOv6 est avant tout un spécialiste de la détection, qui ne prend pas en charge nativement des tâches telles que la segmentation d'instances et l'estimation de poses.

Cas d'utilisation et recommandations

Le choix entre RT-DETR YOLOv6 des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir RT-DETR

RT-DETR un choix judicieux pour :

  • Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Quand choisir YOLOv6

YOLOv6 recommandé pour :

  • Déploiement tenant compte du matériel industriel : scénarios dans lesquels la conception tenant compte du matériel et la reparamétrisation efficace du modèle offrent des performances optimisées sur un matériel cible spécifique.
  • Détection rapide en une seule étape : applications donnant la priorité à la vitesse d'inférence brute sur GPU le traitement vidéo en temps réel dans des environnements contrôlés.
  • Intégration de l'écosystème Meituan : équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

L'avantage Ultralytics

Le choix du modèle approprié ne se limite pas à la simple comparaison des chiffres bruts ; l'expérience des développeurs, la flexibilité de déploiement et la prise en charge de l'écosystème sont tout aussi cruciales. En utilisant les modèles intégrés à la Ultralytics , les utilisateurs bénéficient d'avantages significatifs par rapport aux référentiels de recherche statiques.

  • Facilité d'utilisation : L'argument ultralytics Python offre une API transparente. La formation, la validation et l'exportation des modèles ne nécessitent que quelques lignes de code.
  • Écosystème bien entretenu : contrairement aux référentiels académiques isolés, la Ultralytics est activement mise à jour. Elle bénéficie d'intégrations robustes pour des outils tels que ONNX, OpenVINOet CoreML.
  • Efficacité de l'entraînement : Ultralytics consomment généralement beaucoup moins de VRAM pendant l'entraînement que les architectures de transformateurs telles que RTDETRv2, ce qui permet d'utiliser des lots plus volumineux sur du matériel grand public.
  • Polyvalence : contrairement à YOLOv6. YOLOv6, dont le champ d'application est restreint, Ultralytics sont multimodaux et prennent en charge nativement la classification d'images, les boîtes englobantes orientées (OBB) et la segmentation au sein d'un cadre unique et unifié.

Déploiement Optimisé

Grâce à l'interfaceCLI Ultralytics , l'exportation d'un modèle entraîné pour un déploiement en périphérie est aussi simple que d'exécuter : yolo export model=yolo11n.pt format=tensorrt.

Découvrez YOLO26 : la solution ultime

Bien que RTDETRv2 et YOLOv6. YOLOv6 offrent des avantages spécifiques, le domaine évolue rapidement. Pour les équipes qui lancent de nouveaux projets de vision par ordinateur, nous recommandons vivement YOLO26, publié par Ultralytics janvier 2026.

YOLO26 synthétise les points forts des CNN industriels et des transformateurs modernes tout en éliminant leurs faiblesses respectives :

  • Conception NMS de bout en bout : adoption de la technologie révolutionnaire introduite pour la première fois dans YOLOv10, YOLO26 élimine nativement NMS , garantissant un déploiement stable et prévisible similaire à RTDETRv2, mais avec beaucoup moins de frais généraux.
  • Optimiseur MuSGD : inspiré des techniques avancées d'entraînement LLM (telles que Kimi K2 de Moonshot AI), cet optimiseur hybride garantit un entraînement stable et une convergence plus rapide, surmontant ainsi l'instabilité notoire des transformateurs de vision traditionnels.
  • Optimisé pour Edge : avec CPU jusqu'à 43 % plus rapide que les générations précédentes et la suppression stratégique de la perte focale de distribution (DFL), YOLO26 est parfaitement adapté aux appareils mobiles et IoT où GPU n'est pas disponible.
  • ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations notables dans la reconnaissance des petits objets, un défi historique pour les CNN, rendant YOLO26 idéal pour l'imagerie aérienne et la robotique.

Exemple d'entraînement

Ultralytics intuitive Ultralytics vous permet de former des modèles de pointe en toute simplicité. Vous trouverez ci-dessous un exemple exécutable illustrant comment former le modèle YOLO26 Nano sur COCO8 :

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Résumé

Lorsque l'on compare RTDETRv2 et YOLOv6. YOLOv6, le choix dépend en grande partie de votre matériel spécifique et des contraintes de latence. RTDETRv2 excelle dans les environnements de recherche et le traitement côté serveur, où la gestion d'objets complexes qui se chevauchent est essentielle. YOLOv6. YOLOv6 reste un choix judicieux pour les lignes de production à haut débit équipées de puissants NVIDIA .

Cependant, pour les développeurs qui recherchent le meilleur des deux mondes, à savoir l'élégance des transformateurs NMS combinée à la vitesse fulgurante et à la faible empreinte mémoire des CNN,YOLO26 reste inégalé. Soutenu par la documentation complète et la communauté active de Ultralytics , YOLO26 garantit la robustesse, l'évolutivité et la pérennité de vos projets d'IA visuelle.


Commentaires