RTDETRv2 vs YOLOv6.0 : évaluation des transformateurs en temps réel par rapport aux CNN industriels

Le paysage de la vision par ordinateur est en constante évolution, offrant aux développeurs une multitude de choix architecturaux pour la détection d'objets. Deux modèles phares qui représentent des approches divergentes sont RTDETRv2, un transformateur de vision de pointe, et YOLOv6.YOLOv6, un réseau neuronal convolutif (CNN) hautement optimisé et adapté aux applications industrielles.

Cette comparaison technique complète explore leurs architectures respectives, leurs mesures de performance et leurs scénarios de déploiement idéaux. Nous examinerons également comment Ultralytics au sens large offre une expérience développeur supérieure, en nous tournant finalement vers les capacités de nouvelle génération Ultralytics .

RTDETRv2 : l'approche Vision Transformer

Développé par des chercheurs de Baidu, RTDETRv2 s'appuie sur les fondations du RT-DETR original, représentant un bond en avant significatif dans la détection d'objets basée sur les transformeurs.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2024-07-24
Arxiv : 2407.17140
GitHub : RT-DETR
Docs : README GitHub de RTDETRv2

Points forts architecturaux

RTDETRv2 utilise une architecture hybride qui combine un extracteur de caractéristiques CNN avec un puissant décodeur transformateur. La caractéristique la plus marquante de ce modèle est sa conception native NMS. En éliminant la suppression non maximale (NMS) pendant le post-traitement, le modèle prédit directement les cadres de sélection, ce qui simplifie le déploiement et stabilise la latence d'inférence.

Le « Bag-of-Freebies » intégré à RTDETRv2 améliore sa capacité à gérer des scènes complexes et des objets qui se chevauchent, car les mécanismes d'attention globale comprennent intrinsèquement mieux les relations spatiales que les convolutions localisées.

Utilisation de la mémoire par les Transformers

Si les transformateurs excellent dans la compréhension de scènes complexes, ils nécessitent généralement beaucoup plus CUDA pendant l'entraînement que les CNN. Cela peut limiter la taille des lots sur les GPU grand public standard et augmenter la durée totale de l'entraînement.

En savoir plus sur RTDETR

YOLOv6.0 : optimisation du débit industriel

Issu du département Vision AI de Meituan, YOLOv6. YOLOv6 a été spécialement conçu pour servir de détecteur de nouvelle génération pour les pipelines industriels où GPU est primordial.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 2023-01-13
Arxiv : 2301.05586
GitHub : YOLOv6

Focus architectural

YOLOv6.YOLOv6 s'appuie sur une infrastructure EfficientRep, méticuleusement conçue pour minimiser les coûts d'accès à la mémoire sur les accélérateurs matériels tels que NVIDIA . L'architecture du cou comprend un module de concaténation bidirectionnelle (BiC) afin d'améliorer la fusion des fonctionnalités à différentes échelles.

Pendant l'entraînement, il utilise une stratégie d'entraînement assisté par ancres (AAT) pour tirer parti des paradigmes basés sur des ancres tout en conservant un mode d'inférence sans ancres pour une exécution plus rapide. Bien qu'il atteigne un débit exceptionnel sur les GPU de niveau serveur (par exemple, T4, A100), son architecture spécialisée peut entraîner une latence sous-optimale lorsqu'il est déployé sur des périphériques edge uniquement CPU.

En savoir plus sur YOLOv6

Comparaison des performances

Lors de l'évaluation des modèles pour la production, il est essentiel de trouver le juste équilibre entre la précision (mAP) et la vitesse d'inférence et le coût de calcul (FLOP). Le tableau ci-dessous illustre la comparaison entre ces différents modèles.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

Alors que YOLOv6. YOLOv6 domine en termes de vitesse de traitement pure sur TensorRT, RTDETRv2 obtient mAP plus élevés, notamment grâce à une meilleure évolutivité avec des variantes de modèles plus volumineuses. Cependant, les deux modèles ne disposent pas de la polyvalence étendue que l'on trouve dans les frameworks unifiés modernes. YOLOv6. YOLOv6 est avant tout un spécialiste de la détection, qui ne prend pas en charge nativement des tâches telles que la segmentation d'instances et l'estimation de poses.

Cas d'utilisation et recommandations

Le choix entre RT-DETR et YOLOv6 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir RT-DETR

RT-DETR un choix judicieux pour :

Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.

Quand choisir YOLOv6

YOLOv6 recommandé pour :

Déploiement Industriel Optimisé pour le Matériel : Scénarios où la conception du modèle optimisée pour le matériel et la reparamétrisation efficace offrent des performances optimisées sur du matériel cible spécifique.
Détection rapide en une seule étape : Applications privilégiant une vitesse d'inférence brute sur GPU pour le traitement vidéo en temps réel dans des environnements contrôlés.
Intégration à l'écosystème Meituan : Équipes travaillant déjà au sein de la pile technologique et de l'infrastructure de déploiement de Meituan.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

L'avantage Ultralytics

Le choix du bon modèle ne se limite pas aux chiffres bruts des benchmarks ; l'expérience développeur, la flexibilité de déploiement et le support de l'écosystème sont tout aussi cruciaux. En utilisant les modèles intégrés à la plateforme Ultralytics, les utilisateurs obtiennent des avantages significatifs par rapport aux dépôts de recherche statiques.

Facilité d'utilisation : L'argument ultralytics Python offre une API transparente. La formation, la validation et l'exportation des modèles ne nécessitent que quelques lignes de code.
Écosystème bien entretenu : Contrairement aux dépôts académiques isolés, la plateforme Ultralytics est activement mise à jour. Elle dispose d'intégrations robustes pour des outils comme ONNX, OpenVINO et CoreML.
Efficacité de l'entraînement : Les modèles Ultralytics consomment généralement une VRAM significativement plus faible pendant l'entraînement par rapport aux architectures de transformeurs comme RTDETRv2, ce qui permet des tailles de lot plus importantes sur du matériel grand public.
Polyvalence : Contrairement à la portée ciblée de YOLOv6-3.0, les modèles Ultralytics sont multimodaux, prenant en charge nativement la classification d'images, les boîtes englobantes orientées (OBB) et la segmentation au sein d'un framework unique et unifié.

Déploiement Optimisé

Grâce à l'interfaceCLI Ultralytics , l'exportation d'un modèle entraîné pour un déploiement en périphérie est aussi simple que d'exécuter : yolo export model=yolo11n.pt format=tensorrt.

Découvrez YOLO26 : la solution ultime

Bien que RTDETRv2 et YOLOv6. YOLOv6 offrent des avantages spécifiques, le domaine évolue rapidement. Pour les équipes qui lancent de nouveaux projets de vision par ordinateur, nous recommandons vivement YOLO26, publié par Ultralytics janvier 2026.

YOLO26 synthétise les points forts des CNN industriels et des transformateurs modernes tout en éliminant leurs faiblesses respectives :

Conception de bout en bout sans NMS : Adoptant l'innovation introduite pour la première fois dans YOLOv10, YOLO26 élimine nativement le post-traitement NMS, garantissant un déploiement stable et prévisible, similaire à RTDETRv2 mais avec beaucoup moins de surcoût.
Optimiseur MuSGD : Inspiré par des techniques d'entraînement avancées des LLM (telles que Kimi K2 de Moonshot AI), cet optimiseur hybride assure un entraînement stable et une convergence plus rapide, surmontant l'instabilité notoire des transformeurs de vision traditionnels.
Optimisé pour l'Edge : Avec jusqu'à 43 % d'inférence CPU plus rapide que les générations précédentes et la suppression stratégique de la Distribution Focal Loss (DFL), YOLO26 est parfaitement adapté aux appareils mobiles et IoT où l'accélération GPU n'est pas disponible.
ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, un défi historique pour les CNN, rendant YOLO26 idéal pour l'imagerie aérienne et la robotique.

Exemple d'entraînement

Ultralytics intuitive Ultralytics vous permet de former des modèles de pointe en toute simplicité. Vous trouverez ci-dessous un exemple exécutable illustrant comment former le modèle YOLO26 Nano sur COCO8 :

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

Résumé

Lorsque l'on compare RTDETRv2 et YOLOv6. YOLOv6, le choix dépend en grande partie de votre matériel spécifique et des contraintes de latence. RTDETRv2 excelle dans les environnements de recherche et le traitement côté serveur, où la gestion d'objets complexes qui se chevauchent est essentielle. YOLOv6. YOLOv6 reste un choix judicieux pour les lignes de production à haut débit équipées de puissants NVIDIA .

Cependant, pour les développeurs qui recherchent le meilleur des deux mondes, à savoir l'élégance des transformateurs NMS combinée à la vitesse fulgurante et à la faible empreinte mémoire des CNN,YOLO26 reste inégalé. Soutenu par la documentation complète et la communauté active de Ultralytics , YOLO26 garantit la robustesse, l'évolutivité et la pérennité de vos projets d'IA visuelle.