Passer au contenu

RTDETRv2 vs YOLOv7: évolution basée sur Transformer vs efficacité CNN

Le domaine de la détection d'objets a connu une divergence fascinante dans les philosophies architecturales. D'un côté, nous avons la lignée des réseaux neuronaux convolutifs (CNN), incarnée par le très performant YOLOv7. De l'autre, la révolution Transformer a donné naissance au RTDETRv2 (Real-Time Detection Transformer), un modèle qui vise à apporter les capacités contextuelles globales des Vision Transformers (ViT) à des vitesses en temps réel.

Ce guide fournit une analyse technique de ces deux architectures, en examinant leurs avantages et inconvénients en termes de vitesse, de précision et de complexité de déploiement. Bien que les deux aient représenté des performances de pointe lors de leur lancement respectif, les développements modernes privilégient souvent l'écosystème unifié et les performances optimisées pour la périphérie d'Ultralytics YOLO26. Ultralytics , qui intègre nativement les meilleures fonctionnalités des deux mondes, telles que l'inférence de bout en bout NMS.

Comparaison des cadres dirigeants

Le tableau suivant compare les mesures de performance officielles de RTDETRv2 et YOLOv7 l'ensemble COCO .

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

RTDETRv2 : Le Challenger Transformer

RTDETRv2 (Real-Time Detection Transformer version 2) est l'évolution du RT-DETR original, développé par les chercheurs de Baidu. Il résout le problème du coût de calcul élevé généralement associé aux transformateurs de vision en introduisant un encodeur hybride efficace et en simplifiant le processus de sélection des requêtes.

Détails techniques clés :

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation : Baidu
  • Date : 17 avril 2023 (contexte de la version v1)
  • Liens :Article ArXiv | Dépôt GitHub

RTDETRv2 se distingue en éliminant le besoin de suppression non maximale (NMS). Contrairement aux CNN qui génèrent des milliers de cadres de sélection redondants nécessitant un filtrage post-traitement, RTDETRv2 prédit directement un ensemble fixe de requêtes d'objets. Cette capacité de bout en bout réduit la variance de latence, ce qui la rend attrayante pour les applications où un temps d'inférence constant est essentiel.

Cependant, le recours à des mécanismes d'attention signifie que RTDETRv2 peut être gourmand en mémoire pendant l'entraînement par rapport aux CNN purs. Il excelle dans la capture du contexte global (compréhension des relations entre des parties éloignées d'une image), ce qui est utile dans les scènes complexes présentant une occlusion importante.

En savoir plus sur RT-DETR

YOLOv7: le summum de l'efficacité des CNN

Sorti mi-2022, YOLOv7 a repoussé les limites de ce que les architectures purement convolutives pouvaient accomplir. Il a été conçu en mettant l'accent sur les « bag-of-freebies entraînables », des méthodes d'optimisation qui améliorent la précision pendant l'entraînement sans augmenter le coût de l'inférence.

Détails techniques clés :

La principale innovation de YOLOv7 le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette architecture permet au réseau d'apprendre des caractéristiques plus variées en contrôlant efficacement les longueurs des chemins de gradient. Bien qu'il offre une vitesse impressionnante sur GPU , YOLOv7 un détecteur basé sur des ancres. Cela signifie qu'il nécessite un réglage minutieux des hyperparamètres des boîtes d'ancrage afin de correspondre aux échelles spécifiques des objets dans un ensemble de données personnalisé, une étape souvent automatisée ou supprimée dans les modèles plus récents tels que YOLO11.

En savoir plus sur YOLOv7

Plongée architecturale en profondeur

Attention vs. Convolution

La différence fondamentale réside dans la manière dont ces modèles traitent les données visuelles. YOLOv7 des convolutions, qui scannent l'image dans des fenêtres locales. Cela le rend incroyablement rapide et efficace pour détecter des caractéristiques locales telles que les contours et les textures, mais potentiellement moins performant pour comprendre les relations sémantiques globales d'une scène.

RTDETRv2 utilise des mécanismes d'auto-attention. Il calcule la pertinence de chaque pixel par rapport à tous les autres pixels (ou au sein de points d'attention déformables spécifiques). Cela permet au modèle de « prêter attention » aux caractéristiques pertinentes, quelle que soit leur distance spatiale, offrant ainsi des performances supérieures dans les scènes encombrées où les objets se chevauchent considérablement.

Post-traitement et NMS

YOLOv7, comme ses prédécesseurs YOLOv5 et YOLOv6, génère des prédictions denses qui doivent être filtrées à l'aide NMS. Cette étape est un processus heuristique qui peut constituer un goulot d'étranglement dans les scénarios à forte densité de foule et introduit des hyperparamètres (IoU ) qui affectent la précision et le rappel.

RTDETRv2 NMS nécessite NMS. Il utilise l'appariement bipartite pendant l'entraînement pour attribuer un objet de vérité terrain à une seule prédiction. Cela simplifie le pipeline de déploiement, car il n'est pas nécessaire d'implémenter NMS dans ONNX ou TensorRT .

Le meilleur des deux mondes

Alors que RTDETRv2 a été le pionnier de la détection NMS pour les transformateurs en temps réel, Ultralytics a adapté avec succès ce concept aux CNN. YOLO26 utilise une conception native de bout en bout qui élimine NMS conservant la faible empreinte mémoire et la grande efficacité d'entraînement des CNN.

L'avantage Ultralytics : Pourquoi passer à YOLO26 ?

Bien que l'analyse des anciens modèles fournisse un contexte précieux, démarrer un nouveau projet avec Ultralytics offre des avantages significatifs en termes de performances, de convivialité et de pérennité. YOLO26 représente l'état de l'art actuel, affinant les enseignements tirés à la fois de YOLOv7 de RTDETR.

1. Nativement de bout en bout (NMS)

Tout comme RTDETRv2, YOLO26 est conçu pour être NMS, utilisant une tête One-to-Many pour l'entraînement et une tête One-to-One pour l'inférence. Cela supprime la surcharge de post-traitement présente dans YOLOv7, ce qui se traduit par un déploiement plus rapide et plus simple sur des appareils périphériques tels que NVIDIA ou Raspberry Pi.

2. CPU supérieures

Les transformateurs tels que RTDETRv2 sont souvent lourds en opérations mathématiques qui nécessitent GPU . YOLO26 inclut des optimisations spécifiques pour CPU , atteignant des vitesses jusqu'à 43 % plus rapides surGPU par rapport aux itérations précédentes. Cela le rend beaucoup plus polyvalent pour les applications mobiles ou les capteurs IoT à faible consommation d'énergie.

3. Formation avancée en stabilité

YOLO26 introduit l'optimiseur MuSGD, un hybride entre SGD l'optimiseur Muon (inspiré du Kimi K2 de Moonshot AI). Cela apporte les innovations en matière de stabilité issues de l'entraînement des modèles linguistiques à grande échelle (LLM) à la vision par ordinateur, garantissant que les modèles convergent plus rapidement et avec une plus grande précision que le SGD standard SGD dans YOLOv7.

4. Fonctions de perte spécialisées

Grâce à ProgLoss et STAL, YOLO26 offre des capacités améliorées pour la reconnaissance de petits objets, un point faible traditionnel des CNN standard et de certaines architectures de transformateurs. Cela est essentiel pour des tâches telles que l'analyse d'images aériennes ou le contrôle qualité dans le secteur manufacturier.

5. Ultralytics unifiée

Le développement avec YOLOv7 RTDETRv2 implique souvent la gestion de référentiels disparates et de scripts d'installation complexes. La Ultralytics unifie le flux de travail. Vous pouvez former, valider et déployer des modèles pour la détection, la segmentation, la classification, l'estimation de pose et l'OBB à l'aide d'une API unique et simple.

from ultralytics import YOLO

# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")

# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

En savoir plus sur YOLO26

Recommandations de cas d'utilisation

  • Choisissez RTDETRv2 si : vous avez accès à des GPU puissants (comme NVIDIA ou A100) et votre application implique des scènes très encombrées où l'occlusion est un point de défaillance majeur pour les CNN. L'attention au contexte global peut offrir un léger avantage dans ces scénarios spécifiques.
  • Choisissez YOLOv7 : vous gérez des systèmes hérités qui reposent spécifiquement sur les anciens formats YOLO ou si vous avez besoin d'une approche CNN pure, mais que vous ne pouvez pas passer aux Python plus récents pris en charge par Ultralytics.
  • Choisissez Ultralytics si : vous avez besoin du meilleur équilibre entre vitesse et précision sur tous les types de matériel (CPU, GPU, NPU). La suppression du DFL facilite l'exportation vers CoreML ou TFLite, et son efficacité mémoire permet l'entraînement sur des GPU grand public. Que vous développiez un système d'alarme de sécurité ou un gestionnaire de stationnement intelligent, la documentation complète et le soutien actif de la communauté en font le choix le moins risqué pour un déploiement en entreprise.

Conclusion

RTDETRv2 et YOLOv7 tous deux YOLOv7 de manière significative à l'avancement de la vision par ordinateur. RTDETRv2 a prouvé que les transformateurs pouvaient être rapides, tandis que YOLOv7 la puissance durable des CNN bien optimisés. Cependant, ce domaine évolue rapidement.

Pour les développeurs et les chercheurs d'aujourd'hui, Ultralytics offre le « meilleur des deux mondes » en combinant la commodité des transformateurs NMS avec la vitesse brute et l'efficacité des CNN. Soutenu par un écosystème robuste qui simplifie tout, de l'annotation des données à l'exportation des modèles, il reste le point de départ recommandé pour les projets d'IA modernes.


Commentaires