Passer au contenu

RTDETRv2 vs. YOLOv6.0 : Transformateurs de haute précision répondant à la vitesse industrielle

La sélection de l'architecture optimale de détection d'objets implique souvent de trouver un compromis entre la précision absolue et la latence de l'inférence. Cette comparaison technique explore RTDETRv2, un modèle basé sur Vision Transformer conçu pour les tâches de haute précision, et YOLOv6.0, un détecteur basé sur CNN conçu spécifiquement pour la vitesse et l'efficacité industrielles. En analysant leurs architectures, leurs performances et leurs caractéristiques de déploiement, nous vous aidons à identifier la meilleure solution pour vos applications de vision par ordinateur.

RTDETRv2 : Repousser les limites avec les transformateurs de vision

RTDETRv2 (Real-Time Detection Transformer v2) représente une évolution significative dans la détection d'objets, en exploitant la puissance des transformateurs pour capturer le contexte global dans les images. Contrairement aux CNN traditionnels qui traitent les caractéristiques locales, RTDETRv2 utilise des mécanismes d'auto-attention pour comprendre les relations entre les objets distants, ce qui le rend très efficace pour les scènes complexes.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, et Yi Liu
Organisation:Baidu
Date : 2023-04-17 (Initial), 2024-07-24 (v2)
Arxiv:RT-DETR: DETRs Beat YOLOs on Real-time Object Detection
GitHub:RT-DETR Repository
Docs:RTDETRv2 Documentation

En savoir plus sur RTDETRv2

Innovations architecturales

L'architecture de RTDETRv2 est une conception hybride. Elle utilise une épine dorsale CNN standard (typiquement ResNet ou HGNet) pour l'extraction initiale des caractéristiques, suivie d'un transformateur encodeur-décodeur. Cette structure permet au modèle de traiter efficacement les caractéristiques multi-échelles tout en éliminant le besoin de composants fabriqués à la main tels que les boîtes d'ancrage et la suppression non maximale (NMS).

Avantage du transformateur

Les composants Vision Transformer (ViT) de RTDETRv2 excellent dans la résolution des ambiguïtés dans les scènes encombrées. En analysant simultanément l'ensemble du contexte de l'image, le modèle réduit les faux positifs causés par l'occlusion ou l'encombrement de l'arrière-plan.

Points forts et faiblesses

Points forts :

  • Précision supérieure : Il atteint généralement une précision moyenne plus élevée (mAP) sur des ensembles de données tels que COCO par rapport aux CNN de taille similaire.
  • Conception sans ancrage : Simplifie le pipeline de détection en supprimant les boîtes d'ancrage, ce qui réduit le réglage des hyperparamètres.
  • Contexte global : Excellent pour détecter des objets dans des environnements denses ou confus où les caractéristiques locales sont insuffisantes.

Faiblesses :

  • Coût de calcul : Nécessite des FLOPs et une mémoire GPU nettement plus élevés, en particulier lors de la formation.
  • La latence : Bien qu'il soit "en temps réel", il est généralement derrière les CNN optimisés comme YOLOv6 en termes de vitesse d'inférence brute sur un matériel équivalent.
  • Faim de données : Les modèles de transformation nécessitent souvent des ensembles de données d'entraînement plus importants et des programmes d'entraînement plus longs pour converger.

YOLOv6.0 : L'accélérateur industriel

YOLOv6.0, développé par Meituan, se concentre sur les besoins des applications industrielles : faible latence et haut débit. Il affine le paradigme classique du détecteur d'objets en une étape pour maximiser l'efficacité sur du matériel allant des appareils périphériques aux GPU.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, et Xiangxiang Chu
Organisation:Meituan
Date : 2023-01-13
Arxiv:YOLOv6 v3.0 : A Full-Scale Reloading
GitHub:YOLOv6 Repository
Docs:Ultralytics YOLOv6 Docs

En savoir plus sur YOLOv6.0

Optimisé pour l'efficacité

YOLOv6.0 intègre une philosophie de conception tenant compte du matériel. Il utilise une épine dorsale de reparamétrage efficace (de type RepVGG) qui rationalise le réseau en une simple pile de convolutions 3x3 pendant l'inférence, éliminant ainsi la complexité des branches multiples. En outre, il utilise des techniques d'autodistillation pendant la formation pour améliorer la précision sans ajouter de coût d'inférence.

Points forts et faiblesses

Points forts :

  • Vitesse exceptionnelle : La latence est très faible, ce qui en fait la solution idéale pour les lignes de fabrication à grande vitesse et la robotique.
  • Facilité de déploiement : la structure reparamétrée est facile à exporter vers des formats tels que ONNX et TensorRT pour une performance maximale.
  • Efficacité matérielle : Optimisé pour utiliser pleinement les unités de calcul du GPU , en minimisant les temps d'inactivité.

Faiblesses :

  • Plafond de précision : Bien que compétitif, il peut avoir du mal à atteindre la précision maximale des modèles basés sur les transformateurs dans des scénarios visuels très complexes.
  • Polyvalence limitée : Principalement axé sur la détection, il ne prend pas en charge les tâches telles que la segmentation de l'instance ou l'estimation de la pose, que l'on trouve dans les cadres plus récents.

Analyse des performances : Vitesse et précision

Le choix entre RTDETRv2 et YOLOv6.0 dépend souvent des contraintes spécifiques de l'environnement de déploiement. RTDETRv2 domine dans les scénarios exigeant la plus grande précision possible, tandis que YOLOv6.0 l'emporte en termes de vitesse et d'efficacité.

Le tableau suivant met en évidence les paramètres clés. Notez que YOLOv6.0 atteint une latence plus faible (vitesse plus rapide) à des échelles de modèle similaires, tandis que RTDETRv2 vise des scores mAP plus élevés au détriment de l'intensité de calcul (FLOPs).

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0m64050.0-5.2834.985.8
YOLOv6.0l64052.8-8.9559.6150.7

Besoins en formation et en ressources

Lors de l'élaboration de modèles personnalisés, l'expérience de formation diffère considérablement.

  • Utilisation de la mémoire : RTDETRv2 nécessite une grande quantité de VRAM du GPU en raison de la complexité quadratique des mécanismes d'attention. L'entraînement des variantes "Large" ou "X-Large" nécessite souvent des GPU d'entreprise haut de gamme. En revanche, les modèlesYOLO d'Ultralytics et YOLOv6 sont généralement plus économes en mémoire, ce qui permet d'effectuer l'apprentissage sur du matériel grand public ou des instances cloud plus petites.
  • Convergence : Les modèles basés sur les transformateurs ont généralement besoin d'époques plus longues pour apprendre les hiérarchies spatiales que les CNN capturent intuitivement, ce qui peut augmenter les coûts de calcul dans le nuage.

Idéalement équilibré : L'avantage Ultralytics

RTDETRv2 et YOLOv6.0 excellent dans leurs niches respectives, Ultralytics YOLO11 d'Ultralytics offre une solution unifiée qui répond aux limites des deux. Il combine la facilité d'utilisation et la vitesse des CNN avec des raffinements d'architecture qui rivalisent avec la précision des transformateurs.

En savoir plus sur YOLO11

Pourquoi les développeurs et les chercheurs préfèrent de plus en plus les modèles Ultralytics :

  1. Polyvalence : Contrairement à YOLOv6, qui se limite à la détection, Ultralytics prend en charge la classification des images, la segmentation, l'estimation de la pose et la détection de la boîte englobante orientée (OBB) au sein d'une API unique.
  2. Un écosystème bien entretenu : La plateforme Ultralytics propose des mises à jour fréquentes, un large soutien de la communauté et des intégrations transparentes avec des outils tels que MLflow, TensorBoard et Ultralytics HUB.
  3. Facilité d'utilisation : Grâce à une philosophie "low-code", vous pouvez former, valider et déployer des modèles de pointe avec seulement quelques lignes de commandes Python ou CLI .
  4. Équilibre des performances : YOLO11 offre une vitesse d'inférence en temps réel et une grande précision, dépassant souvent les anciennes versions de YOLO et égalant les transformateurs complexes dans des scénarios pratiques.

Exemple de code

Découvrez la simplicité de l'API Ultralytics . L'exemple suivant montre comment charger un modèle pré-entraîné et exécuter l'inférence sur une image :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display results on screen
    result.save(filename="result.jpg")  # Save results to disk

Conclusion

RTDETRv2 et YOLOv6.0 sont des étapes impressionnantes dans l'histoire de la vision par ordinateur. RTDETRv2 est un excellent choix pour la recherche et les scénarios où la précision est la priorité absolue, quel que soit le coût de calcul. YOLOv6.0 est très utile au secteur industriel, car il offre une vitesse extrême pour les environnements contrôlés.

Cependant, pour la plupart des applications réelles nécessitant une solution robuste, polyvalente et facile à déployer, Ultralytics YOLO11 s'impose comme le meilleur choix. Sa combinaison de performances de pointe, de faible empreinte mémoire et d'un écosystème florissant permet aux développeurs de passer du prototype à la production avec confiance et rapidité.

Explorer d'autres modèles

Découvrez comment les différentes architectures se comparent pour trouver celle qui convient le mieux à votre projet :


Commentaires