Passer au contenu

YOLO vs. RTDETRv2 : Équilibrer la vitesse et la précision du transformateur

La sélection de l'architecture optimale de détection d'objets implique souvent de trouver un compromis entre la latence de l'inférence et la précision de la détection. Cette comparaison technique examine YOLO, un détecteur à grande vitesse optimisé par Alibaba Group, et RTDETRv2, le transformateur de détection en temps réel de deuxième génération de Baidu. Nous analysons leurs innovations architecturales, leurs critères de performance et leur aptitude au déploiement afin de vous aider à prendre des décisions éclairées pour vos applications de vision par ordinateur.

YOLO: Optimisation pour une faible latence

YOLO représente une étape importante dans l'évolution de la marque YOLO en se concentrant sur l'optimisation de la vitesse sans compromettre gravement la précision. Développé par le groupe Alibaba, il utilise des techniques avancées de recherche d'architecture neuronale (NAS) pour adapter la structure du réseau à des fins d'efficacité.

Points forts de l'architecture

YOLO intègre plusieurs nouvelles technologies pour rationaliser le pipeline de détection :

  • Une épine dorsale alimentée par NAS : Le modèle utilise la recherche d'architecture neuronale (NAS) pour découvrir automatiquement une structure dorsale efficace (MAE-NAS). Cette approche garantit que la profondeur et la largeur du réseau sont optimisées pour des contraintes matérielles spécifiques.
  • RepGFPN Neck : Il s'agit d'une version efficace du Generalized Feature Pyramid Network (GFPN) connue sous le nom de RepGFPN. Ce composant améliore la fusion des caractéristiques à différentes échelles tout en maintenant un faible temps de latence.
  • ZeroHead : une conception simplifiée de la tête, appelée "ZeroHead", dissocie les tâches de classification et de régression, réduisant ainsi la charge de calcul des couches de prédiction finales.
  • AlignedOTA : Pour la stabilité de l'entraînement, YOLO utilise AlignedOTA (Optimal Transport Assignment), une stratégie d'attribution d'étiquettes qui aligne les cibles de classification et de régression afin d'améliorer la convergence.

En savoir plus sur DAMO-YOLO

RTDETRv2 : L'évolution des transformateurs en temps réel

RTDETRv2 s'appuie sur le succès de l'original RT-DETR, le premier détecteur d'objets basé sur un transformateur à atteindre des performances en temps réel. Développé par Baidu, RTDETRv2 introduit un "bag-of-freebies" pour améliorer la stabilité et la précision de l'apprentissage sans encourir de coûts d'inférence supplémentaires.

Points forts de l'architecture

RTDETRv2 exploite les points forts des transformateurs de vision tout en atténuant leurs goulets d'étranglement traditionnels en matière de vitesse :

  • Encodeur hybride : L'architecture utilise un codeur hybride qui traite efficacement les caractéristiques multi-échelles, en découplant l'interaction intra-échelle et la fusion inter-échelle afin de réduire les coûts de calcul.
  • Sélection des requêtesIoU: Ce mécanisme sélectionne des requêtes d'objets initiales de haute qualité sur la base des scores d'intersection par rapport à l'unionIoU, ce qui accélère la convergence de l'apprentissage.
  • Configuration adaptable : RTDETRv2 offre des configurations flexibles pour le décodeur et la sélection des requêtes, permettant aux utilisateurs d'adapter le modèle à des exigences spécifiques de vitesse/précision.
  • Conception sans ancrage : Comme son prédécesseur, il est entièrement dépourvu d'ancrage, ce qui élimine la nécessité d'un réglage heuristique de la boîte d'ancrage et d'une suppression du non-maximumNMS lors du post-traitement.

En savoir plus sur RTDETRv2

Comparaison technique : Performance et efficacité

La principale différence entre ces deux modèles réside dans leurs racines architecturales - CNN ou transformateur - et dans la manière dont cela influe sur leur profil de performance.

Analyse métrique

Le tableau ci-dessous présente les paramètres clés de l'ensemble de donnéesCOCO . Alors que RTDETRv2 domine en termes de précision moyennemAP, YOLO fait preuve d'un débit supérieur (FPS) et d'un nombre de paramètres inférieur pour ses variantes plus petites.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analyse des compromis

YOLO excelle dans les environnements où chaque milliseconde compte, comme le tri industriel à haute fréquence. Sa variante "Tiny" (t) est exceptionnellement légère. À l'inverse, RTDETRv2 offre un plafond de précision plus élevé, ce qui le rend préférable pour les scènes complexes où il est essentiel de manquer un objet, comme dans la navigation autonome ou la surveillance détaillée.

Architecture et application dans le monde réel

  1. Contexte global vs. caractéristiques locales : Le mécanisme d'attention du transformateur de RTDETRv2 lui permet de mieux comprendre le contexte global que YOLO basé sur le CNN. Il en résulte de meilleures performances dans les scènes encombrées ou lorsque les objets sont occultés. Cependant, cette attention globale se fait au prix d'une plus grande consommation de mémoire et de temps d'apprentissage plus lents.

  2. Optimisation du matériel : L'épine dorsale NAS de YOLO est hautement optimisée pour l'inférence GPU , ce qui permet d'obtenir une très faible latence. RTDETRv2, bien qu'en temps réel, nécessite généralement un matériel plus puissant pour atteindre la fréquence d'images des détecteurs de YOLO.

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

YOLO et RTDETRv2 offrent des avantages spécifiques, Ultralytics YOLO11 s'impose comme la solution la plus équilibrée et la plus facile à développer pour la grande majorité des applications réelles.

Expérience et écosystème supérieurs pour les développeurs

L'un des défis les plus importants des modèles académiques tels que YOLO ou RTDETRv2 est l'intégration. Ultralytics résout ce problème grâce à un écosystème robuste :

  • Facilité d'utilisation : Grâce à une API et une CLI Python unifiées, vous pouvez former, valider et déployer des modèles en quelques lignes de code seulement.
  • Un écosystème bien entretenu : Les modèles Ultralytics bénéficient d'un développement actif, d'une documentation complète et d'une large communauté. Cela garantit la compatibilité avec les dernières bibliothèques matérielles et logicielles.
  • Efficacité de l'entraînement : YOLO11 est conçu pour s'entraîner plus rapidement et nécessite beaucoup moins de mémoire GPU (VRAM) que les modèles basés sur les transformateurs comme RTDETRv2. Cela rend l'IA de haute performance accessible même sur du matériel de niveau consommateur.

Une polyvalence inégalée

Contrairement à YOLO et RTDETRv2, qui sont principalement axés sur la détection des boîtes englobantes, YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur :

Équilibre des performances

YOLO11 atteint une précision de pointe qui rivalise ou dépasse RTDETRv2 dans de nombreux benchmarks, tout en conservant la vitesse d'inférence et l'efficacité caractéristiques de la famille YOLO .

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

En savoir plus sur YOLO11

Conclusion

Le choix entre YOLO et RTDETRv2 dépend de vos contraintes spécifiques :

  • Choisissez YOLO si votre principale contrainte est la latence et si vous déployez sur des appareils en périphérie pour lesquels un nombre minimal de paramètres est essentiel.
  • Choisissez RTDETRv2 si vous avez besoin de la plus grande précision possible dans des scènes complexes et si vous disposez du budget de calcul nécessaire pour supporter une architecture de transformateur.

Cependant, pour une solution holistique qui combine haute performance, facilité d'utilisation et capacité multi-tâches, Ultralytics YOLO11 reste le choix recommandé. Sa faible empreinte mémoire pendant la formation, associée à un écosystème mature, accélère le passage du prototype à la production.

Explorer d'autres modèles

Pour mieux comprendre le paysage de la détection d'objets, examinez ces comparaisons :


Commentaires