DAMO-YOLO vs. RTDETRv2 : Équilibrer la vitesse et la précision du transformateur

Le choix de l'architecture de détection d'objets optimale implique souvent de naviguer dans le compromis entre la latence d'inférence et la précision de la détection. Cette comparaison technique examine DAMO-YOLO, un détecteur à haute vitesse optimisé par Alibaba Group, et RTDETRv2, le Real-Time Detection Transformer de deuxième génération de Baidu. Nous analysons leurs innovations architecturales, leurs benchmarks de performance et leur aptitude au déploiement pour vous aider à prendre des décisions éclairées pour vos applications de vision par ordinateur.

DAMO-YOLO : Optimisation pour une faible latence

DAMO-YOLO représente une étape importante dans l'évolution des architectures YOLO, en se concentrant fortement sur la maximisation de la vitesse sans compromettre sévèrement la précision. Développé par le groupe Alibaba, il utilise des techniques avancées de recherche d'architecture neuronale (NAS) pour adapter la structure du réseau à l'efficacité.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO
Docs :https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md

Points forts architecturaux

DAMO-YOLO intègre plusieurs nouvelles technologies pour rationaliser le pipeline de détection :

Backbone alimenté par NAS : Le modèle utilise la recherche d'architecture neuronale (NAS) pour découvrir automatiquement une structure de backbone efficace (MAE-NAS). Cette approche garantit que la profondeur et la largeur du réseau sont optimisées pour des contraintes matérielles spécifiques.
Cou RepGFPN : Il présente une version efficace du Generalized Feature Pyramid Network (GFPN) connue sous le nom de RepGFPN. Ce composant améliore la fusion des caractéristiques à différentes échelles tout en maintenant un faible contrôle de la latence.
ZeroHead : Une conception de tête simplifiée, appelée « ZeroHead », découple les tâches de classification et de régression, réduisant ainsi la charge de calcul des couches de prédiction finales.
AlignedOTA : Pour la stabilité de la formation, DAMO-YOLO utilise AlignedOTA (Optimal Transport Assignment), une stratégie d’attribution d’étiquettes qui aligne les cibles de classification et de régression afin d’améliorer la convergence.

En savoir plus sur DAMO-YOLO

RTDETRv2 : L’évolution des Transformers en temps réel

RTDETRv2 s'appuie sur le succès du RT-DETR original, le premier détecteur d'objets basé sur transformateur à atteindre des performances en temps réel. Développé par Baidu, RTDETRv2 introduit un "bag-of-freebies" pour améliorer la stabilité et la précision de l'entraînement sans entraîner de coûts d'inférence supplémentaires.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2023-04-17
Arxiv :https://arxiv.org/abs/2304.08069
GitHub :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Documentation :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

Points forts architecturaux

RTDETRv2 exploite les forces des transformateurs de vision tout en atténuant leurs traditionnels goulets d'étranglement de vitesse :

Encodeur Hybride : L'architecture utilise un encodeur hybride qui traite efficacement les caractéristiques multi-échelles, en découplant l'interaction intra-échelle et la fusion inter-échelles afin de réduire les coûts de calcul.
Sélection de requêtes basée sur l'IoU : Ce mécanisme sélectionne des requêtes d'objets initiales de haute qualité basées sur les scores d'Intersection sur Union (IoU), ce qui conduit à une convergence d'entraînement plus rapide.
Configuration adaptable : RTDETRv2 offre des configurations flexibles pour le décodeur et la sélection de requêtes, permettant aux utilisateurs d’ajuster le modèle pour des exigences spécifiques de vitesse/précision.
Conception sans ancres : Comme son prédécesseur, il est entièrement sans ancres, éliminant le besoin de réglage heuristique des boîtes d'ancrage et de suppression non maximale (NMS) pendant le post-traitement.

En savoir plus sur RTDETRv2

Comparaison technique : Performance et efficacité

La distinction fondamentale entre ces deux modèles réside dans leurs racines architecturales (CNN versus Transformer) et dans la manière dont cela impacte leur profil de performance.

Analyse des métriques

Le tableau ci-dessous présente les principales mesures sur l'ensemble de données COCO. Bien que RTDETRv2 domine en termes de précision moyenne (mAP), DAMO-YOLO démontre un débit supérieur (FPS) et un nombre de paramètres inférieur pour ses variantes plus petites.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analyse des compromis

DAMO-YOLO excelle dans les environnements où chaque milliseconde compte, comme le tri industriel à haute fréquence. Sa variante 'Tiny' (t) est exceptionnellement légère. Inversement, RTDETRv2 offre un plafond de précision plus élevé, ce qui le rend préférable pour les scènes complexes où manquer un objet est critique, comme dans la navigation autonome ou la surveillance détaillée.

Architecture vs. application dans le monde réel

Contexte global vs. Caractéristiques locales : Le mécanisme d'attention du transformateur de RTDETRv2 lui permet de comprendre le contexte global mieux que le DAMO-YOLO basé sur CNN. Il en résulte de meilleures performances dans les scènes encombrées ou lorsque des objets sont occlus. Cependant, cette attention globale se fait au prix d'une consommation de mémoire plus élevée et de temps d'entraînement plus lents.
Optimisation Matérielle : Le backbone de DAMO-YOLO basé sur NAS est hautement optimisé pour l'inférence GPU, atteignant une très faible latence. RTDETRv2, bien qu'en temps réel, nécessite généralement un matériel plus puissant pour égaler les fréquences d'images des détecteurs de style YOLO.

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

Bien que DAMO-YOLO et RTDETRv2 offrent des avantages spécialisés, Ultralytics YOLO11 se distingue comme la solution la plus équilibrée et la plus conviviale pour la grande majorité des applications du monde réel.

Expérience développeur et écosystème supérieurs

L'un des défis les plus importants avec les modèles académiques comme DAMO-YOLO ou RTDETRv2 est l'intégration. Ultralytics résout ce problème avec un écosystème robuste:

Facilité d'utilisation : Grâce à une API Python et une CLI unifiées, vous pouvez entraîner, valider et déployer des modèles en quelques lignes de code.
Écosystème bien maintenu : Les modèles Ultralytics sont pris en charge par un développement actif, une documentation exhaustive et une large communauté. Cela garantit la compatibilité avec les dernières bibliothèques matérielles et logicielles.
Efficacité de l'entraînement : YOLO11 est conçu pour s'entraîner plus rapidement et nécessite beaucoup moins de mémoire GPU (VRAM) que les modèles basés sur des transformateurs comme RTDETRv2. Cela rend l'IA à hautes performances accessible même sur du matériel grand public.

Polyvalence inégalée

Contrairement à DAMO-YOLO et RTDETRv2, qui se concentrent principalement sur la détection de boîtes englobantes, YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur :

Équilibre des performances

YOLO11 atteint une précision de pointe qui rivalise avec RTDETRv2, voire la dépasse, dans de nombreux benchmarks, tout en conservant la vitesse d'inférence et l'efficacité caractéristiques de la famille YOLO.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

En savoir plus sur YOLO11

Conclusion

Le choix entre DAMO-YOLO et RTDETRv2 dépend de vos contraintes spécifiques :

Choisissez DAMO-YOLO si votre contrainte principale est la latence et que vous déployez sur des appareils périphériques où le nombre minimal de paramètres est essentiel.
Choisissez RTDETRv2 si vous avez besoin de la précision la plus élevée possible dans des scènes complexes et que vous avez le budget de calcul pour prendre en charge une architecture de transformateur.

Cependant, pour une solution holistique qui combine des performances élevées, une facilité d'utilisation et une capacité multitâche, Ultralytics YOLO11 reste le choix recommandé. Son faible encombrement mémoire pendant l'entraînement, combiné à un écosystème mature, accélère le passage du prototype à la production.

Explorer d'autres modèles

Pour mieux comprendre le paysage de la détection d'objets, explorez ces comparaisons :

DAMO-YOLO vs. RTDETRv2 : Équilibrer la vitesse et la précision du transformateur

DAMO-YOLO : Optimisation pour une faible latence

Points forts architecturaux

RTDETRv2 : L’évolution des Transformers en temps réel

Points forts architecturaux

Comparaison technique : Performance et efficacité

Analyse des métriques

Architecture vs. application dans le monde réel

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

Expérience développeur et écosystème supérieurs

Polyvalence inégalée

Équilibre des performances

Conclusion

Explorer d'autres modèles

Commentaires