DAMO-YOLO vs. RTDETRv2 : Équilibrer la vitesse et la précision du transformateur
Le choix de l'architecture de détection d'objets optimale implique souvent de naviguer dans le compromis entre la latence d'inférence et la précision de la détection. Cette comparaison technique examine DAMO-YOLO, un détecteur à haute vitesse optimisé par Alibaba Group, et RTDETRv2, le Real-Time Detection Transformer de deuxième génération de Baidu. Nous analysons leurs innovations architecturales, leurs benchmarks de performance et leur aptitude au déploiement pour vous aider à prendre des décisions éclairées pour vos applications de vision par ordinateur.
DAMO-YOLO : Optimisation pour une faible latence
DAMO-YOLO représente une étape importante dans l'évolution des architectures YOLO, en se concentrant fortement sur la maximisation de la vitesse sans compromettre sévèrement la précision. Développé par le groupe Alibaba, il utilise des techniques avancées de recherche d'architecture neuronale (NAS) pour adapter la structure du réseau à l'efficacité.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 2022-11-23
- Arxiv :https://arxiv.org/abs/2211.15444v2
- GitHub :https://github.com/tinyvision/DAMO-YOLO
- Docs :https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Points forts architecturaux
DAMO-YOLO intègre plusieurs nouvelles technologies pour rationaliser le pipeline de détection :
- Backbone alimenté par NAS : Le modèle utilise la recherche d'architecture neuronale (NAS) pour découvrir automatiquement une structure de backbone efficace (MAE-NAS). Cette approche garantit que la profondeur et la largeur du réseau sont optimisées pour des contraintes matérielles spécifiques.
- Cou RepGFPN : Il présente une version efficace du Generalized Feature Pyramid Network (GFPN) connue sous le nom de RepGFPN. Ce composant améliore la fusion des caractéristiques à différentes échelles tout en maintenant un faible contrôle de la latence.
- ZeroHead : Une conception de tête simplifiée, appelée « ZeroHead », découple les tâches de classification et de régression, réduisant ainsi la charge de calcul des couches de prédiction finales.
- AlignedOTA : Pour la stabilité de la formation, DAMO-YOLO utilise AlignedOTA (Optimal Transport Assignment), une stratégie d’attribution d’étiquettes qui aligne les cibles de classification et de régression afin d’améliorer la convergence.
RTDETRv2 : L’évolution des Transformers en temps réel
RTDETRv2 s'appuie sur le succès du RT-DETR original, le premier détecteur d'objets basé sur transformateur à atteindre des performances en temps réel. Développé par Baidu, RTDETRv2 introduit un "bag-of-freebies" pour améliorer la stabilité et la précision de l'entraînement sans entraîner de coûts d'inférence supplémentaires.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2023-04-17
- Arxiv :https://arxiv.org/abs/2304.08069
- GitHub :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- Documentation :https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
Points forts architecturaux
RTDETRv2 exploite les forces des transformateurs de vision tout en atténuant leurs traditionnels goulets d'étranglement de vitesse :
- Encodeur Hybride : L'architecture utilise un encodeur hybride qui traite efficacement les caractéristiques multi-échelles, en découplant l'interaction intra-échelle et la fusion inter-échelles afin de réduire les coûts de calcul.
- Sélection de requêtes basée sur l'IoU : Ce mécanisme sélectionne des requêtes d'objets initiales de haute qualité basées sur les scores d'Intersection sur Union (IoU), ce qui conduit à une convergence d'entraînement plus rapide.
- Configuration adaptable : RTDETRv2 offre des configurations flexibles pour le décodeur et la sélection de requêtes, permettant aux utilisateurs d’ajuster le modèle pour des exigences spécifiques de vitesse/précision.
- Conception sans ancres : Comme son prédécesseur, il est entièrement sans ancres, éliminant le besoin de réglage heuristique des boîtes d'ancrage et de suppression non maximale (NMS) pendant le post-traitement.
Comparaison technique : Performance et efficacité
La distinction fondamentale entre ces deux modèles réside dans leurs racines architecturales (CNN versus Transformer) et dans la manière dont cela impacte leur profil de performance.
Analyse des métriques
Le tableau ci-dessous présente les principales mesures sur l'ensemble de données COCO. Bien que RTDETRv2 domine en termes de précision moyenne (mAP), DAMO-YOLO démontre un débit supérieur (FPS) et un nombre de paramètres inférieur pour ses variantes plus petites.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analyse des compromis
DAMO-YOLO excelle dans les environnements où chaque milliseconde compte, comme le tri industriel à haute fréquence. Sa variante 'Tiny' (t) est exceptionnellement légère. Inversement, RTDETRv2 offre un plafond de précision plus élevé, ce qui le rend préférable pour les scènes complexes où manquer un objet est critique, comme dans la navigation autonome ou la surveillance détaillée.
Architecture vs. application dans le monde réel
Contexte global vs. Caractéristiques locales : Le mécanisme d'attention du transformateur de RTDETRv2 lui permet de comprendre le contexte global mieux que le DAMO-YOLO basé sur CNN. Il en résulte de meilleures performances dans les scènes encombrées ou lorsque des objets sont occlus. Cependant, cette attention globale se fait au prix d'une consommation de mémoire plus élevée et de temps d'entraînement plus lents.
Optimisation Matérielle : Le backbone de DAMO-YOLO basé sur NAS est hautement optimisé pour l'inférence GPU, atteignant une très faible latence. RTDETRv2, bien qu'en temps réel, nécessite généralement un matériel plus puissant pour égaler les fréquences d'images des détecteurs de style YOLO.
L'avantage Ultralytics : Pourquoi choisir YOLO11 ?
Bien que DAMO-YOLO et RTDETRv2 offrent des avantages spécialisés, Ultralytics YOLO11 se distingue comme la solution la plus équilibrée et la plus conviviale pour la grande majorité des applications du monde réel.
Expérience développeur et écosystème supérieurs
L'un des défis les plus importants avec les modèles académiques comme DAMO-YOLO ou RTDETRv2 est l'intégration. Ultralytics résout ce problème avec un écosystème robuste:
- Facilité d'utilisation : Grâce à une API Python et une CLI unifiées, vous pouvez entraîner, valider et déployer des modèles en quelques lignes de code.
- Écosystème bien maintenu : Les modèles Ultralytics sont pris en charge par un développement actif, une documentation exhaustive et une large communauté. Cela garantit la compatibilité avec les dernières bibliothèques matérielles et logicielles.
- Efficacité de l'entraînement : YOLO11 est conçu pour s'entraîner plus rapidement et nécessite beaucoup moins de mémoire GPU (VRAM) que les modèles basés sur des transformateurs comme RTDETRv2. Cela rend l'IA à hautes performances accessible même sur du matériel grand public.
Polyvalence inégalée
Contrairement à DAMO-YOLO et RTDETRv2, qui se concentrent principalement sur la détection de boîtes englobantes, YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur :
- Segmentation d'instance
- Classification d'images
- Estimation de pose
- Boîte englobante orientée (Oriented Bounding Box, OBB)
Équilibre des performances
YOLO11 atteint une précision de pointe qui rivalise avec RTDETRv2, voire la dépasse, dans de nombreux benchmarks, tout en conservant la vitesse d'inférence et l'efficacité caractéristiques de la famille YOLO.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Conclusion
Le choix entre DAMO-YOLO et RTDETRv2 dépend de vos contraintes spécifiques :
- Choisissez DAMO-YOLO si votre contrainte principale est la latence et que vous déployez sur des appareils périphériques où le nombre minimal de paramètres est essentiel.
- Choisissez RTDETRv2 si vous avez besoin de la précision la plus élevée possible dans des scènes complexes et que vous avez le budget de calcul pour prendre en charge une architecture de transformateur.
Cependant, pour une solution holistique qui combine des performances élevées, une facilité d'utilisation et une capacité multitâche, Ultralytics YOLO11 reste le choix recommandé. Son faible encombrement mémoire pendant l'entraînement, combiné à un écosystème mature, accélère le passage du prototype à la production.
Explorer d'autres modèles
Pour mieux comprendre le paysage de la détection d'objets, explorez ces comparaisons :