YOLO RTDETRv2 : architectures pour la détection en temps réel
Le choix de l'architecture optimale pour la détection d'objets est une décision cruciale qui a un impact sur tout, de la latence d'inférence aux coûts de déploiement. Deux modèles innovants ont remis en question le statu quo : YOLO d'Alibaba et RTDETRv2 de Baidu. Alors queYOLO sur la recherche d'architecture neuronale (NAS) et la reparamétrisation efficace, RTDETRv2 repousse les limites des transformateurs en temps réel en affinant le paradigme DETR.
Ce guide fournit une analyse technique approfondie de leurs architectures, de leurs indicateurs de performance et de leurs méthodologies de formation afin de vous aider à déterminer quel modèle correspond le mieux à vos besoins spécifiques en matière de vision par ordinateur. Nous explorons également comment la nouvelle génération Ultralytics synthétise le meilleur de ces approches dans un cadre unifié et facile à utiliser.
Présentation de DAMO-YOLO
YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) a été développé par le groupe Alibaba pour répondre aux besoins spécifiques des applications industrielles où une faible latence et une grande précision sont indispensables. Il introduit une suite de technologies conçues pour compresser le modèle sans sacrifier les performances.
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 23 novembre 2022
Arxiv :YOLO
GitHub :YOLO
Principales innovations architecturales
YOLO seYOLO par plusieurs « sacs de cadeaux » conçus pour plus d'efficacité :
- Recherche d'architecture neuronale (NAS) : contrairement aux modèles dont les structures de base sont conçues manuellement,YOLO la NAS pour découvrir automatiquement la structure la plus efficace pour la structure de base (MAE-NAS), optimisant ainsi le compromis entre les opérations en virgule flottante (FLOP) et la précision.
- RepGFPN efficace : il utilise un réseau pyramidal généralisé (RepGFPN) qui exploite la reparamétrisation. Cela permet de fusionner les structures complexes utilisées pendant l'entraînement en convolutions plus simples et plus rapides pendant l'inférence.
- ZeroHead : une tête de détection légère qui minimise la charge de calcul généralement associée aux couches de prédiction finales.
- AlignedOTA : une stratégie optimisée d'attribution d'étiquettes qui résout les problèmes de désalignement entre les tâches de classification et de régression pendant l'entraînement.
Présentation de RTDETRv2
RTDETRv2 (Real-Time Detection Transformer v2) s'appuie sur le succès du RT-DETR original, le premier détecteur basé sur un transformateur à rivaliser véritablement avec YOLO en termes de vitesse. Développé par Baidu, il vise à éliminer le besoin de post-traitement par suppression non maximale (NMS) tout en améliorant la vitesse de convergence et la flexibilité.
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 17 avril 2023 (v1), juillet 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
Principales innovations architecturales
RTDETRv2 affine l'architecture du transformateur pour les tâches pratiques de vision :
- Encodeur hybride : il combine une structure CNN avec un encodeur hybride efficace qui découple l'interaction intra-échelle et la fusion inter-échelle, remédiant ainsi au coût de calcul élevé des mécanismes d'auto-attention standard.
- Sélection de requêtesIoU: ce mécanisme sélectionne des requêtes d'objets initiales de haute qualité en fonction des scores d'intersection sur union (IoU), ce qui accélère la convergence de l'apprentissage.
- Déploiement flexible : contrairement à son prédécesseur, RTDETRv2 prend en charge des formes d'entrée flexibles et une optimisation améliorée pour TensorRT, ce qui le rend plus viable pour divers backends matériels.
- NMS: en prédisant directement un ensemble d'objets, il élimine la variance de latence causée par NMS, un avantage crucial pour l'analyse vidéo en temps réel.
Comparaison des performances
Lorsqu'on compare ces architectures, il est essentiel d'examiner l'équilibre entre la précision moyenne (mAP) et la vitesse d'inférence sur différentes configurations matérielles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Analyse
- Précision : RTDETRv2 obtient généralement mAP plus élevés, en particulier dans les variantes moyennes et grandes. Le modèle « X » atteint un impressionnant score mAP de 54,3 %, surpassant la plus grandeYOLO . Cela le rend adapté aux applications nécessitant une détection haute fidélité, telles que l'imagerie médicale ou la détection de défauts.
- Vitesse :YOLO en termes de débit brut sur TensorRT . Son architecture CNN reparamétrée est intrinsèquement plus adaptée au matériel que les blocs transformateurs de RTDETRv2, ce qui se traduit par une latence plus faible pour les variantes « Tiny » et « Small ».
- Efficacité des paramètres :YOLO à avoir moins de paramètres pour des niveaux de performance similaires, ce qui peut être avantageux pour les appareils périphériques soumis à des contraintes de stockage.
L'avantage Ultralytics : Pourquoi choisir YOLO26 ?
SiYOLO RTDETRv2 offrent des atouts spécifiques, les développeurs sont souvent confrontés à des défis liés à la complexité des pipelines de formation, au support limité des plateformes et à la fragmentation de la documentation. Ultralytics répond à ces difficultés en intégrant des innovations de pointe dans un écosystème fluide et centré sur l'utilisateur.
Excellence intégrée
YOLO26 combine la vitesse des CNN avec la simplicité de bout en bout des transformateurs, offrant une conception NMS qui simplifie le déploiement tout en surpassant ses prédécesseurs dans GPU CPU GPU .
1. Expérience utilisateur et écosystème supérieurs
La caractéristique distinctive des Ultralytics est facilité d'utilisationAlors que les référentiels de recherche nécessitent souvent des configurations environnementales complexes, YOLO26 peut être installé et opérationnel en quelques secondes via le ultralytics paquet. Le Plateforme Ultralytics renforce encore cette fonctionnalité en proposant une gestion des ensembles de données basée sur le Web, une formation en un clic et un déploiement automatisé.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. Architecture de bout en bout NMS
YOLO26 adopte une conception native de bout en bout NMS, une caractéristique qu'il partage avec RTDETRv2, mais qu'il met en œuvre dans un cadre CNN hautement optimisé. Cette avancée élimine le besoin de suppression non maximale, un goulot d'étranglement courant dans les pipelines de déploiement. En supprimant NMS, YOLO26 garantit des temps d'inférence cohérents et simplifie l'intégration avec des outils tels que OpenVINO et CoreML.
3. Efficacité et stabilité de l'entraînement
YOLO26 présente l'optimiseur MuSGD, un hybride de SGD Muon (inspiré de la formation LLM), qui apporte une stabilité sans précédent aux tâches de vision. Cela permet une convergence plus rapide et un réglage réduit des hyperparamètres par rapport aux programmes complexes souvent requis par les modèles basés sur des transformateurs tels que RTDETRv2.
4. Optimisation Edge-First
Pour les développeurs qui déploient leurs applications sur des appareils périphériques tels que le Raspberry Pi ou NVIDIA , YOLO26 offre CPU jusqu'à 43 % plus rapide. La suppression de la perte focale de distribution (DFL) simplifie encore davantage le graphe du modèle pour l'exportation, garantissant une meilleure compatibilité avec les accélérateurs à faible consommation d'énergie par rapport aux mécanismes d'attention gourmands en ressources de calcul des transformateurs.
5. Polyvalence dans toutes les tâches
Contrairement à de nombreux détecteurs spécialisés, YOLO26 est un véritable système d'apprentissage multitâche. Il prend en charge la détection d'objets, la segmentation d'instances, l'estimation de pose, la classification et les tâches OBB (Oriented Bounding Box) au sein d'une seule base de code.
Recommandations de cas d'utilisation
- ChoisissezYOLO : vous travaillez exclusivement sur des tâches d'inspection industrielle où TensorRT sur NVIDIA spécifique est la seule cible de déploiement, et vous avez besoin d'une latence absolument minimale pour des tâches de détection simples.
- Choisissez RTDETRv2 si : vous avez besoin d'une détection très précise pour des scènes complexes avec occlusion et vous avez accès à des GPU puissants où le coût de calcul des transformateurs est acceptable. C'est également un bon choix si l'inférence NMS est une exigence stricte, mais que vous préférez une architecture de transformateur.
- Choisissez Ultralytics si : vous recherchez les meilleures performances globales avec une précision de pointe, une vitesse NMS et la possibilité de déployer facilement sur CPU, GPU et appareils mobiles. Sa documentation complète, le soutien actif de sa communauté et son intégration à la Ultralytics en font le choix le plus pérenne pour les systèmes de production.
Conclusion
Le domaine de la détection d'objets offre de nombreuses possibilités. YOLO démontre la puissance de la recherche d'architecture neuronale en termes d'efficacité, tandis que RTDETRv2 met en avant le potentiel des transformateurs en temps réel. Cependant, Ultralytics se distingue en synthétisant ces avancées, offrant une inférence NMS, une vitesse optimisée pour la périphérie et une stabilité de formation inspirée du LLM, le tout dans l'écosystème le plus convivial pour les développeurs du secteur.
Pour ceux qui sont prêts à se lancer dans leur prochain projet, consulter la documentation YOLO26 est la première étape recommandée pour obtenir des résultats SOTA avec un minimum de friction.
Lectures complémentaires
- En savoir plus sur les indicateurs YOLO
- Explorer les ensembles de données de détection d'objets
- Guide d'exportation et de déploiement des modèles
- Comparaison : YOLO26 vs YOLOv10