RTDETRv2 vs. EfficientDet : Une comparaison technique complète
Dans le paysage évolutif de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite d'un projet. Cette comparaison se penche sur RTDETRv2, un modèle de pointe basé sur des transformateurs et conçu pour des performances en temps réel, et EfficientDet, une famille évolutive de réseaux neuronaux convolutifs (CNN) optimisés pour l'efficacité. Nous analysons leurs innovations architecturales, leurs mesures de performance et leurs scénarios de déploiement idéaux afin d'aider les développeurs à prendre des décisions éclairées.
Aperçu des modèles
Le choix entre ces deux modèles dépend souvent des contraintes spécifiques du matériel cible et des exigences de précision de l'application.
RTDETRv2
RTDETRv2 (Real-Time Detection Transformer v2) représente une avancée significative dans l'application des architectures de transformateurs à la détection d'objets en temps réel. Développé par des chercheurs de Baidu, il s'appuie sur le succès de la version originale de RT-DETRen optimisant l'encodeur hybride et les mécanismes de sélection des requêtes pour atteindre une précision de pointe avec des vitesses d'inférence compétitives sur le matériel GPU .
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2023-04-17
- Arxiv :RT-DETR: Les DETRs battent les YOLOs sur la détection d'objets en temps réel
- GitHub :DépôtRT-DETR
- Docs :DocumentationRT-DETRv2
EfficientDet
EfficientDet, développé par Google Brain, a révolutionné le domaine dès son lancement en introduisant un moyen systématique de réduire les dimensions des modèles. En combinant l'épine dorsale EfficientNet avec un réseau bidirectionnel pondéré de pyramides de caractéristiques (BiFPN), il offre un spectre de modèles (D0-D7) qui concilie le coût de calcul et la précision, ce qui le rend très polyvalent pour diverses contraintes de ressources.
- Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
- Organisation :Google Research
- Date : 2019-11-20
- Arxiv :EfficientDet : Détection d'objets efficace et évolutive
- GitHub :Dépôt AutoML
- Docs :Lisez-moi EfficientDet
En savoir plus sur EfficientDet
Analyse architecturale
La différence fondamentale réside dans leurs éléments de base : l'un exploite le contexte global des transformateurs, tandis que l'autre affine l'efficacité des convolutions.
RTDETRv2 : Puissance du transformateur
RTDETRv2 utilise un codeur hybride qui traite efficacement les caractéristiques multi-échelles. Contrairement aux CNN traditionnels, il utilise un mécanisme de sélection des requêtes IoU pour concentrer l'attention sur les parties les plus pertinentes d'une image. Cela permet au modèle de traiter efficacement des scènes complexes avec occlusion et différentes échelles d'objets. L'architecture découple l'interaction intra-échelle et la fusion inter-échelle, réduisant ainsi la charge de calcul généralement associée aux transformateurs de vision (ViT).
Avantages des transformateurs
Le mécanisme d'attention de RTDETRv2 permet de créer des champs réceptifs globaux, ce qui permet au modèle de comprendre les relations entre des objets distants dans une scène mieux que les CNN typiques.
EfficientDet : Efficacité évolutive
EfficientDet est construit sur l'épine dorsale EfficientNet et introduit le BiFPN. Le BiFPN permet une fusion facile et rapide des caractéristiques multi-échelles en apprenant l'importance des différentes caractéristiques d'entrée. En outre, EfficientDet utilise une méthode de mise à l'échelle composée qui met uniformément à l'échelle la résolution, la profondeur et la largeur du réseau. Cela garantit que le modèle peut être adapté - du léger D0 pour les applications mobiles au lourd D7 pour les tâches de serveur à haute précision.
Comparaison des performances
Les critères de performance mettent en évidence une distinction claire dans la philosophie de conception. RTDETRv2 vise une précision maximale sur du matériel puissant, tandis qu'EfficientDet offre un gradient granulaire d'efficacité.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Comme indiqué dans le tableau, RTDETRv2-x atteint un mAP supérieur de 54,3, surpassant même le plus grand EfficientDet-d7 (53,7 mAP) tout en étant significativement plus rapide sur TensorRT (15,03 ms vs 128,07 ms). Cependant, pour les environnements extrêmement contraints, EfficientDet-d0 reste une option incroyablement légère avec un minimum de paramètres (3.9M) et de FLOPs.
Points forts et faiblesses
RTDETRv2 Points forts :
- Précision élevée : Offre des performances de détection de premier ordre, en particulier sur l'ensemble de données difficile COCO .
- OptimisationGPU : L'architecture est hautement parallélisable, ce qui la rend idéale pour les applications de TensorRT sur les GPU NVIDIA .
- Sans ancrage : élimine le besoin de réglage de la boîte d'ancrage, ce qui simplifie le pipeline de formation.
EfficientDet Points forts :
- Évolutivité : La gamme D0-D7 permet d'adapter précisément la taille du modèle aux capacités du matériel.
- Faible capacité de calcul : Les variantes les plus petites (D0-D2) sont excellentes pour l'inférence CPU ou pour les appareils mobiles de périphérie.
- Établi : Architecture mature avec une prise en charge généralisée dans divers outils de conversion.
Faiblesses :
- RTDETRv2 : Nécessite une grande quantité de mémoire CUDA pour l'entraînement et est généralement plus lent sur les CPU en raison des opérations de transformation.
- EfficientDet : Temps de latence plus élevé à l'extrémité de haute précision (D7) par rapport aux détecteurs modernes ; la formation peut être plus lente à converger.
Cas d'utilisation idéaux
Le choix du bon modèle dépend fortement de l'environnement spécifique de l'application.
- Choisissez RTDETRv2 pour les systèmes de surveillance haut de gamme, de conduite autonome ou d'inspection industrielle où un puissant GPU est disponible. Sa capacité à discerner les détails fins le rend adapté à des tâches telles que la détection de pilules dans la fabrication médicale ou l'analyse d'images satellites complexes.
- Choisissez EfficientDet pour les appareils IoT alimentés par batterie, les applications mobiles ou les scénarios nécessitant une large compatibilité entre différents niveaux de matériel. Il s'intègre bien dans les scanners d'inventaire de vente au détail intelligents ou les systèmes d'alarme de sécurité de base où le coût et la consommation d'énergie sont des préoccupations primordiales.
L'avantageYOLO d'Ultralytics
Bien que RTDETRv2 et EfficientDet aient tous deux leurs mérites, Ultralytics YOLO11 offre une synthèse convaincante de leurs meilleures caractéristiques, dans un écosystème convivial pour les développeurs.
Pourquoi les développeurs préfèrent Ultralytics
Les modèles Ultralytics sont conçus non seulement pour les benchmarks, mais aussi pour être utilisables dans le monde réel.
- Facilité d'utilisation : L Ultralytics APIPython et le CLI réduisent considérablement la complexité de la formation et du déploiement. Les utilisateurs peuvent passer de l'installation à la formation sur un ensemble de données personnalisé en quelques minutes.
- Un écosystème bien entretenu : Soutenu par une communauté florissante et des mises à jour fréquentes, le cadre Ultralytics s'intègre de manière transparente avec des outils MLOps tels que Weights & BiasesMLFlow et Ultralytics HUB pour la gestion des données.
- Équilibre des performances : YOLO11 réalise des compromis vitesse/précision à la pointe de la technologie. Il atteint ou dépasse souvent la précision des modèles de transformateurs tels que RTDETRv2 tout en conservant la vitesse d'inférence caractéristique des CNN.
- Efficacité de la mémoire : Contrairement à l'entraînement basé sur les transformateurs, qui nécessite beaucoup de mémoire, les modèles YOLO sont optimisés pour une utilisation efficace du GPU , ce qui permet d'augmenter la taille des lots sur du matériel grand public.
- Polyvalence : Un cadre unique prend en charge la détection d'objets, la segmentation d'instances, l'estimation de la pose, la classification et la détection d'objets orientés (OBB).
Efficacité de la formation
Ultralytics fournit des poids pré-entraînés qui facilitent l'apprentissage par transfert, réduisant ainsi considérablement le temps de formation. Voici comment il est facile de commencer à former un modèle YOLO11 :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
Déploiement simplifié
Les modèles Ultralytics peuvent être exportés vers de nombreux formats tels que ONNX, TensorRT, CoreML et OpenVINO en une seule commande, ce qui simplifie le passage de la recherche à la production. En savoir plus sur les modes d'exportation.
Conclusion
Dans la comparaison entre RTDETRv2 et EfficientDet, le gagnant dépend de vos contraintes. RTDETRv2 excelle dans les environnements à haute précision et GPU, prouvant que les transformateurs peuvent être rapides. EfficientDet reste un choix solide pour les scénarios très contraignants et à faible consommation d'énergie.
Cependant, pour la majorité des développeurs à la recherche d'une solution polyvalente, facile à utiliser et performante, Ultralytics YOLO11 se distingue. Sa capacité à gérer de multiples tâches de vision au sein d'un écosystème unique et cohérent, combinée à une efficacité mémoire et une vitesse d'apprentissage supérieures, en fait le choix optimal pour les applications modernes de vision par ordinateur.
Explorer d’autres comparaisons
Pour mieux comprendre les modèles de détection d'objets disponibles, nous vous invitons à consulter les comparaisons suivantes :
- YOLO11 vs. RTDETRv2
- YOLO11 vs. EfficientDet
- RTDETRv2 vs. YOLOv8
- EfficientDet contre. YOLOv8
- RTDETRv2 vs. YOLOX