EfficientDet contre. DAMO-YOLO : une comparaison technique
Dans le paysage de la détection d'objets, les développeurs sont confrontés à un large éventail de modèles, chacun ayant des atouts uniques. Cette page fournit une comparaison technique détaillée entre deux architectures influentes : EfficientDet, développé par Google, et DAMO-YOLO, du Alibaba Group. Bien que les deux soient de puissants détecteurs à une seule étape, ils suivent des philosophies de conception différentes. EfficientDet privilégie l'efficacité du calcul et des paramètres grâce à une mise à l'échelle systématique, tandis que DAMO-YOLO repousse les limites du compromis vitesse-précision en utilisant des techniques modernes telles que la recherche d'architecture neuronale (NAS).
Cette comparaison se penchera sur leurs architectures, leurs métriques de performance et leurs cas d'utilisation idéaux pour vous aider à choisir le bon modèle pour votre projet de vision par ordinateur.
EfficientDet : Détection d'objets évolutive et efficace
EfficientDet a été introduit par Google Research dans le but de créer une famille de détecteurs d'objets capables de s'adapter efficacement à divers budgets de calcul. Il s'appuie sur le backbone EfficientNet, très efficace, et introduit de nouveaux composants pour la fusion de caractéristiques multi-échelles et la mise à l'échelle du modèle.
En savoir plus sur EfficientDet
Détails techniques
- Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
- Organisation : Google
- Date : 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub : https://github.com/google/automl/tree/master/efficientdet
- Docs : https://github.com/google/automl/tree/master/efficientdet#readme
Architecture et principales fonctionnalités
- Backbone EfficientNet : EfficientDet utilise EfficientNet pré-entraîné comme backbone, qui est déjà optimisé pour un bon équilibre entre précision et efficacité.
- BiFPN (Réseau de pyramide de caractéristiques bidirectionnel) : Au lieu d’un FPN standard, EfficientDet introduit BiFPN, une couche de fusion de caractéristiques multi-échelles plus efficace. BiFPN permet un flux d’informations facile et rapide entre différentes résolutions de carte de caractéristiques en intégrant la fusion de caractéristiques pondérée et les connexions de haut en bas/de bas en haut.
- Mise à l'échelle composite : Une innovation essentielle d'EfficientDet est sa méthode de mise à l'échelle composite. Elle met à l'échelle conjointement la profondeur, la largeur et la résolution du backbone, du réseau de caractéristiques et des têtes de prédiction à l'aide d'un seul coefficient composite. Cela garantit une allocation équilibrée des ressources dans toutes les parties du réseau, ce qui entraîne des gains d'efficacité importants.
- Famille Scalable : La méthode de mise à l'échelle composite permet la création de toute une famille de modèles (EfficientDet-D0 à D7), permettant aux développeurs de sélectionner un modèle qui correspond parfaitement à leurs contraintes matérielles, des appareils mobiles aux puissants serveurs cloud.
Points forts
- Efficacité élevée des paramètres et des FLOP : Excelle dans les scénarios où la taille du modèle et le coût de calcul sont des contraintes essentielles.
- Scalabilité : Offre une large gamme de modèles (D0-D7) qui offrent un compromis clair entre la précision et l’utilisation des ressources.
- Forte précision : Atteint une précision compétitive, en particulier compte tenu de son faible nombre de paramètres et de FLOP.
Faiblesses
- Vitesse d'inférence plus lente : Bien qu'elle soit efficace en termes de FLOPs, sa latence d'inférence brute sur les GPU peut être plus élevée que celle des modèles plus récents et hautement optimisés comme DAMO-YOLO et Ultralytics YOLO.
- Complexité : La BiFPN et la mise à l'échelle composite, bien qu'efficaces, peuvent rendre l'architecture plus complexe à comprendre et à modifier par rapport aux conceptions YOLO plus simples.
Cas d'utilisation idéaux
EfficientDet est bien adapté aux applications où les contraintes de ressources sont une préoccupation majeure. Son évolutivité en fait un choix polyvalent pour le déploiement sur divers matériels, y compris les appareils d'IA en périphérie et les systèmes où la minimisation des coûts de calcul est essentielle pour la gestion de l'alimentation ou de la chaleur.
DAMO-YOLO : Une variante YOLO rapide et précise
DAMO-YOLO est un détecteur d'objets haute performance d'Alibaba Group qui s'appuie sur la série YOLO, mais intègre plusieurs techniques de pointe pour atteindre un équilibre vitesse-précision de pointe. Il exploite la recherche d'architecture neuronale (NAS) pour optimiser les composants clés du réseau pour un matériel spécifique.
Détails techniques
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444v2
- GitHub : https://github.com/tinyvision/DAMO-YOLO
- Documentation : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Architecture et principales fonctionnalités
- Backbone alimenté par NAS : DAMO-YOLO utilise un backbone généré par la recherche d’architecture neuronale (NAS), qui trouve automatiquement une structure de réseau optimale, ce qui améliore les capacités d’extraction des caractéristiques.
- Neck RepGFPN efficace : Il introduit une nouvelle conception de neck appelée RepGFPN, qui est conçue pour être efficace au niveau matériel et efficace pour fusionner des caractéristiques multi-échelles.
- ZeroHead : Le modèle utilise une « ZeroHead » simplifiée, qui est une conception de tête couplée qui réduit la complexité architecturale et la surcharge de calcul sans sacrifier les performances.
- Attribution de label AlignedOTA : DAMO-YOLO utilise AlignedOTA, une stratégie avancée d'attribution dynamique de labels qui améliore l'entraînement en alignant mieux les cibles de classification et de régression.
- Amélioration par distillation : Le processus de formation est amélioré par la distillation des connaissances afin d'améliorer encore les performances des modèles plus petits de la famille.
Points forts
- Vitesse GPU Exceptionnelle : Offre des vitesses d'inférence extrêmement rapides sur le matériel GPU, ce qui le rend idéal pour l'inférence en temps réel.
- Haute précision : Obtient des scores mAP élevés, rivalisant avec les meilleurs modèles de sa catégorie.
- Conception moderne : Intègre plusieurs techniques avancées (NAS, attribution avancée d'étiquettes) qui représentent le fer de lance de la recherche en matière de détection d'objets.
Faiblesses
- Polyvalence limitée : DAMO-YOLO est spécialisé dans la détection d'objets et ne prend pas en charge nativement d'autres tâches telles que la segmentation d'instance ou l'estimation de pose.
- Performance du CPU : La recherche et le référentiel originaux se concentrent principalement sur les performances du GPU, avec moins d'emphase sur l'optimisation du CPU.
- Écosystème et facilité d'utilisation : En tant que modèle axé sur la recherche, il peut nécessiter davantage d'efforts d'ingénierie pour l'intégrer et le déployer par rapport aux frameworks entièrement pris en charge comme Ultralytics.
Cas d'utilisation idéaux
DAMO-YOLO est un excellent choix pour les applications qui exigent à la fois une haute précision et une très faible latence sur le matériel GPU. Cela comprend la vidéosurveillance en temps réel, la robotique et les systèmes autonomes où la prise de décision rapide est essentielle.
Analyse des performances : Vitesse, précision et efficacité
Le tableau ci-dessous fournit une comparaison quantitative des modèles EfficientDet et DAMO-YOLO sur l'ensemble de données COCO. Les résultats mettent en évidence les différents compromis réalisés par chaque modèle.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
D'après les benchmarks, nous pouvons tirer plusieurs conclusions :
- Vitesse GPU : DAMO-YOLO est considérablement plus rapide sur un GPU T4. Par exemple, DAMO-YOLOm atteint 49,2 mAP avec une latence de seulement 5,09 ms, alors que l’EfficientDet-d4 comparable atteint 49,7 mAP, mais avec une latence beaucoup plus élevée de 33,55 ms.
- Efficacité des paramètres : EfficientDet démontre une efficacité supérieure des paramètres et des FLOPs. Le plus petit modèle, EfficientDet-d0, utilise seulement 3,9 millions de paramètres et 2,54 milliards de FLOPs.
- Performance du CPU : EfficientDet fournit des benchmarks CPU clairs, ce qui en fait un choix plus prévisible pour les déploiements basés sur le CPU. L'absence de vitesses CPU officielles pour DAMO-YOLO est une lacune notable pour les développeurs ciblant le matériel non-GPU.
L'avantage Ultralytics : Performance et convivialité
Bien qu'EfficientDet et DAMO-YOLO offrent tous deux de solides capacités, les modèles Ultralytics YOLO tels que YOLOv8 et le dernier YOLO11 présentent une solution plus holistique et conviviale pour les développeurs.
Les principaux avantages de l'utilisation des modèles Ultralytics sont les suivants :
- Facilité d'utilisation : Une API Python simplifiée, une documentation exhaustive et une utilisation de la CLI directe rendent la prise en main, l'entraînement et le déploiement de modèles incroyablement faciles.
- Écosystème bien maintenu : Ultralytics fournit un écosystème robuste avec un développement actif, un fort soutien de la communauté sur GitHub, des mises à jour fréquentes et une intégration transparente avec Ultralytics HUB pour le MLOps.
- Compromis de performance : Les modèles Ultralytics sont hautement optimisés pour offrir un excellent compromis entre vitesse et précision sur les matériels CPU et GPU, ce qui les rend adaptés à un large éventail de scénarios de déploiement.
- Polyvalence : Les modèles tels que YOLOv8 et YOLO11 sont multitâches et prennent en charge la détection d’objets, la segmentation, la classification, l’estimation de pose et les boîtes englobantes orientées (OBB) dans un cadre unique et unifié.
- Efficacité de l'entraînement : Bénéficiez de temps d'entraînement rapides, de besoins en mémoire réduits et de poids pré-entraînés facilement disponibles.
Conclusion
EfficientDet et DAMO-YOLO sont tous deux des modèles de détection d'objets convaincants. EfficientDet se distingue par son efficacité exceptionnelle en termes de paramètres et de FLOP, offrant une famille de modèles évolutive adaptée à divers profils matériels. DAMO-YOLO excelle dans la fourniture d'une haute précision à des vitesses d'inférence GPU très rapides en tirant parti des innovations architecturales modernes.
Cependant, pour les développeurs et les chercheurs à la recherche d'un mélange de haute performance, de facilité d'utilisation et d'un écosystème robuste et polyvalent, les modèles Ultralytics YOLO comme YOLOv8 et YOLO11 présentent souvent la proposition de valeur globale la plus forte. Leur équilibre entre vitesse, précision, prise en charge multitâche et cadre axé sur le développeur en fait un choix fortement recommandé pour un large éventail d'applications du monde réel.
Explorer d’autres comparaisons de modèles
Pour des informations plus approfondies, découvrez comment ces modèles se comparent à d'autres architectures de pointe :