DAMO-YOLO vs. EfficientDet : Une comparaison technique
Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre la précision, la vitesse et le coût de calcul. Cette page fournit une comparaison technique approfondie entre DAMO-YOLO, un détecteur haute performance d'Alibaba Group, et EfficientDet, une famille de modèles très efficaces de Google. Bien que les deux soient puissants, ils proviennent de philosophies de conception différentes : DAMO-YOLO privilégie la vitesse et la précision de pointe grâce à de nouveaux composants architecturaux, tandis qu'EfficientDet se concentre sur une efficacité suprême des paramètres et des FLOPs via une mise à l'échelle composée.
Nous analyserons leurs architectures, leurs benchmarks de performance et leurs cas d'utilisation idéaux pour vous aider à déterminer la meilleure solution pour votre projet. Nous explorerons également comment les alternatives modernes comme les modèles Ultralytics YOLO offrent un mélange convaincant de ces attributs au sein d'un écosystème convivial et polyvalent.
DAMO-YOLO
DAMO-YOLO est un modèle de détection d'objets en temps réel de pointe développé par des chercheurs d'Alibaba Group. Il introduit plusieurs nouvelles techniques pour repousser les limites de performance et d'efficacité des détecteurs d'objets. Le modèle exploite la recherche d'architecture neuronale (NAS) pour découvrir des backbones optimaux et intègre un réseau de pyramides de caractéristiques efficace et une tête de détection légère pour obtenir des résultats impressionnants.
Détails techniques
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444v2
- GitHub : https://github.com/tinyvision/DAMO-YOLO
- Documentation : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Architecture et principales fonctionnalités
L’architecture de DAMO-YOLO est basée sur plusieurs innovations clés :
- Backbone alimenté par NAS : Au lieu d’utiliser un backbone conçu manuellement, DAMO-YOLO utilise la recherche d’architecture neuronale (NAS) pour trouver une structure plus efficace, ce qui donne un backbone « MazeNet » personnalisé, optimisé pour l’extraction des caractéristiques.
- Neck RepGFPN efficace : Il utilise une version efficace du Generalized Feature Pyramid Network (GFPN) avec des techniques de reparamétrisation. Cela permet une fusion multi-échelle puissante des caractéristiques avec une surcharge de calcul minimale pendant l'inférence.
- ZeroHead : Le modèle introduit une tête de détecteur sans ancrage légère, appelée ZeroHead, qui réduit considérablement le nombre de paramètres et de calculs nécessaires pour les prédictions de détection finales.
- Attribution de label AlignedOTA : Elle utilise une stratégie d'attribution de label améliorée appelée AlignedOTA, qui aide le modèle à mieux apprendre en faisant correspondre plus efficacement les boîtes de vérité terrain aux prédictions pendant l'entraînement.
Points forts
- Vitesse d’inférence GPU élevée : DAMO-YOLO est exceptionnellement rapide sur les GPU, ce qui en fait un excellent choix pour les applications nécessitant des performances en temps réel.
- Grande précision : Il atteint une précision moyenne (mAP) élevée, rivalisant avec de nombreux autres modèles de sa catégorie de vitesse, voire les surpassant.
- Conception innovante : L'utilisation de NAS et d'un neck/tête personnalisé démontre une approche moderne de la conception de détecteurs, repoussant les limites du possible.
Faiblesses
- Écosystème et facilité d'utilisation : Le modèle est moins intégré dans un framework complet, ce qui peut rendre la formation, le déploiement et la maintenance plus difficiles par rapport aux solutions dotées d'un écosystème robuste.
- Performance du CPU : Le modèle est fortement optimisé pour le matériel GPU, et ses performances sur les CPU ne sont pas aussi bien documentées ou priorisées.
- Spécialisation de tâche : DAMO-YOLO est conçu spécifiquement pour la détection d’objets et n’a pas la polyvalence native pour gérer d’autres tâches de vision telles que la segmentation ou l’estimation de pose.
Cas d'utilisation idéaux
DAMO-YOLO est particulièrement adapté aux scénarios où une détection haute vitesse et haute précision sur du matériel GPU est la principale exigence. Cela inclut des applications telles que l'analyse vidéo en temps réel, la robotique et les systèmes de surveillance avancés.
EfficientDet
EfficientDet est une famille de modèles de détection d'objets évolutifs développée par l'équipe Google Brain. Son innovation principale est la combinaison d'un backbone efficace, d'un nouveau réseau de fusion de caractéristiques et d'une méthode de mise à l'échelle composite qui adapte uniformément la profondeur, la largeur et la résolution du modèle. Cette approche permet à EfficientDet d'atteindre une efficacité élevée en termes de nombre de paramètres et de FLOPs.
En savoir plus sur EfficientDet
Détails techniques
- Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
- Organisation : Google
- Date : 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub : https://github.com/google/automl/tree/master/efficientdet
- Docs : https://github.com/google/automl/tree/master/efficientdet#readme
Architecture et principales fonctionnalités
L'architecture d'EfficientDet est définie par trois composants principaux :
- Backbone EfficientNet : Il utilise le EfficientNet très efficace comme backbone pour l'extraction de caractéristiques, qui a lui-même été conçu à l'aide de NAS.
- BiFPN (Réseau de pyramide de caractéristiques bidirectionnel) : EfficientDet introduit BiFPN, un nouveau réseau de caractéristiques qui permet une fusion de caractéristiques multi-échelles facile et rapide. Il intègre des connexions pondérées pour apprendre l’importance des différentes caractéristiques d’entrée et applique la fusion de haut en bas et de bas en haut à plusieurs reprises.
- Mise à l'échelle composite : Une caractéristique essentielle est la méthode de mise à l'échelle composite, qui met à l'échelle conjointement le réseau de backbone, le réseau de caractéristiques et la tête de détection de manière structurée. Cela garantit qu'à mesure que le modèle s'agrandit, sa précision s'améliore de manière prévisible sans gaspiller de ressources de calcul.
Points forts
- Efficacité des paramètres et des FLOPs : Les modèles EfficientDet sont exceptionnellement efficaces, nécessitant moins de paramètres et de FLOPs que de nombreux autres modèles avec des niveaux de précision similaires.
- Scalabilité : La famille de modèles s'étend du D0 léger au D7 volumineux, offrant un large éventail d'options pour s'adapter à différents budgets de calcul, des appareils périphériques aux serveurs cloud.
- Fortes performances du CPU : En raison de son efficacité, EfficientDet fonctionne bien sur les CPU, ce qui en fait une option viable pour les déploiements sans matériel GPU dédié.
Faiblesses
- Inférence GPU plus lente : Bien qu’efficace, la latence brute d’EfficientDet sur les GPU peut être plus élevée que celle des modèles comme DAMO-YOLO, qui sont spécifiquement optimisés pour la vitesse.
- Complexité de la fusion des caractéristiques : Le BiFPN, bien qu'efficace, ajoute une couche de complexité qui peut contribuer à une latence plus élevée par rapport aux chemins de fusion unidirectionnels plus simples.
- Polyvalence limitée : Tout comme DAMO-YOLO, EfficientDet est principalement un détecteur d'objets et ne prend pas en charge nativement d'autres tâches de vision par ordinateur dans son framework d'origine.
Cas d'utilisation idéaux
EfficientDet est un excellent choix pour les applications où les ressources de calcul et la taille du modèle sont des contraintes importantes. Il excelle dans les scénarios d'IA en périphérie, les applications mobiles et les services cloud à grande échelle où la minimisation des coûts opérationnels est cruciale. Son évolutivité le rend approprié pour les projets qui peuvent nécessiter un déploiement sur une variété de plateformes matérielles.
Analyse des performances : Vitesse vs. Précision
Les performances de DAMO-YOLO et EfficientDet mettent en évidence leurs différentes priorités de conception.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
- DAMO-YOLO domine clairement en termes de vitesse GPU, son plus petit modèle atteignant une latence de 2,32 ms. Il offre un mAP solide pour sa vitesse, ce qui en fait un leader en matière de performances pour les applications GPU en temps réel.
- EfficientDet excelle en matière d'efficacité des ressources. Le modèle EfficientDet-D0 possède le plus faible nombre de paramètres (3,9 M) et de FLOPs (2,54 B) avec une large marge, ainsi que la meilleure vitesse de CPU. La famille s'étend jusqu'à la plus haute précision (53,7 mAP pour D7), mais cela se fait au prix d'un coût important pour la vitesse d'inférence, en particulier sur les GPU.
L'avantage Ultralytics : Une alternative supérieure
Bien que DAMO-YOLO et EfficientDet soient performants dans leurs niches respectives, les développeurs ont souvent besoin d'une solution qui offre un meilleur équilibre entre performance, convivialité et polyvalence. Les modèles Ultralytics comme YOLOv8 et le dernier YOLO11 offrent une alternative convaincante et souvent supérieure.
Les principaux avantages de l'utilisation des modèles Ultralytics sont les suivants :
- Facilité d'utilisation : Une API Python simplifiée, une documentation exhaustive et une utilisation de la CLI directe rendent la prise en main, l'entraînement et le déploiement de modèles incroyablement faciles.
- Écosystème bien maintenu : Ultralytics fournit un écosystème activement développé et pris en charge, avec une forte communauté sur GitHub, des mises à jour fréquentes et une intégration transparente avec Ultralytics HUB pour la gestion des ensembles de données et le MLOps.
- Compromis de performance : Les modèles Ultralytics sont hautement optimisés pour offrir un excellent compromis entre vitesse et précision sur les CPU et GPU, ce qui les rend adaptés à un large éventail de scénarios de déploiement réels.
- Efficacité de la mémoire : Les modèles Ultralytics YOLO sont conçus pour être efficaces en termes de mémoire, nécessitant souvent moins de mémoire CUDA pour l’entraînement et l’inférence par rapport aux architectures plus complexes.
- Polyvalence : Contrairement aux modèles monotâches, les modèles Ultralytics YOLO prennent en charge nativement plusieurs tâches de vision, notamment la détection d'objets, la segmentation d'instance, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB), le tout au sein d'un framework unique et unifié.
- Efficacité de l'entraînement : Bénéficiez de temps d'entraînement rapides, d'un chargement efficace des données et de poids pré-entraînés facilement disponibles sur des ensembles de données tels que COCO.
Conclusion
DAMO-YOLO et EfficientDet offrent tous deux de puissantes capacités pour la détection d'objets. DAMO-YOLO est le choix idéal pour les utilisateurs qui ont besoin d'une vitesse d'inférence GPU maximale avec une grande précision. EfficientDet propose une famille de modèles hautement évolutive avec une efficacité inégalée en termes de paramètres et de FLOP, ce qui le rend idéal pour les environnements aux ressources limitées.
Cependant, pour la plupart des développeurs et des chercheurs, une solution holistique est souvent préférable. Les modèles Ultralytics tels que YOLOv8 et YOLO11 se distinguent en offrant un mélange supérieur de haute performance, une facilité d'utilisation exceptionnelle et un écosystème robuste et multitâche. Leur conception équilibrée, leur maintenance active et leur polyvalence en font le choix recommandé pour un large éventail de projets de vision par ordinateur, de la recherche académique aux applications commerciales de qualité production.
Explorer d’autres comparaisons de modèles
Pour des informations plus approfondies, découvrez comment DAMO-YOLO et EfficientDet se comparent à d'autres modèles de pointe dans la documentation Ultralytics :
- YOLOv8 vs. DAMO-YOLO
- YOLO11 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv8 vs. EfficientDet
- YOLO11 vs. EfficientDet
- YOLOX vs. EfficientDet