Passer au contenu

EfficientDet contre. DAMO-YOLO : une comparaison technique

Dans le paysage en évolution rapide de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite d'une application. Deux architectures notables qui ont façonné le domaine sont EfficientDet, développé par Google Research, et DAMO-YOLO, développé par l'Académie DAMO d'Alibaba. Bien que les deux visent à maximiser les performances, elles divergent considérablement dans leurs philosophies de conception : l'une se concentre sur l'efficacité et l'évolutivité des paramètres, tandis que l'autre cible l'inférence à faible latence sur le matériel industriel.

Ce guide fournit une analyse technique approfondie de ces deux modèles, comparant leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux afin d'aider les développeurs à prendre des décisions éclairées.

Analyse des performances : efficacité vs. latence

Les benchmarks suivants illustrent les compromis distincts entre EfficientDet et DAMO-YOLO. EfficientDet est réputé pour son faible nombre de paramètres et ses FLOPs, ce qui le rend théoriquement efficace, tandis que DAMO-YOLO est optimisé pour la vitesse d'inférence en conditions réelles sur les GPU.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Principaux points à retenir des benchmarks

D'après les données ci-dessus, plusieurs distinctions essentielles émergent :

  • Domination de la latence du GPU : DAMO-YOLO démontre des vitesses d'inférence nettement plus rapides sur le matériel GPU. Par exemple, DAMO-YOLOm atteint un mAP de 49,2 avec une latence de seulement 5,09 ms sur un GPU T4. En revanche, le EfficientDet-d4 comparable (49,7 mAP) nécessite 33,55 ms, soit près de 6x plus lent.
  • Efficacité des paramètres : EfficientDet excelle dans les mesures de compression de modèle. Le modèle EfficientDet-d0 utilise seulement 3,9 millions de paramètres et 2,54 milliards de FLOPs, offrant une empreinte légère idéale pour les appareils à stockage limité.
  • Performance du CPU : EfficientDet fournit des benchmarks établis pour les performances du CPU, ce qui en fait un choix prévisible pour les appareils périphériques non accélérés. Cependant, ses couches complexes de fusion de fonctionnalités entraînent souvent un débit réel plus lent par rapport aux architectures plus simples.

EfficientDet : Évolutif et efficace

EfficientDet a révolutionné la détection d'objets en introduisant une manière rigoureuse de mettre à l'échelle les dimensions du modèle. Construit sur le backbone EfficientNet, il vise à atteindre une haute précision tout en minimisant le coût de calcul théorique (FLOPs).

Détails d'EfficientDet :

Points forts architecturaux

L’innovation principale d’EfficientDet réside dans deux composants principaux :

  1. BiFPN (Réseau de pyramide de caractéristiques bidirectionnel) : Contrairement aux FPN traditionnels qui additionnent les caractéristiques de différentes échelles, BiFPN introduit des poids apprenables aux différentes caractéristiques d’entrée et permet à l’information de circuler à la fois de haut en bas et de bas en haut à plusieurs reprises. Cela améliore la fusion des caractéristiques, mais ajoute de la complexité de calcul.
  2. Mise à l’échelle composite : EfficientDet propose un coefficient composite qui met à l’échelle conjointement le backbone, BiFPN, le réseau de classe/boîte et la résolution d’entrée. Cela garantit que toutes les parties du réseau croissent de manière équilibrée, plutôt que de mettre à l’échelle une seule dimension (comme la profondeur ou la largeur) de manière arbitraire.

Points forts et faiblesses

Le principal atout d'EfficientDet est son efficacité théorique. Il atteint une précision de pointe avec beaucoup moins de paramètres que les détecteurs précédents comme YOLOv3 ou RetinaNet. Cependant, son utilisation intensive de convolutions séparables en profondeur et les modèles complexes d'accès à la mémoire de BiFPN peuvent entraîner une utilisation plus faible sur les GPU modernes, ce qui se traduit par une latence plus élevée malgré des FLOPs plus faibles.

Considérations relatives au déploiement

Bien que EfficientDet ait de faibles FLOPs, « faibles FLOPs » ne se traduit pas toujours par une « inférence rapide ». Sur du matériel comme les GPU ou les TPU, la bande passante de la mémoire et les frais généraux de lancement du noyau comptent souvent davantage. La structure de graphe complexe d'EfficientDet peut parfois être un goulot d'étranglement dans les scénarios d'inférence en temps réel.

DAMO-YOLO : Innovation axée sur la vitesse

DAMO-YOLO a été conçu avec un objectif précis : combler le fossé entre les hautes performances et la faible latence sur le matériel industriel. Il intègre des technologies de pointe de recherche d'architecture neuronale (NAS) pour trouver la structure optimale pour les tâches de détection.

Détails de DAMO-YOLO :

Points forts architecturaux

DAMO-YOLO introduit plusieurs composants "nouvelle technologie" dans la famille YOLO :

  1. MAE-NAS Backbone (épine dorsale MAE-NAS) : Il utilise la recherche d'architecture neuronale (NAS) pilotée par l'entropie maximale pour découvrir des dorsales efficaces qui traitent efficacement les différentes résolutions d'entrée.
  2. RepGFPN : Il s'agit d'une amélioration par rapport au FPN généralisé standard, intégrant la reparamétrisation pour rationaliser le bloc de fusion, maximisant ainsi l'utilisation du matériel.
  3. ZeroHead & AlignedOTA : La conception « ZeroHead » réduit considérablement la complexité de la tête de détection, tandis qu’AlignedOTA (Optimal Transport Assignment) fournit une stratégie d’attribution d’étiquettes robuste pendant la formation pour résoudre le désalignement entre la classification et la régression.

Points forts et faiblesses

DAMO-YOLO excelle en vitesse brute. En privilégiant les structures qui sont compatibles avec l'accélération matérielle (comme TensorRT), il atteint un débit remarquable. Cependant, sa dépendance à des architectures complexes générées par NAS peut rendre plus difficile la modification ou le réglage fin pour des besoins de recherche personnalisés par rapport à des architectures plus simples et artisanales. De plus, il manque le large soutien de la communauté et la facilité d'utilisation multiplateforme que l'on trouve dans les versions YOLO plus courantes.

Ultralytics YOLO11 : L’alternative holistique

Bien qu'EfficientDet offre une efficacité des paramètres et que DAMO-YOLO offre une vitesse de GPU, Ultralytics YOLO11 offre un équilibre supérieur des deux, enveloppé dans un écosystème convivial pour les développeurs. Pour la plupart des applications pratiques—allant de l'edge AI aux déploiements dans le cloud—YOLO11 représente le choix optimal.

En savoir plus sur YOLO11

Pourquoi choisir les modèles Ultralytics ?

  1. Polyvalence inégalée : Contrairement à EfficientDet et DAMO-YOLO, qui sont principalement des détecteurs d’objets, Ultralytics YOLO11 prend en charge nativement un large éventail de tâches de vision par ordinateur, notamment la segmentation d’instance, l’estimation de pose, les boîtes englobantes orientées (OBB) et la classify d’images. Cela vous permet d’utiliser un framework unique pour divers besoins de projet.
  2. Équilibre des performances : YOLO11 repousse les limites de la frontière précision-latence. Il égale ou dépasse souvent la précision des modèles plus lourds tout en conservant des vitesses d'inférence compétitives avec les modèles spécialisés en temps réel.
  3. Facilité d’utilisation et écosystème : L’API Ultralytics est conçue pour la simplicité. Grâce à une documentation complète et au soutien de la communauté, les développeurs peuvent passer de l’installation à l’entraînement en quelques minutes. L’écosystème comprend des intégrations transparentes pour l’annotation des données, le suivi des expériences et l’exportation en un clic vers des formats tels que ONNX, TensorRT, CoreML et TFLite.
  4. Efficacité de l'entraînement : Les modèles Ultralytics sont optimisés pour une convergence rapide. Ils utilisent des stratégies avancées d'augmentation des données et des chargeurs de données efficaces, ce qui réduit le temps et les coûts associés à l'entraînement de modèles à hautes performances.
  5. Efficacité de la mémoire : Comparé aux modèles basés sur transformateur ou aux architectures plus anciennes, YOLO11 nécessite beaucoup moins de mémoire CUDA pour l’entraînement, ce qui le rend accessible sur les GPU grand public.

Exemple de code : Démarrage avec YOLO11

L'implémentation de la detection de pointe avec Ultralytics est simple. L'extrait de code suivant montre comment charger un modèle YOLO11 pré-entraîné et exécuter une inférence sur une image :

from ultralytics import YOLO

# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")

# Run inference on a local image or URL
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export the model to ONNX format for deployment
path = model.export(format="onnx")

Intégration transparente

Les modèles Ultralytics s'intègrent sans effort aux outils MLOps les plus courants. Que vous utilisiez MLflow pour la journalisation ou Ray Tune pour l'optimisation des hyperparamètres, la fonctionnalité est directement intégrée dans la bibliothèque.

Conclusion

Dans la comparaison entre EfficientDet et DAMO-YOLO, le choix dépend en grande partie des contraintes matérielles spécifiques. EfficientDet reste un candidat solide pour l'efficacité théorique et les scénarios où le nombre de paramètres est le principal goulot d'étranglement. DAMO-YOLO est le vainqueur incontesté pour les applications à haut débit fonctionnant sur des GPU modernes où la latence est primordiale.

Cependant, pour une solution qui combine le meilleur des deux mondes (performances élevées, facilité d'utilisation et capacité multitâche), Ultralytics YOLO11 s'impose comme la norme de l'industrie. Son écosystème robuste et ses améliorations continues garantissent que les développeurs disposent des outils les plus fiables pour créer des solutions de vision par ordinateur évolutives.

Explorer d’autres comparaisons

Pour mieux comprendre le paysage des modèles de détection d'objets, vous pouvez explorer ces comparaisons supplémentaires :


Commentaires