Passer au contenu

EfficientDet contre. YOLO11 : une comparaison technique détaillée

Cette page offre une comparaison technique détaillée entre EfficientDet de Google et Ultralytics YOLO11, deux modèles de détection d'objets importants. Nous analysons leurs architectures, leurs bancs d'essai de performance et leur adéquation à différentes applications afin de vous aider à sélectionner le modèle optimal pour vos besoins en matière de vision par ordinateur. Bien que les deux modèles visent une détection d'objets efficace et précise, ils sont issus de différentes lignes de recherche (Google et Ultralytics) et utilisent des philosophies architecturales distinctes.

EfficientDet

EfficientDet est une famille de modèles de détection d'objets développée par des chercheurs de Google Brain. Introduite en 2019, elle a établi une nouvelle norme en matière d'efficacité en combinant un backbone puissant avec un nouveau mécanisme de fusion de caractéristiques et une méthode de mise à l'échelle unique.

Détails techniques :

Architecture et principales fonctionnalités

L'architecture d'EfficientDet repose sur trois composants principaux :

  1. Backbone EfficientNet : Il utilise le EfficientNet très efficace comme backbone pour l'extraction de caractéristiques.
  2. BiFPN (Réseau de pyramide de caractéristiques bidirectionnel) : Un nouveau réseau de pyramide de caractéristiques pondéré qui permet une fusion de caractéristiques multi-échelles simple et rapide. Il introduit des poids apprenables pour comprendre l’importance des différentes caractéristiques d’entrée et applique des connexions de haut en bas et de bas en haut.
  3. Mise à l'échelle composite : Une innovation clé où la profondeur, la largeur et la résolution du modèle sont mises à l'échelle ensemble à l'aide d'un seul coefficient composite. Cela permet à la famille de modèles (de D0 à D7) de s'adapter efficacement à un large éventail de contraintes de ressources.

Points forts

  • Haute efficacité : Les modèles EfficientDet sont réputés pour leur faible nombre de paramètres et de FLOPs, atteignant une grande précision pour leur budget de calcul.
  • Scalabilité : La méthode de mise à l'échelle composite offre une voie claire pour augmenter ou réduire la taille du modèle, le rendant adaptable à divers profils matériels, des appareils mobiles aux centres de données.
  • Solide référence académique : C’était un modèle de pointe lors de sa sortie et il reste une base de référence solide pour la recherche axée sur l’efficacité.

Faiblesses

  • Inférence GPU plus lente : Malgré son efficacité en termes de FLOP, EfficientDet peut être plus lent en termes de latence d’inférence réelle sur les GPU par rapport aux modèles comme YOLO11, qui sont spécialement conçus pour le matériel de traitement parallèle.
  • Polyvalence limitée : EfficientDet est principalement un détecteur d'objets. Il ne prend pas en charge nativement d'autres tâches telles que la segmentation d'instance, l'estimation de pose ou la classification, qui sont intégrées dans les frameworks modernes tels qu'Ultralytics.
  • Écosystème moins maintenu : Le référentiel officiel n’est pas aussi activement développé que l’écosystème Ultralytics. Cela peut entraîner des difficultés en matière de convivialité, de soutien de la communauté et d’intégration avec les derniers outils et plateformes de déploiement.

En savoir plus sur EfficientDet

Ultralytics YOLO11

Ultralytics YOLO11 est la dernière avancée de la série YOLO (You Only Look Once), développée par Ultralytics. Il s'appuie sur le succès de ses prédécesseurs tels que YOLOv8, en se concentrant sur le dépassement des limites de la précision et des performances en temps réel tout en offrant une facilité d'utilisation et une polyvalence inégalées.

Détails techniques :

Architecture et principales fonctionnalités

YOLO11 utilise une architecture de détecteur sans ancres mono-étagée optimisée pour la vitesse et la précision. Sa conception comprend des couches d'extraction de caractéristiques affinées et une structure de réseau simplifiée, ce qui réduit le nombre de paramètres et la charge de calcul sans sacrifier la précision. Cela garantit des performances exceptionnelles sur divers matériels, des appareils périphériques tels que le NVIDIA Jetson aux puissants serveurs cloud.

Un avantage significatif de YOLO11 est son intégration au sein de l'écosystème complet Ultralytics. Cela offre aux développeurs :

  • Facilité d’utilisation : Une API Python et une CLI simples et intuitives rendent l’entraînement, la validation et l’inférence simples.
  • Polyvalence : YOLO11 est un modèle multitâche prenant en charge la détection d'objets, la segmentation d'instance, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB) au sein d'un framework unifié unique.
  • Écosystème bien maintenu : Le modèle bénéficie d'un développement actif, d'une communauté open source large et offrant un bon soutien, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour le MLOps de bout en bout.
  • Efficacité de l'entraînement et de la mémoire : YOLO11 est conçu pour un entraînement efficace, nécessitant souvent moins de mémoire CUDA et convergeant plus rapidement que les alternatives. Il est livré avec des poids pré-entraînés facilement disponibles sur des ensembles de données comme COCO.

Points forts

  • Performance à la pointe de la technologie : Atteint un excellent équilibre entre les scores mAP élevés et les vitesses d'inférence rapides, en particulier sur les GPU.
  • Flexibilité de déploiement : Optimisé pour une large gamme de matériels, avec une exportation facile vers des formats tels que ONNX et TensorRT pour des performances maximales.
  • Cadre convivial : Soutenu par une documentation, des didacticiels et une communauté forte, ce qui réduit les obstacles à l’entrée pour les débutants et les experts.
  • Prise en charge multi-tâches : Un seul modèle YOLO11 peut être entraîné pour diverses tâches de vision, ce qui réduit la complexité et le temps de développement.

Faiblesses

  • Compromis de performance du CPU : Bien qu'ils soient hautement optimisés pour les GPU, les modèles YOLO11 plus grands peuvent être plus lents dans les environnements sans CPU par rapport aux plus petites variantes d'EfficientDet.
  • Détection de petits objets : Comme les autres détecteurs à une étape, il peut parfois être mis au défi par la détection d'objets extrêmement petits ou fortement occlus dans des scènes denses, bien que des améliorations continues soient apportées à chaque version.

En savoir plus sur YOLO11

Performances et analyses comparatives

La comparaison des performances sur le jeu de données COCO val2017 met en évidence les différentes philosophies de conception d'EfficientDet et de YOLO11. EfficientDet excelle en efficacité théorique (mAP par paramètre/FLOP), en particulier avec ses modèles plus petits. Cependant, en ce qui concerne le déploiement pratique, en particulier sur les GPU, YOLO11 démontre un avantage clair en termes de vitesse d'inférence.

Par exemple, YOLO11s atteint un mAP comparable (47,0) à EfficientDet-d3 (47,5) mais avec une vitesse d'inférence 2,9 fois plus rapide sur un GPU T4. Le plus grand modèle, YOLO11x, surpasse tous les modèles EfficientDet en précision (54,7 mAP) tout en restant significativement plus rapide sur GPU que même les modèles EfficientDet de taille moyenne. Cela fait de YOLO11 le choix supérieur pour les applications où l'inférence en temps réel est essentielle.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
EfficientDet-d0 640 34.6 10.2 3.92 3.9 2.54
EfficientDet-d1 640 40.5 13.5 7.31 6.6 6.1
EfficientDet-d2 640 43.0 17.7 10.92 8.1 11.0
EfficientDet-d3 640 47.5 28.0 19.59 12.0 24.9
EfficientDet-d4 640 49.7 42.8 33.55 20.7 55.2
EfficientDet-d5 640 51.5 72.5 67.86 33.7 130.0
EfficientDet-d6 640 52.6 92.8 89.29 51.9 226.0
EfficientDet-d7 640 53.7 122.0 128.07 51.9 325.0
YOLO11n 640 39.5 56.1 1.5 2.6 6.5
YOLO11s 640 47.0 90.0 2.5 9.4 21.5
YOLO11m 640 51.5 183.2 4.7 20.1 68.0
YOLO11l 640 53.4 238.6 6.2 25.3 86.9
YOLO11x 640 54.7 462.8 11.3 56.9 194.9

Cas d'utilisation idéaux

EfficientDet

EfficientDet est idéal pour les scénarios où les ressources de calcul sont le principal goulot d'étranglement et où l'optimisation GPU est moins critique.

  • Recherche académique : Excellent pour les études axées sur l'efficacité des modèles et la conception de l'architecture.
  • Applications liées au CPU : Les petites variantes (D0-D2) peuvent bien fonctionner dans les environnements sans GPU dédiés.
  • Déploiement dans le nuage sensible aux coûts : Où la facturation est directement liée aux FLOPs ou à l'utilisation du CPU.

YOLO11

YOLO11 excelle dans un large éventail d'applications du monde réel qui exigent une grande précision, une vitesse élevée et une efficacité de développement.

  • Systèmes autonomes : Alimente la robotique et les voitures autonomes avec une perception à faible latence.
  • Sécurité et surveillance : Permettre la surveillance en temps réel pour les systèmes de sécurité et la sécurité publique.
  • Automatisation industrielle : Utilisée pour le contrôle qualité à haute vitesse et la détection de défauts sur les chaînes de production.
  • Analyse de vente au détail : Applications pilotes telles que la gestion des stocks et l’analyse du comportement des clients.

Conclusion

EfficientDet est une architecture de référence qui a repoussé les limites de l'efficacité des modèles. Sa conception évolutive reste une contribution précieuse dans ce domaine, en particulier pour les environnements aux ressources limitées.

Cependant, pour les développeurs et les chercheurs à la recherche d'une solution de pointe, polyvalente et conviviale, Ultralytics YOLO11 est le choix évident. Il offre une combinaison supérieure de précision et de vitesse réelle, en particulier sur le matériel moderne. Les principaux avantages de YOLO11 ne résident pas seulement dans ses performances, mais aussi dans l'écosystème robuste qui l'entoure. L'API rationalisée, la documentation complète, les capacités multitâches et le support actif de la communauté accélèrent considérablement le cycle de vie du développement et du déploiement, ce qui en fait l'option la plus pratique et la plus puissante pour un large éventail de défis de vision par ordinateur aujourd'hui.

Explorer d'autres modèles

Pour une exploration plus approfondie, consultez ces comparaisons avec d'autres modèles de pointe :



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires