Passer au contenu

YOLO EfficientDet : une analyse approfondie des architectures de détection d'objets

Le choix de l'architecture optimale pour la vision par ordinateur est une décision cruciale qui a un impact sur tous les aspects, de la latence d'inférence aux coûts matériels. Dans cette comparaison technique, nous analysons deux modèles influents : YOLO d'Alibaba et EfficientDet Google. Alors qu'EfficientDet a introduit le concept d'efficacité évolutive,YOLO les limites des performances en temps réel grâce à des techniques de distillation novatrices.

Ce guide fournit une analyse rigoureuse de leurs architectures, de leurs indicateurs de performance et de leur adéquation avec les déploiements modernes, tout en explorant comment les solutions de nouvelle génération telles Ultralytics établissent de nouvelles normes en matière de facilité d'utilisation et d'efficacité de pointe.

Présentation de DAMO-YOLO

YOLO un cadre de détection d'objets haute performance développé par Alibaba Group. Il privilégie le compromis entre vitesse et précision, en tirant parti de technologies telles que la recherche d'architecture neuronale (NAS) et la reparamétrisation lourde. Conçu principalement pour des applications industrielles, il vise à réduire la latence sans compromettre la qualité de la détection.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Arxiv :YOLO
GitHub :YOLO
Documentation :YOLO

Principales caractéristiques architecturales

  • MAE-NAS Backbone : utilise une recherche d'architecture neuronale basée sur un auto-encodeur masqué (MAE) pour découvrir des structures de base efficaces.
  • RepGFPN efficace : une conception à cou lourd qui utilise la reparamétrisation (similaire à YOLOv6) pour fusionner efficacement les caractéristiques tout en conservant une inférence rapide.
  • ZeroHead : une tête de détection légère qui minimise la charge de calcul pendant la phase finale de prédiction.
  • AlignedOTA : une stratégie améliorée d'attribution d'étiquettes qui résout les problèmes de désalignement entre les tâches de classification et de régression pendant l'entraînement.

Aperçu d'EfficientDet

Développé par l'équipe Google , EfficientDet a introduit une approche systématique de la mise à l'échelle des modèles. En mettant à l'échelle conjointement la structure, la résolution et la profondeur, EfficientDet atteint une efficacité remarquable. Il s'appuie sur la structure EfficientNet et introduit le BiFPN (Bidirectional Feature Pyramid Network) pour la fusion de caractéristiques complexes.

Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation :Google
Date : 20 novembre 2019
Arxiv :EfficientDet Paper
GitHub :google
Docs :EfficientDet README

Principales caractéristiques architecturales

  • Mise à l'échelle composée : méthode permettant de mettre à l'échelle de manière uniforme la largeur, la profondeur et la résolution du réseau à l'aide d'un simple coefficient composé (phi).
  • BiFPN : un réseau pyramidal bidirectionnel pondéré qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles.
  • EfficientNet Backbone : exploite la puissante architecture EfficientNet pour l'extraction de caractéristiques.

Comparaison des performances

Le tableau suivant compare les performances des variantesYOLO EfficientDet.YOLO offreYOLO un meilleur rapport vitesse/précision, en particulier sur GPU où ses blocs reparamétrés brillent. EfficientDet, bien que précis, souffre souvent d'une latence plus élevée en raison de connexions BiFPN complexes et de fonctions d'activation plus lentes.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Analyse des résultats

  • Latence :YOLO surpasseYOLO EfficientDet en termes de TensorRT . Par exemple, DAMO-YOLOl atteint 50,8 mAP environ 7 ms, tandis qu'EfficientDet-d4 nécessite environ 33 ms pour obtenir une précision similaire.
  • Efficacité architecturale : le faible nombre de paramètres d'EfficientDet (par exemple, d0 ne compte que 3,9 millions de paramètres) le rend facile à stocker, mais sa structure graphique complexe (BiFPN) entraîne souvent des vitesses d'inférence réelles plus lentes par rapport aux structures rationalisées des modèles YOLO.
  • Utilisation des ressources :YOLO la « distillation améliorée » pendant l'entraînement, ce qui permet aux modèles étudiants plus petits d'apprendre des modèles enseignants plus grands, améliorant ainsi les performances sans augmenter le coût de l'inférence.

Explication de la reparamétrisation

YOLO des techniques de reparamétrage similaires à celles de RepVGG. Pendant l'entraînement, le modèle utilise des blocs complexes à branches multiples pour apprendre des caractéristiques riches. Avant l'inférence, ces branches sont mathématiquement fusionnées en une seule convolution, ce qui augmente considérablement la vitesse sans perte de précision.

Cas d'utilisation et applications

Comprendre les points forts de chaque modèle aide à choisir l'outil adapté à la tâche à accomplir.

Quand utiliserYOLO

  • Inspection industrielle : idéal pour les chaînes de fabrication où une latence de l'ordre de la milliseconde est essentielle pour détecter les défauts sur des convoyeurs à déplacement rapide.
  • Surveillance intelligente des villes : son débit élevé permet de traiter plusieurs flux vidéo sur un seul GPU.
  • Robotique : Convient à la navigation autonome où des temps de réaction rapides sont nécessaires pour éviter les obstacles.

Quand utiliser EfficientDet

  • Recherche universitaire : ses règles de mise à l'échelle systématiques en font une excellente base de référence pour étudier les théories sur l'efficacité des modèles.
  • Environnements à espace de stockage limité : le nombre extrêmement faible de paramètres des variantes d0/d1 est avantageux si l'espace disque est le principal goulot d'étranglement, même si l'utilisation de la RAM et CPU peuvent rester supérieures à YOLO comparables.
  • Applications mobiles (anciennes) : les premiers déploiements mobiles utilisaient des versions d'EfficientDet TFLite, mais les architectures modernes telles que YOLO11 l'ont largement supplantées.

Ultralytics : entrez YOLO26

SiYOLO EfficientDet ont constitué des étapes importantes, le domaine a évolué depuis. Ultralytics représente l'état de l'art actuel, palliant les limites des architectures précédentes grâce à une conception de bout en bout et une optimisation supérieure.

En savoir plus sur YOLO26

Pourquoi les développeurs préfèrent Ultralytics

  1. Facilité d'utilisation et écosystème : Ultralytics une expérience fluide, du débutant au pro. Contrairement aux fichiers de configuration complexes souvent requis par les référentiels de recherche, Ultralytics vous Ultralytics de commencer l'entraînement avec quelques lignes de Python. L'écosystème comprend la Ultralytics pour une gestion facile des ensembles de données et un entraînement dans le cloud.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset
    results = model.train(data="coco8.yaml", epochs=100)
    
  2. Équilibre des performances : YOLO26 est conçu pour dominer la frontière de Pareto. Il offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un outil puissant pour les applications d'IA de pointe où les GPU ne sont pas disponibles.

  3. NMS de bout en bout : l'un des principaux points faibles du déploiement des détecteurs d'objets est la suppression non maximale (NMS).YOLO EfficientDet s'appuient sur NMS, ce qui complique le post-traitement et introduit une variabilité de latence. YOLO26 est nativement de bout en bout, éliminant NMS pour une inférence déterministe et plus rapide.

  4. Efficacité de l'entraînement et MuSGD : YOLO26 intègre l'optimiseur MuSGD, un hybride de SGD Muon. Cette innovation, inspirée de l'entraînement LLM, garantit une convergence stable et réduit le besoin d'un réglage approfondi des hyperparamètres. Combinée à des exigences de mémoire réduites pendant l'entraînement, elle permet aux utilisateurs d'entraîner des lots plus importants sur du matériel grand public par rapport aux hybrides de transformateurs gourmands en mémoire tels que RT-DETR.

  5. Polyvalence : alors qu'EfficientDet etYOLO principalement sur les boîtes englobantes, Ultralytics prennent en charge de manière native un large éventail de tâches, notamment la segmentation d'instances, l'estimation de pose, l'OBB et la classification, le tout au sein d'une API unifiée unique.

Résumé de la comparaison

FonctionnalitéEfficientDetDAMO-YOLOUltralytics YOLO26
ArchitectureBasé sur une ancre, BiFPNSans ancre, RepGFPNDe bout en bout, NMS
Vitesse d'inférenceLent (graphique complexe)Rapide (GPU )SOTA (CPU GPU)
DéploiementComplexe (NMS )Modéré (NMS )Simple (NMS)
Mémoire d'entraînementÉlevéeModéréFaible (optimisé)
Assistance aux tâchesDétectionDétectionDétecter, Seg, Pose, OBB

Conclusion

YOLO EfficientDet ont tous deux contribué de manière significative à l'histoire de la vision par ordinateur. EfficientDet a démontré la puissance de la mise à l'échelle composée, tandis queYOLO l'efficacité de la reparamétrisation et de la distillation. Cependant, pour les développeurs qui lancent de nouveaux projets en 2026, Ultralytics offre un avantage indéniable.

La suppression du NMS les pipelines de déploiement, l'optimiseur MuSGD accélère la formation et son architecture optimisée offre une vitesse supérieure à la fois sur les processeurs périphériques et les puissants processeurs graphiques. Que vous développiez un système de caméras intelligentes ou une plateforme d'analyse vidéo basée sur le cloud, l'écosystème robuste et les performances Ultralytics en Ultralytics le choix recommandé.

Pour approfondir le sujet, vous pourriez également être intéressé par une comparaison entre YOLO26 et YOLOv10 ou par la découverte des avantages de YOLO11 pour la prise en charge des anciens modèles.


Commentaires