Passer au contenu

YOLOv7 vs EfficientDet : Une analyse approfondie des architectures de détection d'objets en temps réel

L'évolution de la détection d'objets a été marquée par un bras de fer constant entre précision et efficacité. Deux poids lourds se disputent la première place dans ce domaine : YOLOv7, une étape importante dans la famille « You Only Look Once » lancée en 2022, et EfficientDet, l'architecture évolutive Google datant de fin 2019. Si ces deux modèles ont considérablement influencé le domaine de la vision par ordinateur, ils abordent le problème de la détection d'objets à partir de philosophies architecturales fondamentalement différentes.

Ce guide fournit une comparaison technique complète afin d'aider les développeurs, chercheurs et ingénieurs à choisir l'outil adapté à leurs projets spécifiques en matière de vision par ordinateur. Nous explorerons leurs architectures uniques, leurs indicateurs de performance de référence, leurs méthodologies de formation et leurs scénarios de déploiement idéaux.

Aperçu et origines des modèles

Avant de se plonger dans les mesures, il est essentiel de comprendre l'origine de ces modèles.

YOLOv7 : La puissance des « Bag-of-Freebies »

Sorti en juillet 2022, YOLOv7 les limites du possible en matière de détecteurs en temps réel. Il a introduit des innovations architecturales conçues pour optimiser le processus d'entraînement sans augmenter les coûts d'inférence, un concept que les auteurs ont appelé « trainable bag-of-freebies » (sac de cadeaux entraînables).

En savoir plus sur YOLOv7

EfficientDet : Évolutif et efficace

Développé par l'équipe Google , EfficientDet s'est concentré sur une approche systématique de la mise à l'échelle. Il combine un nouveau réseau pyramidal bidirectionnel pondéré (BiFPN) avec une méthode de mise à l'échelle composite qui adapte uniformément la résolution, la profondeur et la largeur.

Différences architecturales

La principale différence entre ces deux modèles réside dans la manière dont ils gèrent l'agrégation des caractéristiques et la mise à l'échelle des modèles.

Architecture YOLOv7

YOLOv7 le réseau d'agrégation de couches efficace étendu (E-ELAN). Cette architecture permet au modèle d'apprendre des caractéristiques plus diverses en contrôlant les chemins de gradient les plus courts et les plus longs, améliorant ainsi la capacité d'apprentissage du réseau sans détruire le chemin de gradient d'origine.

Les principales caractéristiques architecturales sont les suivantes :

  • Mise à l'échelle du modèle : contrairement à la mise à l'échelle composite d'EfficientDet, YOLOv7 simultanément les attributs de l'architecture (profondeur et largeur) dans les modèles basés sur la concaténation.
  • Tête auxiliaire grossière à fine : elle utilise une supervision approfondie où une tête auxiliaire génère des étiquettes grossières pour l'entraînement, tandis que la tête principale se charge du réglage fin.
  • Reparamétrage : YOLOv7 des couches RepConv qui simplifient les structures complexes utilisées pendant l'entraînement en convolutions standard pour accélérer l'inférence, une technique cruciale pour l'inférence en temps réel.

Architecture EfficientDet

EfficientDet s'appuie sur l'architecture EfficientNet et introduit le BiFPN.

Les principales caractéristiques architecturales sont les suivantes :

  • BiFPN : réseau pyramidal bidirectionnel pondéré qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles. Il apprend l'importance des différentes caractéristiques d'entrée et applique de manière répétée une fusion des caractéristiques à plusieurs échelles, de haut en bas et de bas en haut.
  • Mise à l'échelle composite : coefficient simple mais efficace qui permet d'augmenter simultanément la largeur, la profondeur et la résolution du réseau, ce qui permet d'obtenir une famille de modèles (D0 à D7) ciblant différentes contraintes en matière de ressources.

Comparaison des performances

Lorsque nous comparons les performances, nous examinons la précision moyenne (mAP) sur l'ensemble COCO par rapport à la vitesse d'inférence.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Analyse critique

  1. Latence : YOLOv7 nettement plus rapide sur GPU . Par exemple, YOLOv7x atteint mAP de 53,1 % mAP une TensorRT d'environ 11,5 ms, tandis qu'EfficientDet-d7 nécessite environ 128 ms pour atteindre un mAP légèrement supérieur de 53,7 %. Cela rend YOLOv7 10 fois plus rapide dans les scénarios à haute précision.
  2. Efficacité : EfficientDet-d0 à d2 sont extrêmement légers en termes de FLOP, ce qui les rend adaptés aux processeurs à très faible consommation d'énergie où GPU n'est pas disponible. Cependant, lorsque vous passez à D4 et au-delà, les gains d'efficacité diminuent par rapport YOLO .
  3. Précision : bien qu'EfficientDet-d7 offre une précision impressionnante, son coût de calcul est prohibitif pour les applications en temps réel. YOLOv7 un meilleur compromis, en conservant une grande précision sans sacrifier les capacités en temps réel.

Formation et écosystème

L'écosystème qui entoure un modèle détermine son utilité pratique pour les développeurs. C'est là que Ultralytics offre une valeur ajoutée considérable.

Écosystème EfficientDet

EfficientDet est principalement ancré dans TensorFlow . Bien que puissant, son intégration dans les pipelines modernes implique souvent de gérer des dépendances complexes.

  • Complexité : les activations BiFPN et swish peuvent être plus difficiles à optimiser sur certains accélérateurs de pointe par rapport aux convolutions standard.
  • Maintenance : de nombreux référentiels sont mis à jour moins fréquemment que le cycle de publication rapide de la YOLO .

Avantage de l'écosystème Ultralytics

L'un des avantages majeurs de l'utilisation Ultralytics tels que YOLOv7 et ses versions plus récentes) est leur écosystème bien entretenu.

  • Facilité d'utilisation : Ultralytics une Python unifiée qui simplifie la formation, la validation et le déploiement.
  • Efficacité de la formation : YOLO utilisent efficacement GPU standard, ce qui réduit le temps et les coûts associés à la formation sur des ensembles de données personnalisés.
  • Exigences en matière de mémoire : par rapport aux anciens détecteurs à deux niveaux ou aux modèles lourds basés sur des transformateurs, YOLOv7 nécessite YOLOv7 moins CUDA pendant l'entraînement, ce qui permet d'utiliser des lots plus importants sur du matériel grand public.

Formation simplifiée avec Ultralytics

L'entraînement d'un modèle YOLO est simple avec l'API python. Voici comment vous pourriez démarrer une exécution d'entraînement :

from ultralytics import YOLO

# Load a model
model = YOLO("yolov7.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Recommandations de cas d'utilisation

Quand choisir YOLOv7

YOLOv7 est le choix privilégié pour les applications en temps réel où la latence est critique.

  • Conduite autonome : Détecte les piétons, les véhicules et les panneaux à des fréquences d'images élevées, assurant une prise de décision sûre.
  • Robotique : Idéal pour l'intégration de la vision par ordinateur en robotique, permettant aux robots de naviguer et d'interagir avec des environnements dynamiques.
  • Analyse vidéo : traite simultanément plusieurs flux vidéo à des fins d'analyse de sécurité ou de vente au détail sans nécessiter de clusters informatiques massifs.

Quand choisir EfficientDet

EfficientDet reste pertinent pour les scénarios spécifiques à faible consommation ou lorsque la taille du modèle (en Mo) est la contrainte principale plutôt que la latence.

  • Applications mobiles : les variantes plus petites telles que D0-D1 conviennent aux appareils mobiles dont l'espace de stockage est strictement limité.
  • Systèmes hérités : Dans les environnements déjà fortement optimisés pour les écosystèmes TensorFlow/AutoML, EfficientDet pourrait offrir une intégration plus facile.
  • Recherche universitaire : utile pour étudier les effets des techniques de mise à l'échelle des composés ou de fusion des caractéristiques lorsque l'inférence en temps réel n'est pas l'objectif principal.

L'avenir : passage à YOLO26

Bien que YOLOv7 un outil performant, le domaine de la vision par ordinateur évolue rapidement. Pour les développeurs à la recherche des meilleures performances absolues, le modèle YOLO26, lancé en janvier 2026, représente la pointe de la technologie.

YOLO26 s'appuie sur l'héritage des précédentes versions de YOLO avec une conception de bout en bout NMS. Cela élimine le besoin d'un post-traitement par suppression non maximale (NMS), ce qui simplifie les pipelines de déploiement et augmente la vitesse d'inférence.

Les principaux avantages de YOLO26 par rapport à YOLOv7 EfficientDet sont les suivants :

  • MuSGD Optimizer : un hybride de SGD Muon, qui apporte les innovations de la formation LLM à la vision par ordinateur pour une formation plus stable et une convergence plus rapide.
  • Optimisation en périphérie : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 est jusqu'à 43 % plus rapide sur CPU, ce qui le rend encore plus adapté aux appareils périphériques qu'EfficientDet.
  • Polyvalence améliorée : au-delà de la détection, YOLO26 offre des performances de pointe en matière d'estimation de pose, de segmentation d'instances et de boîte englobante orientée (OBB), le tout dans un cadre unique.
  • ProgLoss + STAL : les fonctions de perte améliorées apportent des améliorations notables dans la reconnaissance des petits objets, ce qui est essentiel pour l'IoT et l'imagerie aérienne.

En savoir plus sur YOLO26

Conclusion

YOLOv7 EfficientDet ont tous deux marqué l'histoire de la vision par ordinateur. EfficientDet a introduit des principes de mise à l'échelle élégants, tandis que YOLOv7 l'approche « bag-of-freebies » pour une vitesse en temps réel. Cependant, pour les pipelines de production modernes qui exigent un équilibre entre performances, facilité d'utilisation et polyvalence, Ultralytics , incarné par YOLOv7 le plus récent YOLO26, offre un avantage distinct.

Avec des besoins en mémoire réduits pendant la formation et une exportation transparente vers des formats tels que ONNX et TensorRT, Ultralytics garantissent que votre parcours, de l'ensemble de données au déploiement, se déroule de la manière la plus fluide possible.

Lectures complémentaires

  • Modèles : explorez d'autres architectures telles que YOLOv8, YOLO11et RT-DETR.
  • Plateforme : utilisez la Ultralytics pour gérer vos ensembles de données, former vos modèles et les déployer sans effort.
  • Guides : Découvrez comment optimiser les hyperparamètres afin de tirer le meilleur parti de vos modèles.

Commentaires