YOLOv5 vs. EfficientDet : Évaluation des architectures de détection d'objets en temps réel

Lorsque tu te lances dans un nouveau projet de computer vision, le choix de l'architecture de réseau neuronal est l'une des décisions les plus déterminantes que tu auras à prendre. Ce guide propose une comparaison technique approfondie entre Ultralytics YOLOv5 et EfficientDet de Google. En analysant leurs architectures, leurs métriques de performance et leurs écosystèmes d'entraînement, nous visons à aider les développeurs et les chercheurs à identifier le meilleur modèle de object detection pour leurs environnements de déploiement spécifiques.

Alors qu'EfficientDet a introduit des concepts novateurs en matière de mise à l'échelle composée et de fusion de caractéristiques, YOLOv5 a révolutionné l'industrie en démocratisant l'accès à une IA haute performance grâce à son implémentation PyTorch incroyablement intuitive, son expérience utilisateur simplifiée et son équilibre inégalé entre vitesse et précision.

Ultralytics YOLOv5 : La norme de l'industrie en matière d'accessibilité

Sorti à l'été 2020, YOLOv5 a marqué un tournant décisif dans la lignée des YOLO. En passant du framework Darknet basé sur C à PyTorch natif, il est devenu l'architecture de référence pour les développeurs cherchant à construire, entraîner et déployer des modèles rapidement.

Innovations architecturales

YOLOv5 est reconnu pour son architecture hautement optimisée qui privilégie un cycle de vie machine learning fluide. Il utilise une backbone CSPDarknet53 modifiée associée à un neck Path Aggregation Network (PANet), ce qui améliore considérablement la propagation des caractéristiques à travers de multiples échelles spatiales.

Les avancées clés incluent :

  • Augmentation de données Mosaic : Cette technique d'entraînement combine quatre images d'entraînement distinctes en une seule mosaïque. Cela force le modèle à apprendre à identifier des objets dans des contextes spatiaux complexes et booste considérablement sa capacité à détecter de petites cibles.
  • Auto-apprentissage des boîtes d'ancrage (Anchor Boxes) : Avant que l'entraînement ne commence, YOLOv5 analyse tes training data personnalisées et calcule automatiquement les dimensions optimales des anchor box en utilisant le clustering k-means.
  • Efficacité mémoire : Comparé aux modèles lourds basés sur les transformeurs, YOLOv5 maintient une empreinte mémoire nettement plus faible pendant l'entraînement et l'inférence, ce qui lui permet de fonctionner sans problème sur du matériel grand public.

En savoir plus sur YOLOv5

EfficientDet : Détection d'objets évolutive

Introduit par Google Research en 2019, EfficientDet visait à fournir une famille de détecteurs d'objets évolutifs. Il s'appuie sur la backbone de classification d'images EfficientNet et introduit un mécanisme novateur de fusion de caractéristiques.

Innovations architecturales

La proposition fondamentale d'EfficientDet réside dans son approche systématique de la mise à l'échelle et de l'agrégation des caractéristiques :

  • BiFPN (Bi-directional Feature Pyramid Network) : Contrairement aux FPN traditionnels qui ne transmettent les informations que du haut vers le bas, le BiFPN permet une fusion multi-échelle des caractéristiques rapide et facile en introduisant des poids apprenables pour définir l'importance des différentes caractéristiques d'entrée.
  • Mise à l'échelle composée (Compound Scaling) : EfficientDet ajuste conjointement la résolution, la profondeur et la largeur pour toute la backbone, le réseau de caractéristiques et les réseaux de prédiction de boîtes/classes, aboutissant à des modèles allant du D0 léger au D7 massif.

En savoir plus sur EfficientDet

Différences entre les frameworks

Alors qu'EfficientDet repose largement sur l'écosystème TensorFlow et les bibliothèques AutoML, YOLOv5 fonctionne nativement au sein de PyTorch, offrant ce que beaucoup de développeurs considèrent comme un flux de travail plus intuitif, pythonique et facile à déboguer.

Comparaison des performances et des métriques

Lors de la comparaison de ces modèles, l'évaluation de leurs performances sur des benchmarks standards comme le COCO dataset est cruciale. Le tableau ci-dessous met en évidence les compromis entre la taille, la demande computationnelle (FLOPs) et la vitesse d'inférence.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045,4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755,2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Analyse équilibrée

YOLOv5 brille par sa flexibilité de déploiement et sa compatibilité native avec l'accélération matérielle. Remarque les vitesses fulgurantes de TensorRT sur le GPU T4. Cela rend YOLOv5 incroyablement adapté aux analyses vidéo à haut débit et aux pipelines d'real-time inference. De plus, l'écosystème Ultralytics rend l'exportation vers des formats comme ONNX, CoreML et TensorRT réalisable avec une simple ligne de commande.

EfficientDet offre une excellente efficacité en termes de paramètres. Pour un nombre donné de paramètres, il extrait souvent une mean Average Precision (mAP) élevée. Cependant, cette efficacité théorique ne se traduit pas toujours par des temps d'inférence réelle plus rapides sur les GPU en périphérie (edge) en raison du routage complexe de la couche BiFPN, qui peut être limitée par la bande passante mémoire plutôt que par la puissance de calcul.

Écosystème et facilité d'utilisation

L'avantage décisif du choix d'un modèle Ultralytics réside dans l'écosystème qui l'entoure. YOLOv5 fait partie d'un répertoire maintenu de manière intensive, activement développé et bénéficiant d'un immense soutien de la communauté.

Avec l'introduction de la Ultralytics Platform, tu peux passer en toute transparence de la collecte de données au déploiement. Cette plateforme prend en charge l'auto-annotation, l'entraînement dans le cloud et la surveillance des modèles immédiatement. À l'inverse, l'entraînement d'EfficientDet nécessite souvent de naviguer dans les complexités des anciennes API de détection d'objets TensorFlow, ce qui peut représenter une courbe d'apprentissage abrupte pour le prototypage rapide.

De plus, la polyvalence de YOLOv5 s'étend au-delà des boîtes englobantes (bounding boxes). Grâce à des mises à jour continues, le framework Ultralytics prend nativement en charge l'instance segmentation et l'image classification, offrant une API unifiée pour de multiples tâches de vision par ordinateur.

Cas d'utilisation idéaux

  • Choisis YOLOv5 quand : Tu as besoin de prototypage rapide, d'une expérience d'entraînement sans friction et d'un déploiement sur edge hautement optimisé. Il est idéal pour les drones, le retail analytics et les applications mobiles où une faible latence est critique.
  • Choisis EfficientDet quand : Tu travailles strictement dans un environnement Google Cloud/TensorFlow AutoML et que tu as besoin d'une précision maximale par paramètre sans contraintes strictes de latence en temps réel.

La nouvelle génération : Adopter YOLO26

Alors que YOLOv5 reste un outil fiable, le paysage de la vision par ordinateur a progressé. Pour les développeurs cherchant ce qu'il y a de plus moderne en 2026, YOLO26 représente le nouveau sommet de la gamme Ultralytics.

S'appuyant sur l'héritage de ses prédécesseurs (comme YOLOv8 et YOLO11), YOLO26 introduit des innovations révolutionnaires :

  • Conception de bout en bout sans NMS : YOLO26 élimine nativement le besoin de post-traitement Non-Maximum Suppression. Cela réduit considérablement la variance de latence et simplifie l'architecture de déploiement.
  • Inférence CPU jusqu'à 43 % plus rapide : Fortement optimisée pour l'edge AI, elle apporte des vitesses sans précédent aux appareils en périphérie à faible consommation et aux CPU standard sans GPU dédiés.
  • Optimiseur MuSGD : Inspiré des techniques d'entraînement des grands modèles de langage (LLM), cet hybride de SGD et Muon assure un entraînement très stable et une convergence rapide.
  • Fonctions de perte avancées : L'intégration de ProgLoss et STAL améliore radicalement la reconnaissance de petites cibles, ce qui est vital pour l'imagerie par drone à haute altitude et la robotics.
  • Suppression de DFL : En supprimant la Distribution Focal Loss, le processus d'exportation du modèle est rationalisé, améliorant encore la compatibilité entre divers accélérateurs matériels.

Les utilisateurs intéressés par l'exploration d'autres architectures récentes au sein de l'écosystème Ultralytics pourraient également comparer des modèles comme YOLOv10 ou RT-DETR.

La migration est facile

L'API Python d'Ultralytics est conçue pour être compatible avec les versions précédentes et futures. Passer de YOLOv5 à YOLO26 est littéralement aussi simple que de changer la chaîne de poids du modèle dans ton code !

Exemple de code : Entraînement et inférence

Pour démontrer la facilité d'utilisation inégalée de l'écosystème Ultralytics, voici comment tu peux entraîner et exécuter une inférence en utilisant un modèle YOLO moderne. Ce code est 100 % exécutable et gère automatiquement le téléchargement du dataset, les boucles d'entraînement et la validation.

from ultralytics import YOLO

# Load a modern model (Swap 'yolov5s.pt' for 'yolo26n.pt' to test the newest architecture!)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 example dataset for 20 epochs
results = model.train(data="coco8.yaml", epochs=20, imgsz=640)

# Run inference on an image from the web
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Display the image with bounding boxes
inference_results[0].show()

En donnant la priorité à l'expérience utilisateur, en maintenant un écosystème robuste et en repoussant continuellement les limites de ce qui est possible avec des mises à jour comme YOLO26, Ultralytics s'assure que les développeurs disposent toujours des meilleurs outils pour résoudre les défis de l'intelligence visuelle dans le monde réel.

Commentaires