DAMO-YOLO vs EfficientDet : une analyse technique approfondie de la détection d'objets moderne

L'évolution de la vision par ordinateur a produit une gamme d'architectures puissantes adaptées à diverses exigences du monde réel. Alors que certains frameworks privilégient une évolutivité massive, d'autres se concentrent fortement sur la vitesse d'inférence en temps réel. Dans cette comparaison technique, nous explorons DAMO-YOLO et EfficientDet, deux modèles très influents qui présentent des approches distinctes pour résoudre le problème de la détection d'objets. Nous disséquerons leurs architectures, comparerons leurs performances de référence et explorerons finalement pourquoi le nouveau YOLO26 d'Ultralytics représente le choix optimal pour les déploiements en production modernes.

Aperçu de l'architecture

Les deux modèles ont été conçus pour aborder le compromis efficacité-précision, mais ils s'appuient sur des mécanismes fondamentalement différents pour atteindre leurs objectifs.

DAMO-YOLO : la vitesse grâce à la recherche d'architecture neuronale

Développé pour repousser les limites de la détection en temps réel, DAMO-YOLO tire parti de techniques de recherche automatisées pour construire des réseaux hautement efficaces adaptés aux environnements à faible latence.

Détails de DAMO-YOLO :
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 23/11/2022
Arxiv : https://arxiv.org/abs/2211.15444v2
GitHub : https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO est construit autour d'une dorsale (backbone) basée sur la recherche d'architecture neuronale (NAS) qui optimise à la fois la vitesse et la précision. Il introduit le RepGFPN (Reparameterized Generalized Feature Pyramid Network), qui améliore la fusion des caractéristiques tout en maintenant des vitesses d'inférence élevées. De plus, sa conception ZeroHead minimise la surcharge computationnelle généralement associée aux têtes de détection. Le modèle bénéficie également de l'AlignedOTA (Aligned Optimal Transport Assignment) et de l'amélioration par distillation, garantissant que même les plus petites variantes apprennent des représentations riches à partir de modèles plus grands.

En savoir plus sur DAMO-YOLO

EfficientDet : l'évolutivité grâce au Compound Scaling

Contrairement à l'approche axée sur la vitesse, EfficientDet se concentre sur une évolutivité systématique à travers divers budgets de calcul.

Détails de EfficientDet :
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google Brain
Date : 20/11/2019
Arxiv : https://arxiv.org/abs/1911.09070
GitHub : https://github.com/google/automl/tree/master/efficientdet

EfficientDet introduit le BiFPN (Bidirectional Feature Pyramid Network), qui permet une fusion de caractéristiques multi-échelle simple et rapide. Contrairement aux méthodes traditionnelles qui font évoluer les architectures en ajoutant arbitrairement des couches ou des canaux, EfficientDet utilise une méthode de mise à l'échelle composée qui adapte uniformément la résolution, la profondeur et la largeur de la dorsale, du réseau de caractéristiques et des réseaux de prédiction de boîte/classe simultanément. Cela lui permet d'atteindre une précision de pointe sur du matériel haut de gamme tout en offrant des variantes plus petites pour les environnements contraints.

En savoir plus sur EfficientDet

Comparaison des performances et des métriques

Lorsque l'on compare ces modèles côte à côte, le compromis entre la précision pure et la vitesse d'inférence devient clair. Le tableau ci-dessous présente les indicateurs de performance clés, soulignant comment les capacités d'inférence de DAMO-YOLO se comparent à la famille de modèles EfficientDet.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755,2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Comme vu ci-dessus, EfficientDet-d7 atteint la précision globale la plus élevée, ce qui le rend adapté aux applications cloud rigoureuses. À l'inverse, la série DAMO-YOLO offre une précision très compétitive avec une latence nettement inférieure sur le matériel GPU, ce qui en fait un candidat plus solide pour les déploiements en périphérie (edge) en temps réel.

Cas d'utilisation et recommandations

Choisir entre DAMO-YOLO et EfficientDet dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.

Quand choisir DAMO-YOLO

DAMO-YOLO est un choix solide pour :

  • Analytique vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit batch-1 est la métrique principale.
  • Lignes de fabrication industrielle : Scénarios avec des contraintes de latence GPU strictes sur du matériel dédié, comme l'inspection qualité en temps réel sur les chaînes de montage.
  • Recherche en recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir EfficientDet

EfficientDet est recommandé pour :

  • Pipelines Google Cloud et TPU : Systèmes profondément intégrés aux API Google Cloud Vision ou à l'infrastructure TPU où EfficientDet bénéficie d'une optimisation native.
  • Recherche sur la mise à l'échelle composée : Benchmarking académique axé sur l'étude des effets d'une mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
  • Déploiement mobile via TFLite : Projets qui nécessitent spécifiquement l'exportation TensorFlow Lite pour Android ou des appareils Linux embarqués.

Quand choisir Ultralytics (YOLO26)

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
  • Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

L'alternative moderne : Ultralytics YOLO26

Bien que DAMO-YOLO et EfficientDet représentent tous deux des jalons académiques importants, le déploiement dans le monde réel nécessite souvent une approche plus équilibrée, riche en fonctionnalités et conviviale pour les développeurs. C'est là que Ultralytics YOLO26 établit une nouvelle norme industrielle.

Publié en janvier 2026, YOLO26 s'appuie sur l'héritage de ses prédécesseurs, dont Ultralytics YOLO11 et YOLOv8, offrant un changement de paradigme dans la façon dont nous abordons la détection d'objets.

Simplicité de bout en bout

YOLO26 présente une conception native End-to-End NMS-Free. En éliminant la suppression non maximale (NMS) pendant le post-traitement — un goulot d'étranglement qui a tourmenté les détecteurs d'objets pendant des années — YOLO26 offre un pipeline de déploiement plus simple et beaucoup plus rapide, en particulier sur le matériel en périphérie.

Performances et polyvalence inégalées

YOLO26 ne se contente pas d'améliorer la vitesse ; il redéfinit la stabilité et la précision de l'entraînement. Il introduit l'optimiseur MuSGD, un hybride de SGD et de Muon inspiré par les innovations en matière d'entraînement LLM, conduisant à des taux de convergence considérablement plus rapides et à une efficacité d'entraînement supérieure. Contrairement aux alternatives lourdes basées sur les Transformers comme RT-DETR, YOLO26 maintient des besoins en mémoire incroyablement faibles, garantissant qu'il peut être entraîné sur du matériel grand public.

De plus, YOLO26 intègre ProgLoss + STAL, améliorant considérablement la reconnaissance des petits objets, ce qui est vital pour des cas d'utilisation comme l'imagerie aérienne par drone et la robotique. Pour optimiser les appareils à faible consommation, YOLO26 a supprimé la perte focale de distribution (DFL), ce qui a entraîné une inférence CPU jusqu'à 43 % plus rapide par rapport aux générations précédentes.

Écosystème et facilité d'utilisation

L'un des plus grands obstacles avec des modèles comme EfficientDet est le processus d'intégration complexe. En revanche, la plateforme Ultralytics propose un écosystème bien entretenu et de bout en bout. Avec une API unifiée, tu peux facilement passer de la détection à la segmentation d'instance, à l'estimation de pose, à la classification d'images et aux boîtes englobantes orientées (OBB).

Voici à quel point il est simple d'entraîner et d'exécuter une inférence avec YOLO26 en utilisant le package Python Ultralytics :

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

En savoir plus sur YOLO26

Conclusion

Bien que l'exploration de DAMO-YOLO vs EfficientDet fournisse d'excellents aperçus sur les compromis entre la recherche d'architecture neuronale et la mise à l'échelle composée, les développeurs modernes ont besoin d'outils qui comblent le fossé entre la recherche académique et la réalité de la production.

Pour les développeurs privilégiant la facilité d'utilisation, une communauté open-source active et un équilibre sans compromis entre vitesse et précision, Ultralytics YOLO26 est le choix définitif. Son architecture sans NMS, sa faible surcharge d'entraînement et son intégration transparente avec l'écosystème complet Ultralytics en font le framework ultime pour ton prochain projet de vision par ordinateur.

Commentaires