Passer au contenu

YOLO11 EfficientDet : comparaison technique des architectures de vision

Dans le domaine en constante évolution de la vision par ordinateur, choisir le bon modèle de détection d'objets est essentiel à la réussite d'un projet. Cette comparaison explore les différences techniques entre Ultralytics YOLO11, un détecteur en temps réel de pointe lancé fin 2024, et Google , une architecture très influente datant de 2019 qui a introduit la mise à l'échelle composée dans ce domaine.

Alors qu'EfficientDet a établi des références en matière d'efficacité des paramètres lors de sa sortie, YOLO11 plusieurs années d'innovation, axées sur l'optimisation de la vitesse d'inférence, de la précision et de la facilité d'utilisation pour les applications modernes d'IA en périphérie et dans le cloud.

Nouveau modèle disponible

Bien que YOLO11 un modèle puissant, Ultralytics (sorti en janvier 2026) est désormais le choix de pointe recommandé pour les nouveaux projets. YOLO26 offre une conception de bout en bout NMS, une inférence plus rapide et une précision améliorée.

En savoir plus sur YOLO26

Métriques de performance et analyse

Le tableau suivant présente une comparaison directe des indicateurs de performance sur COCO . Les indicateurs clés comprennent la précision moyenne (mAP) pour la précision, la vitesse d'inférence (latence) sur différents matériels, la taille du modèle (paramètres) et la complexité computationnelle (FLOP).

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Points clés à retenir

  • Latence d'inférence : Ultralytics YOLO11 surpasseYOLO11 EfficientDet en termes de latence. Par exemple, YOLO11x atteint une précision supérieure (54,7 mAP) à celle d'EfficientDet-d7 (53,7 mAP) tout en fonctionnant plus de 10 fois plus rapidement sur un GPU T4 GPU 11,3 ms contre 128,07 ms).
  • Efficacité architecturale : alors qu'EfficientDet optimise les FLOP (opérations en virgule flottante), YOLO11 optimisé pour l'utilisation du matériel. Cela met en évidence une distinction cruciale dans les mesures de performance de l'IA: des FLOP plus faibles ne se traduisent pas toujours par une inférence plus rapide dans le monde réel en raison des coûts d'accès à la mémoire et des contraintes de parallélisme.
  • Évolutivité du modèle : YOLO11 une courbe d'évolutivité plus pratique. Le modèle « nano » (YOLO11n) fournit un mAP utilisable de 39,5 mAP des vitesses incroyables, tandis que le plus petit EfficientDet-d0 reste à la traîne avec mAP de 34,6.

Ultralytics YOLO11: architecture et fonctionnalités

Ultralytics YOLO11 sur l'héritage de la famille YOLO You Only Look Once) et perfectionne l'architecture pour l'ère moderne de la vision par ordinateur. Il introduit des changements significatifs au niveau de la colonne vertébrale et du cou afin d'améliorer l'extraction des caractéristiques et la vitesse de traitement.

Parmi les améliorations architecturales notables, citons le bloc C3k2, une version perfectionnée du goulot d'étranglement Cross Stage Partial (CSP) utilisé dans les versions précédentes, et le module C2PSA (Cross Stage Partial Spatial Attention). Ces composants permettent au modèle de capturer des motifs et des contextes complexes dans les images avec moins de paramètres.

En savoir plus sur YOLO11

Points forts de YOLO11

  1. Écosystème unifié : YOLO11 pas seulement un modèle de détection ; il prend en charge la segmentation d'instances, l'estimation de pose, l'OBB et la classification dès son installation.
  2. Préparation au déploiement : grâce au mode d'exportation intégré, les utilisateurs peuvent convertir des modèles vers ONNX, TensorRT, CoreML et TFLite une seule commande, garantissant ainsi un déploiement transparent sur les appareils mobiles et périphériques.
  3. Efficacité de l'entraînement : YOLO11 beaucoup plus rapidement que les architectures plus anciennes telles qu'EfficientDet, grâce à l'utilisation de pipelines d'augmentation modernes et de fonctions de perte optimisées.

Google : architecture et héritage

EfficientDet, développé par l'équipe Google , a introduit le concept de « Compound Scaling » (mise à l'échelle composée) dans la détection d'objets. Au lieu de concevoir manuellement des modèles plus grands, les auteurs ont proposé une méthode permettant de mettre à l'échelle simultanément la résolution, la profondeur et la largeur du réseau.

Le cœur d'EfficientDet est le BiFPN (Bi-directional Feature Pyramid Network), qui permet une fusion facile des caractéristiques à plusieurs échelles. Il utilise une structure EfficientNet, qui a également été conçue à l'aide de la recherche d'architecture neuronale (NAS).

  • Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
  • Organisation : Google
  • Date : 2019-11-20
  • Arxiv :1911.09070
  • GitHub :google/automl

Forces et limitations

  • Efficacité des paramètres : EfficientDet est historiquement réputé pour atteindre une grande précision avec très peu de paramètres.
  • Efficacité théorique : bien qu'il présente un faible nombre de FLOP, les connexions complexes dans la couche BiFPN peuvent être gourmandes en mémoire et plus lentes à exécuter sur les GPU par rapport aux chemins convolutifs simples de YOLO.
  • Polyvalence limitée : le référentiel d'origine se concentre principalement sur la détection et ne dispose pas de la flexibilité multitâche native (segmentation, pose, OBB) que l'on trouve dans le Ultralytics .

Analyse comparative : pourquoi choisir Ultralytics?

Lorsque l'on compare ces deux modèles pour les environnements de production en 2025 et 2026, les avantages de Ultralytics apparaissent clairement.

Facilité d'utilisation et expérience développeur

Ultralytics une expérience utilisateur simplifiée. La mise en œuvre YOLO11 que quelques lignes de Python , tandis que l'utilisation d'EfficientDet implique souvent de naviguer dans des bases de code héritées complexes ou TensorFlow .

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Écosystème bien entretenu

Ultralytics est activement maintenu grâce à des mises à jour fréquentes. Les problèmes signalés sur GitHub sont traités rapidement et la communauté offre un soutien étendu. En revanche, les référentiels de recherche plus anciens, comme l'EfficientDet original, sont souvent peu mis à jour, ce qui les rend plus difficiles à maintenir dans le cadre de projets commerciaux à long terme.

Équilibre entre Performance et Mémoire

YOLO11 un équilibre parfait entre vitesse et précision. Les choix architecturaux de YOLO11 GPU , ce qui se traduit par des temps d'inférence plus rapides, même si le nombre théorique de FLOP est supérieur à celui d'EfficientDet. De plus, Ultralytics sont optimisés pour une utilisation réduite de la mémoire pendant l'entraînement, ce qui permet aux utilisateurs d'entraîner des modèles efficaces sur des GPU grand public, contrairement à de nombreuses alternatives basées sur Transformer qui nécessitent une mémoire VRAM importante.

Polyvalence dans toutes les tâches

Alors qu'EfficientDet est principalement un détecteur d'objets, YOLO11 de base à diverses tâches. Cette polyvalence réduit la nécessité d'apprendre différents cadres pour différents problèmes.

Un cadre, plusieurs tâches

  • Détection : identifier les objets et leur emplacement.
  • Segmentation : compréhension des objets au niveau du pixel.
  • Estimation de la pose : détecter les points clés sur le corps humain.
  • Boîtes englobantes orientées (OBB) : détectez les objets pivotés tels que les navires dans les images aériennes.
  • Classification : Classer efficacement des images entières.

Conclusion

Ces deux architectures représentent des étapes importantes dans l'histoire de la vision par ordinateur. EfficientDet a démontré la puissance de la recherche d'architecture neuronale et de la mise à l'échelle composée. Cependant, pour les applications pratiques actuelles, Ultralytics YOLO11 est le choix le plus judicieux. Il offre des vitesses d'inférence plus rapides, une plus grande précision et un écosystème convivial pour les développeurs qui réduit considérablement les délais de mise sur le marché.

Pour les développeurs à la recherche des performances les plus récentes, nous recommandons d'explorer YOLO26, qui s'appuie sur les succès de YOLO11 une efficacité encore plus grande et une conception NMS. Ceux qui s'intéressent aux approches basées sur les transformateurs peuvent également envisager RT-DETR pour une prise en compte globale du contexte.

Découvrez tout le potentiel de l'IA visuelle en visitant la Ultralytics pour former, déployer et gérer vos modèles dans le cloud.


Commentaires