YOLO11 EfficientDet : comparaison technique complète
Pour sélectionner le réseau neuronal optimal pour les projets de vision par ordinateur, il est nécessaire de bien comprendre les architectures disponibles. Ce guide fournit une comparaison technique approfondie entre Ultralytics YOLO11 et EfficientDet Google. Nous explorerons leurs différences architecturales, leurs mesures de performance, leurs efficacités de formation et leurs scénarios de déploiement idéaux afin de vous aider à prendre une décision éclairée pour vos charges de travail d'apprentissage automatique.
Historique et spécifications du modèle
Les deux modèles ont eu un impact significatif sur le paysage du deep learning, bien qu'ils proviennent de philosophies de conception et d'époques différentes du développement de l'IA.
YOLO11
Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 2024-09-27
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/
Détails d'EfficientDet
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 2019-11-20
Arxiv : https://arxiv.org/abs/1911.09070
GitHub : https://github.com/google/automl/tree/master/efficientdet
Docs : https://github.com/google/automl/tree/master/efficientdet#readme
En savoir plus sur EfficientDet
Avantage de l'écosystème
Lorsque l'on travaille avec des modèles de vision par ordinateur, l'écosystème environnant est tout aussi important que le modèle lui-même. Ultralytics offre une expérience de développement inégalée, avec une documentation complète, une communauté active et des capacités d'exportation transparentes vers des formats tels que ONNX et TensorRT.
Innovations architecturales
EfficientDet : BiFPN et mise à l'échelle composée
Lancé fin 2019, EfficientDet visait à maximiser la précision tout en minimisant le coût de calcul. Il y parvient principalement grâce à deux mécanismes. Premièrement, il utilise une structure EfficientNet qui adapte de manière cohérente la profondeur, la largeur et la résolution. Deuxièmement, il a introduit le réseau pyramidal bidirectionnel (BiFPN), qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles.
Bien que très efficace pour son époque, EfficientDet peut s'avérer rigide en raison de sa dépendance à la bibliothèque TensorFlow AutoML. Les chercheurs trouvent souvent que l'élagage des modèles et les modifications personnalisées sont difficiles à réaliser par rapport aux frameworks modernes et modulaires PyTorch.
YOLO11: extraction de caractéristiques améliorée et polyvalence
YOLO11 une avancée significative dans les architectures de détection d'objets. Il s'appuie sur les succès de ses prédécesseurs, en introduisant des blocs C3k2 raffinés et un module Spatial Pyramid Pooling amélioré. Ces améliorations permettent une extraction supérieure des caractéristiques, permettant à YOLO11 capturer des motifs visuels complexes avec une clarté exceptionnelle.
Un avantage majeur de YOLO11 est sa polyvalence. Alors qu'EfficientDet est strictement un modèle de détection d'objets, YOLO11 prend en charge nativement la segmentation d'instances, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB). De plus, YOLO11 présente des exigences en mémoire incroyablement faibles pendant l'entraînement et l'inférence, ce qui le rend largement supérieur aux modèles plus anciens et aux transformeurs de vision volumineux lors du déploiement dans des environnements d'IA de périphérie contraints en ressources.
Performances et analyses comparatives
L'équilibre entre la précision, mesurée en précision moyenne (mAP), et la vitesse d'inférence est le facteur décisif pour les déploiements dans le monde réel. Le tableau ci-dessous illustre les performances brutes des deux familles de modèles sur COCO standard COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Comme démontré, YOLO11 atteint un équilibre performance très favorable. YOLO11x atteint la plus haute précision globale (54,7 mAP), tandis que les variantes plus petites de YOLO11 dominent absolument en termes de vitesses d'inférence GPU (aussi basses que 1,5ms sur un T4 utilisant TensorRT).
Efficacité de l'entraînement et écosystème
L'une des caractéristiques déterminantes des Ultralytics est leur facilité d'utilisation. L'entraînement d'un modèle EfficientDet nécessite souvent de naviguer dans des configurations TensorFlow complexes et de gérer des chaînes de dépendances complexes. À l'opposé, YOLO11 sur un système propre et résolument moderne PyTorch .
Grâce à cet écosystème bien entretenu, les développeurs peuvent installer le package, charger un modèle pré-entraîné et commencer à entraîner un ensemble de données personnalisé en quelques lignes de code seulement.
Exemple de code python
Voici un exemple entièrement fonctionnel qui démontre la simplicité de Ultralytics . Ce script télécharge un YOLO11 pré-entraîné, l'entraîne et exécute une prédiction rapide.
from ultralytics import YOLO
# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")
# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")
# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the output bounding boxes
prediction[0].show()
Regard vers l'avenir : l'avantage YOLO26
Bien que YOLO11 exceptionnellement puissant, les équipes qui lancent de nouveaux projets devraient sérieusement envisager Ultralytics , sorti en janvier 2026. YOLO26 représente un changement de paradigme en termes de simplicité de déploiement et de performances de pointe.
Les principales innovations du YOLO26 comprennent :
- Conception de bout en bout sans NMS : En éliminant la suppression non maximale (NMS) lors du post-traitement, YOLO26 assure une latence ultra-faible et constante, cruciale pour la robotique à haute vitesse et la conduite autonome.
- Jusqu'à 43 % plus rapide pour l'inférence CPU : Pour les déploiements dépourvus de GPU dédiés, YOLO26 est spécifiquement optimisé pour maximiser le débit sur les processeurs standards.
- Optimiseur MuSGD : Inspiré par Kimi K2 de Moonshot AI, cet optimiseur hybride apporte la stabilité de l'entraînement des LLM à la vision par ordinateur, permettant une convergence plus rapide.
- ProgLoss + STAL: Ces fonctions de perte améliorées améliorent drastiquement la reconnaissance des petits objets, ce qui est souvent un point sensible dans l'analyse d'images satellite et les séquences de drones.
- Suppression du DFL : La suppression de la Distribution Focal Loss rationalise le processus d'exportation du modèle vers les appareils périphériques.
Modèles alternatifs à explorer
Si votre projet présente des exigences très spécifiques, vous pouvez également comparer les performances du RT-DETR pour la détection basée sur les transformateurs, ou le modèle largement adopté YOLOv8, qui reste un incontournable dans de nombreux déploiements d'entreprise existants.
Cas d'utilisation et recommandations
Le choix entre YOLO11 et EfficientDet dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.
Quand choisir YOLO11
YOLO11 un excellent choix pour :
- Déploiement Edge en production : Applications commerciales sur des appareils comme le Raspberry Pi ou le NVIDIA Jetson, où la fiabilité et une maintenance active sont primordiales.
- Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et les OBB au sein d'un cadre unifié unique.
- Prototypage et Déploiement Rapides : Les équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python rationalisée d'Ultralytics.
Quand choisir EfficientDet
EfficientDet est recommandé pour :
- Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
- Recherche sur la mise à l'échelle composée : Évaluation comparative académique axée sur l'étude des effets de la mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
- Déploiement mobile via TFLite : Projets nécessitant spécifiquement l'exportation TensorFlow Lite pour les appareils Android ou Linux embarqués.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
- Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
- Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.
Conclusion
EfficientDet était une architecture pionnière qui a prouvé la viabilité de la mise à l'échelle composée dans la détection d'objets. Cependant, le rythme rapide de la recherche en IA a donné naissance à des modèles qui sont tout simplement plus performants, plus faciles à intégrer et plus rapides à exécuter.
Avec ses solides capacités multitâches, ses incroyables vitesses GPU et sans doute l'API la plus conviviale pour les développeurs du secteur, YOLO11 est clairement le choix idéal pour les pipelines de vision modernes. Pour ceux qui visent la technologie de pointe absolue, en particulier pour les déploiements edge-first, la mise à niveau vers YOLO26 offre la combinaison ultime entre une vitesse NMS et une précision inégalée.