EfficientDet vs YOLOv7: exploration des architectures de détection d'objets en temps réel
Le choix de l'architecture de réseau neuronal la plus efficace est essentiel à la réussite de tout projet de vision par ordinateur. Alors que la demande en solutions d'IA hautement performantes s'accélère, YOLOv7 indispensable pour les développeurs qui souhaitent optimiser à la fois la précision et l'efficacité computationnelle de comparer des modèles établis tels que EfficientDet et YOLOv7 .
Cette analyse technique complète explore les nuances architecturales, les mesures de performance et les scénarios de déploiement idéaux pour les deux modèles. De plus, nous illustrerons pourquoi l'écosystème intégré fourni par Ultralytics, dont le point culminant est le très moderne Ultralytics , offre une alternative supérieure pour les tâches modernes de vision par ordinateur.
Comprendre EfficientDet
EfficientDet a été conçu pour maximiser la précision tout en gérant systématiquement les coûts de calcul dans le cadre de diverses contraintes en matière de ressources. Il y est parvenu grâce à une approche novatrice en matière de mise à l'échelle et de fusion des fonctionnalités.
Détails sur EfficientDet :
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 20/11/2019
Arxiv : EfficientDet : détection d'objets évolutive et efficace
GitHub : référentielGoogle
Architecture et innovations
À la base, EfficientDet utilise un réseau pyramidal bidirectionnel (BiFPN). Contrairement aux FPN traditionnels, le BiFPN permet une fusion multi-échelle facile et rapide des caractéristiques en introduisant des poids apprenables pour apprendre l'importance des différentes caractéristiques d'entrée. Ceci est combiné à une méthode de mise à l'échelle composite qui adapte uniformément la résolution, la profondeur et la largeur du réseau principal, du réseau de caractéristiques et des réseaux de prédiction de boîte/classe simultanément.
Points forts et faiblesses
EfficientDet est hautement évolutif. Ses variantes plus petites (d0-d2) sont extrêmement efficaces en termes de paramètres, ce qui les rend adaptées aux environnements soumis à des contraintes de stockage strictes. Les variantes plus grandes (comme d7) repoussent les limites de la précision moyenne (mAP) pour le traitement hors ligne haut de gamme.
Cependant, EfficientDet dépend fortement de l'ancienne version de TensorFlow et à des pipelines AutoML complexes. Cette infrastructure héritée rend son intégration dans les workflows modernes PyTorch particulièrement difficile. De plus, elle souffre d'une latence d'inférence importante sur les appareils périphériques lorsqu'elle est mise à l'échelle vers des variantes plus précises.
En savoir plus sur EfficientDet
Comprendre YOLOv7
YOLOv7, lancé en 2022, a permis une avancée considérable en termes de vitesse et de précision pour les applications en temps réel, établissant ainsi une nouvelle référence pour la YOLO , très populaire à l'époque.
YOLOv7 :
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 06/07/2022
Arxiv : YOLOv7: Trainable bag-of-freebies établit une nouvelle référence en matière de détection d'objets en temps réel
GitHub : YOLOv7 officiel YOLOv7
Architecture et innovations
YOLOv7 le réseau E-ELAN (Extended Efficient Layer Aggregation Network). Cette amélioration architecturale améliore la capacité d'apprentissage du réseau sans détruire le chemin de gradient d'origine, ce qui permet au modèle d'apprendre plus efficacement des caractéristiques plus diverses. De plus, il met en œuvre un « bag-of-freebies entraînable », tirant parti de techniques telles que la reparamétrisation planifiée et l'attribution dynamique d'étiquettes pour améliorer la précision sans augmenter le coût de l'inférence.
Points forts et faiblesses
YOLOv7 dans les scénarios en temps réel, tels que l'analyse vidéo et la navigation robotique à grande vitesse. Il s'adapte exceptionnellement bien aux GPU de niveau serveur et offre un PyTorch , ce qui le rend accessible aux chercheurs universitaires.
Malgré sa vitesse impressionnante, YOLOv7 repose YOLOv7 sur la suppression non maximale (NMS) pour le post-traitement, ce qui peut entraîner une latence variable dans les scènes encombrées. De plus, son empreinte mémoire pendant l'entraînement est nettement plus importante que celle des nouvelles générations, ce qui nécessite un matériel plus robuste pour traiter des lots de grande taille.
Comparaison des performances et des indicateurs
Lorsque l'on compare ces modèles, il est essentiel d'examiner les compromis entre précision, vitesse d'inférence et taille des paramètres. Vous trouverez ci-dessous une évaluation détaillée des différentes YOLOv7 EfficientDet et YOLOv7 .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
Conclusion sur les performances
Si EfficientDet-d7 atteint le mAP le plus élevé, il nécessite près de 128 ms sur un GPU T4. À l'opposé, YOLOv7x atteint un mAP comparable de 53,1 mAP seulement 11,57 ms, ce qui représente un bond générationnel considérable en termes d'efficacité de calcul pour les déploiements en temps réel.
Cas d'utilisation et recommandations
Le choix entre EfficientDet et YOLOv7 des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.
Quand choisir EfficientDet
EfficientDet est un choix judicieux pour :
- Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
- Recherche sur la mise à l'échelle des composés : analyse comparative académique axée sur l'étude des effets d'une mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
- Déploiement mobile via TFLite: projets qui nécessitent spécifiquement l'exportation TensorFlow pour Android les appareils Linux embarqués.
Quand choisir YOLOv7
YOLOv7 recommandé pour :
- Benchmarking académique : reproduction des résultats de pointe de 2022 ou étude des effets des techniques E-ELAN et trainable bag-of-freebies.
- Recherche sur la reparamétrisation : étude des convolutions reparamétrisées planifiées et des stratégies de mise à l'échelle des modèles composites.
- Pipelines personnalisés existants : projets avec des pipelines fortement personnalisés, construits autour de l'architecture spécifique YOLOv7, qui ne peuvent pas être facilement refactorisés.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
L'avantage Ultralytics
Le choix de l'architecture appropriée va au-delà des simples mesures brutes ; il implique l'évaluation de l'ensemble du cycle de vie de l'apprentissage automatique. Ultralytics offre une expérience de développement inégalée, réduisant considérablement les obstacles à la mise en œuvre d'applications d'IA robustes.
- Facilité d'utilisation : Ultralytics une Python hautement unifiée. Les développeurs peuvent former, valider et exporter des modèles en quelques lignes de code seulement, ce qui élimine la nécessité de gérer des bases de code complexes et fragmentées, typiques d'EfficientDet.
- Écosystème bien entretenu : bénéficiant de mises à jour rapides, d'une documentation complète et d'une communauté active, Ultralytics la compatibilité avec les derniers frameworks de déploiement tels que TensorRT OpenVINO.
- Exigences en matière de mémoire : grâce à l'utilisation de chargeurs PyTorch hautement optimisés et de structures réseau rationalisées,YOLO Ultralytics nécessitent beaucoup moins CUDA pendant l'entraînement que les réseaux à branches multiples et les modèles à transformateurs lourds.
- Polyvalence : contrairement aux architectures plus anciennes strictement liées à la détection des boîtes englobantes, Ultralytics sont des outils multitâches puissants prenant en charge la segmentation d'instances, l'estimation de pose et les boîtes englobantes orientées (OBB).
Efficacité de l'entraînement avec Ultralytics
Le code suivant illustre la simplicité de l'entraînement d'un modèle de pointe à l'aide duPython Ultralytics , ce qui contraste fortement avec la configuration TensorFlow traditionnels.
from ultralytics import YOLO
# Load the highly recommended YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model automatically handling hyperparameter tuning and augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the model to TensorRT for deployment
model.export(format="engine")
La Nouvelle Norme : YOLO26
Alors que YOLOv7 EfficientDet ont jeté les bases de la vision par ordinateur moderne, le paysage a considérablement évolué avec l'introduction Ultralytics en janvier 2026. Conçu pour offrir une précision extrême et des performances de pointe inégalées, YOLO26 est la solution ultime pour tous les nouveaux projets de vision.
Principales innovations de YOLO26
- Conception NMS de bout en bout : s'appuyant sur les bases posées par YOLOv10, YOLO26 est nativement de bout en bout. En éliminant complètement le post-traitementNMS(Non-Maximum Suppression), il offre une latence plus faible et plus constante, ce qui est crucial pour les systèmes critiques pour la sécurité tels que la conduite autonome.
- CPU jusqu'à 43 % plus rapide : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 offre un processus d'exportation considérablement simplifié et une vitesse inégalée sur les appareils périphériques tels que le Raspberry Pi, ce qui en fait le champion incontesté de l'informatique périphérique.
- Optimiseur MuSGD : YOLO26 intègre l'optimiseur MuSGD révolutionnaire, un hybride de SGD Muon inspiré des innovations en matière de formation LLM de Moonshot AI. Cela permet d'obtenir une dynamique de formation remarquablement stable et des taux de convergence beaucoup plus rapides.
- ProgLoss + STAL : l'intégration de la perte progressive (Progressive Loss) et de la perte d'alignement ciblée à l'échelle (Scale-Targeted Alignment Loss) améliore considérablement la capacité du modèle à detect les objets detect , résolvant ainsi un problème majeur pour les images prises par drone et les systèmes d'alarme de sécurité.
- Améliorations spécifiques à certaines tâches : YOLO26 n'est pas seulement un détecteur. Il intègre une perte de segmentation sémantique et un proto multi-échelle pour une segmentation parfaite, une estimation de la vraisemblance logarithmique résiduelle (RLE) pour un suivi de pose ultra-précis, et une perte d'angle spécialisée pour résoudre les ambiguïtés des limites OBB.
Explorer des modèles alternatifs
Alors que YOLO26 représente le summum de la technologie actuelle, Ultralytics prend en charge une variété de modèles adaptés à différents cas d'utilisation.
Pour les développeurs qui gèrent des systèmes hérités nécessitant encore une mise à l'échelle traditionnelle sans ancrage, YOLO11 reste une option robuste et hautement prise en charge au sein de la Ultralytics . De plus, pour les scénarios exigeant explicitement des architectures basées sur des transformateurs, RT-DETR offre une détection en temps réel utilisant des transformateurs de vision, comblant ainsi le fossé entre les mécanismes d'attention haut de gamme et les vitesses d'exécution en temps réel.
En conclusion, si EfficientDet apporte des connaissances académiques sur la mise à l'échelle des composés et YOLOv7 de solides performances de base en temps réel, les entreprises modernes ont tout intérêt à adopter la Ultralytics . En tirant parti de YOLO26, les équipes peuvent garantir des performances maximales, une friction minimale lors de la formation et une évolutivité future de leurs déploiements d'IA.