Passer au contenu

Comparaison complète : YOLOv7 EfficientDet pour la détection d'objets

Le choix de l'architecture de réseau neuronal optimale est la base de tout projet de vision par ordinateur réussi. Ce guide fournit une comparaison technique détaillée entre deux modèles essentiels dans l'histoire des architectures de détection d'objets: YOLOv7 et EfficientDet. En examinant leurs innovations architecturales, leurs méthodologies de formation et leurs scénarios de déploiement idéaux, les développeurs peuvent prendre des décisions éclairées. Nous explorerons également comment les avancées modernes, en particulier le révolutionnaire Ultralytics , ont redéfini l'état actuel de la technique.

Origines du modèle et détails techniques

Les deux modèles ont été développés par des équipes de recherche de renom et ont apporté des avancées significatives dans le domaine de l'apprentissage automatique.

YOLOv7
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institut des sciences de l'information, Academia Sinica, Taïwan
Date : 06/07/2022
Arxiv : YOLOv7: Trainable bag-of-freebies établit une nouvelle norme de pointe pour les détecteurs d'objets en temps réel
GitHub : WongKinYiu/yolov7
Documentation : YOLOv7 Ultralytics YOLOv7

En savoir plus sur YOLOv7

EfficientDet
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 20/11/2019
Arxiv : EfficientDet : détection d'objets évolutive et efficace
GitHub : Google EfficientDet

En savoir plus sur EfficientDet

Différences architecturales et analyse équilibrée

Il est essentiel de comprendre les différences structurelles fondamentales entre ces réseaux pour déployer efficacement les modèles.

EfficientDet : Compound Scaling et BiFPN

Développé dans le cadre du TensorFlow , EfficientDet a introduit une approche raisonnée du dimensionnement des modèles. Au lieu d'élargir ou d'approfondir arbitrairement le réseau, Google ont utilisé une méthode de dimensionnement composite qui adapte uniformément la résolution, la profondeur et la largeur.

De plus, EfficientDet a introduit le réseau pyramidal bidirectionnel (BiFPN). Ce composant architectural permet une fusion facile et rapide des caractéristiques à plusieurs échelles.

Points forts : très efficace en termes de paramètres, il atteint une précision moyenne (mAP) élevée avec moins de FLOP que bon nombre de ses concurrents. Points faibles : dépend fortement des stratégies de recherche AutoML traditionnelles. Intégration dans un environnement moderne et dynamique PyTorch peut s'avérer fastidieuse, et la latence sur les appareils périphériques est souvent plus élevée que prévu malgré un faible nombre de FLOP.

YOLOv7 : Bag-of-Freebies entraînable

YOLOv7 l'inférence en temps réel et YOLOv7 l'optimisation de l'entraînement. Il a introduit le concept d'un réseau d'agrégation de couches efficace étendu (E-ELAN), qui permet au modèle d'apprendre en continu des caractéristiques plus diverses sans détruire le chemin de gradient d'origine. YOLOv7 a YOLOv7 utilisé une technique appelée « trainable bag-of-freebies », qui améliore considérablement la précision de la détection sans augmenter le coût de l'inférence.

Points forts : vitesses de traitement exceptionnelles et latence d'inférence favorable, ce qui le rend idéal pour les flux vidéo à haut débit d'images par seconde. Points faibles : bien que très performant, il repose toujours sur des boîtes d'ancrage et nécessite une suppression non maximale (NMS) pendant le post-traitement, ce qui peut créer un goulot d'étranglement en termes de latence dans les scènes très encombrées.

L'avantage de l'écosystème Ultralytics

Lors de l'évaluation des modèles, l'écosystème environnant est tout aussi important que l'architecture. La Ultralytics intégrée Ultralytics fournit une API unifiée, une documentation complète et un soutien actif de la communauté. Cet environnement unifié garantit une utilisation moindre de la mémoire pendant la formation par rapport aux modèles de transformateurs lourds, ce qui permet un prototypage rapide et un suivi transparent des expériences.

Métriques de performance et benchmarks

Le tableau ci-dessous compare les principaux indicateurs de performance, permettant aux développeurs d'évaluer les compromis entre vitesse, nombre de paramètres et précision.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Comme le montre le graphique, si EfficientDet-d7 atteint un mAP élevé, son TensorRT est nettement inférieure à celle YOLOv7 , ce qui souligne la domination de ces dernières dans la détection d'objets en temps réel GPU.

L'évolution de la détection d'objets : YOLO26

Si YOLOv7 EfficientDet ont posé des bases essentielles, le paysage de l'IA visuelle évolue rapidement. Pour les applications modernes exigeant une efficacité et une précision absolues, nous recommandons vivement de passer à YOLO26, sorti en janvier 2026.

YOLO26 remédie aux limites inhérentes aux générations précédentes, offrant une polyvalence sans précédent en matière de détection d'objets, de segmentation d'instances, de classification d'images et d'estimation de poses.

En savoir plus sur YOLO26

Principales innovations de YOLO26

  • Conception NMS de bout en bout : YOLO26 élimine nativement le post-traitement par suppression non maximale (NMS). Initialement mis au point dans YOLOv10, cette fonctionnalité simplifie la logique de déploiement et garantit une exécution cohérente et à faible latence, quelle que soit la densité des objets.
  • Suppression du DFL : en supprimant le Distribution Focal Loss (DFL), l'architecture du modèle est considérablement simplifiée, ce qui améliore la compatibilité avec les environnements informatiques périphériques hautement contraints.
  • CPU jusqu'à 43 % plus rapide : fortement optimisé pour les environnements dépourvus de GPU dédiés, ce qui le rend exponentiellement plus rapide qu'EfficientDet sur du matériel léger.
  • MuSGD Optimizer : inspiré des techniques des grands modèles linguistiques (tels que Kimi K2 de Moonshot AI), cet hybride de SGD Muon apporte une stabilité de niveau LLM et une convergence rapide à l'entraînement de la vision par ordinateur.
  • ProgLoss + STAL : ces fonctions de perte avancées apportent des améliorations remarquables dans la reconnaissance des petits objets, une fonctionnalité essentielle pour l'imagerie aérienne et les applications de drones.
  • Améliorations spécifiques à certaines tâches : comprend la perte de segmentation sémantique et le proto multi-échelle pour les tâches de segmentation, l'estimation de la vraisemblance logarithmique résiduelle (RLE) pour l'estimation de poses complexes, et une perte angulaire spécialisée conçue pour corriger les problèmes de limites des boîtes englobantes orientées (OBB).

Pour les équipes qui utilisent actuellement des systèmes hérités, la transition vers la Ultralytics permet de bénéficier d'un flux de travail rationalisé où ces modèles de pointe peuvent être facilement formés et déployés. Les développeurs peuvent également explorer des itérations robustes précédentes telles que YOLO11 et YOLOv8 , en fonction des exigences spécifiques en matière de rétrocompatibilité.

Formation simplifiée et facilité d'utilisation

L'une des caractéristiques déterminantes des Ultralytics est leur grande facilité d'utilisation. Contrairement à la configuration complexe et multi-dépendante requise pour les environnements TensorFlow d'EfficientDet, Ultralytics une API simple et pythonesque.

Cet environnement minimise l'utilisationCUDA pendant l'entraînement, garantissant ainsi que même les grands ensembles de données peuvent être traités efficacement sans erreurs de mémoire insuffisante (OOM) couramment observées dans les architectures volumineuses basées sur Transformer.

Exemple de code : Premiers pas avec Ultralytics

L'extrait suivant montre comment les développeurs peuvent tirer parti du Ultralytics pour former un modèle YOLO26 de pointe, prêt à l'emploi et sans aucune configuration.

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")

# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Auto-selects optimal device
    batch=16,
)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")

Exportation pour la production

Les modèles formés via Ultralytics peuvent être exportés instantanément vers divers formats de production tels que OpenVINO ou ONNX, garantissant un débit élevé quel que soit votre matériel cible.

Cas d'utilisation idéaux et applications concrètes

Lors de la conception d'une solution, il est impératif d'aligner les points forts du modèle sur le cas d'utilisation spécifique.

Quand utiliser EfficientDet

EfficientDet reste un candidat pour la recherche universitaire traditionnelle ou les environnements strictement liés à l'écosystème Google , où les expériences de mise à l'échelle composée sont la priorité. Ses variantes plus petites (d0-d2) sont avantageuses lorsque la taille absolue du disque est fortement limitée.

Quand utiliser YOLOv7

YOLOv7 dans les configurations héritées hautes performances, en particulier lorsque PyTorch est préférée à TensorFlow. Il reste largement déployé dans :

  • Analyse vidéo : traitement de flux de sécurité à fréquence d'images élevée où GPU est abondante.
  • Inspection industrielle : identification des défauts sur les chaînes de montage à cadence rapide.

Quand choisir YOLO26

Pour tous les nouveaux déploiements, YOLO26 est la recommandation incontestable. Son équilibre de performances inégalé et son écosystème robuste et bien entretenu en font le choix optimal pour :

  • Villes intelligentes et gestion du trafic : sa conception NMS garantit une latence d'inférence constante, essentielle pour la coordination du trafic en temps réel.
  • Robotique et systèmes autonomes : l'impressionnante augmentation de 43 % de la vitesse CPU garantit des algorithmes de navigation hautement réactifs pour les appareils embarqués.
  • Surveillance agricole et aérienne : utilisation de ProgLoss et STAL pour identifier avec précision de petits objets tels que des cultures spécifiques ou des animaux sauvages à partir d'images prises à haute altitude.

En résumé, bien qu'EfficientDet et YOLOv7 un contexte historique précieux et une utilité spécifique dans certains domaines, les ingénieurs en vision par ordinateur modernes ont tout intérêt à adopter l'architecture Ultralytics , qui résout avec élégance les goulots d'étranglement précédents tout en repoussant les limites de ce qui est possible en matière d'intelligence artificielle.


Commentaires