Link to this sectionYOLOv7 vs EfficientDet#

Le choix de l'architecture de réseau neuronal optimale est le fondement de tout projet réussi de vision par ordinateur. Ce guide propose une comparaison technique détaillée entre deux modèles pivots dans l'histoire des architectures de détection d'objets : YOLOv7 et EfficientDet. En examinant leurs innovations architecturales, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux, tu pourras prendre des décisions éclairées. Nous explorerons également comment les avancées modernes, en particulier le révolutionnaire Ultralytics YOLO26, ont redéfini l'état actuel de la technologie.

Link to this sectionOrigines et détails techniques des modèles#

Les deux modèles ont été développés par des équipes de recherche de premier plan et ont apporté des avancées significatives dans le domaine de l'apprentissage automatique.

YOLOv7
Auteurs : Chien-Yao Wang, Alexey Bochkovskiy et Hong-Yuan Mark Liao
Organisation : Institute of Information Science, Academia Sinica, Taiwan
Date : 06/07/2022
Arxiv : YOLOv7: Trainable bag-of-freebies sets new state-of-the-art for real-time object detectors
GitHub : WongKinYiu/yolov7
Docs : Documentation Ultralytics YOLOv7

En savoir plus sur YOLOv7

EfficientDet
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google Research
Date : 20/11/2019
Arxiv : EfficientDet: Scalable and Efficient Object Detection
GitHub : Google AutoML EfficientDet

En savoir plus sur EfficientDet

Link to this sectionDifférences architecturales et analyse équilibrée#

Comprendre les différences structurelles fondamentales entre ces réseaux est crucial pour un déploiement de modèle efficace.

Link to this sectionEfficientDet : Mise à l'échelle composée et BiFPN#

Développé au sein de l'écosystème TensorFlow, EfficientDet a introduit une approche rigoureuse du redimensionnement des modèles. Plutôt que d'élargir ou d'approfondir le réseau de manière arbitraire, les chercheurs de Google ont utilisé une méthode de redimensionnement composé qui ajuste uniformément la résolution, la profondeur et la largeur.

De plus, EfficientDet a introduit le Bi-directional Feature Pyramid Network (BiFPN). Ce composant architectural permet une fusion multi-échelle des caractéristiques rapide et facile.

Points forts : Très efficace en termes de paramètres, atteignant une mAP (mean Average Precision) élevée avec moins de FLOPs que bon nombre de ses contemporains. Points faibles : Repose fortement sur des stratégies de recherche AutoML héritées. L'intégration dans des flux de travail PyTorch modernes et dynamiques peut s'avérer lourde, et la latence sur les appareils en périphérie est souvent plus élevée que prévu malgré le faible nombre de FLOPs.

Link to this sectionYOLOv7 : Trainable Bag-of-Freebies#

YOLOv7 a donné la priorité à l'inférence en temps réel et à l'optimisation de l'entraînement. Il a introduit le concept de réseau d'agrégation de couches efficaces étendu (E-ELAN), qui permet au modèle d'apprendre continuellement des caractéristiques plus diversifiées sans détruire le chemin de gradient original. YOLOv7 a également utilisé une technique appelée "trainable bag-of-freebies", qui améliore considérablement la précision de la détection sans augmenter le coût d'inférence.

Points forts : Vitesses de traitement exceptionnelles et latence d'inférence avantageuse, ce qui le rend idéal pour les flux vidéo à haut FPS. Points faibles : Bien que très performant, il repose toujours sur des boîtes ancres et nécessite une suppression des non-maxima (NMS) lors du post-traitement, ce qui peut créer un goulot d'étranglement de latence dans les scènes très encombrées.

L'avantage de l'écosystème Ultralytics

Lors de l'évaluation des modèles, l'écosystème environnant est tout aussi vital que l'architecture. La plateforme Ultralytics intégrée fournit une API unifiée, une documentation étendue et un support communautaire actif. Cet environnement unifié garantit une utilisation moindre de la mémoire pendant l'entraînement par rapport aux modèles Transformer lourds, assurant un prototypage rapide et un suivi d'expériences fluide.

Link to this sectionMétriques de performance et benchmarks#

Le tableau ci-dessous contraste les métriques de performance clés permettant aux développeurs d'évaluer les compromis entre vitesse, nombre de paramètres et précision.

Modèle	taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53,1	-	11.57	71.3	189.9

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20,7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Comme illustré, bien qu'EfficientDet-d7 atteigne une mAP élevée, sa vitesse TensorRT est largement à la traîne par rapport aux variantes de YOLOv7, soulignant la domination de ce dernier dans la détection d'objets en temps réel accélérée par GPU.

Link to this sectionL'évolution de la détection d'objets : YOLO26#

Si YOLOv7 et EfficientDet ont posé des bases essentielles, le paysage de l'IA de vision évolue rapidement. Pour les applications modernes nécessitant le summum de l'efficacité et de la précision, nous recommandons vivement de passer à YOLO26, sorti en janvier 2026.

YOLO26 corrige les limitations inhérentes aux générations précédentes, offrant une polyvalence sans précédent dans la détection d'objets, la segmentation d'instances, la classification d'images et l'estimation de pose.

En savoir plus sur YOLO26

Link to this sectionInnovations clés de YOLO26#

Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement de suppression des non-maxima (NMS). Introduite initialement dans YOLOv10, cette approche simplifie la logique de déploiement et garantit une exécution constante à faible latence, quelle que soit la densité des objets.
Suppression du DFL : En supprimant la Distribution Focal Loss (DFL), l'architecture du modèle est largement simplifiée, ce qui améliore la compatibilité avec les environnements d'informatique en périphérie hautement contraints.
Jusqu'à 43 % d'inférence CPU plus rapide : Fortement optimisé pour les environnements dépourvus de GPU dédiés, ce qui le rend exponentiellement plus rapide qu'EfficientDet sur du matériel léger.
Optimiseur MuSGD : Inspiré par les techniques des grands modèles de langage (telles que Kimi K2 de Moonshot AI), cet hybride de SGD et Muon apporte une stabilité au niveau des LLM et une convergence rapide à l'entraînement en vision par ordinateur.
ProgLoss + STAL : Ces fonctions de perte avancées offrent des améliorations remarquables dans la reconnaissance des petits objets, une fonctionnalité critique pour l'imagerie aérienne et les applications de drones.
Améliorations spécifiques aux tâches : Inclut une perte de segmentation sémantique et un proto multi-échelle pour les tâches de segmentation, une estimation de log-vraisemblance résiduelle (RLE) pour l'estimation de pose complexe, et une perte d'angle spécialisée conçue pour corriger les problèmes de limites des boîtes englobantes orientées (OBB).

Pour les équipes utilisant actuellement des systèmes hérités, la transition vers la plateforme Ultralytics permet de débloquer un flux de travail rationalisé où ces modèles de pointe peuvent être entraînés et déployés facilement. Tu peux également explorer des itérations robustes précédentes comme YOLO11 et YOLOv8 en fonction de tes besoins spécifiques en matière de rétrocompatibilité.

Link to this sectionEntraînement simplifié et facilité d'utilisation#

L'une des caractéristiques déterminantes des modèles Ultralytics est leur grande facilité d'utilisation. Contrairement à la configuration complexe et multi-dépendances requise pour les environnements AutoML TensorFlow d'EfficientDet, Ultralytics fournit une API simple et Pythonique.

Cet environnement minimise l'utilisation de la mémoire CUDA pendant l'entraînement, garantissant que même les grands jeux de données peuvent être traités efficacement sans les erreurs de mémoire insuffisante (OOM) couramment observées dans les architectures basées sur Transformer volumineuses.

Link to this sectionExemple de code : Pour bien démarrer avec Ultralytics#

L'extrait suivant démontre comment les développeurs peuvent tirer parti du package Ultralytics pour entraîner un modèle YOLO26 de pointe de manière fluide et immédiate.

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model for object detection
model = YOLO("yolo26n.pt")

# Train the model effortlessly using the integrated Ultralytics ecosystem
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Auto-selects optimal device
    batch=16,
)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the model for edge deployment (e.g., OpenVINO for CPU optimization)
model.export(format="openvino")

Exporter pour la production

Les modèles entraînés via l'API Ultralytics peuvent être instantanément exportés vers divers formats de production comme OpenVINO ou ONNX, garantissant un débit élevé quel que soit ton matériel cible.

Link to this sectionCas d'utilisation idéaux et applications réelles#

Lors de l'architecture d'une solution, il est impératif d'aligner les points forts du modèle avec ton cas d'utilisation spécifique.

Link to this sectionQuand utiliser EfficientDet#

EfficientDet reste une option pour la recherche académique existante ou les environnements strictement liés à l'écosystème Google Cloud où les expériences de redimensionnement composé sont l'objectif principal. Ses variantes plus petites (d0-d2) sont bénéfiques lorsque la taille disque est très limitée.

Link to this sectionQuand utiliser YOLOv7#

YOLOv7 excelle dans les configurations existantes à haute performance, en particulier là où l'intégration PyTorch est préférée à TensorFlow. Il reste largement déployé dans :

Analyse vidéo : Traitement des flux de sécurité à haute fréquence d'images où l'accélération GPU est abondante.
Inspection industrielle : Identification des défauts sur des chaînes de montage manufacturières à mouvement rapide.

Link to this sectionQuand choisir YOLO26#

Pour tous les nouveaux déploiements, YOLO26 est la recommandation incontestée. Son équilibre de performance inégalé et son écosystème robuste et bien entretenu en font le choix optimal pour :

Villes intelligentes et gestion du trafic : Sa conception sans NMS garantit une latence d'inférence constante, vitale pour la coordination du trafic en temps réel.
Robotique et systèmes autonomes : L'augmentation impressionnante de 43 % de la vitesse d'inférence CPU garantit des algorithmes de navigation hautement réactifs pour les appareils embarqués.
Surveillance agricole et aérienne : Utilisation de ProgLoss et STAL pour identifier précisément les petits objets comme des cultures spécifiques ou la faune à partir d'imagerie à haute altitude.

En résumé, bien qu'EfficientDet et YOLOv7 offrent un contexte historique précieux et une utilité spécifique, l'ingénieur en vision par ordinateur moderne a tout intérêt à adopter l'architecture Ultralytics YOLO26, qui résout élégamment les goulots d'étranglement précédents tout en repoussant les limites de ce qui est possible en intelligence artificielle.

Contributeurs

GLglenn-jocher¹⁴ PDpderrenger¹

Créé 27 janv. 2025Mis à jour le mois dernier