Meet YOLO26: next-gen vision AI.

Link to this sectionYOLO11 vs EfficientDet#

Sélectionner le réseau de neurones optimal pour des projets de vision par ordinateur nécessite une compréhension approfondie des architectures disponibles. Ce guide propose une comparaison technique approfondie entre Ultralytics YOLO11 et EfficientDet de Google. Nous explorerons leurs différences architecturales, les mesures de performance, l'efficacité de l'entraînement et les scénarios de déploiement idéaux pour t'aider à prendre une décision éclairée pour tes charges de travail en apprentissage automatique.

Link to this sectionContexte et spécifications des modèles#

Les deux modèles ont considérablement impacté le paysage de l'apprentissage profond, bien qu'ils proviennent de philosophies de conception et d'époques différentes du développement de l'IA.

Link to this sectionDétails de YOLO11#

Auteurs : Glenn Jocher et Jing Qiu
Organisation : Ultralytics
Date : 27/09/2024
GitHub : https://github.com/ultralytics/ultralytics
Docs : https://docs.ultralytics.com/models/yolo11/

En savoir plus sur YOLO11

Link to this sectionDétails sur EfficientDet#

Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 20/11/2019
Arxiv : https://arxiv.org/abs/1911.09070
GitHub : https://github.com/google/automl/tree/master/efficientdet
Docs : https://github.com/google/automl/tree/master/efficientdet#readme

En savoir plus sur EfficientDet

Avantage de l'écosystème

Lorsque tu travailles avec des modèles de vision par ordinateur, l'écosystème environnant est tout aussi important que le modèle lui-même. L'écosystème Ultralytics offre une expérience développeur inégalée, proposant une documentation exhaustive, un support communautaire actif et des capacités d'exportation fluides vers des formats comme ONNX et TensorRT.

Link to this sectionInnovations architecturales#

Link to this sectionEfficientDet : BiFPN et mise à l'échelle composée#

Introduit fin 2019, EfficientDet visait à maximiser la précision tout en minimisant le coût computationnel. Il y parvient principalement via deux mécanismes. Premièrement, il utilise une backbone EfficientNet qui adapte la profondeur, la largeur et la résolution de manière cohérente. Deuxièmement, il a introduit le Bi-directional Feature Pyramid Network (BiFPN), qui permet une fusion de caractéristiques multi-échelle simple et rapide.

Bien qu'hautement efficace pour son époque, la dépendance d'EfficientDet envers la bibliothèque AutoML de TensorFlow peut le rendre rigide. Les chercheurs trouvent souvent la taille de modèle et les modifications personnalisées difficiles par rapport aux frameworks modernes et modulaires basés sur PyTorch.

Link to this sectionYOLO11 : Extraction de caractéristiques améliorée et polyvalence#

YOLO11 représente un bond en avant significatif dans les architectures de détection d'objets. Il s'appuie sur les succès de ses prédécesseurs, introduisant des blocs C3k2 raffinés et un module de Spatial Pyramid Pooling amélioré. Ces améliorations conduisent à une extraction de caractéristiques supérieure, permettant à YOLO11 de capturer des motifs visuels complexes avec une clarté exceptionnelle.

Un avantage majeur de YOLO11 est sa polyvalence. Alors qu'EfficientDet est strictement un modèle de détection d'objets, YOLO11 prend nativement en charge la segmentation d'instance, la classification d'images, l'estimation de pose et les boîtes englobantes orientées (OBB). De plus, YOLO11 bénéficie de besoins en mémoire incroyablement faibles lors de l'entraînement et de l'inférence, le rendant bien supérieur aux anciens modèles et aux volumineux vision transformers lors du déploiement dans des environnements d'IA en périphérie aux ressources limitées.

Link to this sectionPerformances et benchmarks#

L'équilibre entre la précision, mesurée en mean Average Precision (mAP), et la vitesse d'inférence est le facteur décisif critique pour les déploiements en conditions réelles. Le tableau ci-dessous illustre les performances brutes des deux familles de modèles sur le jeu de données COCO standard.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811,356,9194.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520,755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Comme illustré, YOLO11 atteint un équilibre de performance hautement favorable. YOLO11x atteint la précision globale la plus élevée (54,7 mAP), tandis que les variantes YOLO11 plus petites dominent absolument en termes de vitesses d'inférence sur GPU (jusqu'à 1,5 ms sur un T4 en utilisant TensorRT).

Link to this sectionEfficacité de l'entraînement et écosystème#

L'une des caractéristiques déterminantes des modèles Ultralytics est leur facilité d'utilisation. L'entraînement d'un modèle EfficientDet nécessite souvent de naviguer dans des configurations de graphes TensorFlow complexes et de gérer des chaînes de dépendances complexes. À l'inverse, YOLO11 est construit sur une base PyTorch propre et résolument moderne.

Cet écosystème bien entretenu signifie que tu peux installer le paquet, charger un modèle pré-entraîné et commencer l'entraînement sur un jeu de données personnalisé en seulement quelques lignes de code.

Link to this sectionExemple de code Python#

Voici un exemple entièrement exécutable démontrant la simplicité de l'API Ultralytics. Ce script télécharge un modèle YOLO11 pré-entraîné, l'entraîne et effectue une prédiction rapide.

from ultralytics import YOLO

# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")

# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")

# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the output bounding boxes
prediction[0].show()

Link to this sectionTourné vers l'avenir : L'avantage de YOLO26#

Bien que YOLO11 soit exceptionnellement puissant, les équipes commençant de nouveaux projets devraient sérieusement envisager Ultralytics YOLO26, sorti en janvier 2026. YOLO26 représente un changement de paradigme en termes de simplicité de déploiement et de performance en périphérie.

Les innovations clés de YOLO26 incluent :

  • Conception de bout en bout sans NMS : En éliminant la suppression non maximale (NMS) lors du post-traitement, YOLO26 garantit une latence ultra-faible et constante, cruciale pour la robotique à haute vitesse et la conduite autonome.
  • Jusqu'à 43 % plus rapide en inférence CPU : Pour les déploiements ne disposant pas de GPU dédiés, YOLO26 est spécifiquement optimisé pour maximiser le débit sur les processeurs standards.
  • Optimiseur MuSGD : Inspiré par Kimi K2 de Moonshot AI, cet optimiseur hybride apporte la stabilité de l'entraînement LLM à la vision par ordinateur, permettant une convergence plus rapide.
  • ProgLoss + STAL : Ces fonctions de perte améliorées augmentent radicalement la reconnaissance des petits objets, ce qui est souvent un point sensible dans l'analyse d'images satellites et les séquences de drones.
  • Suppression de DFL : La suppression de la Distribution Focal Loss rationalise le processus d'exportation du modèle vers les appareils en périphérie.
Modèles alternatifs à explorer

Si ton projet a des exigences très spécifiques, tu pourrais également vouloir évaluer le modèle RT-DETR pour la détection basée sur les transformers, ou le très largement adopté YOLOv8, qui reste une référence dans de nombreux déploiements d'entreprise hérités.

Link to this sectionCas d'utilisation et recommandations#

Choisir entre YOLO11 et EfficientDet dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.

Link to this sectionQuand choisir YOLO11#

YOLO11 est un choix solide pour :

  • Déploiement en production en périphérie : Applications commerciales sur des appareils comme Raspberry Pi ou NVIDIA Jetson où la fiabilité et la maintenance active sont primordiales.
  • Applications de vision multi-tâches : Projets nécessitant la détection, la segmentation, l'estimation de pose et l'OBB au sein d'un cadre unifié unique.
  • Prototypage et déploiement rapides : Équipes qui ont besoin de passer rapidement de la collecte de données à la production en utilisant l'API Python Ultralytics simplifiée.

Link to this sectionQuand choisir EfficientDet#

EfficientDet est recommandé pour :

  • Pipelines Google Cloud et TPU : Systèmes profondément intégrés aux API Google Cloud Vision ou à l'infrastructure TPU, où EfficientDet bénéficie d'une optimisation native.
  • Recherche sur le Compound Scaling : Analyse comparative académique axée sur l'étude des effets de l'équilibre entre la profondeur, la largeur et la résolution du réseau.
  • Déploiement mobile via TFLite : Les projets qui nécessitent spécifiquement une exportation TensorFlow Lite pour Android ou des appareils Linux embarqués.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionConclusion#

EfficientDet était une architecture pionnière qui a prouvé la viabilité de la mise à l'échelle composée dans la détection d'objets. Cependant, le rythme rapide de la recherche en IA a fait émerger des modèles simplement plus capables, plus faciles à intégrer et plus rapides à exécuter.

Avec ses capacités multi-tâches robustes, ses vitesses d'inférence GPU incroyables et sans doute l'API la plus conviviale pour les développeurs du secteur, YOLO11 est le grand gagnant pour les pipelines de vision modernes. Pour ceux qui visent la pointe absolue de la technologie — surtout pour des déploiements orientés edge — passer à YOLO26 offre la combinaison ultime de vitesse sans NMS et de précision inégalée.

Commentaires