Passer au contenu

YOLOv10 EfficientDet : comparaison des architectures de détection d'objets en temps réel

Le choix du réseau neuronal optimal pour la détection d'objets est une décision cruciale qui détermine le succès des systèmes modernes de vision par ordinateur. Deux architectures importantes qui ont considérablement influencé ce domaine sont YOLOv10 et EfficientDet. Bien que les deux visent à maximiser la précision tout en minimisant la charge de calcul, elles adoptent des approches architecturales très différentes pour atteindre ces objectifs.

Ce guide complet explore leurs conceptions uniques, leurs méthodologies d'entraînement et leurs caractéristiques de déploiement, aidant ainsi les développeurs et les ingénieurs en apprentissage automatique à prendre des décisions basées sur les données pour les applications d'IA visuelle. Nous examinerons leurs performances sur différents types de matériel, des appareils embarqués à l'IA de pointe aux puissants GPU cloud.

YOLOv10: le pionnier NMS

Développé pour repousser les limites de la latence en temps réel, YOLOv10 l'un des goulots d'étranglement les plus persistants de la YOLO : la suppression non maximale (NMS). En éliminant cette étape de post-traitement, le modèle atteint une latence hautement prévisible, ce qui est essentiel pour les véhicules autonomes et la robotique à grande vitesse.

Innovations architecturales

YOLOv10 des attributions doubles cohérentes pour un entraînement NMS. Pendant l'entraînement, il exploite à la fois les attributions d'étiquettes un-à-plusieurs et un-à-un, ce qui permet au réseau d'apprendre des représentations riches tout en produisant nativement un seul meilleur cadre de sélection par objet pendant l'inférence. L'architecture intègre également une conception holistique axée sur l'efficacité et la précision, rationalisant la tête de classification et réduisant la redondance computationnelle présente dans les itérations précédentes.

Détails du modèle

Déploiement Optimisé

Comme YOLOv10 NMS , il est intrinsèquement plus facile d'exporter vers des formats tels que le ONNX et NVIDIA TensorRT sans avoir recours à des plugins d'exécution personnalisés pour le filtrage des boîtes englobantes.

Points forts :

  • Inférence prévisible : la suppression du NMS des temps d'inférence cohérents, quel que soit le nombre d'objets présents dans la scène.
  • Utilisation réduite de la mémoire : par rapport aux modèles basés sur des transformateurs tels que RT-DETR, YOLOv10 beaucoup moins de mémoire pendant l'entraînement et l'inférence.
  • Excellent compromis entre vitesse et précision : spécialement optimisé pour les scénarios à faible latence sans sacrifier les performances.

Faiblesses :

En savoir plus sur YOLOv10

EfficientDet : évolutif et équilibré

Présenté par Google , EfficientDet aborde la détection d'objets sous l'angle de la mise à l'échelle systématique des réseaux. Il s'appuie sur la classification d'images EfficientNet et introduit un nouveau mécanisme de fusion des caractéristiques.

Innovations architecturales

Le cœur d'EfficientDet est le réseau pyramidal bidirectionnel (BiFPN), qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles. Contrairement aux FPN traditionnels qui ne font que sommer les caractéristiques de haut en bas, le BiFPN introduit des connexions bidirectionnelles entre les échelles et des poids entraînables pour apprendre l'importance des différentes caractéristiques d'entrée. De plus, EfficientDet utilise une méthode de mise à l'échelle composite qui adapte uniformément la résolution, la profondeur et la largeur pour tous les réseaux dorsaux, les réseaux de caractéristiques et les réseaux de prédiction de boîtes/classes.

Détails du modèle

Points forts :

  • Haute efficacité : Excellent rapport paramètre/précision, rendant le plus petit -d0 à -d2 variantes très légères.
  • Mise à l'échelle basée sur des principes : la mise à l'échelle composite permet aux utilisateurs de choisir facilement une taille de modèle qui correspond exactement à leur budget de calcul.

Faiblesses :

  • Intégration du cadre hérité : la mise en œuvre initiale repose largement sur l'ancien TensorFlow , ce qui peut compliquer les pipelines de déploiement modernes.
  • Entraînement plus lent : l'entraînement d'EfficientDet à partir de zéro est notoirement lent et nécessite un réglage minutieux des hyperparamètres, contrairement à la convergence rapide des YOLO .
  • Vitesse d'inférence : bien qu'elles soient efficaces en termes de paramètres, les opérations BiFPN complexes entraînent souvent des vitesses d'inférence plus lentes dans le monde réel sur du matériel standard par rapport YOLO hautement optimisés.

En savoir plus sur EfficientDet

Performances et analyses comparatives

Le véritable test de ces modèles réside dans leurs performances empiriques sur des benchmarks standard tels que COCO . Le tableau ci-dessous illustre les différences critiques en termes de nombre de paramètres, d'opérations en virgule flottante (FLOP) et de latence d'inférence sur les GPUNVIDIA .

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Comme indiqué ci-dessus, YOLOv10 un avantage significatif en termes de vitesse d'inférence brute. Par exemple, YOLOv10 atteint 46,7 mAP une TensorRT de seulement 2,66 ms, tandis qu'EfficientDet-d3 atteint un mAP similaire de 47,5, mAP prend près de 20 ms, ce qui rend YOLOv10 supérieur pour le streaming vidéo en temps réel ou les pipelines de fabrication à mouvement rapide.

Cas d'utilisation et recommandations

Le choix entre YOLOv10 EfficientDet dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de votre écosystème.

Quand choisir YOLOv10

YOLOv10 un choix judicieux pour :

  • Détection en temps réelNMS: applications bénéficiant d'une détection de bout en bout sans suppression non maximale, réduisant ainsi la complexité du déploiement.
  • Compromis équilibré entre vitesse et précision : projets nécessitant un équilibre solide entre la vitesse d'inférence et la précision de détection à différentes échelles de modèle.
  • Applications à latence constante : scénarios de déploiement où des temps d'inférence prévisibles sont essentiels, tels que la robotique ou les systèmes autonomes.

Quand choisir EfficientDet

EfficientDet est recommandé pour :

  • Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
  • Recherche sur la mise à l'échelle des composés : analyse comparative académique axée sur l'étude des effets d'une mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
  • Déploiement mobile via TFLite: projets qui nécessitent spécifiquement l'exportation TensorFlow pour Android les appareils Linux embarqués.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

  • DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
  • EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

La norme moderne : découvrez Ultralytics

Alors que YOLOv10 le paradigme révolutionnaire NMS et qu'EfficientDet a démontré une évolutivité fondée sur des principes, le paysage de la vision par ordinateur a continué d'évoluer. Pour les développeurs qui lancent aujourd'hui de nouveaux projets, Ultralytics représente incontestablement l'état de l'art. Lancé en janvier 2026, il combine le meilleur de tous les mondes dans un package hautement perfectionné et prêt à l'emploi au sein de la Ultralytics .

Pourquoi YOLO26 surpasse la concurrence

  1. Conception NMS de bout en bout : YOLO26 adopte nativement l'architecture NMS de bout en bout lancée dans YOLOv10, ce qui simplifie le déploiement et accélère l'inférence.
  2. CPU jusqu'à 43 % plus rapide : pour les appareils périphériques dépourvus d'accélérateurs dédiés, YOLO26 est spécialement optimisé pour fonctionner efficacement sur des CPU standard.
  3. Optimiseur MuSGD avancé : inspiré des innovations en matière de formation LLM, YOLO26 utilise un hybride de SGD Muon pour une formation incroyablement stable et une convergence rapide, améliorant considérablement l'efficacité de la formation par rapport à EfficientDet.
  4. ProgLoss + STAL : ces fonctions de perte améliorées offrent des gains remarquables en matière de reconnaissance des petits objets, un point faible traditionnel pour YOLOv10 EfficientDet.
  5. Suppression de la perte focale de distribution : en supprimant la perte focale de distribution, YOLO26 s'exporte de manière transparente vers presque tous les formats matériels, y compris OpenVINO et CoreML.

De plus, YOLO26 offre une polyvalence inégalée. Alors qu'EfficientDet et YOLOv10 strictement des modèles de détection, YOLO26 gère de manière transparente les cadres de sélection orientés, la classification d'images et la segmentation d'instances à l'aide du même Python intuitif Ultralytics .

Écosystème bien entretenu

Les deux YOLO11 et YOLOv8 continuent d'être entièrement pris en charge dans Ultralytics . Pour bénéficier de la meilleure combinaison entre performances, stabilité et assistance à long terme, nous vous recommandons d'utiliser Ultralytics officiellement maintenus.

Facilité d'utilisation avec Ultralytics

L'écosystème bien entretenu fourni par Ultralytics une expérience de développement fluide. La formation d'un modèle, sa validation et son exportation vers TensorRT ne nécessitent que quelques lignes de code.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model (or upgrade to YOLO26 natively)
model = YOLO("yolov10n.pt")

# Train the model efficiently on a custom dataset
model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and immediately visualize results
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export for rapid deployment
model.export(format="engine", half=True)

Conclusion

Lorsque l'on compare YOLOv10 EfficientDet, le choix dépend fortement de vos préférences en matière de framework et de vos contraintes de vitesse. EfficientDet offre une approche structurée de la mise à l'échelle des modèles au sein de TensorFlow . Cependant, YOLOv10 des performances en temps réel supérieures, une utilisation moindre de la mémoire et un chemin de déploiement plus simple grâce à son architecture NMS.

Pour bénéficier d'un équilibre optimal entre performances, facilité d'utilisation et polyvalence multitâche, il est fortement recommandé de passer à la Ultralytics et d'utiliser YOLO26. Cette solution reprend les innovations NMS de YOLOv10, applique des techniques d'entraînement de pointe telles que l'optimiseur MuSGD, et les intègre dans un cadre open source robuste soutenu par une vaste communauté mondiale.


Commentaires