EfficientDet vs RTDETRv2 : comparaison approfondie des architectures de détection d'objets

Le choix de l'architecture optimale pour les projets de vision par ordinateur exige de naviguer dans un paysage diversifié de réseaux neuronaux. Ce guide explore une comparaison technique détaillée entre deux approches distinctes : EfficientDet, une famille de réseaux neuronaux convolutifs (CNN) hautement évolutive, et RTDETRv2, un modèle de transformeur en temps réel à la pointe de la technologie. Nous évaluons leurs différences structurelles, leurs méthodologies d'entraînement et leur aptitude au déploiement dans divers environnements matériels.

En comprenant les compromis entre l'efficacité héritée et les capacités des transformeurs modernes, les développeurs peuvent prendre des décisions éclairées. De plus, nous explorerons comment les alternatives modernes, telles que le nouveau YOLO26 d'Ultralytics, comblent cet écart, offrant une vitesse, une précision et une facilité d'utilisation inégalées.

Comprendre EfficientDet

EfficientDet a révolutionné la détection d'objets en introduisant une approche fondée sur des principes pour la mise à l'échelle des modèles.

Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation :Google
Date : 20 novembre 2019
Arxiv :https://arxiv.org/abs/1911.09070
GitHub :RéférentielGoogle
Documentation :Documentation d'EfficientDet

Architecture et concepts fondamentaux

À la base, EfficientDet utilise EfficientNet comme réseau dorsal et introduit le Réseau Pyramidal de Caractéristiques Bidirectionnel (BiFPN). BiFPN permet une fusion de caractéristiques multi-échelle facile et rapide en appliquant des poids apprenables pour déterminer l'importance des différentes caractéristiques d'entrée. Ceci est combiné à une méthode de mise à l'échelle composée qui adapte uniformément et simultanément la résolution, la profondeur et la largeur pour tous les réseaux dorsaux, les réseaux de caractéristiques et les réseaux de prédiction de boîtes/classes.

Forces et limitations

La principale force d'EfficientDet réside dans l'efficacité de ses paramètres. Au moment de sa sortie, des modèles tels qu'EfficientDet-D0 offraient une précision supérieure avec moins de paramètres et de FLOP que YOLO précédentes YOLO . Cela le rendait très attractif pour les environnements soumis à des limites de calcul strictes.

Cependant, EfficientDet s'appuie sur la suppression non maximale (NMS) standard pendant le post-traitement pour filtrer les cadres de sélection qui se chevauchent, ce qui peut entraîner des goulots d'étranglement en termes de latence dans les pipelines en temps réel. De plus, bien que le processus d'apprentissage soit bien documenté, le réglage fin d'EfficientDet peut s'avérer fastidieux par rapport aux expériences de développement hautement optimisées que l'on trouve dans les outils modernes.

En savoir plus sur EfficientDet

Support Hérité

Si EfficientDet a ouvert la voie aux réseaux évolutifs, le déploiement de ces modèles sur les NPU modernes nécessite souvent une optimisation manuelle approfondie. Pour simplifier les déploiements, Ultralytics nouveaux Ultralytics offrent une fonctionnalité d'exportation en un clic.

Explorer RTDETRv2

RTDETRv2 représente l'évolution des architectures basées sur des transformateurs, s'éloignant du paradigme traditionnel des CNN basés sur des ancres.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2024-07-24
Arxiv :https://arxiv.org/abs/2407.17140
GitHub :Dépôt RT-DETR
Docs :Documentation RTDETRv2

Avancées dans les Transformers

RTDETRv2 s'appuie sur la base du Real-Time Detection Transformer (RT-DETR). Il exploite des mécanismes d'attention globale, permettant au modèle de comprendre des contextes de scène complexes sans les contraintes localisées des convolutions standard. L'avantage architectural le plus significatif est sa conception nativement sans NMS. En prédisant les objets directement à partir de l'image d'entrée, il simplifie le pipeline d'inférence, évitant l'ajustement heuristique requis par le post-traitement NMS.

Points forts et faiblesses

RTDETRv2 excelle dans les environnements à haute densité où le chevauchement d'objets perturbe les CNN traditionnels. Il est très précis sur des ensembles de données de référence complexes tels que COCO.

Malgré leur précision, les modèles de transformeurs exigent naturellement une mémoire substantielle. L'efficacité d'entraînement est notablement plus faible ; ils nécessitent beaucoup plus d'époques et une empreinte mémoire CUDA plus élevée pour converger par rapport aux CNN. Cela rend RTDETRv2 moins idéal pour les développeurs travaillant avec des budgets cloud contraints ou ceux ayant besoin d'un prototypage rapide.

En savoir plus sur RTDETRv2

Contraintes de mémoire du transformateur

La formation de modèles de transformateurs tels que RTDETRv2 nécessite généralement des GPU haut de gamme. Si vous rencontrez des erreurs Out-Of-Memory (OOM), envisagez d'utiliser des modèles moins gourmands en mémoire pendant la formation, tels que le Ultralytics YOLO .

Comparaison des performances

Il est essentiel de comprendre les mesures de performance brutes pour choisir le bon modèle. Le tableau suivant présente une comparaison entre EfficientDet et RTDETRv2 pour différentes tailles.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Cas d'utilisation et recommandations

Le choix entre EfficientDet et RT-DETR dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir EfficientDet

EfficientDet est un excellent choix pour :

Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
Recherche sur la mise à l'échelle composée : Évaluation comparative académique axée sur l'étude des effets de la mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
Déploiement mobile via TFLite : Projets nécessitant spécifiquement l'exportation TensorFlow Lite pour les appareils Android ou Linux embarqués.

Quand choisir RT-DETR

RT-DETR recommandé pour :

Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Ultralytics : présentation de YOLO26

Si EfficientDet et RTDETRv2 ont consolidé leur place dans l'histoire de la vision par ordinateur, les environnements de production modernes exigent un équilibre parfait entre vitesse, précision et expérience développeur exceptionnelle. Le tout dernier Ultralytics synthétise les meilleurs aspects de ces architectures disparates.

YOLO26 se distingue en combinant un écosystème rationalisé Ultralytics est connu pour son écosystème rationalisé avec des mécanismes internes révolutionnaires.

Pourquoi choisir YOLO26 plutôt que la concurrence ?

Conception de bout en bout sans NMS : S'inspirant des transformeurs comme RTDETRv2, YOLO26 est nativement de bout en bout. Il élimine le post-traitement NMS, garantissant des pipelines de déploiement plus rapides et plus simples sans l'énorme inflation de paramètres des purs transformeurs.
Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement des grands modèles linguistiques (comme Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et Muon. Cela apporte une stabilité d'entraînement sans précédent et des taux de convergence significativement plus rapides par rapport aux calendriers prolongés requis par RTDETRv2.
Optimisé pour l'Edge : Avec jusqu'à 43 % d'inférence CPU plus rapide, YOLO26 est conçu pour l'IA Edge. Il surpasse facilement les modèles de transformeurs lourds sur du matériel contraint comme les téléphones mobiles et les caméras intelligentes.
Suppression du DFL : La suppression de la Distribution Focal Loss simplifie le graphe du modèle, facilitant les exportations transparentes vers TensorRT et ONNX.
ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, résolvant un goulot d'étranglement courant en imagerie aérienne et en robotique.
Polyvalence : Contrairement à RTDETRv2, qui se concentre principalement sur la détection, YOLO26 prend en charge nativement la segmentation d'instances, l'estimation de pose, la classification d'images et les boîtes englobantes orientées (OBB) avec des améliorations spécifiques aux tâches comme le RLE pour la pose et une fonction de perte angulaire spécialisée pour l'OBB.

Écosystème intégré

Grâce à la Ultralytics , vous pouvez gérer vos ensembles de données, entraîner des modèles tels que YOLO26 ou YOLO11 dans le cloud, et les déployer de manière transparente via des API flexibles.

Simplicité du code avec Ultralytics

Python Ultralytics , parfaitement entretenue, facilite considérablement l'entraînement et l'inférence des modèles. Les développeurs peuvent facilement comparer les modèles ou lancer des scripts d'entraînement avec un minimum de code standard.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

Pour ceux qui gèrent des infrastructures existantes, le très réputé Ultralytics YOLOv8 reste un choix stable et puissant, démontrant la fiabilité à long terme de Ultralytics . Que vous exécutiez des algorithmes de suivi complexes en temps réel ou une simple détection de défauts, la mise à niveau vers YOLO26 garantit que votre système est à l'épreuve du temps, hautement précis et économe en mémoire.