RTDETRv2 vs. EfficientDet : Une comparaison technique complète

Dans le paysage évolutif de la vision par ordinateur, le choix de la bonne architecture de détection d'objets est essentiel pour la réussite d'un projet. Cette comparaison se penche sur RTDETRv2, un modèle de pointe basé sur un transformateur et conçu pour des performances en temps réel, et EfficientDet, une famille évolutive de réseaux neuronaux convolutifs (CNN) optimisés pour l'efficacité. Nous analysons leurs innovations architecturales, leurs mesures de performance et leurs scénarios de déploiement idéaux pour aider les développeurs à prendre des décisions éclairées.

Aperçus des modèles

Le choix entre ces deux modèles se résume souvent aux contraintes spécifiques du matériel cible et aux exigences de précision de l'application.

RTDETRv2

RTDETRv2 (Real-Time Detection Transformer v2) représente une avancée significative dans l'application des architectures de transformateur à la détection d'objets en temps réel. Développé par des chercheurs de Baidu, il s'appuie sur le succès du RT-DETR original, en optimisant l'encodeur hybride et les mécanismes de sélection de requêtes pour atteindre une précision de pointe avec des vitesses d'inférence compétitives sur le matériel GPU.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2023-04-17
Arxiv :RT-DETR : les DETR battent les YOLO en matière de detect d’objets en temps réel
GitHub :Dépôt RT-DETR
Docs :Documentation RT-DETRv2

En savoir plus sur RTDETR

EfficientDet

EfficientDet, développé par Google Brain, a révolutionné le domaine lors de sa sortie en introduisant une manière systématique de mettre à l'échelle les dimensions du modèle. En combinant le backbone EfficientNet avec un réseau de pyramide de caractéristiques bidirectionnel pondéré (BiFPN), il offre un éventail de modèles (D0-D7) qui permettent d'équilibrer le coût de calcul et la précision, ce qui le rend très polyvalent pour diverses contraintes de ressources.

Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation :Google Research
Date : 2019-11-20
Arxiv :EfficientDet : detect d’objets évolutive et efficace
GitHub :Dépôt AutoML
Documentation :EfficientDet Readme

En savoir plus sur EfficientDet

Analyse architecturale

La différence fondamentale réside dans leurs blocs de construction de base : l'un exploite le contexte global des transformateurs, tandis que l'autre affine l'efficacité des convolutions.

RTDETRv2 : La puissance du Transformer

RTDETRv2 utilise un encodeur hybride qui traite efficacement les caractéristiques multi-échelles. Contrairement aux CNN traditionnels, il utilise un mécanisme de sélection de requêtes tenant compte de l’IoU pour concentrer l’attention sur les parties les plus pertinentes d’une image. Cela permet au modèle de gérer efficacement les scènes complexes avec occlusion et différentes échelles d’objets. L’architecture découple l’interaction intra-échelle et la fusion inter-échelle, réduisant ainsi la surcharge de calcul généralement associée aux Vision Transformers (ViT).

Avantages des Transformers

Le mécanisme d'attention dans RTDETRv2 permet des champs réceptifs globaux, permettant au modèle de mieux comprendre les relations entre les objets distants dans une scène que les CNN typiques.

EfficientDet : Efficacité évolutive

EfficientDet est construit sur le backbone EfficientNet et introduit le BiFPN. Le BiFPN permet une fusion de caractéristiques multi-échelles facile et rapide en apprenant l'importance des différentes caractéristiques d'entrée. De plus, EfficientDet utilise une méthode de scaling composé qui met à l'échelle uniformément la résolution, la profondeur et la largeur du réseau. Cela garantit que le modèle peut être adapté—du D0 léger pour les applications mobiles au D7 lourd pour les tâches de serveur de haute précision.

Comparaison des performances

Les critères de performance mettent en évidence une distinction claire dans la philosophie de conception. RTDETRv2 vise une précision maximale sur du matériel puissant, tandis qu'EfficientDet offre un gradient granulaire d'efficacité.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Comme indiqué dans le tableau, RT-DETRv2-x atteint une mAP supérieure de 54,3, surpassant même le plus grand EfficientDet-d7 (53,7 mAP) tout en étant significativement plus rapide sur TensorRT (15,03 ms contre 128,07 ms). Cependant, pour les environnements extrêmement contraints, EfficientDet-d0 reste une option incroyablement légère avec des paramètres minimaux (3,9M) et des FLOPs.

Points forts et faiblesses

Points forts de RTDETRv2 :

Haute précision : Offre des performances de détection de premier ordre, en particulier sur l'ensemble de données COCO.
Optimisation du GPU : L'architecture est hautement parallélisable, ce qui la rend idéale pour le déploiement de TensorRT sur les GPU NVIDIA.
Sans ancres : Élimine le besoin de réglage des boîtes d'ancrage, simplifiant ainsi le pipeline d'entraînement.

Points forts d'EfficientDet :

Scalabilité : La gamme D0-D7 permet d'adapter précisément la taille du modèle aux capacités du matériel.
Faible puissance de calcul : Les variantes plus petites (D0-D2) sont excellentes pour l'inférence sur CPU uniquement ou les appareils périphériques mobiles.
Établi : Architecture mature avec une prise en charge généralisée dans divers outils de conversion.

Faiblesses :

RTDETRv2 : Nécessite une quantité importante de mémoire CUDA pour l’entraînement et est généralement plus lent sur les CPU en raison des opérations de transformateur.
EfficientDet : Latence plus élevée à l’extrémité haute précision (D7) par rapport aux détecteurs modernes ; l’entraînement peut être plus lent à converger.

Cas d'utilisation idéaux

Le choix du bon modèle dépend fortement de l'environnement d'application spécifique.

Choisissez RTDETRv2 pour les systèmes de surveillance haut de gamme, la conduite autonome ou les systèmes d'inspection industrielle où un GPU puissant est disponible. Sa capacité à discerner les détails fins le rend approprié pour des tâches telles que la détection de pilules dans la fabrication médicale ou l'analyse d'imagerie satellite complexe.
Choisissez EfficientDet pour les appareils IoT alimentés par batterie, les applications mobiles ou les scénarios nécessitant une large compatibilité entre les différents niveaux de matériel. Il s’intègre bien dans les scanners d’inventaire de vente au détail intelligent ou les systèmes d’alarme de sécurité de base où le coût et la consommation d’énergie sont des préoccupations primaires.

L'avantage Ultralytics YOLO

Bien que RTDETRv2 et EfficientDet aient tous deux leurs mérites, Ultralytics YOLO11 offre une synthèse convaincante de leurs meilleures caractéristiques, enveloppée dans un écosystème convivial pour les développeurs.

Pourquoi les développeurs préfèrent Ultralytics

Les modèles Ultralytics sont conçus non seulement pour les benchmarks, mais aussi pour une utilisation réelle.

Facilité d'utilisation : L'API Python et la CLI Ultralytics réduisent considérablement la complexité de la formation et du déploiement. Les utilisateurs peuvent passer de l'installation à la formation sur un ensemble de données personnalisé en quelques minutes.
Écosystème bien maintenu : Soutenu par une communauté florissante et des mises à jour fréquentes, le framework Ultralytics s’intègre de manière transparente aux outils MLOps tels que Weights & Biases, MLFlow et Ultralytics HUB pour la gestion des données.
Équilibre des performances : YOLO11 atteint des compromis vitesse/précision de pointe. Il égale ou dépasse souvent la précision des modèles de transformateurs comme RTDETRv2 tout en conservant la vitesse d'inférence caractéristique des CNN.
Efficacité de la mémoire : Contrairement aux exigences de mémoire importantes de l’entraînement basé sur des transformateurs, les modèles YOLO sont optimisés pour une utilisation efficace du GPU, ce qui permet d’utiliser des tailles de lots plus importantes sur du matériel grand public.
Polyvalence : Un framework unique prend en charge la détection d’objets, la segmentation d’instance, l’estimation de pose, la classification et la détection d’objets orientés (OBB).

Efficacité de l'entraînement

Ultralytics fournit des poids pré-entraînés qui facilitent l'apprentissage par transfert, ce qui réduit considérablement le temps d'entraînement. Voici la simplicité avec laquelle il est possible de commencer à entraîner un modèle YOLO11 :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Déploiement simplifié

Les modèles Ultralytics peuvent être exportés vers de nombreux formats tels que ONNX, TensorRT, CoreML et OpenVINO en une seule commande, ce qui simplifie le passage de la recherche à la production. En savoir plus sur les modes d'exportation.

Conclusion

Dans la comparaison de RTDETRv2 vs. EfficientDet, le gagnant dépend de vos contraintes. RTDETRv2 excelle dans les environnements à haute précision et accélérés par GPU, prouvant que les transformateurs peuvent être rapides. EfficientDet reste un choix solide pour les scénarios périphériques très contraints et à faible consommation d'énergie.

Cependant, pour la majorité des développeurs à la recherche d'une solution polyvalente, facile à utiliser et à haute performance, Ultralytics YOLO11 se distingue. Sa capacité à gérer plusieurs tâches de vision dans un écosystème unique et cohérent, combinée à une efficacité de mémoire et une vitesse de formation supérieures, en fait le choix optimal pour les applications de vision par ordinateur modernes.

Explorer d’autres comparaisons

Pour élargir votre compréhension des modèles de détection d'objets disponibles, envisagez d'explorer ces comparaisons connexes :