Passer au contenu

RTDETRv2 vs. EfficientDet : Une comparaison technique pour la détection d'objets

Le choix de l'architecture optimale pour la détection d'objets est une décision cruciale qui a un impact sur tous les aspects, des coûts de formation à la latence de déploiement. Dans cette analyse technique approfondie, nous examinons deux approches distinctes : RTDETRv2, un modèle de pointe basé sur un transformateur et conçu pour les applications en temps réel, et EfficientDet, une architecture CNN hautement évolutive qui a introduit la mise à l'échelle composée dans ce domaine.

Alors qu'EfficientDet a établi des références importantes en 2019, le paysage a considérablement changé avec l'avènement des transformateurs en temps réel. Cette comparaison explore leurs architectures, leurs mesures de performance et leur adéquation aux tâches modernes de vision par ordinateur.

Comparaison des métriques de performance

Le tableau suivant présente une comparaison directe des principaux indicateurs. Notez la différence en termes de vitesse et d'efficacité des paramètres, en particulier la manière dont les architectures modernes telles que RTDETRv2 optimisent la latence d'inférence sur les accélérateurs matériels tels que TensorRT.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

RTDETRv2 : Transformateurs en temps réel évolués

RTDETRv2 (Real-Time DEtection TRansformer v2) représente une avancée significative dans l'application des architectures de transformateurs à des tâches pratiques de vision. Alors que les modèles DETR originaux souffraient d'une convergence lente et de coûts de calcul élevés, RTDETRv2 est spécialement conçu pour surpasser les CNN en termes de vitesse et de précision.

Détails RTDETRv2 :

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation :Baidu
  • Date : 2023-04-17
  • Arxiv :2304.08069
  • GitHub :lyuwenyu/RT-DETR

Architecture et principales fonctionnalités

RTDETRv2 utilise un encodeur hybride qui traite les caractéristiques multi-échelles, remédiant ainsi à une faiblesse courante des transformateurs précédents en matière de détection des petits objets. L'une de ses principales innovations réside dans sa sélection de requêtesIoU, qui filtre les requêtes de mauvaise qualité avant qu'elles n'atteignent le décodeur, permettant ainsi au modèle de concentrer ses ressources informatiques sur les parties les plus pertinentes de l'image.

La caractéristique distinctive du RTDETRv2 est sa conception NMS de bout en bout. Les détecteurs traditionnels nécessitent une suppression non maximale (NMS) pour supprimer les boîtes englobantes en double, une étape de post-traitement qui introduit une variabilité de latence. Le RTDETRv2 prédit directement un ensemble fixe d'objets, garantissant des temps d'inférence déterministes qui sont essentiels pour l'automatisation industrielle.

En savoir plus sur RT-DETR

EfficientDet : l'héritage de l'évolutivité

EfficientDet a été présenté par Google comme une démonstration du « Compound Scaling », une méthode permettant d'augmenter simultanément la largeur, la profondeur et la résolution du réseau. Il s'appuie sur l'architecture EfficientNet et introduit le BiFPN (Bidirectional Feature Pyramid Network).

Détails d'EfficientDet :

  • Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
  • Organisation : Google
  • Date : 2019-11-20
  • Arxiv :1911.09070
  • GitHub :google/automl

Architecture et limitations

Le cœur d'EfficientDet est le BiFPN, qui permet une fusion facile et rapide des caractéristiques à plusieurs échelles. En utilisant la fusion pondérée des caractéristiques, le modèle apprend l'importance des différentes caractéristiques d'entrée. Malgré son efficacité théorique en termes de FLOP, EfficientDet est souvent confronté à des problèmes de latence dans le monde réel sur les GPU. Les modèles d'accès à la mémoire complexes/irréguliers de la couche BiFPN ne sont pas aussi faciles à optimiser par des accélérateurs matériels tels que TensorRT que les convolutions standard que l'on trouve dans YOLO .

Analyse critique : architecture et utilisation

1. Efficacité et convergence de la formation

L'une des différences les plus marquantes réside dans la dynamique d'entraînement. EfficientDet, qui s'appuie sur les paradigmes traditionnels des CNN, s'entraîne de manière relativement stable, mais nécessite un réglage minutieux des boîtes d'ancrage (même s'il vise à automatiser cette opération). RTDETRv2, qui est un transformateur, bénéficie dès le départ d'un champ réceptif global, mais nécessitait auparavant des programmes d'entraînement plus longs. Cependant, les optimisations modernes apportées à RTDETRv2 ont considérablement réduit ce temps de convergence.

Considérations relatives à la mémoire

Les modèles basés sur des transformateurs, tels que RTDETRv2, consomment généralement plus de VRAM pendant l'entraînement que les CNN purs en raison du mécanisme d'auto-attention. Si vous effectuez l'entraînement sur un matériel limité (par exemple, un seul GPU grand public), envisagez d'utiliser Ultralytics , qui offre des exigences de mémoire moindres tout en conservant une précision de pointe.

2. Vitesse d'inférence et déploiement

Si EfficientDet-d0 est léger, ses variantes plus volumineuses (d4-d7) affichent une baisse considérable de leur vitesse. Comme le montre le tableau comparatif, EfficientDet-d7 fonctionne à environ 128 ms sur un GPU T4, tandis que RTDETRv2-x atteint un mAP supérieur de 54,3 % en seulement 15 ms. Cet avantage de vitesse près de 10 fois supérieur rend RTDETRv2 (et YOLO26) bien plus performant pour l'analyse vidéo en temps réel ou les véhicules autonomes.

3. L'avantage de Ultralytics

La mise en œuvre de documents de recherche implique souvent de gérer des dépendances rompues et des fichiers de configuration complexes. Le Ultralytics résout ce problème en standardisant l'interface. Vous pouvez passer d'un Transformer (RT-DETR) à un CNN (YOLO) avec une seule ligne de code, ce qui simplifie le pipeline des opérations d'apprentissage automatique (MLOps).

from ultralytics import RTDETR, YOLO

# Load RTDETRv2 (Transformer)
model_transformer = RTDETR("rtdetr-l.pt")

# Load YOLO26 (The new standard)
model_yolo = YOLO("yolo26l.pt")

# Training is identical
model_yolo.train(data="coco8.yaml", epochs=100)

Le choix numéro un : Ultralytics

Si RTDETRv2 offre d'excellentes performances, YOLO26 représente le summum en matière d'efficacité et de précision. Lancé en janvier 2026, il synthétise les meilleures fonctionnalités des transformateurs et des CNN dans une architecture unifiée.

YOLO26 adopte la conception NMS de bout en bout lancée par YOLOv10 affinée dans RTDETRv2, mais l'optimise davantage pour le déploiement en périphérie. Les principales innovations comprennent :

  • Suppression de la perte focale de distribution : en supprimant la perte focale de distribution, la structure du modèle est simplifiée, ce qui facilite l'exportation vers ONNX et CoreML et la compatibilité avec les appareils périphériques à faible consommation d'énergie est améliorée.
  • Optimiseur MuSGD : hybride entre SGD Muon (inspiré de la formation LLM), cet optimiseur garantit une formation stable et une convergence plus rapide, apportant la stabilité du modèle linguistique à grande échelle aux tâches de vision.
  • Vitesse : YOLO26 atteint CPU jusqu'à 43 % plus rapide, comblant ainsi une lacune critique pour les appareils tels que le Raspberry Pi, qui ne disposent pas de GPU.
  • Fonctions de perte avancées : l'intégration de ProgLoss et STAL apporte des améliorations notables dans la reconnaissance des petits objets, ce qui est crucial pour des secteurs tels que l'agriculture et la surveillance aérienne.

Pour les développeurs qui recherchent le meilleur équilibre entre polyvalence de déploiement et puissance brute, YOLO26 est le choix recommandé.

En savoir plus sur YOLO26

Recommandations de cas d'utilisation

Quand choisir RTDETRv2

  • Matériel avec Tensor : si vous déployez strictement sur NVIDIA (serveur ou Jetson), RTDETRv2 utilise efficacement Tensor .
  • Scènes encombrées : le mécanisme d'attention global aide dans les scènes présentant une forte occlusion, telles que l'analyse de foules ou la surveillance dans le commerce de détail.

Quand choisir EfficientDet

  • Maintenance héritée : si votre infrastructure existante repose largement sur TensorFlow .x/2.x et l'écosystème AutoML Google.
  • Benchmarking académique : utile comme référence pour étudier les effets spécifiques du dimensionnement des composants indépendamment des autres changements architecturaux.

Quand choisir YOLO26

  • Edge AI : grâce à la suppression du DFL et CPU , il s'impose comme le leader incontesté des appareils mobiles et IoT.
  • Contraintes en temps réel : pour les applications nécessitant un nombre élevé d'images par seconde (FPS) et une grande précision, telles que l'analyse sportive.
  • Facilité d'utilisation : lorsque vous avez besoin d'une expérience « clé en main » avec prise en charge de l'estimation de la pose et de la segmentation dès le départ.

Conclusion

RTDETRv2 et EfficientDet ont tous deux contribué de manière significative à l'évolution de la vision par ordinateur. EfficientDet a prouvé que la mise à l'échelle pouvait être scientifique et structurée, tandis que RTDETRv2 a démontré que les Transformers pouvaient être rapides. Cependant, pour la majorité des praticiens en 2026, Ultralytics offre la solution la plus convaincante : la vitesse d'un CNN, la commodité d'un Transformer NMS et le soutien robuste de la Ultralytics .

Lectures complémentaires


Commentaires