Passer au contenu

EfficientDet vs RTDETRv2 : comparaison technique pour la détection d'objets moderne

Pour sélectionner l'architecture optimale pour la détection d'objets, il faut trouver le juste équilibre entre la complexité architecturale, la latence d'inférence et la précision de détection. Cette comparaison technique analyse deux approches distinctes : EfficientDet, une architecture CNN à mise à l'échelle composite de Google, et RTDETRv2, un modèle en temps réel basé sur un transformateur de Baidu.

Alors qu'EfficientDet a établi des références en matière d'évolutivité en 2019, RTDETRv2 représente le passage à des architectures de transformateurs qui éliminent la suppression non maximale (NMS). Pour les développeurs qui recherchent le summum de la performance en 2026, nous explorons également comment Ultralytics synthétise le meilleur de ces deux mondes grâce à sa conception native de bout en bout.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet : l'héritage du redimensionnement des composés

Lancé fin 2019, EfficientDet a introduit une méthode systématique pour mettre à l'échelle les réseaux neuronaux convolutifs (CNN). Il a été conçu pour optimiser l'efficacité dans un large éventail de contraintes en matière de ressources, des appareils mobiles aux centres de données.

Architecture et principales fonctionnalités

EfficientDet utilise une structure EfficientNet associée à un réseau pyramidal bidirectionnel pondéré (BiFPN). Le BiFPN permet une fusion facile et rapide des caractéristiques à plusieurs échelles, ce qui permet au modèle d'apprendre efficacement l'importance des différentes caractéristiques d'entrée. L'innovation principale réside dans le « Compound Scaling », qui adapte de manière uniforme la résolution, la profondeur et la largeur de la structure du réseau, du réseau de caractéristiques et des réseaux de prédiction de boîtes/classes.

Malgré son succès académique, EfficientDet s'appuie sur des boîtes d'ancrage et des étapes de post-traitement lourdes telles que la suppression non maximale (NMS), qui peuvent introduire une variabilité de latence et compliquer le déploiement sur du matériel périphérique.

RTDETRv2 : Transformateurs en temps réel

RTDETRv2 (Real-Time Detection Transformer v2) s'appuie sur le succès du RT-DETR original et vise à résoudre le problème du coût de calcul élevé associé aux modèles basés sur DETR, tout en conservant leur précision supérieure et leur capacité à prendre en compte le contexte global.

Architecture et principales fonctionnalités

RTDETRv2 utilise un encodeur hybride qui traite les caractéristiques multi-échelles plus efficacement que les transformateurs de vision (ViT) standard. Sa caractéristique distinctive est sa conceptionNMS. En prédisant les objets directement sous forme d'ensemble, il supprime le besoin d'un post-traitement heuristique, stabilisant ainsi théoriquement la vitesse d'inférence.

Cependant, les modèles basés sur des transformateurs sont connus pour être très gourmands en mémoire. L'entraînement de RTDETRv2 nécessite généralement GPU importante GPU , ce qui requiert souvent du matériel haut de gamme tel que NVIDIA pour une convergence efficace, contrairement YOLO basés sur CNN qui sont plus tolérants envers le matériel grand public.

En savoir plus sur RT-DETR

Ultralytics : entrez YOLO26

Si EfficientDet et RTDETRv2 constituent des avancées significatives, Ultralytics (sorti en janvier 2026) établit une nouvelle norme en intégrant les atouts des deux architectures dans un cadre unifié et hautement performant.

YOLO26 est conçu pour les développeurs qui ont besoin de la précision d'un transformateur et de la vitesse d'un CNN léger.

  • Conception NMS de bout en bout : tout comme RTDETRv2, YOLO26 est nativement de bout en bout. Il élimine NMS , garantissant une latence déterministe qui est essentielle pour les applications critiques pour la sécurité telles que les véhicules autonomes.
  • Optimiseur MuSGD : inspiré par les innovations de Moonshot AI en matière d'entraînement des modèles linguistiques à grande échelle (LLM), YOLO26 utilise l'optimiseur MuSGD. Cet hybride de SGD Muon garantit une dynamique d'entraînement stable et une convergence plus rapide, réduisant ainsi les « essais et erreurs » souvent nécessaires lors du réglage des hyperparamètres pour les transformateurs.
  • Suppression de la perte DFL : en supprimant la perte focale de distribution, YOLO26 simplifie le graphe du modèle. Cette optimisation est cruciale pour l'exportation de modèles vers des formats tels que ONNX CoreML, où les couches de perte complexes peuvent entraîner des problèmes de compatibilité sur les appareils périphériques.
  • Équilibre des performances : YOLO26 offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui le rend beaucoup plus adapté au déploiement en périphérie que l'EfficientDet-d7, très gourmand en ressources informatiques, ou le RTDETRv2, très gourmand en VRAM.

En savoir plus sur YOLO26

Analyse technique approfondie

Efficacité de l'entraînement et mémoire

Une différence essentielle entre ces modèles réside dans leur consommation de ressources pendant l'entraînement.

  • EfficientDet : bien qu'efficace en termes de paramètres, la méthode de mise à l'échelle composée peut entraîner un ralentissement de l'entraînement des réseaux profonds. Les connexions BiFPN complexes augmentent également le coût d'accès à la mémoire (MAC), ce qui ralentit le débit.
  • RTDETRv2 : les transformateurs nécessitent le calcul de cartes d'attention, qui évoluent de manière quadratique avec la longueur de la séquence. Cela entraîne une utilisation élevée de la mémoire VRAM, ce qui rend difficile l'entraînement avec des lots de grande taille sur des GPU standard (par exemple, RTX 3060/4070).
  • YOLO Ultralytics : des modèles tels que YOLO11 et YOLO26 sont optimisés pour une utilisation efficace de la mémoire. Ils permettent des lots plus importants sur le matériel grand public, démocratisant ainsi l'accès à l'IA haute performance. De plus, la Ultralytics (anciennement HUB) rationalise encore davantage ce processus en proposant une formation cloud gérée qui gère automatiquement les complexités de l'infrastructure.

Polyvalence et écosystème

EfficientDet est principalement une architecture de détection uniquement. En revanche, Ultralytics prend en charge un large éventail de tâches au sein d'une seule base de code.

Capacités multitâches

Ultralytics ne se limitent pas aux cadres de sélection. La même API vous permet de former des modèles pour la segmentation d'instances, estimation de la poseet la détection d'objets orientés (OBB), offrant ainsi une boîte à outils flexible pour relever divers défis en matière de vision par ordinateur.

YOLO26 inclut spécifiquement des améliorations spécifiques à certaines tâches, telles que ProgLoss et STAL (Soft Target Assignment Loss), qui apportent des améliorations notables dans la reconnaissance des petits objets, un point faible traditionnel des CNN et des transformateurs précédents.

Cas d'utilisation concrets

Quand utiliser RTDETRv2

RTDETRv2 excelle dans les environnements où les ressources matérielles sont abondantes et où le contexte global est primordial.

  • Compréhension complexe des scènes : dans les scènes présentant un niveau élevé d'occlusion ou d'encombrement, le mécanisme d'attention globale permet de mieux track entre des objets éloignés que les convolutions locales.
  • GPU haut de gamme : si le déploiement se fait strictement sur des GPU de classe serveur (par exemple, T4, A10), RTDETRv2 offre une précision compétitive.

Quand utiliser EfficientDet

EfficientDet est largement considéré comme une architecture héritée, mais reste pertinent dans certains domaines spécifiques.

  • Anciens Google : pour les équipes profondément intégrées dans les anciens pipelines TensorFlow, la maintenance d'EfficientDet pourrait être moins perturbante que la migration des frameworks.
  • Références de recherche : cela reste une référence standard pour comparer l'efficacité des réseaux de fusion de caractéristiques.

Le choix supérieur : YOLO26

Pour la grande majorité des applications modernes, YOLO26 est le choix recommandé en raison de sa polyvalence et de sa facilité de déploiement.

  • Edge Computing : grâce à la suppression du DFL et CPU , YOLO26 est idéal pour les appareils IoT et les applications mobiles où l'autonomie de la batterie et les contraintes thermiques sont importantes.
  • Robotique : la conception NMS garantit que les boucles de contrôle du robot reçoivent les données de perception à un rythme constant et prévisible.
  • Imagerie aérienne : la fonction ProgLoss améliore la détection de petits objets tels que des véhicules ou du bétail dans les images filmées par drone, surpassant les références standard EfficientDet.

Conclusion

Alors qu'EfficientDet a ouvert la voie à une mise à l'échelle efficace et que RTDETRv2 a démontré la puissance des transformateurs en temps réel, le paysage a évolué. YOLO26 incarne la prochaine génération de vision par ordinateur : nativement de bout en bout, hautement optimisé pour divers matériels et pris en charge par le solide Ultralytics .

Pour les développeurs qui cherchent à rationaliser leurs pipelines ML, la transition vers Ultralytics offre non seulement des gains de performance, mais aussi un workflow simplifié, depuis l'annotation sur la Ultralytics jusqu'au déploiement en périphérie.

Lectures complémentaires


Commentaires