RTDETRv2 vs EfficientDet : analyse des architectures de détection en temps réel
Le choix de l'architecture optimale du réseau neuronal est déterminant pour tout projet de vision par ordinateur. Cette comparaison technique exhaustive analyse deux modèles influents de détection d'objets : RTDETRv2, un détecteur de pointe basé sur un transformateur, et EfficientDet, un réseau neuronal convolutif hautement évolutif. Nous évaluerons leurs architectures distinctes, leurs mesures de performance, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux afin de vous aider à prendre des décisions fondées sur les données pour vos pipelines d'IA.
RTDETRv2 : le transformateur de détection en temps réel
S'appuyant sur le succès de l'original RT-DETR, RTDETRv2 affine le paradigme de la détection d'objets basée sur les transformeurs. En optimisant les structures de l'encodeur et du décodeur, il offre une grande précision tout en maintenant des vitesses d'inférence en temps réel, comblant ainsi efficacement le fossé entre les CNN traditionnels et les transformeurs de vision.
Détails du modèle
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 2024-07-24
Liens : Arxiv, GitHub, Docs
Architecture et points forts de base
RTDETRv2 utilise une architecture hybride qui associe une puissante structure CNN (souvent ResNet ou HGNet) à un décodeur transformateur efficace. La caractéristique la plus marquante de RTDETRv2 est sa capacité native à contourner la suppression non maximale (NMS). Les détecteurs traditionnels ont besoin de NMS filtrer les boîtes englobantes en double, ce qui ajoute une latence d'inférence variable pendant le post-traitement. RTDETRv2 formule la détection comme un problème de prédiction directe, en utilisant l'appariement bipartite pour produire des prédictions uniques.
Ce modèle excelle dans les déploiements côté serveur où GPU est abondante. Son mécanisme d'attention global offre une conscience contextuelle exceptionnelle, ce qui le rend très efficace pour séparer les objets qui se chevauchent dans des environnements denses et encombrés, tels que les systèmes d'alarme de sécurité automatisés ou la surveillance de foules denses.
Limites
Bien que puissantes, les architectures de transformateurs nécessitent intrinsèquement plus CUDA pendant l'entraînement que les CNN standard. De plus, le réglage fin de RTDETRv2 peut nécessiter des temps de convergence des données d'entraînement prolongés, ce qui rend le prototypage rapide légèrement plus gourmand en ressources.
EfficientDet : CNN évolutifs et efficaces
EfficientDet a introduit une famille de modèles de détection d'objets optimisés à la fois pour la précision et l'efficacité, couvrant un large éventail de contraintes de ressources. Il reste un exemple classique de conception de vision par ordinateur évolutive.
Détails du modèle
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 2019-11-20
Liens : Arxiv, GitHub, Docs
Architecture et points forts de base
L'innovation derrière EfficientDet réside dans deux domaines clés : le réseau pyramidal bidirectionnel (BiFPN) et une méthode de mise à l'échelle composite. Le BiFPN permet une extraction simple et rapide de caractéristiques multi-échelles en introduisant des poids apprenables pour apprendre l'importance des différentes caractéristiques d'entrée, tout en appliquant de manière répétée une fusion de caractéristiques multi-échelles descendante et ascendante. La méthode de mise à l'échelle composite met à l'échelle de manière uniforme la résolution, la profondeur et la largeur du réseau simultanément.
Les modèles EfficientDet vont du D0 ultra-léger au D7 massif. Cela les rend très polyvalents pour les déploiements d'IA en périphérie où les développeurs doivent trouver un équilibre entre des budgets informatiques serrés et des exigences de précision, comme dans les premières applications de réalité augmentée mobile.
Limites
EfficientDet est une architecture plus ancienne qui repose largement sur les boîtes d'ancrage et le pipeline NMS traditionnel. Le processus de génération d'ancrages nécessite un réglage minutieux des hyperparamètres, et NMS peut constituer un goulot d'étranglement pour le déploiement sur du matériel embarqué tel que le Raspberry Pi. Il manque également de prise en charge native pour les tâches modernes telles que l'estimation de pose ou les boîtes englobantes orientées (OBB).
En savoir plus sur EfficientDet
Comparaison des performances et des indicateurs
Pour comprendre les compromis exacts entre ces modèles, il faut analyser leur débit et l'efficacité de leurs paramètres. Le tableau ci-dessous présente une comparaison entre la série RTDETRv2 moderne et la famille EfficientDet évolutive.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Comme vu ci-dessus, RTDETRv2 atteint une précision moyenne (mAP) significativement plus élevée pour des nombres de paramètres comparables à ceux des modèles EfficientDet de milieu de gamme, en utilisant fortement son architecture de transformeur pour améliorer la précision.
Cas d'utilisation et recommandations
Le choix entre RT-DETR et EfficientDet dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.
Quand choisir RT-DETR
RT-DETR un choix judicieux pour :
- Recherche sur la détection basée sur les transformeurs : Projets explorant les mécanismes d'attention et les architectures de transformeurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformeurs offre un avantage naturel.
Quand choisir EfficientDet
EfficientDet est recommandé pour :
- Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
- Recherche sur la mise à l'échelle composée : Évaluation comparative académique axée sur l'étude des effets de la mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
- Déploiement mobile via TFLite : Projets nécessitant spécifiquement l'exportation TensorFlow Lite pour les appareils Android ou Linux embarqués.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
- Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
- Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.
Ultralytics : faire progresser l'état de l'art
Bien que RTDETRv2 et EfficientDet présentent tous deux de solides avantages, le développement moderne de l'IA exige des frameworks qui offrent une expérience de développement fluide et des performances de pointe. Ultralytics propose une approche nettement plus rationalisée des tâches de vision par ordinateur.
Si vous recherchez une technologie de détection de pointe, le tout nouveau Ultralytics synthétise les meilleurs aspects des CNN et des transformateurs.
Pourquoi choisir YOLO26 ?
YOLO26 met en œuvre une conception NMS de bout en bout, apportant la simplicité de déploiement de RTDETRv2 à YOLO ultra-efficace. De plus, il introduit l'optimiseur MuSGD, inspiré des innovations en matière de formation LLM, pour une stabilité de formation supérieure. Grâce à la suppression du DFL (Distribution Focal Loss supprimé pour simplifier l'exportation et améliorer la compatibilité avec les appareils périphériques/à faible consommation d'énergie), YOLO26 offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un choix exceptionnel pour l'informatique périphérique par rapport aux modèles plus lourds. De plus, ProgLoss + STAL offre des fonctions de perte améliorées avec des améliorations notables dans la reconnaissance des petits objets, essentielle pour l'IoT, la robotique et l'imagerie aérienne.
La facilité d'utilisation offerte par le Python Ultralytics est inégalée. Les développeurs peuvent former, valider et exporter des modèles à l'aide d'une API intuitive qui supprime le code standard généralement requis par les référentiels de recherche.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")
Ultralytics prennent en charge de manière native plusieurs tâches, notamment la segmentation d'instances et la classification d'images, offrant ainsi une boîte à outils polyvalente pour répondre aux divers besoins de l'industrie. De plus, la suppression de la perte focale de distribution (DFL) dans Ultralytics modernes simplifie le graphe de calcul, garantissant une exportation plus fluide vers les NPU et TPU intégrés.
Pour une annotation des données et une gestion des modèles fluides, la Ultralytics fournit un environnement cloud complet permettant de superviser l'ensemble du cycle de vie de l'apprentissage automatique, ce qui en fait le choix idéal pour déployer des solutions de vision par ordinateur robustes en production.