RTDETRv2 vs EfficientDet : analyse des architectures de détection en temps réel
Le choix de l'architecture optimale du réseau neuronal est déterminant pour tout projet de vision par ordinateur. Cette comparaison technique exhaustive analyse deux modèles influents de détection d'objets : RTDETRv2, un détecteur de pointe basé sur un transformateur, et EfficientDet, un réseau neuronal convolutif hautement évolutif. Nous évaluerons leurs architectures distinctes, leurs mesures de performance, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux afin de vous aider à prendre des décisions fondées sur les données pour vos pipelines d'IA.
RTDETRv2 : le transformateur de détection en temps réel
S'appuyant sur le succès du RT-DETR original, RTDETRv2 affine le paradigme de détection d'objets basé sur les transformateurs. En optimisant les structures des encodeurs et des décodeurs, il offre une grande précision tout en conservant des vitesses d'inférence en temps réel, comblant ainsi efficacement le fossé entre les CNN traditionnels et les transformateurs de vision.
Détailsdumodèle
Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 24 juillet 2024
Liens : Arxiv, GitHub, Docs
Architecture et points forts de base
RTDETRv2 utilise une architecture hybride qui associe une puissante structure CNN (souvent ResNet ou HGNet) à un décodeur transformateur efficace. La caractéristique la plus marquante de RTDETRv2 est sa capacité native à contourner la suppression non maximale (NMS). Les détecteurs traditionnels ont besoin de NMS filtrer les boîtes englobantes en double, ce qui ajoute une latence d'inférence variable pendant le post-traitement. RTDETRv2 formule la détection comme un problème de prédiction directe, en utilisant l'appariement bipartite pour produire des prédictions uniques.
Ce modèle excelle dans les déploiements côté serveur où GPU est abondante. Son mécanisme d'attention global offre une conscience contextuelle exceptionnelle, ce qui le rend très efficace pour séparer les objets qui se chevauchent dans des environnements denses et encombrés, tels que les systèmes d'alarme de sécurité automatisés ou la surveillance de foules denses.
Limites
Bien que puissantes, les architectures de transformateurs nécessitent intrinsèquement plus CUDA pendant l'entraînement que les CNN standard. De plus, le réglage fin de RTDETRv2 peut nécessiter des temps de convergence des données d'entraînement prolongés, ce qui rend le prototypage rapide légèrement plus gourmand en ressources.
EfficientDet : CNN évolutifs et efficaces
EfficientDet a introduit une famille de modèles de détection d'objets optimisés à la fois pour la précision et l'efficacité dans un large éventail de contraintes de ressources. Il reste un exemple classique de conception de vision industrielle évolutive.
Détails du modèle
Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 20/11/2019
Liens : Arxiv, GitHub, Docs
Architecture et points forts de base
L'innovation derrière EfficientDet réside dans deux domaines clés : le réseau pyramidal bidirectionnel (BiFPN) et une méthode de mise à l'échelle composite. Le BiFPN permet une extraction simple et rapide de caractéristiques multi-échelles en introduisant des poids apprenables pour apprendre l'importance des différentes caractéristiques d'entrée, tout en appliquant de manière répétée une fusion de caractéristiques multi-échelles descendante et ascendante. La méthode de mise à l'échelle composite met à l'échelle de manière uniforme la résolution, la profondeur et la largeur du réseau simultanément.
Les modèles EfficientDet vont du D0 ultra-léger au D7 massif. Cela les rend très polyvalents pour les déploiements d'IA en périphérie où les développeurs doivent trouver un équilibre entre des budgets informatiques serrés et des exigences de précision, comme dans les premières applications de réalité augmentée mobile.
Limites
EfficientDet est une architecture plus ancienne qui repose largement sur les boîtes d'ancrage et le pipeline NMS traditionnel. Le processus de génération d'ancrages nécessite un réglage minutieux des hyperparamètres, et NMS peut constituer un goulot d'étranglement pour le déploiement sur du matériel embarqué tel que le Raspberry Pi. Il manque également de prise en charge native pour les tâches modernes telles que l'estimation de pose ou les boîtes englobantes orientées (OBB).
En savoir plus sur EfficientDet
Comparaison des performances et des indicateurs
Pour comprendre les compromis exacts entre ces modèles, il faut analyser leur débit et l'efficacité de leurs paramètres. Le tableau ci-dessous présente une comparaison entre la série RTDETRv2 moderne et la famille EfficientDet évolutive.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Comme on peut le voir ci-dessus, RTDETRv2 atteint une précision moyenne (mAP) nettement supérieure à celle des modèles EfficientDet de niveau intermédiaire, avec un nombre de paramètres comparable, en exploitant pleinement son architecture de transformateur pour améliorer la précision.
Cas d'utilisation et recommandations
Le choix entre RT-DETR EfficientDet dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.
Quand choisir RT-DETR
RT-DETR un choix judicieux pour :
- Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Quand choisir EfficientDet
EfficientDet est recommandé pour :
- Google et TPU : systèmes profondément intégrés aux API Google Vision ou à TPU , où EfficientDet dispose d'une optimisation native.
- Recherche sur la mise à l'échelle des composés : analyse comparative académique axée sur l'étude des effets d'une mise à l'échelle équilibrée de la profondeur, de la largeur et de la résolution du réseau.
- Déploiement mobile via TFLite: projets qui nécessitent spécifiquement l'exportation TensorFlow pour Android les appareils Linux embarqués.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Ultralytics : faire progresser l'état de l'art
Bien que RTDETRv2 et EfficientDet présentent tous deux de solides avantages, le développement moderne de l'IA exige des frameworks qui offrent une expérience de développement fluide et des performances de pointe. Ultralytics propose une approche nettement plus rationalisée des tâches de vision par ordinateur.
Si vous recherchez une technologie de détection de pointe, le tout nouveau Ultralytics synthétise les meilleurs aspects des CNN et des transformateurs.
Pourquoi choisir YOLO26 ?
YOLO26 met en œuvre une conception NMS de bout en bout, apportant la simplicité de déploiement de RTDETRv2 à YOLO ultra-efficace. De plus, il introduit l'optimiseur MuSGD, inspiré des innovations en matière de formation LLM, pour une stabilité de formation supérieure. Grâce à la suppression du DFL (Distribution Focal Loss supprimé pour simplifier l'exportation et améliorer la compatibilité avec les appareils périphériques/à faible consommation d'énergie), YOLO26 offre CPU jusqu'à 43 % plus rapide que les générations précédentes, ce qui en fait un choix exceptionnel pour l'informatique périphérique par rapport aux modèles plus lourds. De plus, ProgLoss + STAL offre des fonctions de perte améliorées avec des améliorations notables dans la reconnaissance des petits objets, essentielle pour l'IoT, la robotique et l'imagerie aérienne.
La facilité d'utilisation offerte par le Python Ultralytics est inégalée. Les développeurs peuvent former, valider et exporter des modèles à l'aide d'une API intuitive qui supprime le code standard généralement requis par les référentiels de recherche.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")
Ultralytics prennent en charge de manière native plusieurs tâches, notamment la segmentation d'instances et la classification d'images, offrant ainsi une boîte à outils polyvalente pour répondre aux divers besoins de l'industrie. De plus, la suppression de la perte focale de distribution (DFL) dans Ultralytics modernes simplifie le graphe de calcul, garantissant une exportation plus fluide vers les NPU et TPU intégrés.
Pour une annotation des données et une gestion des modèles fluides, la Ultralytics fournit un environnement cloud complet permettant de superviser l'ensemble du cycle de vie de l'apprentissage automatique, ce qui en fait le choix idéal pour déployer des solutions de vision par ordinateur robustes en production.