Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 vs EfficientDet#

Le choix de l'architecture de réseau de neurones optimale est déterminant pour tout projet de vision par ordinateur. Cette comparaison technique approfondie dissèque deux modèles de détection d'objets influents : RTDETRv2, un détecteur de pointe basé sur les Transformer, et EfficientDet, un réseau de neurones convolutifs hautement évolutif. Nous évaluerons leurs architectures distinctes, leurs métriques de performance, leurs méthodologies d'entraînement et leurs scénarios de déploiement idéaux pour t'aider à prendre des décisions basées sur les données pour tes pipelines IA.

Link to this sectionRTDETRv2 : Le Transformer de détection en temps réel#

S'appuyant sur le succès du RT-DETR original, RTDETRv2 affine le paradigme de détection d'objets basé sur les Transformer. En optimisant les structures d'encodeur et de décodeur, il offre une grande précision tout en maintenant des vitesses d'inférence en temps réel, comblant efficacement le fossé entre les CNN traditionnels et les vision transformers.

Détails du modèle Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu Date : 24-07-2024 Liens : Arxiv, GitHub, Docs

Link to this sectionArchitecture et points forts#

RTDETRv2 utilise une architecture hybride qui associe un puissant backbone CNN (souvent ResNet ou HGNet) à un décodeur Transformer efficace. La caractéristique la plus marquante de RTDETRv2 est sa capacité native à contourner la suppression des non-maxima (NMS). Les détecteurs traditionnels nécessitent le NMS pour filtrer les boîtes englobantes en double, ce qui ajoute une latence d'inférence variable lors du post-traitement. RTDETRv2 formule la détection comme un problème de prédiction d'ensemble direct, utilisant l'appariement biparti pour générer des prédictions uniques.

Ce modèle excelle dans les déploiements côté serveur où la mémoire GPU est abondante. Son mécanisme d'attention globale offre une conscience contextuelle exceptionnelle, ce qui le rend très apte à séparer les objets qui se chevauchent dans des environnements denses et encombrés, comme les systèmes d'alarme de sécurité automatisés ou la surveillance de foules denses.

Link to this sectionLimites#

Bien que puissantes, les architectures Transformer exigent intrinsèquement plus de mémoire CUDA pendant l'entraînement par rapport aux CNN standards. De plus, le réglage fin de RTDETRv2 peut nécessiter des temps de convergence des données d'entraînement prolongés, ce qui rend le prototypage rapide légèrement plus gourmand en ressources.

En savoir plus sur RTDETRv2

Link to this sectionEfficientDet : CNN évolutifs et efficaces#

EfficientDet a introduit une famille de modèles de détection d'objets optimisés à la fois pour la précision et l'efficacité sur un large éventail de contraintes de ressources. Cela reste un exemple classique de conception de vision par ordinateur évolutive.

Détails du modèle Auteurs : Mingxing Tan, Ruoming Pang et Quoc V. Le
Organisation : Google
Date : 20-11-2019
Liens : Arxiv, GitHub, Docs

Link to this sectionArchitecture et points forts#

L'innovation derrière EfficientDet repose sur deux domaines clés : le Bi-directional Feature Pyramid Network (BiFPN) et une méthode de mise à l'échelle composée. Le BiFPN permet une extraction de caractéristiques multi-échelle simple et rapide en introduisant des poids apprenables pour évaluer l'importance des différentes caractéristiques d'entrée, tout en appliquant de manière répétée une fusion de caractéristiques multi-échelle ascendante et descendante. La méthode de mise à l'échelle composée ajuste uniformément la résolution, la profondeur et la largeur du réseau simultanément.

Les modèles EfficientDet vont du D0 ultra-léger au D7 massif. Cela les rend très polyvalents pour les déploiements d'IA en périphérie où tu dois équilibrer des budgets informatiques serrés avec des exigences de précision, comme dans les premières applications de réalité augmentée mobile.

Link to this sectionLimites#

EfficientDet est une architecture plus ancienne qui repose fortement sur les boîtes d'ancrage et le pipeline de post-traitement NMS traditionnel. Le processus de génération d'ancres nécessite un réglage des hyperparamètres minutieux, et l'étape NMS peut créer un goulot d'étranglement lors du déploiement sur du matériel embarqué comme un Raspberry Pi. Il manque également de support natif pour les tâches modernes telles que l'estimation de pose ou les boîtes englobantes orientées (OBB).

En savoir plus sur EfficientDet

Link to this sectionComparaison des performances et des mesures#

Comprendre les compromis exacts entre ces modèles nécessite d'analyser leur débit et l'efficacité de leurs paramètres. Le tableau ci-dessous décrit comment la série moderne RTDETRv2 se compare à la famille évolutive EfficientDet.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520,755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Comme on peut le voir ci-dessus, RTDETRv2 atteint une précision moyenne (mAP) nettement plus élevée pour un nombre de paramètres comparable aux modèles EfficientDet de milieu de gamme, utilisant fortement son architecture Transformer pour booster la précision.

Link to this sectionCas d'utilisation et recommandations#

Le choix entre RT-DETR et EfficientDet dépend des exigences spécifiques de ton projet, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.

Link to this sectionQuand choisir RT-DETR#

RT-DETR est un choix solide pour :

  • Recherche sur la détection basée sur les Transformers : Projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
  • Scénarios de haute précision avec latence flexible : Applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
  • Détection de grands objets : Scènes avec principalement des objets de taille moyenne à grande où le mécanisme d'attention globale des transformateurs offre un avantage naturel.

Link to this sectionQuand choisir EfficientDet#

EfficientDet est recommandé pour :

  • Pipelines Google Cloud et TPU : Systèmes profondément intégrés aux API Google Cloud Vision ou à l'infrastructure TPU, où EfficientDet bénéficie d'une optimisation native.
  • Recherche sur le Compound Scaling : Analyse comparative académique axée sur l'étude des effets de l'équilibre entre la profondeur, la largeur et la résolution du réseau.
  • Déploiement mobile via TFLite : Les projets qui nécessitent spécifiquement une exportation TensorFlow Lite pour Android ou des appareils Linux embarqués.

Link to this sectionQuand choisir Ultralytics (YOLO26)#

Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :

  • Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
  • Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
  • Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.

Link to this sectionL'alternative Ultralytics : Faire progresser l'état de l'art#

Bien que RTDETRv2 et EfficientDet présentent tous deux de solides mérites, le développement moderne de l'IA exige des frameworks qui offrent une expérience développeur fluide associée à des performances de pointe. L'écosystème Ultralytics fournit une approche nettement plus rationalisée des tâches de vision par ordinateur.

Si tu explores la détection de pointe, le Ultralytics YOLO26 récemment publié synthétise les meilleurs aspects des CNN et des Transformer.

Pourquoi choisir YOLO26 ?

YOLO26 implémente une conception de bout en bout sans NMS, apportant la simplicité de déploiement de RTDETRv2 à l'architecture ultra-efficace YOLO. De plus, il introduit l'optimiseur MuSGD—inspiré par les innovations en entraînement LLM—pour une stabilité d'entraînement supérieure. Avec la suppression de DFL (Distribution Focal Loss supprimée pour une exportation simplifiée et une meilleure compatibilité avec les périphériques edge/basse consommation), YOLO26 offre jusqu'à 43 % d'inférence CPU plus rapide que les générations précédentes, ce qui en fait un choix exceptionnel pour l'informatique en périphérie par rapport aux modèles plus lourds. En outre, ProgLoss + STAL fournit des fonctions de perte améliorées avec des avancées notables dans la reconnaissance de petits objets, essentielles pour l'IoT, la robotique et l'imagerie aérienne.

La facilité d'utilisation fournie par le package Python Ultralytics est inégalée. Tu peux entraîner, valider et exporter des modèles en utilisant une API intuitive qui abstrait le code passe-partout (boilerplate) généralement requis par les référentiels de recherche.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

Les modèles Ultralytics prennent nativement en charge plusieurs tâches, notamment la segmentation d'instances et la classification d'images, fournissant une boîte à outils polyvalente pour divers besoins industriels. De plus, la suppression de la Distribution Focal Loss (DFL) dans les modèles Ultralytics modernes simplifie le graphe de calcul, garantissant un export plus fluide vers les NPU et TPU embarqués.

Pour une annotation de données et une gestion de modèle fluides, la Plateforme Ultralytics fournit un environnement cloud complet pour superviser l'intégralité du cycle de vie du machine learning, l'établissant comme le choix privilégié pour déployer des solutions de vision par ordinateur robustes en production.

Commentaires