Passer au contenu

RTDETRv2 vsYOLO: guide complet sur la détection d'objets en temps réel moderne

Le domaine de la vision par ordinateur est en constante évolution, les chercheurs et les ingénieurs s'efforçant de créer des modèles qui offrent un équilibre parfait entre vitesse, précision et efficacité. Deux architectures de premier plan ont fait beaucoup de bruit dans ce domaine : RTDETRv2, développée par Baidu, etYOLO, conçue par Alibaba Group. Ces deux modèles repoussent les limites de la détection d'objets en temps réel, mais ils adoptent des philosophies architecturales fondamentalement différentes pour obtenir leurs résultats impressionnants.

Dans cette comparaison technique, nous allons examiner en détail leurs architectures, leurs méthodologies d'entraînement et leurs capacités de déploiement dans le monde réel. Nous allons également comparer ces modèles à l'écosystème plus large, en particulier à la Ultralytics hautement optimisée et à l'architecture de pointe YOLO26.

Innovations architecturales

Il est essentiel que les ingénieurs en apprentissage automatique chargés de sélectionner l'outil adapté aux environnements de production comprennent les mécanismes fondamentaux de ces modèles.

RTDETRv2 : L’approche Transformer

S'appuyant sur le succès de l'original RT-DETR, RTDETRv2 utilise un encodeur hybride et un décodeur transformeur. Cette conception permet au modèle de traiter le contexte global de manière très efficace, le rendant exceptionnellement performant pour distinguer les objets superposés dans des scènes denses. L'avantage le plus significatif de cette architecture est sa conception native sans NMS (Non-Maximum Suppression). En éliminant l'étape de post-traitement NMS, RTDETRv2 rationalise le pipeline d'inférence et assure une latence plus stable sur diverses configurations matérielles.

En savoir plus sur RTDETRv2

DAMO-YOLO : Améliorer l'efficacité des CNN.

DAMO-YOLO, d'autre part, reste ancré dans la lignée très réussie des CNN basés sur les YOLO, mais introduit plusieurs améliorations révolutionnaires. Il tire parti de la recherche d'architecture neuronale (NAS) pour optimiser son backbone, garantissant une efficacité maximale d'extraction des caractéristiques. De plus, il intègre un RepGFPN efficace (Reparameterized Generalized Feature Pyramid Network) et une conception ZeroHead, ainsi que des techniques d'amélioration par AlignedOTA et distillation. Ces innovations permettent à DAMO-YOLO d'atteindre des vitesses d'inférence rapides tout en maintenant un score mAPval très compétitif.

En savoir plus sur DAMO-YOLO

Divergence architecturale

Alors que RTDETRv2 se concentre sur l'exploitation des mécanismes d'attention pour la compréhension globale des caractéristiques sans NMS,YOLO l'efficacité des CNN traditionnels grâce au NAS et à une distillation avancée, nécessitant un post-traitement standard mais offrant des avantages distincts en termes de vitesse sur certains matériels.

Comparaison des performances et des indicateurs

Lors de l'évaluation des modèles en vue de leur déploiement, les indicateurs de performance tels que la précision moyenne (mAP), la vitesse d'inférence et le nombre de paramètres sont primordiaux. Vous trouverez ci-dessous une comparaison détaillée des deux familles de modèles.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Analyse des résultats

Comme le montre le tableau, le RTDETRv2-x atteint la plus haute précision avec un mAPval de 54,3, démontrant la puissance de l'architecture de transformeur sur des validations complexes comme le jeu de données COCO. Cependant, cela s'accompagne d'un coût en paramètres (76M) et en FLOPs significativement plus élevés.

Inversement, DAMO-YOLOt (Tiny) est exceptionnellement léger, ne nécessitant que 8,5 millions de paramètres, ce qui en fait une option incroyablement rapide pour les environnements où la mémoire CUDA est sévèrement limitée. DAMO-YOLO offre généralement un compromis favorable entre vitesse et précision pour les appareils périphériques (edge devices) hérités.

Écosystème, utilisabilité et l'avantage Ultralytics

Si des référentiels indépendants tels que RT-DETR YOLO officiels RT-DETR et YOLO fournissent le code brut permettant d'entraîner ces modèles, leur intégration dans les pipelines de production nécessite souvent un code standardisé important et une optimisation manuelle.

C'est là que Ultralytics simplifie considérablement l'expérience des développeurs. Ultralytics des modèles tels que RTDETRv2 directement dans son API unifiée, permettant aux utilisateurs de former, valider et exporter des modèles à l'aide d'une seule ligne de code. De plus, Ultralytics sont connus pour leurs besoins en mémoire minimaux pendant la formation, comparativement aux référentiels autonomes lourds basés sur des transformateurs.

Exemple de code : intégration transparente

Voici à quel point il est facile d'utiliser laPython Ultralytics pour exécuter une inférence. L'API reste cohérente, que vous utilisiez un modèle de transformateur ou un CNN de pointe.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

Exportation de modèles pour la production

Grâce à Ultralytics , vous pouvez facilement Exportez vos modèles entraînés vers des formats tels que TensorRT, ONNX ou CoreML une simple commande. model.export(format="engine") commande, réduisant drastiquement la friction de déploiement.

Cas d'utilisation idéaux

Le choix entre ces architectures dépend entièrement des exigences spécifiques de votre projet :

  • RTDETRv2 excelle dans le traitement côté serveur où la VRAM est abondante. Sa conscience contextuelle globale est parfaite pour l'imagerie médicale et l'analyse de foules denses où les occlusions sont fréquentes.
  • DAMO-YOLO est parfaitement adapté aux applications IoT embarquées et aux lignes d'inspection industrielle à grande vitesse où un faible nombre de paramètres et un FPS élevé sont des exigences strictes.

L'avenir : Ultralytics

Bien que RTDETRv2 etYOLO tous deux leurs mérites, le domaine de la vision par ordinateur évolue rapidement. Pour les nouveaux projets, la dernière version d'Ultralytics YOLO26 est la solution la plus adaptée. Ultralytics représente la synthèse ultime entre vitesse, précision et expérience développeur.

YOLO26 adopte une conception NMS de bout en bout, tirant parti des principaux avantages des transformateurs sans la charge de calcul massive. Il intègre l'optimiseurinnovant MuSGD, inspiré de l'entraînement des grands modèles linguistiques, pour une convergence stable et rapide. De plus, grâce à la suppression du DFL (Distribution Focal Loss, pour une exportation simplifiée et une meilleure compatibilité avec les appareils périphériques/à faible consommation d'énergie), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le champion incontesté de l'informatique périphérique. En outre, ProgLoss + STAL offre des fonctions de perte améliorées avec des progrès notables dans la reconnaissance des petits objets, essentielle pour l'IoT, la robotique et l'imagerie aérienne.

Contrairement aux modèles strictement limités aux boîtes englobantes, la famille YOLO26 offre une polyvalence inégalée, prenant en charge des tâches allant de la segmentation d'instances et l'estimation de poses aux boîtes englobantes orientées (OBB), le tout géré de manière transparente via la Ultralytics intuitive Ultralytics .

Découvrez YOLO26 sur la plateforme

Détails du modèle et références

RTDETRv2

  • Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
  • Organisation :Baidu
  • Date : 2024-07-24
  • Arxiv :2407.17140
  • GitHub :Dépôt RT-DETR

DAMO-YOLO

Pour les utilisateurs souhaitant explorer d'autres comparaisons, consultez nos guides sur RTDETRv2 vs YOLO11 ou YOLO YOLOv8 afin de découvrir les performances de ces modèles par rapport aux générations précédentes de la Ultralytics .


Commentaires