RTDETRv2 vs YOLOv9: comparaison entre les transformateurs de détection en temps réel et les CNN

Le domaine de la vision par ordinateur a connu une divergence fascinante dans les philosophies architecturales, principalement entre les réseaux neuronaux convolutifs (CNN) et les modèles basés sur les transformateurs. Lorsqu'ils comparent RTDETRv2 et YOLOv9, les développeurs évaluent essentiellement les compromis entre les mécanismes d'attention globale et les informations de gradient programmables. Les deux modèles représentent le summum de leurs paradigmes respectifs, repoussant les limites de la détection d'objets en temps réel.

Introduction aux modèles

RTDETRv2 : Transformer de détection en temps réel

Développé par des chercheurs de Baidu, RTDETRv2 s'appuie sur le RT-DETR original en introduisant un « Bag-of-Freebies » pour améliorer le transformeur de détection en temps réel de base. Il s'attaque au goulot d'étranglement traditionnel des transformeurs — la vitesse d'inférence — les rendant viables pour les applications en temps réel.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation :Baidu
Date : 2024-07-24
Liens :Arxiv, GitHub

Une caractéristique distinctive de RTDETRv2 est sa conception native de bout en bout sans NMS. En supprimant complètement la Non-Maximum Suppression (NMS) lors du post-traitement, le modèle stabilise la latence d'inférence et simplifie le pipeline de déploiement. Le mécanisme d'attention globale permet au modèle d'exceller dans la compréhension de scènes complexes et de foules denses, car il évalue simultanément l'intégralité du contexte de l'image.

En savoir plus sur RTDETRv2

YOLOv9 : Informations de gradient programmables

YOLOv9, une architecture hautement efficace basée sur CNN, s'attaque au problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux profonds. Elle introduit les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN).

Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
Organisation :Institute of Information Science, Academia Sinica
Date : 21 février 2024
Liens :Arxiv, GitHub

YOLOv9 sur les fondements éprouvés des réseaux neuronaux convolutifs, mais optimise l'efficacité des paramètres. En conservant les informations cruciales pendant le processus d'alimentation vers l'avant, il garantit des mises à jour fiables des poids, ce qui se traduit par un modèle incroyablement léger mais très précis. Cependant, contrairement à RTDETRv2, YOLOv9 s'appuie YOLOv9 sur NMS standard.

En savoir plus sur YOLOv9

Performance et efficacité des ressources

Lors de l'évaluation de ces modèles pour la production, il est essentiel de trouver un équilibre entre la précision moyenne (mAP) et le coût de calcul. Le tableau ci-dessous illustre leurs performances sur COCO MS COCO .

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Besoins en mémoire et efficacité de l'apprentissage

Les transformateurs tels que RTDETRv2 sont connus pour être très gourmands en mémoire pendant l'entraînement, nécessitant souvent CUDA importante et des programmes d'entraînement plus longs pour converger pleinement. À l'inverse, les architectures CNN telles que YOLOv9 d'autres YOLO Ultralytics YOLO offrent une utilisation de mémoire exceptionnellement faible, permettant aux développeurs de s'entraîner avec des lots plus importants sur du matériel grand public.

Entraînement efficace

Pour optimiser l'utilisation du matériel, envisagez d'utiliser la Ultralytics pour rationaliser la formation au cloud. Elle gère automatiquement la configuration de l'environnement et le dimensionnement optimal des lots.

Ultralytics : écosystème et facilité d'utilisation

Si la recherche dans des référentiels autonomes tels que les pages YOLOv9 officielles RTDETRv2 ou YOLOv9 peut être très instructive, les environnements de production exigent stabilité, facilité d'utilisation et un écosystème bien entretenu. L'intégration de ces modèles via Python Ultralytics offre une expérience de développement fluide.

API unifiée et polyvalence

Ultralytics simplifie les complexités liées au chargement des données, aux augmentations et à la formation distribuée. De plus, alors que le RTDETRv2 original se concentre strictement sur la détection, Ultralytics permet aux utilisateurs de passer facilement de la détection d'objets à la segmentation d'instances et à l'estimation de poses.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

Avec une documentation robuste, un suivi automatique des expériences et des capacités d'exportation transparentes vers des formats tels que ONNX, TensorRTet OpenVINO, Ultralytics réduit Ultralytics le temps nécessaire entre le prototype et la production.

Cas d'utilisation idéaux

Les domaines dans lesquels RTDETRv2 excelle

Grâce à son mécanisme d'attention global, RTDETRv2 est un outil puissant pour le traitement côté serveur et les environnements où le contexte global est primordial. Il excelle dans les domaines suivants :

Imagerie médicale : Identification d'anomalies subtiles où le contexte environnant est critique.
Surveillance aérienne : Repérer de petits objets dans des séquences de drone haute résolution sans les biais spatiaux des convolutions CNN traditionnelles.
Analyse de foule dense : Suivi des individus là où une occlusion sévère perturbe normalement les modèles basés sur des ancres.

YOLOv9 de YOLOv9

YOLOv9 le champion des déploiements en périphérie avec des ressources limitées. Son efficacité computationnelle le rend idéal pour :

Robotique : Navigation en temps réel et évitement d'obstacles où une latence minimale est requise.
IoT des Villes Intelligentes: Déploiement sur des appareils périphériques comme le NVIDIA Jetson pour la surveillance du trafic.
Inspection Industrielle : Contrôle qualité sur les lignes d'assemblage à grande vitesse nécessitant un nombre élevé d'images par seconde (FPS).

L'avenir : découvrez Ultralytics

Si YOLOv9 RTDETRv2 représentent des avancées considérables, le paysage a évolué rapidement. Pour les déploiements modernes, le tout nouveau Ultralytics représente la synergie ultime des deux philosophies architecturales.

En combinant les meilleurs aspects des transformeurs et des CNN, YOLO26 établit une nouvelle norme :

Conception de bout en bout sans NMS : À l'instar de RTDETRv2, YOLO26 est nativement de bout en bout, éliminant complètement le post-traitement NMS pour des pipelines de déploiement plus rapides, plus simples et hautement prévisibles.
Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles linguistiques (LLM) (telles que Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et Muon. Cela apporte une stabilité d'entraînement inégalée et une convergence rapide à la vision par ordinateur.
Jusqu'à 43 % plus rapide pour l'inférence CPU : Contrairement aux transformeurs lourds, YOLO26 est fortement optimisé pour l'edge computing et les appareils sans GPU.
Suppression du DFL : La suppression de la Distribution Focal Loss simplifie considérablement le graphe du modèle, assurant une exportation impeccable vers les appareils périphériques à faible consommation et les unités de traitement neuronal (NPU) embarquées.
ProgLoss + STAL: Ces fonctions de perte améliorées améliorent drastiquement la reconnaissance des petits objets, une caractéristique essentielle pour l'IoT et les ensembles de données aériennes.

Pour les équipes qui souhaitent se lancer dans un nouveau projet de vision par ordinateur, nous recommandons vivement d'évaluer YOLO26. Il offre l'élégance d'un transformateur NMS, avec la vitesse fulgurante et l'efficacité d'entraînement d'une YOLO hautement optimisée.

En savoir plus sur YOLO26

Résumé

Le choix entre RTDETRv2 et YOLOv9 dépend en grande partie de votre matériel de déploiement et de vos besoins spécifiques en matière de précision. RTDETRv2 offre une précision de pointe et une conscience contextuelle pour les applications basées sur serveur, tandis que YOLOv9 offre une efficacité exceptionnelle pour les appareils périphériques.

Cependant, en tirant parti de Ultralytics mature Ultralytics , les développeurs peuvent facilement expérimenter les deux. De plus, avec l'introduction de nouveaux modèles tels que YOLO11 et le modèle natif de bout en bout YOLO26, il n'a jamais été aussi facile de trouver l'équilibre parfait entre une inférence à grande vitesse, une prise en charge polyvalente des tâches et une faible consommation de mémoire.