RTDETRv2 vs YOLOv9: comparaison entre les transformateurs de détection en temps réel et les CNN
Le domaine de la vision par ordinateur a connu une divergence fascinante dans les philosophies architecturales, principalement entre les réseaux neuronaux convolutifs (CNN) et les modèles basés sur les transformateurs. Lorsqu'ils comparent RTDETRv2 et YOLOv9, les développeurs évaluent essentiellement les compromis entre les mécanismes d'attention globale et les informations de gradient programmables. Les deux modèles représentent le summum de leurs paradigmes respectifs, repoussant les limites de la détection d'objets en temps réel.
Introduction aux modèles
RTDETRv2 : Transformer de détection en temps réel
Développé par les chercheurs de Baidu, RTDETRv2 s'appuie sur le RT-DETR original RT-DETR introduisant un « Bag-of-Freebies » afin d'améliorer le transformateur de détection en temps réel de base. Il s'attaque au goulot d'étranglement traditionnel des transformateurs, à savoir la vitesse d'inférence, les rendant ainsi viables pour les applications en temps réel.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2024-07-24
- Liens :Arxiv, GitHub
Une caractéristique déterminante de RTDETRv2 est sa conception native de bout en bout NMS. En supprimant complètement la suppression non maximale (NMS) pendant le post-traitement, le modèle stabilise la latence d'inférence et simplifie le pipeline de déploiement. Le mécanisme d'attention global permet au modèle d'exceller dans la compréhension de scènes complexes et de foules denses, car il évalue simultanément l'ensemble du contexte de l'image.
YOLOv9 : Informations de gradient programmables
YOLOv9, une architecture hautement efficace basée sur CNN, s'attaque au problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux profonds. Elle introduit les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN).
- Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
- Organisation :Institute of Information Science, Academia Sinica
- Date : 21 février 2024
- Liens :Arxiv, GitHub
YOLOv9 sur les fondements éprouvés des réseaux neuronaux convolutifs, mais optimise l'efficacité des paramètres. En conservant les informations cruciales pendant le processus d'alimentation vers l'avant, il garantit des mises à jour fiables des poids, ce qui se traduit par un modèle incroyablement léger mais très précis. Cependant, contrairement à RTDETRv2, YOLOv9 s'appuie YOLOv9 sur NMS standard.
Performance et efficacité des ressources
Lors de l'évaluation de ces modèles pour la production, il est essentiel de trouver un équilibre entre la précision moyenne (mAP) et le coût de calcul. Le tableau ci-dessous illustre leurs performances sur COCO MS COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Besoins en mémoire et efficacité de l'apprentissage
Les transformateurs tels que RTDETRv2 sont connus pour être très gourmands en mémoire pendant l'entraînement, nécessitant souvent CUDA importante et des programmes d'entraînement plus longs pour converger pleinement. À l'inverse, les architectures CNN telles que YOLOv9 d'autres YOLO Ultralytics YOLO offrent une utilisation de mémoire exceptionnellement faible, permettant aux développeurs de s'entraîner avec des lots plus importants sur du matériel grand public.
Entraînement efficace
Pour optimiser l'utilisation du matériel, envisagez d'utiliser la Ultralytics pour rationaliser la formation au cloud. Elle gère automatiquement la configuration de l'environnement et le dimensionnement optimal des lots.
Ultralytics : écosystème et facilité d'utilisation
Si la recherche dans des référentiels autonomes tels que les pages YOLOv9 officielles RTDETRv2 ou YOLOv9 peut être très instructive, les environnements de production exigent stabilité, facilité d'utilisation et un écosystème bien entretenu. L'intégration de ces modèles via Python Ultralytics offre une expérience de développement fluide.
API unifiée et polyvalence
Ultralytics simplifie les complexités liées au chargement des données, aux augmentations et à la formation distribuée. De plus, alors que le RTDETRv2 original se concentre strictement sur la détection, Ultralytics permet aux utilisateurs de passer facilement de la détection d'objets à la segmentation d'instances et à l'estimation de poses.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")
Avec une documentation robuste, un suivi automatique des expériences et des capacités d'exportation transparentes vers des formats tels que ONNX, TensorRTet OpenVINO, Ultralytics réduit Ultralytics le temps nécessaire entre le prototype et la production.
Cas d'utilisation idéaux
Les domaines dans lesquels RTDETRv2 excelle
Grâce à son mécanisme d'attention global, RTDETRv2 est un outil puissant pour le traitement côté serveur et les environnements où le contexte global est primordial. Il excelle dans les domaines suivants :
- Imagerie médicale : identification d'anomalies subtiles dans un contexte où l'environnement est déterminant.
- Surveillance aérienne : repérage de petits objets dans des images haute résolution prises par drone sans les biais spatiaux des convolutions CNN traditionnelles.
- Analyse de foules denses : suivi des individus dans des situations où une occlusion importante perturbe généralement les modèles basés sur des ancrages.
YOLOv9 de YOLOv9
YOLOv9 le champion des déploiements en périphérie avec des ressources limitées. Son efficacité computationnelle le rend idéal pour :
- Robotique : navigation en temps réel et évitement d'obstacles nécessitant une latence minimale.
- IoT pour les villes intelligentes : déploiement sur des appareils périphériques tels que NVIDIA pour la surveillance du trafic.
- Inspection industrielle : contrôle qualité sur chaîne de montage à grande vitesse nécessitant un nombre élevé d'images par seconde (FPS).
L'avenir : découvrez Ultralytics
Si YOLOv9 RTDETRv2 représentent des avancées considérables, le paysage a évolué rapidement. Pour les déploiements modernes, le tout nouveau Ultralytics représente la synergie ultime des deux philosophies architecturales.
En reprenant les meilleurs aspects des transformateurs et des CNN, YOLO26 établit une nouvelle norme :
- Conception NMS de bout en bout : tout comme RTDETRv2, YOLO26 est nativement de bout en bout, éliminant complètement NMS pour des pipelines de déploiement plus rapides, plus simples et hautement prévisibles.
- Optimiseur MuSGD : inspiré des techniques d'entraînement des grands modèles linguistiques (LLM) (tels que Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD Muon. Cela apporte une stabilité d'entraînement inégalée et une convergence rapide à la vision par ordinateur.
- CPU jusqu'à 43 % plus rapide : contrairement aux transformateurs lourds, YOLO26 est fortement optimisé pour l'informatique en périphérie et les appareils sans GPU.
- Suppression DFL : la suppression de la perte focale de distribution simplifie considérablement le graphe du modèle, garantissant une exportation sans faille vers des périphériques de pointe à faible consommation d'énergie et des unités de traitement neuronal (NPU) intégrées.
- ProgLoss + STAL : ces fonctions de perte améliorées optimisent considérablement la reconnaissance des petits objets, une fonctionnalité essentielle pour les ensembles de données IoT et aériennes.
Pour les équipes qui souhaitent se lancer dans un nouveau projet de vision par ordinateur, nous recommandons vivement d'évaluer YOLO26. Il offre l'élégance d'un transformateur NMS, avec la vitesse fulgurante et l'efficacité d'entraînement d'une YOLO hautement optimisée.
Résumé
Le choix entre RTDETRv2 et YOLOv9 dépend YOLOv9 de votre matériel de déploiement et de vos besoins spécifiques en matière de précision. RTDETRv2 offre une précision et une prise en compte du contexte de pointe pour les applications basées sur serveur, tandis que YOLOv9 une efficacité exceptionnelle pour les appareils périphériques.
Cependant, en tirant parti de Ultralytics mature Ultralytics , les développeurs peuvent facilement expérimenter les deux. De plus, avec l'introduction de nouveaux modèles tels que YOLO11 et le modèle natif de bout en bout YOLO26, il n'a jamais été aussi facile de trouver l'équilibre parfait entre une inférence à grande vitesse, une prise en charge polyvalente des tâches et une faible consommation de mémoire.