RTDETRv2 vs YOLOv9: comparaison entre les transformateurs de détection en temps réel et les CNN
Le domaine de la vision par ordinateur a connu une divergence fascinante dans les philosophies architecturales, principalement entre les réseaux neuronaux convolutifs (CNN) et les modèles basés sur les transformateurs. Lorsqu'ils comparent RTDETRv2 et YOLOv9, les développeurs évaluent essentiellement les compromis entre les mécanismes d'attention globale et les informations de gradient programmables. Les deux modèles représentent le summum de leurs paradigmes respectifs, repoussant les limites de la détection d'objets en temps réel.
Introduction aux modèles
RTDETRv2 : Transformer de détection en temps réel
Développé par des chercheurs de Baidu, RTDETRv2 s'appuie sur le RT-DETR original en introduisant un « Bag-of-Freebies » pour améliorer le transformeur de détection en temps réel de base. Il s'attaque au goulot d'étranglement traditionnel des transformeurs — la vitesse d'inférence — les rendant viables pour les applications en temps réel.
- Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
- Organisation :Baidu
- Date : 2024-07-24
- Liens :Arxiv, GitHub
Une caractéristique distinctive de RTDETRv2 est sa conception native de bout en bout sans NMS. En supprimant complètement la Non-Maximum Suppression (NMS) lors du post-traitement, le modèle stabilise la latence d'inférence et simplifie le pipeline de déploiement. Le mécanisme d'attention globale permet au modèle d'exceller dans la compréhension de scènes complexes et de foules denses, car il évalue simultanément l'intégralité du contexte de l'image.
YOLOv9 : Informations de gradient programmables
YOLOv9, une architecture hautement efficace basée sur CNN, s'attaque au problème du goulot d'étranglement informationnel inhérent aux réseaux neuronaux profonds. Elle introduit les informations de gradient programmables (PGI) et le réseau d'agrégation de couches généralisé et efficace (GELAN).
- Auteurs : Chien-Yao Wang et Hong-Yuan Mark Liao
- Organisation :Institute of Information Science, Academia Sinica
- Date : 21 février 2024
- Liens :Arxiv, GitHub
YOLOv9 sur les fondements éprouvés des réseaux neuronaux convolutifs, mais optimise l'efficacité des paramètres. En conservant les informations cruciales pendant le processus d'alimentation vers l'avant, il garantit des mises à jour fiables des poids, ce qui se traduit par un modèle incroyablement léger mais très précis. Cependant, contrairement à RTDETRv2, YOLOv9 s'appuie YOLOv9 sur NMS standard.
Performance et efficacité des ressources
Lors de l'évaluation de ces modèles pour la production, il est essentiel de trouver un équilibre entre la précision moyenne (mAP) et le coût de calcul. Le tableau ci-dessous illustre leurs performances sur COCO MS COCO .
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Besoins en mémoire et efficacité de l'apprentissage
Les transformateurs tels que RTDETRv2 sont connus pour être très gourmands en mémoire pendant l'entraînement, nécessitant souvent CUDA importante et des programmes d'entraînement plus longs pour converger pleinement. À l'inverse, les architectures CNN telles que YOLOv9 d'autres YOLO Ultralytics YOLO offrent une utilisation de mémoire exceptionnellement faible, permettant aux développeurs de s'entraîner avec des lots plus importants sur du matériel grand public.
Entraînement efficace
Pour optimiser l'utilisation du matériel, envisagez d'utiliser la Ultralytics pour rationaliser la formation au cloud. Elle gère automatiquement la configuration de l'environnement et le dimensionnement optimal des lots.
Ultralytics : écosystème et facilité d'utilisation
Si la recherche dans des référentiels autonomes tels que les pages YOLOv9 officielles RTDETRv2 ou YOLOv9 peut être très instructive, les environnements de production exigent stabilité, facilité d'utilisation et un écosystème bien entretenu. L'intégration de ces modèles via Python Ultralytics offre une expérience de développement fluide.
API unifiée et polyvalence
Ultralytics simplifie les complexités liées au chargement des données, aux augmentations et à la formation distribuée. De plus, alors que le RTDETRv2 original se concentre strictement sur la détection, Ultralytics permet aux utilisateurs de passer facilement de la détection d'objets à la segmentation d'instances et à l'estimation de poses.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")
Avec une documentation robuste, un suivi automatique des expériences et des capacités d'exportation transparentes vers des formats tels que ONNX, TensorRTet OpenVINO, Ultralytics réduit Ultralytics le temps nécessaire entre le prototype et la production.
Cas d'utilisation idéaux
Les domaines dans lesquels RTDETRv2 excelle
Grâce à son mécanisme d'attention global, RTDETRv2 est un outil puissant pour le traitement côté serveur et les environnements où le contexte global est primordial. Il excelle dans les domaines suivants :
- Imagerie médicale : Identification d'anomalies subtiles où le contexte environnant est critique.
- Surveillance aérienne : Repérer de petits objets dans des séquences de drone haute résolution sans les biais spatiaux des convolutions CNN traditionnelles.
- Analyse de foule dense : Suivi des individus là où une occlusion sévère perturbe normalement les modèles basés sur des ancres.
YOLOv9 de YOLOv9
YOLOv9 le champion des déploiements en périphérie avec des ressources limitées. Son efficacité computationnelle le rend idéal pour :
- Robotique : Navigation en temps réel et évitement d'obstacles où une latence minimale est requise.
- IoT des Villes Intelligentes: Déploiement sur des appareils périphériques comme le NVIDIA Jetson pour la surveillance du trafic.
- Inspection Industrielle : Contrôle qualité sur les lignes d'assemblage à grande vitesse nécessitant un nombre élevé d'images par seconde (FPS).
L'avenir : découvrez Ultralytics
Si YOLOv9 RTDETRv2 représentent des avancées considérables, le paysage a évolué rapidement. Pour les déploiements modernes, le tout nouveau Ultralytics représente la synergie ultime des deux philosophies architecturales.
En combinant les meilleurs aspects des transformeurs et des CNN, YOLO26 établit une nouvelle norme :
- Conception de bout en bout sans NMS : À l'instar de RTDETRv2, YOLO26 est nativement de bout en bout, éliminant complètement le post-traitement NMS pour des pipelines de déploiement plus rapides, plus simples et hautement prévisibles.
- Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles linguistiques (LLM) (telles que Kimi K2 de Moonshot AI), YOLO26 utilise un hybride de SGD et Muon. Cela apporte une stabilité d'entraînement inégalée et une convergence rapide à la vision par ordinateur.
- Jusqu'à 43 % plus rapide pour l'inférence CPU : Contrairement aux transformeurs lourds, YOLO26 est fortement optimisé pour l'edge computing et les appareils sans GPU.
- Suppression du DFL : La suppression de la Distribution Focal Loss simplifie considérablement le graphe du modèle, assurant une exportation impeccable vers les appareils périphériques à faible consommation et les unités de traitement neuronal (NPU) embarquées.
- ProgLoss + STAL: Ces fonctions de perte améliorées améliorent drastiquement la reconnaissance des petits objets, une caractéristique essentielle pour l'IoT et les ensembles de données aériennes.
Pour les équipes qui souhaitent se lancer dans un nouveau projet de vision par ordinateur, nous recommandons vivement d'évaluer YOLO26. Il offre l'élégance d'un transformateur NMS, avec la vitesse fulgurante et l'efficacité d'entraînement d'une YOLO hautement optimisée.
Résumé
Le choix entre RTDETRv2 et YOLOv9 dépend en grande partie de votre matériel de déploiement et de vos besoins spécifiques en matière de précision. RTDETRv2 offre une précision de pointe et une conscience contextuelle pour les applications basées sur serveur, tandis que YOLOv9 offre une efficacité exceptionnelle pour les appareils périphériques.
Cependant, en tirant parti de Ultralytics mature Ultralytics , les développeurs peuvent facilement expérimenter les deux. De plus, avec l'introduction de nouveaux modèles tels que YOLO11 et le modèle natif de bout en bout YOLO26, il n'a jamais été aussi facile de trouver l'équilibre parfait entre une inférence à grande vitesse, une prise en charge polyvalente des tâches et une faible consommation de mémoire.