RTDETRv2 vs PP-YOLOE+ : comparaison technique des modèles de détection d'objets
Le domaine en pleine évolution de la vision par ordinateur a donné naissance à diverses approches architecturales visant à résoudre les défis complexes liés à la détection d'objets en temps réel. Parmi les avancées récentes les plus notables, on peut citer RTDETRv2 et PP-YOLOE+, deux modèles puissants qui abordent la reconnaissance visuelle à partir de philosophies de conception fondamentalement différentes. Si les deux modèles visent à fournir une détection haute performance, leurs mécanismes sous-jacents, leurs paradigmes d'entraînement et leurs scénarios de déploiement idéaux varient considérablement.
Ce guide complet explore les nuances techniques des deux modèles, en comparant leurs architectures, leurs indicateurs de performance et leur prise en charge de l'écosystème afin d'aider les développeurs et les chercheurs à choisir la solution optimale pour leurs besoins de déploiement spécifiques.
Aperçus des modèles
Avant d'analyser les données de performance, il est important de comprendre les origines et les objectifs architecturaux de chaque modèle. Tous deux proviennent des équipes de recherche de Baidu, mais ils représentent différentes branches de l'arbre généalogique de la détection d'objets.
RTDETRv2
RTDETRv2 représente une avancée significative dans les architectures de vision basées sur des transformateurs. S'appuyant sur le transformateur de détection en temps réel original, il exploite une structure de transformateur de vision flexible associée à un encodeur hybride efficace. Sa caractéristique la plus distinctive est sa capacité de prédiction native de bout en bout, qui élimine complètement le besoin de suppression non maximale (NMS) pendant le post-traitement.
Auteurs: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 24 juillet 2024
Arxiv : 2407.17140
GitHub : RT-DETR
PP-YOLOE+
PP-YOLOE+ est une version avancée de la YOLO , fortement optimisée pour les applications industrielles hautes performances. Elle dispose d'une architecture CNN évolutive avec une tête de détection sans ancrage. Conçue pour offrir un compromis exceptionnel entre vitesse et précision, elle introduit des techniques puissantes telles que la tête ET et une fonction de perte focale généralisée pour améliorer la détection des petits objets.
Auteur : PaddlePaddle
Organisation : Baidu
Date : 02/04/2022
Arxiv : 2203.16250
GitHub : Référentiel PaddleDetection
Intégration de l'écosystème
Bien que les deux modèles disposent de leurs propres référentiels de recherche autonomes, vous pouvez facilement tester RTDETRv2 directement dans le Python Ultralytics , en bénéficiant d'une API unifiée et d'options d'exportation simplifiées.
Différences architecturales
La différence fondamentale entre ces deux modèles réside dans la manière dont ils traitent le contexte visuel et génèrent des prédictions.
PP-YOLOE+ utilise une structure traditionnelle mais hautement optimisée de réseau neuronal convolutif (CNN). Il s'appuie sur des champs réceptifs locaux pour extraire des caractéristiques, ce qui le rend incroyablement rapide et efficace pour un déploiement standard. Cependant, il nécessite toujours NMS standard pour filtrer les boîtes englobantes qui se chevauchent, ce qui peut entraîner des goulots d'étranglement en termes de latence dans les scènes denses.
À l'inverse, RTDETRv2 utilise un encodeur hybride et un décodeur transformateur. Cela permet au modèle de capturer simultanément le contexte global de l'ensemble de l'image. Les mécanismes d'attention comprennent intrinsèquement les relations entre les objets, ce qui permet au modèle de produire directement des cadres de sélection finaux sans NMS. Cette approche de bout en bout garantit une latence d'inférence stable, quel que soit le nombre d'objets détectés.
Indicateurs de performance et comparaison
Lors de l'évaluation des mesuresYOLO , il est essentiel de trouver un équilibre entre la précision (mAP) et le coût de calcul (FLOP) et la vitesse d'inférence. Le tableau ci-dessous met en évidence les performances des deux modèles pour différentes tailles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Alors que PP-YOLOE+x atteint unmAPval légèrement supérieur de 54,7 % sur COCO , les modèles RTDETRv2 offrent généralement une précision compétitive avec l'avantage supplémentaire d'une latence constante grâce à leur conception NMS. Cependant, PP-YOLOE+ conserve un avantage certain en termes de nombre de paramètres et de FLOP pour les modèles plus petits, ce qui le rend très efficace pour les déploiements en périphérie.
Ultralytics : entrez YOLO26
Si RTDETRv2 et PP-YOLOE+ sont déjà très performants, les technologies de pointe continuent d'évoluer. Pour les développeurs à la recherche d'un équilibre parfait entre vitesse, précision et prise en charge de l'écosystème, Ultralytics représente la nouvelle norme industrielle.
YOLO26 synthétise les meilleurs aspects des CNN et des Transformers. Il adopte la conception End-to-End NMS mise au point par les architectures modernes, éliminant efficacement les goulots d'étranglement liés au post-traitement. De plus, il introduit le révolutionnaire MuSGD Optimizer, une approche hybride inspirée des innovations en matière de formation LLM qui garantit une formation très stable et une convergence rapide.
Optimisé pour la périphérie
Contrairement aux modèles de transformateurs lourds qui nécessitent CUDA importante, YOLO26 intègre la fonction DFL Removal (Distribution Focal Loss) et est spécialement optimisé pour l'edge computing, offrant CPU jusqu'à 43 % plus rapide que les générations précédentes.
De plus, YOLO26 ne se limite pas à la simple détection d'objets. Il est nativement polyvalent et prend en charge la segmentation d'instances, l'estimation de pose et les boîtes englobantes orientées (OBB) dès son installation, tandis que PP-YOLOE+ se concentre principalement sur la détection de boîtes englobantes.
Méthodologies de formation et écosystème
L'efficacité de la formation et la facilité d'utilisation sont les domaines dans lesquels Ultralytics se distingue véritablement par rapport aux référentiels de recherche autonomes. Alors que PP-YOLOE+ s'appuie sur le PaddlePaddle et que RTDETRv2 nécessite souvent des configurations d'environnement complexes, l'intégration de modèles via Ultralytics une expérience fluide.
Avec Ultralytics , vous bénéficiez d'une mémoire requise réduite pendant la formation, d'un traitement automatisé des ensembles de données et d'un réglage simplifié des hyperparamètres. De plus, le déploiement de modèles vers des formats de production tels que ONNX ou TensorRT peut être effectué à l'aide d'une seule commande.
Exemple de code : inférence simplifiée
Vous trouverez ci-dessous une démonstration de la facilité avec laquelle vous pouvez utiliser RTDETRv2 avec le modèle YOLO26 recommandé à l'aide duPython Ultralytics :
from ultralytics import RTDETR, YOLO
# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()
# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")
# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")
Applications concrètes et cas d'utilisation
Le choix entre ces architectures dépend souvent des exigences spécifiques en matière de matériel et d'applications.
- RTDETRv2 excelle dans les environnements côté serveur et la compréhension de scènes complexes. Son mécanisme d'attention globale le rend très efficace pour la gestion des foules et l'analyse d'images médicales denses, où le chevauchement d'objets entraîne généralement l'échec NMS standard.
- PP-YOLOE+ est particulièrement adapté à l'inspection industrielle à grande vitesse et aux environnements fortement investis dans PaddlePaddle . Son faible nombre de paramètres à petite échelle le rend viable pour certaines applications robotiques.
- Ultralytics est la solution universellement recommandée pour un déploiement commercial complet. Grâce à ses fonctions ProgLoss + STAL améliorées, elle améliore considérablement la reconnaissance des petits objets, essentielle pour les opérations aériennes par drone et la surveillance du trafic dans les villes intelligentes.
Cas d'utilisation et recommandations
Le choix entre RT-DETR PP-YOLOE+ dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.
Quand choisir RT-DETR
RT-DETR un choix judicieux pour :
- Recherche sur la détection basée sur les transformateurs : projets explorant les mécanismes d'attention et les architectures de transformateurs pour la détection d'objets de bout en bout sans NMS.
- Scénarios à haute précision avec latence flexible : applications où la précision de détection est la priorité absolue et où une latence d'inférence légèrement plus élevée est acceptable.
- Détection d'objets volumineux : scènes comportant principalement des objets de taille moyenne à grande, où le mécanisme d'attention globale des transformateurs offre un avantage naturel.
Quand choisir PP-YOLOE+
PP-YOLOE+ est recommandé pour :
- IntégrationPaddlePaddle : organisations disposant d'une infrastructure existante basée sur le cadre et les outils PaddlePaddle de Baidu.
- Déploiement Paddle Lite Edge : déploiement sur du matériel avec des noyaux d'inférence hautement optimisés spécialement conçus pour le moteur d'inférence Paddle Lite ou Paddle.
- Détection côté serveur haute précision : scénarios donnant la priorité à une précision de détection maximale sur GPU puissants où la dépendance au framework n'est pas un problème.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Conclusion
RTDETRv2 et PP-YOLOE+ ont tous deux repoussé les limites du possible en matière de vision par ordinateur, prouvant la viabilité des architectures Transformer et CNN hautement optimisées. Cependant, la complexité du déploiement de bases de code de recherche fragmentées peut entraver les délais de production.
Pour les ingénieurs en IA modernes, l'utilisation de la Ultralytics offre un avantage inégalé. En migrant vers des modèles parfaitement intégrés tels que YOLO11 ou le très récent YOLO26, les équipes peuvent atteindre les meilleurs rapports précision/vitesse possibles tout en réduisant considérablement les besoins en mémoire et les frais généraux de développement.