Passer au contenu

PP-YOLOE+ vs RTDETRv2 : comparaison entre deux méthodes de détection d'objets par apprentissage profond

La progression des architectures de détection d'objets a été marquée par une rivalité féroce entre les réseaux neuronaux convolutifs (CNN) et les modèles basés sur les transformateurs. Deux étapes importantes dans cette évolution sont PP-YOLOE+, un détecteur perfectionné basé sur les CNN issu de PaddlePaddle , et RTDETRv2, un transformateur de détection en temps réel à la pointe de la technologie.

Cette comparaison technique évalue leurs architectures, leurs mesures de performance et leur aptitude au déploiement afin d'aider les chercheurs et les ingénieurs à sélectionner le modèle optimal pour leurs applications spécifiques de vision par ordinateur.

Résumé

PP-YOLOE+ représente le summum de laYOLO , en se concentrant sur le perfectionnement des mécanismes sans ancrage et des stratégies d'attribution d'étiquettes dans un cadre CNN pur. Il excelle dans les environnements profondément intégrés au PaddlePaddle de Baidu, mais peut rencontrer des difficultés lors de l'exportation vers d'autres écosystèmes.

RTDETRv2 (Real-Time Detection Transformer v2) repousse les limites en introduisant un décodeur flexible et ajustable et en optimisant l'encodeur hybride. Il élimine avec succès le besoin de suppression non maximale (NMS), un goulot d'étranglement courant dans le post-traitement, en tirant parti des capacités d'attention globale des transformateurs.

Cependant, pour les développeurs à la recherche d'une solution unifiée qui combine la vitesse des CNN et la commodité des transformateurs NMS, sans la charge de calcul massive,Ultralytics offre une alternative supérieure. Avec sa conception native de bout en bout et CPU jusqu'à 43 % plus rapide, YOLO26 comble le fossé entre les serveurs hautes performances et les appareils périphériques.

PP-YOLOE+: La centrale CNN sans ancres

Sorti en 2022, PP-YOLOE+ est une version améliorée de PP-YOLOE, intégrant une structure solide et une attribution dynamique des étiquettes pour atteindre une précision compétitive.

Auteurs : PaddlePaddle
Organisation :Baidu
Date : 02/04/2022
Arxiv :2203.16250
GitHub :PaddleDetection

Points forts architecturaux

PP-YOLOE+ utilise CSPRepResStage, une structure qui combine les avantages du flux de gradient de CSPNet avec les techniques de reparamétrage observées dans RepVGG. Cela permet au modèle d'avoir une dynamique d'entraînement complexe qui se réduit à de simples convolutions pendant l'inférence, accélérant ainsi le déploiement.

Le modèle utilise une tête sans ancrage avec une stratégie d'apprentissage par alignement de tâches (TAL). Contrairement aux anciennes méthodes basées sur des ancrages qui s'appuient sur des boîtes prédéfinies, PP-YOLOE+ prédit le centre des objets et leur distance par rapport aux bords de la boîte englobante. Cela simplifie la recherche d'hyperparamètres et améliore la généralisation sur divers ensembles de données tels que COCO.

Contraintes héritées

Bien que PP-YOLOE+ offre des performances élevées, sa forte dépendance au PaddlePaddle peut compliquer les pipelines de déploiement standardisés sur PyTorch ONNX. Les utilisateurs ont souvent besoin de convertisseurs spécialisés pour transférer les modèles vers des plateformes périphériques.

En savoir plus sur PP-YOLOE+

RTDETRv2 : L’évolution du Transformer

RTDETRv2 s'appuie sur le succès du RT-DETR original, dans le but de prouver que les transformateurs peuvent surpasser les YOLO dans des scénarios en temps réel. Il résout le problème du coût de calcul élevé des transformateurs de vision (ViT) standard en utilisant un encodeur hybride qui traite efficacement les caractéristiques multi-échelles.

Auteurs : Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang et Yi Liu
Organisation : Baidu
Date : 17 avril 2023 (original), 24 juillet 2024 (version v2)
Arxiv :2304.08069
GitHub :RT-DETR

Points forts architecturaux

La principale innovation de RTDETRv2 réside dans son encodeur hybride et sa sélection de requêtesIoU. Les transformateurs traditionnels peinent à gérer la complexité quadratique des mécanismes d'attention lorsqu'ils traitent des cartes de caractéristiques à haute résolution. RTDETRv2 pallie ce problème en dissociant l'interaction intra-échelle et la fusion inter-échelle, ce qui réduit considérablement l'utilisation de la mémoire.

Il est important de noter que RTDETRv2 est un détecteur de bout en bout. Il utilise un Hungarian Matcher pendant l'entraînement pour attribuer les prédictions à la vérité terrain de manière individuelle. Cela signifie que la sortie du modèle ne nécessite aucun NMS , ce qui évite les pics de latence et le réglage des paramètres associés aux YOLO traditionnels.

En savoir plus sur RTDETR

Comparaison des performances

Le tableau suivant compare les performances des deux architectures. Alors que PP-YOLOE+ fait preuve d'efficacité avec un nombre de paramètres réduit, RTDETRv2 démontre une évolutivité supérieure à des tailles plus importantes, mais avec des exigences informatiques plus élevées (FLOP).

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

L'avantage Ultralytics : Pourquoi choisir YOLO26 ?

Si RTDETRv2 a introduit les avantages de la détection NMS, cela s'est fait au prix de l'utilisation de blocs de transformateurs lourds, souvent lents à entraîner et difficiles à déployer surGPU . Ultralytics révolutionne ce paysage en réalisant une détection de bout en bout NMS à l'aide d'une architecture CNN pure.

En adoptant une stratégie d'affectation double cohérente (CDA) pendant l'entraînement, YOLO26 apprend à supprimer les boîtes en double en interne. Cela élimine la surcharge d'inférence du NMS entraîner les pénalités de latence des transformateurs.

Principaux avantages de YOLO26

  1. Optimiseur MuSGD : inspiré par les innovations en matière de formation LLM telles que Kimi K2 de Moonshot AI, l'optimiseur MuSGD combine SGD Muon pour une convergence plus rapide et une formation stable, une fonctionnalité unique à la génération YOLO26.
  2. Efficacité optimisée : grâce à la suppression de la perte focale de distribution (DFL) et des couches d'attention complexes, YOLO26 atteint CPU jusqu'à 43 % plus rapide que les versions précédentes. Cela le rend idéal pour fonctionner sur Raspberry Pi ou sur des appareils mobiles où RTDETR rencontre des difficultés.
  3. Polyvalence des tâches : contrairement à PP-YOLOE+, qui est principalement un détecteur, YOLO26 prend en charge nativement l'estimation de pose, la segmentation d'instances et OBB dans une seule bibliothèque.
  4. ProgLoss + STAL : de nouvelles fonctions de perte améliorent la détection des petits objets, une faiblesse critique dans de nombreux modèles de transformateurs, rendant YOLO26 supérieur pour l'analyse d'images aériennes.

Flux de travail rationalisé grâce à Ultralytics

Oubliez les fichiers de configuration complexes. Vous pouvez former, versionner et déployer des modèles YOLO26 directement via la Ultralytics . L'écosystème gère tout, de l'annotation des ensembles de données à l'exportation en un clic pour TensorRT, CoreML et TFLite.

Exemple de code : Démarrer avec YOLO26

L'exécution du dernier modèle de pointe est incroyablement simple avecPython Ultralytics :

from ultralytics import YOLO

# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

# Export to ONNX for simplified deployment
model.export(format="onnx")

En savoir plus sur YOLO26

Cas d'utilisation idéaux

Quand utiliser PP-YOLOE+

  • Systèmes Paddle hérités : si votre infrastructure existante repose entièrement sur PaddlePaddle de Baidu, PP-YOLOE+ offre une mise à niveau native sans modification des frameworks.
  • CNN côté serveur : pour les scénarios où GPU est abondante, mais où la prise en charge des transformateurs (par exemple, TensorRT pour Multi-Head Attention) fait défaut dans l'environnement de déploiement.

Quand utiliser RTDETRv2

  • Scènes encombrées : le mécanisme d'attention global des transformateurs aide dans les scènes présentant une forte occlusion, où les CNN peuvent avoir du mal à séparer les objets qui se chevauchent.
  • Matériel fixe : convient aux GPU haut de gamme (tels que NVIDIA ou A100) où la surcharge liée à la multiplication matricielle des transformateurs est négligeable par rapport aux gains de précision.

Quand utiliser Ultralytics YOLO26

  • IA mobile et périphérique : grâce à sa faible empreinte mémoire et à CPU élevée, YOLO26 est le choix idéal pour Android ou les systèmes embarqués.
  • Analyse vidéo en temps réel : pour les applications nécessitant un nombre d'images par seconde élevé, telles que la surveillance du trafic ou les chaînes de production, la conception NMS garantit une latence déterministe.
  • Recherche et prototypage rapide : la documentation exhaustive et le soutien actif de la communauté permettent aux chercheurs d'itérer rapidement, en tirant parti des poids pré-entraînés pour une variété de tâches allant au-delà de la simple détection de cadres de sélection.

Conclusion

PP-YOLOE+ et RTDETRv2 ont tous deux apporté une contribution significative au domaine de la vision par ordinateur. PP-YOLOE+ a repoussé les limites des CNN au sein de l'écosystème Paddle, tandis que RTDETRv2 a démontré la viabilité des transformateurs pour les tâches en temps réel. Cependant, Ultralytics représente la synthèse de ces avancées : il offre la simplicité architecturale et la vitesse d'un CNN avec l'élégance d'un transformateur de bout en bout, NMS. Combiné à Ultralytics robuste Ultralytics , il s'impose comme l'outil le plus polyvalent pour le développement moderne de l'IA.


Commentaires