PP-YOLOE+ vs YOLOv5: comparaison technique de la détection d'objets en temps réel
Dans le paysage concurrentiel de la vision par ordinateur, choisir la bonne architecture de détection d'objets est une décision cruciale pour les développeurs et les chercheurs. PP-YOLOE+, développé par PaddlePaddle de Baidu, et YOLOv5, créé par Ultralytics, se distinguent comme deux approches distinctes pour résoudre les défis de la détection en temps réel. Alors que PP-YOLOE+ met l'accent sur les mécanismes sans ancrage au sein de PaddlePaddle , YOLOv5 établi la norme industrielle en matière de convivialité, de flexibilité de déploiement et de soutien communautaire au sein de PyTorch.
Ce guide fournit une analyse technique approfondie de ces deux modèles influents, en comparant leurs architectures, leurs mesures de performance et leur adéquation à des applications concrètes telles que l'automatisation industrielle et l'informatique en périphérie.
Aperçu du modèle
PP-YOLOE+
PP-YOLOE+ est une évolution de PP-YOLOE, conçue pour améliorer la convergence de la formation et les performances des tâches en aval. Il fonctionne sur le PaddlePaddle et utilise un paradigme sans ancrage pour simplifier la tête de détection. En intégrant une structure plus solide et des stratégies de formation affinées, il vise à offrir une grande précision pour les applications industrielles où l'inférence basée sur le cloud est courante.
- Auteurs : Auteurs de PaddlePaddle
- Organisation :Baidu
- Date : 2022-04-02
- Arxiv :2203.16250
- GitHub :Dépôt PaddleDetection
Ultralytics YOLOv5
YOLOv5 a révolutionné l'expérience utilisateur dans le domaine de la détection d'objets. Lancé par Ultralytics, il privilégie une ingénierie axée sur le « déploiement avant tout », garantissant que les modèles sont non seulement précis, mais aussi incroyablement faciles à former, à exporter et à exécuter sur divers matériels. Son architecture basée sur des ancrages est hautement optimisée pour la vitesse, ce qui en fait un outil de prédilection pour l'inférence en temps réel sur les appareils périphériques.
- Auteur : Glenn Jocher
- Organisation :Ultralytics
- Date : 2020-06-26
- GitHub :YOLOv5 Ultralytics YOLOv5
Comparaison des architectures techniques
Les philosophies architecturales de PP-YOLOE+ et YOLOv5 considérablement, ce qui influe sur leur comportement d'entraînement et leurs caractéristiques de déploiement.
Backbone et extraction de caractéristiques
YOLOv5 utilise une infrastructure CSPDarknet (Cross Stage Partial Network). Cette conception améliore le flux de gradient et réduit le nombre de paramètres sans sacrifier les performances. L'architecture est hautement modulaire, ce qui permet d'expérimenter rapidement différentes profondeurs et largeurs de modèles (de Nano à X-Large). Cette modularité est essentielle pour les développeurs qui déploient leurs applications dans des environnements aux ressources limitées, tels que Raspberry Pi ou les appareils mobiles.
PP-YOLOE+, en revanche, utilise généralement une structure CSPRepResStage, qui combine des connexions résiduelles avec des techniques de reparamétrage. Bien qu'efficace pour extraire des caractéristiques riches, cette structure entraîne souvent une plus grande complexité pendant la phase d'entraînement par rapport à l'efficacité rationalisée de l'implémentation YOLOv5.
Têtes de détection : à ancrage ou sans ancrage
Une différence fondamentale réside dans les têtes de détection :
- YOLOv5 basé sur des ancres) : utilise des boîtes d'ancrage prédéfinies pour prédire l'emplacement des objets. Bien que cela nécessite une configuration initiale ( Ultralytics via AutoAnchor), cette méthode offre des gradients d'entraînement stables et des performances historiquement robustes sur des ensembles de données standard tels que COCO.
- PP-YOLOE+ (sans ancrage) : prédit directement les centres et les tailles des objets, éliminant ainsi le besoin de régler les hyperparamètres de la boîte d'ancrage. Cette approche gère bien les objets présentant des rapports d'aspect extrêmes, mais peut être plus sensible à la qualité des données d'entraînement et à la convergence initiale des pertes.
Évolution vers l'absence d'ancrage
Alors que YOLOv5 utilise YOLOv5 les ancres, Ultralytics nouveaux Ultralytics tels que YOLOv8 et le tout dernier YOLO26 , sont passés à des conceptions sans ancrage, combinant le meilleur des deux mondes : facilité d'utilisation et généralisation géométrique supérieure.
Mesures de performance
Lors de l'évaluation des performances, il est essentiel d'examiner le compromis entre la précision moyenne (mAP) et la latence. Le tableau ci-dessous montre que, si PP-YOLOE+ atteint une grande précision, YOLOv5 un avantage concurrentiel en termes de CPU et de polyvalence de déploiement, avec des barrières à l'entrée nettement moins élevées pour les nouveaux utilisateurs.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Analyse de la vitesse et de l'efficacité
Ultralytics YOLOv5 dYOLOv5 une efficacité exceptionnelle, en particulier dans les variantes « Nano » et « Small ». Le modèle YOLOv5n, avec seulement 1,9 million de paramètres, est spécialement conçu pour les environnements extrêmement contraints, tels que les applications mobiles ou les capteurs IoT. Si PP-YOLOE+ offre mAP élevés, la complexité de sa configuration et sa dépendance au PaddlePaddle peuvent créer des frictions dans les pipelines de production qui s'appuient sur ONNX PyTorch ONNX standard.
De plus, les exigences en matière de mémoire favorisent YOLOv5. Pendant la formation, les chargeurs de données optimisés et la gestion de la mémoire YOLOv5 permettent des tailles de lots plus importantes sur les GPU grand public par rapport à de nombreux concurrents, réduisant ainsi les obstacles matériels pour les ingénieurs en IA.
Formation et écosystème
L'écosystème qui entoure un modèle est souvent aussi important que le modèle lui-même. C'est là Ultralytics un avantage distinct.
Facilité d'utilisation et documentation
YOLOv5 réputé pour son expérience « zero-to-hero » (de zéro à héros). Un développeur peut passer de l'installation de la bibliothèque à la formation d'un modèle personnalisé sur un ensemble de données tel que VisDrone en quelques minutes.
from ultralytics import YOLO
# Load a pretrained YOLO model (YOLOv5 or the newer YOLO26)
model = YOLO("yolov5s.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate performance
metrics = model.val()
En comparaison, PP-YOLOE+ nécessite l'installation de PaddlePaddle le clonage du référentiel PaddleDetection. La configuration implique souvent la modification de plusieurs fichiers YAML et la navigation dans une structure de répertoires plus complexe, ce qui peut représenter une courbe d'apprentissage plus raide pour ceux qui sont habitués à la simplicité Pythonique Ultralytics.
Polyvalence et prise en charge des tâches
Alors que PP-YOLOE+ se concentre principalement sur la détection, Ultralytics offre une prise en charge native pour un éventail plus large de tâches de vision au sein d'une seule API :
- Segmentation d'instance: masquage précis des objets.
- Estimation de la pose: détection des points clés pour les squelettes humains ou animaux.
- Boîte englobante orientée (OBB): détection d'objets pivotés, essentielle pour l'imagerie aérienne.
- Classification : Classification de l'image entière.
Cette polyvalence permet aux développeurs de passer d'une tâche à l'autre sans avoir à apprendre de nouveaux frameworks ni à réécrire les pipelines de données.
Applications concrètes
Quand choisir PP-YOLOE+
PP-YOLOE+ est un candidat sérieux si votre infrastructure est déjà profondément intégrée à la pile technologique de Baidu. Pour les utilisateurs situés dans des régions où PaddlePaddle le framework dominant, ou pour des déploiements côté serveur spécifiques où mAP la seule priorité par rapport à la facilité de déploiement, PP-YOLOE+ reste une option viable.
Quand choisirYOLO Ultralytics ?
Pour la grande majorité des développeurs, start-ups et équipes d'entreprise à travers le monde, Ultralytics YOLOv5 (et ses successeurs) est le choix recommandé pour les raisons suivantes :
- Déploiement Edge : exportation transparente vers TFLite, CoreML et OpenVINO garantit le fonctionnement efficace des modèles sur les appareils des utilisateurs finaux.
- Soutien communautaire : une communauté massive et active contribue à des mises à jour fréquentes, garantissant que les bugs sont corrigés et que de nouvelles fonctionnalités telles que l'annotation automatique sont ajoutées régulièrement.
- Plateforme holistique : la Ultralytics simplifie l'ensemble du cycle de vie, de la gestion des ensembles de données à la formation des modèles et au déploiement dans le cloud.
L'avenir : entrez dans YOLO26
Bien que YOLOv5 un outil robuste et fiable, le domaine de la vision par ordinateur évolue rapidement. Ultralytics récemment lancé YOLO26, qui représente le nec plus ultra en matière d'efficacité et de performances.
YOLO26 offre plusieurs améliorations révolutionnaires par rapport à YOLOv5 PP-YOLOE+ :
- NMS de bout en bout : YOLO26 élimine la suppression non maximale (NMS), une étape de post-traitement qui ralentit l'inférence. Il en résulte une logique de déploiement plus simple et une latence réduite.
- Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur hybride garantit une convergence stable et des temps de formation plus rapides.
- Détection améliorée des petits objets : grâce à ProgLoss et STAL (Task-Alignment Loss), YOLO26 excelle dans la détection des petits objets, une capacité essentielle pour l'inspection par drone et l'agriculture de précision.
- CPU 43 % plus rapide : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 est spécialement optimisé pour les CPU, ce qui en fait le choix idéal pour un edge computing rentable.
Pour les développeurs qui lancent de nouveaux projets en 2026, nous recommandons vivement d'évaluer YOLO26 afin de pérenniser vos applications grâce aux dernières avancées en matière d'architecture de réseaux neuronaux.