PP-YOLOE+ vs YOLOv5 : Naviguer entre la détection de haute précision et la préparation à la production

Le choix du modèle de détection d'objets optimal implique souvent un compromis entre les métriques académiques brutes et les capacités de déploiement pratiques. Cette comparaison technique examine PP-YOLOE+, un détecteur sans ancrage évolué de l'écosystème PaddlePaddle, et Ultralytics YOLOv5, le modèle standard de l'industrie réputé pour son équilibre entre la vitesse, la précision et la facilité d'utilisation. Alors que PP-YOLOE+ repousse les limites de la précision moyenne (mAP), YOLOv5 reste une force dominante dans les applications d'inférence en temps réel en raison de son expérience de développement et de sa polyvalence de déploiement inégalées.

PP-YOLOE+: Ingénierie de précision dans PaddlePaddle

PP-YOLOE+ est une version améliorée de PP-YOLOE, développée par des chercheurs de Baidu dans le cadre de la suite PaddleDetection. Il est conçu pour être un détecteur d'objets industriel efficace et à la pointe de la technologie, axé sur les tâches de haute précision. En tirant parti d'une architecture sans ancres, il simplifie le pipeline d'entraînement et réduit le réglage des hyperparamètres souvent associé aux méthodes basées sur des ancres.

Auteurs : Auteurs PaddlePaddle
Organisation : Baidu
Date : 2022-04-02
Arxiv : https://arxiv.org/abs/2203.16250
GitHub : https://github.com/PaddlePaddle/PaddleDetection/
Docs : https://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md

Architecture et innovation

L'architecture de PP-YOLOE+ introduit plusieurs mécanismes avancés pour améliorer la représentation des caractéristiques et la localisation :

Backbone : Utilise CSPRepResNet, un backbone qui combine les avantages du flux de gradient des réseaux Cross Stage Partial (CSP) avec les techniques de reparamétrisation de RepVGG.
Tête sans ancres : Une tête efficace alignée sur les tâches (ET-Head) est utilisée pour découpler les tâches de classification et de régression, améliorant ainsi la vitesse de convergence et la précision.
Stratégie d'entraînement : Intègre l'apprentissage de l'alignement des tâches (TAL) pour affecter dynamiquement des échantillons positifs, garantissant que les prédictions de la plus haute qualité sont priorisées pendant l'entraînement.
Fonctions de perte : Utilise la perte VariFocal (VFL) et la perte focale de distribution (DFL) pour gérer le déséquilibre des classes et affiner la précision des boîtes englobantes.

Points forts et faiblesses

PP-YOLOE+ excelle dans les scénarios où une précision maximale est essentielle. Sa conception sans ancrage supprime le besoin de clustering des boîtes d'ancrage, ce qui le rend adaptable aux ensembles de données avec des formes d'objets variables. Cependant, sa forte dépendance au framework PaddlePaddle peut être un obstacle pour les équipes standardisées sur PyTorch ou TensorFlow. Bien que des outils existent pour convertir les modèles, la prise en charge native de l'écosystème est moins étendue que celle des frameworks plus universellement adoptés.

Considérations relatives à l'écosystème

Bien que PP-YOLOE+ offre des performances théoriques impressionnantes, son adoption nécessite souvent une connaissance de la syntaxe et des outils de déploiement spécifiques de PaddlePaddle, qui peuvent différer considérablement des flux de travail PyTorch standard.

En savoir plus sur PP-YOLOE+

Ultralytics YOLOv5 : La norme mondiale pour l’IA de vision

Lancé par Glenn Jocher en 2020, Ultralytics YOLOv5 a fondamentalement changé le paysage de la vision par ordinateur en rendant la détection d'objets de pointe accessible aux développeurs de tous niveaux. Construit nativement en PyTorch, YOLOv5 se concentre sur "l'efficacité de l'entraînement" et la "facilité d'utilisation", offrant un chemin sans heurts de la conservation des ensembles de données au déploiement en production.

Auteurs : Glenn Jocher
Organisation : Ultralytics
Date : 2020-06-26
GitHub : https://github.com/ultralytics/yolov5
Docs : https://docs.ultralytics.com/models/yolov5/

Architecture et principales fonctionnalités

YOLOv5 utilise une architecture anchor-based hautement optimisée qui équilibre la profondeur et la largeur pour maximiser le débit :

Colonne vertébrale CSPDarknet : La conception du réseau Cross Stage Partial minimise les informations de gradient redondantes, améliorant ainsi la capacité d'apprentissage tout en réduisant le nombre de paramètres.
PANet Neck : Un réseau d’agrégation de chemins (PANet) améliore le flux d’informations, aidant le modèle à localiser les objets avec précision à différentes échelles.
Augmentation mosaïque : Une technique avancée d'augmentation de données qui combine quatre images d'entraînement en une seule, améliorant considérablement la capacité du modèle à detecter de petits objets et à généraliser à de nouveaux environnements.
Algorithmes génétiques : L’évolution automatisée des hyperparamètres permet au modèle de s’auto-régler pour une performance optimale sur des ensembles de données personnalisés.

Forces et écosystème

YOLOv5 est reconnu pour sa facilité d'utilisation. L'API est intuitive, permettant aux utilisateurs de charger un modèle et d'exécuter l'inférence en quelques lignes de code python.

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Au-delà du code, l'écosystème bien maintenu distingue YOLOv5. Les utilisateurs bénéficient de mises à jour fréquentes, d'un forum communautaire massif et d'intégrations transparentes avec des outils MLOps tels que Comet et ClearML. La polyvalence du modèle s'étend au-delà de la simple détection, prenant en charge la segmentation d'instance et les tâches de classification d'images au sein du même framework. De plus, les modèles YOLOv5 présentent généralement des besoins en mémoire inférieurs pendant l'entraînement par rapport aux architectures basées sur les transformateurs, ce qui les rend accessibles sur les GPU grand public.

En savoir plus sur YOLOv5

Comparaison technique des performances

Lors de la comparaison des deux modèles, il est essentiel d'examiner les métriques qui ont un impact sur l'utilité dans le monde réel, telles que la vitesse d'inférence et le nombre de paramètres, ainsi que les métriques de précision standard comme le mAP.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Analyse des résultats

Précision vs. Vitesse : PP-YOLOE+ démontre des scores mAP plus élevés, en particulier dans les variantes plus grandes (l et x), bénéficiant de sa tête sans ancrage et de sa stratégie TAL. Cependant, YOLOv5 offre un équilibre de performance supérieur, offrant une précision très compétitive avec une latence considérablement plus faible (voir les vitesses TensorRT). Cela rend YOLOv5 particulièrement bien adapté aux applications d’IA en périphérie où chaque milliseconde compte.
Efficacité des ressources : YOLOv5n (Nano) est extrêmement léger avec seulement 2,6 millions de paramètres, ce qui le rend idéal pour les appareils mobiles et IoT. Bien que PP-YOLOE+ ait des backbones efficaces, la complexité architecturale peut entraîner une utilisation plus importante de la mémoire pendant l'entraînement par rapport à la conception simplifiée de YOLOv5.
Efficacité de l'entraînement : YOLOv5 utilise AutoAnchor et l'évolution des hyperparamètres pour maximiser les performances dès le départ. La disponibilité de poids pré-entraînés de haute qualité permet un apprentissage par transfert rapide, ce qui réduit considérablement le temps de développement.

Cas d'utilisation concrets

Le choix entre ces modèles dépend souvent de l'environnement de déploiement spécifique.

Applications PP-YOLOE+

PP-YOLOE+ est souvent privilégié dans la recherche académique et les scénarios industriels, en particulier sur le marché asiatique où l'infrastructure de Baidu est prédominante.

Détection automatisée des défauts : Une haute précision aide à identifier les rayures infimes sur les lignes de fabrication.
Surveillance du trafic : Capable de faire la distinction entre des types de véhicules similaires dans un flux de trafic dense.

Applications YOLOv5

La polyvalence de YOLOv5 en fait la solution de référence pour un large éventail de secteurs d'activité mondiaux.

Agriculture intelligente : Utilisé pour la surveillance en temps réel de la santé des cultures et les robots de cueillette de fruits en raison de sa vitesse sur les appareils edge.
Analyse de vente au détail : Alimente les systèmes de comptage d'objets et de gestion des stocks, fonctionnant efficacement sur le matériel du serveur de magasin.
Robotique autonome : La faible latence permet aux drones et aux robots de naviguer en toute sécurité dans des environnements complexes.
Systèmes de sécurité : S'intègre facilement aux systèmes d'alarme de sécurité pour la détection d'intrusion.

Flexibilité de déploiement

YOLOv5 s'exporte facilement vers de nombreux formats, notamment ONNX, TensorRT, CoreML et TFLite, en utilisant le export mode. Cela garantit qu'une fois qu'un modèle est entraîné, il peut être déployé presque partout, d'un iPhone à un serveur cloud.

Conclusion

Alors que PP-YOLOE+ représente une réalisation significative dans la détection sans ancrage avec une précision impressionnante sur des benchmarks comme COCO, Ultralytics YOLOv5 reste le choix supérieur pour la plupart des développeurs et des applications commerciales. Sa combinaison gagnante de Facilité d'utilisation, d'un Écosystème bien maintenu et d'un excellent Équilibre des performances garantit que les projets passent rapidement et de manière fiable du concept à la production.

Pour les utilisateurs qui recherchent les toutes dernières technologies en matière de vision par ordinateur, Ultralytics propose également YOLO11, qui s'appuie sur l'héritage de YOLOv5 avec une efficacité et une capacité encore plus grandes dans les tâches de détection, de segmentation et d'estimation de pose.

En savoir plus

Pour découvrir des alternatives modernes offrant des fonctionnalités de performance améliorées, vous pouvez consulter les éléments suivants :

Ultralytics YOLO11: Le dernier modèle de pointe offrant une précision et une vitesse inégalées.
Ultralytics YOLOv8: Un modèle polyvalent qui a introduit des cadres unifiés pour la detect, la segmentation et la classification.
RT-DETR: Un détecteur en temps réel basé sur les transformeurs pour les exigences de haute précision.

Visitez notre page Modèles pour découvrir la gamme complète de solutions d'IA de vision disponibles pour votre prochain projet.