Passer au contenu

PP-YOLOE+ vs YOLOv5: Détection de haute précision et préparation à la production

La sélection du modèle optimal de détection d'objets implique souvent un compromis entre les métriques académiques brutes et les capacités de déploiement pratiques. Cette comparaison technique examine PP-YOLOE+, un détecteur évolué sans ancrage issu de l'écosystème PaddlePaddle , et Ultralytics YOLOv5le modèle standard de l'industrie réputé pour son équilibre entre vitesse, précision et facilité d'utilisation. Alors que PP-YOLOE+ repousse les limites de la précision moyennemAP, YOLOv5 reste une force dominante dans les applications d'inférence en temps réel en raison de son expérience inégalée pour les développeurs et de sa polyvalence de déploiement.

PP-YOLOE+ : L'ingénierie de précision au service de la PaddlePaddle

PP-YOLOE+ est une version améliorée de PP-YOLOE, développée par des chercheurs de Baidu dans le cadre de la suite PaddleDetection. Il est conçu pour être un détecteur d'objets industriel efficace et à la pointe de la technologie, axé sur les tâches de haute précision. En s'appuyant sur une architecture sans ancrage, il simplifie le pipeline d'apprentissage et réduit le réglage des hyperparamètres souvent associé aux méthodes basées sur l'ancrage.

Auteurs: PaddlePaddle Auteurs
Organisation: Baidu
Date: 2022-04-02
Arxiv :https://arxiv.org/abs/2203.16250
GitHub PaddlePaddlehttps://github.com/PaddlePaddle/PaddleDetection/
Docs :PaddlePaddle

Architecture et innovation

L'architecture de PP-YOLOE+ introduit plusieurs mécanismes avancés pour améliorer la représentation et la localisation des caractéristiques :

  • Réseau de base: Utilise CSPRepResNet, une épine dorsale qui combine les avantages du flux de gradient des réseaux CSP (Cross Stage Partial) avec les techniques de re-paramétrage de RepVGG.
  • Tête sans ancrage: une tête efficace alignée sur les tâches (ET-Head) est utilisée pour découpler les tâches de classification et de régression, ce qui améliore la vitesse de convergence et la précision.
  • Stratégie de formation: Incorpore l'apprentissage par alignement des tâches (TAL) pour assigner dynamiquement des échantillons positifs, garantissant que les prédictions de la plus haute qualité sont prioritaires lors de la formation.
  • Fonctions de perte: Utilise les fonctions VariFocal Loss (VFL) et Distribution Focal Loss (DFL) pour gérer le déséquilibre des classes et affiner la précision de la boîte de délimitation.

Points forts et faiblesses

PP-YOLOE+ excelle dans les scénarios où une précision maximale est essentielle. Sa conception sans ancrage supprime la nécessité de regrouper les boîtes d'ancrage, ce qui lui permet de s'adapter à des ensembles de données présentant des formes d'objets variées. Cependant, sa forte dépendance à l'égard de la PaddlePaddle peut être un obstacle pour les équipes standardisées sur PyTorch ou TensorFlow. Bien qu'il existe des outils pour convertir les modèles, le support de l'écosystème natif est moins étendu que celui des frameworks plus universellement adoptés.

Considérations relatives à l'écosystème

Bien que PP-YOLOE+ offre des performances théoriques impressionnantes, son adoption nécessite souvent de se familiariser avec la syntaxe spécifique de PaddlePaddle et les outils de déploiement, qui peuvent différer de manière significative des flux de travail PyTorch standard.

En savoir plus sur PP-YOLOE+

Ultralytics YOLOv5: la norme mondiale pour l'IA de la vision

Publié par Glenn Jocher en 2020, Ultralytics YOLOv5 a fondamentalement changé le paysage de la vision par ordinateur en rendant la détection d'objets de pointe accessible aux développeurs de tous niveaux. Construit nativement en PyTorch, YOLOv5 se concentre sur "l'efficacité de la formation" et "la facilité d'utilisation", offrant un chemin transparent de la curation du jeu de données au déploiement de la production.

Auteurs: Glenn Jocher
Organisation: Ultralytics
Date: 2020-06-26
GitHub yolov5https://github.com/ultralytics/yolov5
Docs :yolov5

Architecture et principales fonctionnalités

YOLOv5 utilise une architecture à base d'ancres hautement optimisée qui équilibre la profondeur et la largeur pour maximiser le débit :

  • CSPDarknet Backbone: La conception du réseau Cross Stage Partial minimise les informations redondantes du gradient, améliorant ainsi la capacité d'apprentissage tout en réduisant les paramètres.
  • Cou PANet: Un réseau d'agrégation de chemins (PANet) améliore le flux d'informations, aidant le modèle à localiser les objets avec précision à différentes échelles.
  • Augmentation mosaïque: Une technique avancée d'augmentation des données qui combine quatre images d'entraînement en une seule, ce qui améliore considérablement la capacité du modèle à detect petits objets et à s'adapter à de nouveaux environnements.
  • Algorithmes génétiques: L'évolution automatisée des hyperparamètres permet au modèle de s'auto-adapter pour obtenir des performances optimales sur des ensembles de données personnalisés.

Forces et écosystème

YOLOv5 est réputé pour sa facilité d'utilisation. L'API est intuitive, permettant aux utilisateurs de charger un modèle et de lancer l'inférence en seulement quelques lignes de code Python .

import torch

# Load a pretrained YOLOv5s model
model = torch.hub.load("ultralytics/yolov5", "yolov5s")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Print results
results.print()

Au-delà du code, l'écosystème bien entretenu distingue YOLOv5 . Les utilisateurs bénéficient de mises à jour fréquentes, d'un vaste forum communautaire et d'intégrations transparentes avec des outils MLOps tels que Comet et ClearML. La polyvalence du modèle s'étend au-delà de la simple détection, prenant en charge les tâches de segmentation d'instances et de classification d'images au sein du même cadre. En outre, les modèles YOLOv5 ont généralement besoin de moins de mémoire pendant l'apprentissage que les architectures basées sur les transformateurs, ce qui les rend accessibles aux GPU grand public.

En savoir plus sur YOLOv5

Comparaison des performances techniques

Lors de la comparaison des deux modèles, il est essentiel d'examiner les mesures qui ont un impact sur l'utilité réelle, telles que la vitesse d'inférence et le nombre de paramètres, ainsi que les mesures de précision standard telles que mAP

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Analyse des résultats

  • Précision et vitesse: PP-YOLOE+ affiche des scores mAP plus élevés, en particulier dans les variantes les plus grandes (l et x), grâce à sa tête sans ancrage et à sa stratégie TAL. Cependant, YOLOv5 offre un meilleur équilibre des performances, délivrant une précision hautement compétitive avec une latence significativement plus faible (voir vitesses TensorRT ). YOLOv5 est donc particulièrement bien adapté aux applications d'intelligence artificielle où chaque milliseconde compte.
  • Efficacité des ressources: YOLOv5n (Nano) est extrêmement léger avec seulement 2,6M de paramètres, ce qui le rend idéal pour les appareils mobiles et IoT. Alors que PP-YOLOE+ a des backbones efficaces, la complexité architecturale peut conduire à une utilisation plus importante de la mémoire pendant l'entraînement par rapport à la conception rationalisée de YOLOv5.
  • Efficacité de l'entraînement: YOLOv5 utilise AutoAnchor et l'évolution des hyperparamètres pour maximiser les performances dès le départ. La disponibilité de poids pré-entraînés de haute qualité permet un apprentissage par transfert rapide, ce qui réduit considérablement le temps de développement.

Cas d'utilisation concrets

Le choix entre ces modèles dépend souvent de l'environnement de déploiement spécifique.

PP-YOLOE+ Applications

PP-YOLOE+ est souvent privilégié dans la recherche universitaire et les scénarios industriels, en particulier sur le marché asiatique où l'infrastructure de Baidu est prédominante.

  • Détection automatisée des défauts: La haute précision permet d'identifier de minuscules rayures sur les lignes de fabrication.
  • Surveillance du trafic: Capable de distinguer des types de véhicules similaires dans un trafic dense.

Applications YOLOv5

La polyvalence de YOLOv5 en fait une solution de choix pour un large éventail d'industries mondiales.

  • Agriculture intelligente: Utilisé pour la surveillance en temps réel de la santé des cultures et pour les robots cueilleurs de fruits en raison de sa vitesse sur les appareils périphériques.
  • Analyse du commerce de détail: Systèmes puissants de comptage d'objets et de gestion des stocks, fonctionnant efficacement sur du matériel de type serveur de magasin.
  • Robotique autonome: La faible latence permet aux drones et aux robots de naviguer en toute sécurité dans des environnements complexes.
  • Systèmes de sécurité: S'intègre facilement aux systèmes d'alarme de sécurité pour la détection des intrusions.

Flexibilité du déploiement

YOLOv5 exporte de manière transparente vers de nombreux formats, notamment ONNX, TensorRT, CoreML et TFLite , en utilisant la fonction export Le modèle peut ainsi être déployé presque n'importe où, de l'iPhone au serveur en nuage. Ainsi, une fois qu'un modèle est formé, il peut être déployé presque n'importe où, d'un iPhone à un serveur en nuage.

Conclusion

Alors que PP-YOLOE+ représente une avancée significative dans la détection de l'absence d'ancrage, avec une précision impressionnante sur des benchmarks tels que COCO, Ultralytics YOLOv5 reste le meilleur choix pour la plupart des développeurs et des applications commerciales. Sa combinaison gagnante de facilité d'utilisation, d'un écosystème robuste et bien entretenu, et d'un excellent équilibre des performances garantit que les projets passent de la conception à la production rapidement et de manière fiable.

Pour les utilisateurs à la recherche des dernières technologies de vision par ordinateur, Ultralytics propose également YOLO11qui s'appuie sur l'héritage de YOLOv5 avec encore plus d'efficacité et de capacité dans les tâches de détection, de segmentation et d'estimation de la pose.

En savoir plus

Pour explorer les alternatives modernes qui offrent des caractéristiques de performance améliorées, envisagez de passer en revue les éléments suivants :

  • Ultralytics YOLO11: Le dernier modèle à la pointe de la technologie offrant une précision et une rapidité inégalées.
  • Ultralytics YOLOv8: Un modèle polyvalent qui a introduit des cadres unifiés pour la détection, la segmentation et la classification.
  • RT-DETR: Un détecteur en temps réel basé sur un transformateur pour les exigences de haute précision.

Visitez notre page Modèles pour découvrir la gamme complète de solutions d'IA de vision disponibles pour votre prochain projet.


Commentaires