Passer au contenu

YOLO PP-YOLOE+ : analyse technique approfondie de la détection d'objets industriels

Dans le domaine très concurrentiel de la détection d'objets en temps réel, deux modèles se sont imposés comme des étapes importantes pour les applications industrielles : YOLO, développé par Alibaba Group, et PP-YOLOE+, le détecteur phare de PaddlePaddle de Baidu. Les deux architectures privilégient l'équilibre entre la vitesse d'inférence et la précision de détection, mais elles atteignent ces objectifs grâce à des philosophies d'ingénierie très différentes.

Ce guide complet analyse leurs innovations architecturales, compare leurs indicateurs de performance et présente Ultralytics , un modèle de nouvelle génération qui redéfinit les normes en matière de facilité d'utilisation et de déploiement en périphérie.

Présentation de DAMO-YOLO

YOLO Distillation-Augmented MOdel) a été introduit pour repousser les limites des performances en tirant parti de la conception automatisée de l'architecture et des techniques de formation avancées.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Arxiv :YOLO
GitHub :YOLO

Innovations architecturales

YOLO de la conception manuelle traditionnelle en intégrant la recherche d'architecture neuronale (NAS). Ses composants principaux sont les suivants :

  • MAE-NAS Backbone : la structure dorsale est découverte automatiquement à l'aide de la méthode des arêtes auxiliaires (MAE-NAS) afin de maximiser le débit dans le cadre de contraintes de latence spécifiques.
  • RepGFPN : une conception heavyneck basée sur le réseau pyramidal généralisé des caractéristiques (GFPN). Il utilise différentes dimensions de canaux à travers les niveaux d'échelle afin d'optimiser la fusion des caractéristiques sans le coût de calcul élevé des BiFPN classiques.
  • ZeroHead : une tête de détection légère qui minimise la complexité des couches de prédiction finales, permettant ainsi de gagner quelques millisecondes cruciales lors de l'inférence.
  • AlignedOTA : une stratégie améliorée d'attribution d'étiquettes qui résout les problèmes de désalignement entre les tâches de classification et de régression pendant l'entraînement.

Points forts et faiblesses

La principale force deYOLO sa conception axée sur la latence. En utilisant le NAS, il tire le maximum de précision d'un budget de calcul spécifique. Cependant, cette complexité peut être une arme à double tranchant : l'architecture basée sur le NAS peut être difficile à modifier ou à affiner pour des ensembles de données personnalisés par rapport aux architectures conçues manuellement. De plus, son recours à la distillation (où un grand modèle enseignant guide l'élève) ajoute de la complexité au pipeline de formation.

Présentation de PP-YOLOE+

PP-YOLOE+ est la version évoluée de PP-YOLOE, qui constitue la pierre angulaire de la suite PaddleDetection. Elle met fortement l'accent sur la polyvalence du déploiement dans le cloud et en périphérie.

Auteurs : PaddlePaddle
Organisation :Baidu
Date : 2 avril 2022
Arxiv :Article PP-YOLOE
GitHub :PaddlePaddle

Innovations architecturales

PP-YOLOE+ s'appuie sur le paradigme sans ancrage, mettant l'accent sur le raffinement et la stabilité de l'entraînement :

  • CSPRepResStage : l'infrastructure utilise une structure CSP (Cross Stage Partial) évolutive avec des blocs résiduels reparamétrables, ce qui permet une extraction complexe des caractéristiques pendant l'entraînement et des opérations simplifiées pendant l'inférence.
  • Apprentissage par alignement des tâches (TAL) : un système dynamique d'attribution d'étiquettes qui aligne explicitement les points d'ancrage avec les objets de référence en se basant à la fois sur le score de classification et IoU Intersection over Union).
  • Squeeze-and-Excitation (ESE) efficace : mécanisme d'attention intégré dans la structure principale afin d'améliorer la représentation des caractéristiques en recalibrant les réponses des caractéristiques par canal.

Points forts et faiblesses

PP-YOLOE+ excelle dans l'intégration des écosystèmes. Faisant partie du PaddlePaddle , il prend en charge de manière optimale diverses cibles de déploiement, notamment les GPU côté serveur et les appareils mobiles. Cependant, ses performances sur PyTorch standard peuvent être entravées par la nécessité de convertir les modèles ou de s'adapter à la syntaxe spécifique de PaddlePaddle , ce qui peut créer des frictions pour les développeurs habitués à PyTorch standard. PyTorch .

Comparaison des performances

Le tableau suivant met en évidence les différences de performance entre les deux modèles sur l'ensemble COCO .

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analyse

  • Petits modèles (Nano/Tiny) :YOLO offreYOLO une plus grande précision (mAP) pour les variantes Tiny, démontrant ainsi l'efficacité de son backbone optimisé pour le NAS dans des environnements contraints. Cependant, PP-YOLOE+t est nettement plus petit en termes de nombre de paramètres (4,85 millions contre 8,5 millions), ce qui peut être préférable pour les appareils dont la capacité de stockage est extrêmement limitée.
  • Modèles moyens à grands : à mesure que la taille du modèle augmente, PP-YOLOE+ tend à mieux évoluer en termes de précision, surpassantYOLO les catégories moyennes et grandes (par exemple, 52,9 mAP 50,8 mAP les grandes).
  • Vitesse d'inférence :YOLO une latence supérieure sur TensorRT pour la plupart des tailles, validant ainsi son architecture axée sur la latence. À l'inverse, PP-YOLOE+s affiche une vitesse étonnamment efficace (2,62 ms), ce qui en fait un concurrent sérieux pour certaines applications en temps réel.

Ultralytics : YOLO26

Alors queYOLO PP-YOLOE+ offrent des fonctionnalités intéressantes pour des niches spécifiques, Ultralytics représente la prochaine étape évolutive dans le domaine de la vision par ordinateur, en remédiant aux limites de ses deux prédécesseurs grâce à des changements architecturaux radicaux et à des améliorations en termes de convivialité.

En savoir plus sur YOLO26

Pourquoi YOLO26 est le choix idéal

  1. Conception NMS de bout en bout : contrairement YOLO PP-YOLOE+ et YOLO traditionnelles qui nécessitent une suppression non maximale (NMS) pour filtrer les boîtes qui se chevauchent, YOLO26 est nativement de bout en bout. Cela élimine un goulot d'étranglement majeur dans le déploiement, réduit la variance de latence et simplifie le processus d'exportation vers des formats tels que ONNX et CoreML.
  2. CPU inégalées : optimisé spécifiquement pour l'edge computing, YOLO26 offre CPU jusqu'à 43 % plus rapide que les générations précédentes. Cela est essentiel pour les applications fonctionnant sur Raspberry Pi, les téléphones mobiles ou les instances cloud standard où les GPU ne sont pas disponibles.
  3. Stabilité de l'entraînement avancé : YOLO26 intègre l'optimiseur MuSGD, un hybride de SGD Muon (inspiré de l'entraînement LLM), garantissant une convergence plus rapide et des exécutions d'entraînement plus stables, même avec des ensembles de données personnalisés complexes.
  4. Architecture simplifiée : la suppression de la perte focale de distribution (DFL) simplifie la structure du modèle, améliorant ainsi la compatibilité avec les appareils périphériques et les accélérateurs à faible consommation d'énergie qui ont du mal à gérer les fonctions de perte complexes.
  5. Écosystème holistique : grâce à la Ultralytics , les utilisateurs ont accès à un pipeline transparent pour la gestion des données, la formation au cloud et le déploiement en un clic.

Une polyvalence indétectable

Contrairement àYOLO se concentre principalement sur la détection, YOLO26 prend en charge de manière native un large éventail de tâches, notamment la segmentation d'instances, l'estimation de pose, l'OBB (Oriented Bounding Box) et la classification.

Facilité d'utilisation

L'une des caractéristiques déterminantes des Ultralytics est l'expérience développeur. Alors queYOLO PP-YOLOE+ peuvent nécessiter des fichiers de configuration complexes ou des connaissances spécifiques au framework, YOLO26 peut être implémenté en quelques lignes de code seulement.

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
model.export(format="onnx")

Cas d'utilisation concrets

  • Commerce intelligent : utilisez la vitesse de YOLO26 pour surveiller les stocks en rayon en temps réel sans avoir recours à GPU coûteux.
  • Agriculture : tirez parti des fonctions ProgLoss + STAL pour améliorer la reconnaissance des petits objets, essentielle pour détecter les parasites ou compter les cultures dans les images prises par drone.
  • Fabrication : déployez des modèles NMS pour un contrôle qualité à grande vitesse sur les chaînes d'assemblage où une latence constante est indispensable.

Conclusion

Le choix du modèle approprié dépend de vos contraintes spécifiques. YOLO est un excellent choix pour la recherche sur les architectures NAS et les scénarios donnant la priorité à des objectifs TensorRT spécifiques. PP-YOLOE+ est une option robuste pour ceux qui sont profondément intégrés dans l'écosystème Baidu et qui ont besoin d'une grande précision sur du matériel de niveau serveur.

Cependant, pour la grande majorité des développeurs et des entreprises à la recherche d'une solution pérenne, facile à utiliser et hautement polyvalente, Ultralytics se démarque. Sa conception de bout en bout, CPU supérieures et le soutien d'une communauté open source dynamique en font le choix incontournable pour les applications modernes de vision par ordinateur.

Pour les utilisateurs intéressés par d'autres options de pointe, explorez YOLO11 ou le RT-DETR dans la Ultralytics .


Commentaires