Passer au contenu

PP-YOLOE+ vs. YOLOv10: une comparaison technique complète

Le choix du bon modèle de détection d'objets est une décision cruciale qui a un impact sur l'efficacité, la précision et l'évolutivité des systèmes de vision par ordinateur. Cette comparaison détaillée analyse PP-YOLOE+, un détecteur sans ancrage affiné issu de l'écosystème PaddlePaddle de Baidu, et YOLOv10un détecteur révolutionnaire de bout en bout en temps réel de l'université de Tsinghua, entièrement intégré à l'écosystème Ultralytics .

Ces modèles représentent deux approches distinctes pour résoudre le compromis vitesse/précision. En examinant leurs innovations architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux, nous fournissons les informations nécessaires pour choisir le meilleur outil pour votre application spécifique.

PP-YOLOE+ : La précision dans l'écosystème PaddlePaddle

PP-YOLOE+ (Practical PaddlePaddle You Only Look One-level Efficient Plus) est une évolution de l'architecture PP-YOLOE, conçue pour fournir des mécanismes de détection de haute précision. Développé par Baidu, il sert de modèle phare au sein de la gamme de produits PaddlePaddle qui met l'accent sur l'optimisation pour les applications industrielles où les environnements matériels sont prédéfinis.

Auteurs : PaddlePaddle Authors
Organization:Baidu
Date : 2022-04-02
ArXiv:https://arxiv.org/abs/2203.16250
GitHub:PaddleDetection Repository
Docs:PP-YOLOE+ Documentation

Principales caractéristiques architecturales

PP-YOLOE+ se distingue par plusieurs améliorations structurelles visant à affiner la représentation et la localisation des caractéristiques :

  • Mécanisme sans ancrage : Utilise une approche sans ancrage pour réduire la complexité du réglage des hyperparamètres et améliorer la généralisation des formes d'objets.
  • CSPRepResNet Backbone : Intègre les réseaux CSP (Cross Stage Partial) à RepResNet, offrant des capacités d'extraction de caractéristiques robustes qui équilibrent la charge de calcul et la puissance de représentation.
  • Apprentissage de l'alignement des tâches (TAL) : utilise une fonction de perte spécialisée qui aligne dynamiquement les scores de classification sur la précision de la localisation, garantissant ainsi que les détections les plus fiables sont également les plus précises.
  • Tête efficace (ET-Head) : Tête de détection rationalisée qui dissocie les tâches de classification et de régression afin de minimiser les interférences et d'améliorer la vitesse de convergence.

En savoir plus sur PP-YOLOE+

YOLOv10: La révolution du temps réel NMS

YOLOv10 représente un changement de paradigme dans la lignée YOLO . Développé par des chercheurs de l'université de Tsinghua, il s'attaque au goulot d'étranglement historique de la suppression non maximale (NMS) en introduisant des affectations doubles cohérentes pour une formation NMS. Cela permet un véritable déploiement de bout en bout avec une latence d'inférence considérablement réduite.

Auteurs : Ao Wang, Hui Chen, Lihao Liu, et al.
Organization:Tsinghua University
Date : 2024-05-23
ArXiv:https://arxiv.org/abs/2405.14458
GitHub:YOLOv10 Repository
Docs:Ultralytics YOLOv10 Docs

Innovation et intégration des écosystèmes

YOLOv10 n'est pas seulement une mise à jour architecturale, c'est une conception holistique axée sur l'efficacité.

  • FormationNMS: En adoptant une double stratégie d'attribution d'étiquettes - une à plusieurs pour une supervision riche et une à une pour une inférence efficace - YOLOv10 élimine le besoin d'un post-traitement NMS . Cela réduit la latence de l'inférence et la complexité du déploiement.
  • Conception holistique de l'efficacité : Comprend des têtes de classification légères et un sous-échantillonnage découplé des canaux spatiaux pour maximiser la rétention des informations tout en minimisant les FLOP.
  • IntégrationUltralytics : En tant que membre de l'écosystème Ultralytics , YOLOv10 bénéficie d'une facilité d'utilisation grâce à une API Python unifiée, ce qui permet aux développeurs d'entraîner, de valider et de déployer des modèles sans effort.
  • Efficacité de la mémoire : L'architecture est optimisée pour réduire la consommation de mémoire pendant l'apprentissage, ce qui constitue un avantage significatif par rapport aux détecteurs à base de transformateurs ou aux itérations YOLO plus anciennes.

En savoir plus sur YOLOv10

Analyse des performances techniques

Les mesures suivantes mettent en évidence les différences de performance entre les deux modèles. YOLOv10 fait constamment preuve d'une efficacité supérieure, offrant une plus grande précision avec moins de paramètres et une latence plus faible.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

Interprétation de l'efficacité et de la rapidité

Les données révèlent un net avantage pour YOLOv10 en termes d'équilibre des performances.

  • Efficacité des paramètres : YOLOv10l atteint un mAP plus élevé (53,3 %) que PP-YOLOE+l (52,9 %) tout en utilisant près de la moitié des paramètres (29,5M contre 52,2M). YOLOv10 est donc beaucoup plus léger à stocker et plus rapide à charger.
  • Charge de calcul : le nombre de FLOPs des modèles YOLOv10 est systématiquement inférieur pour des niveaux de précision comparables, ce qui se traduit par une consommation d'énergie plus faible, un facteur essentiel pour les dispositifs d'intelligence artificielle de pointe.
  • Vitesse d'inférence : grâce à la conception NMS, YOLOv10n atteint une latence ultra-faible de 1,56 ms sur le GPU T4, surpassant la plus petite variante PP-YOLOE+.

Avantage NMS

Les détecteurs d'objets traditionnels nécessitent une suppression non maximaleNMS pour filtrer les boîtes qui se chevauchent, une étape qui est souvent lente et difficile à optimiser sur le plan matériel. YOLOv10 supprime entièrement cette étape, ce qui se traduit par un temps d'inférence constant quel que soit le nombre d'objets détectés.

Points forts et faiblesses

YOLOv10: Le choix moderne

  • Points forts :
    • Facilité d'utilisation : Intégration transparente dans l'écosystème Ultralytics , offrant une API standardisée pour la formation et le déploiement.
    • Vitesse de déploiement : une véritable architecture de bout en bout élimine les goulets d'étranglement liés au post-traitement.
    • Efficacité des ressources : L'utilisation réduite de la mémoire et la diminution du nombre de paramètres en font un outil idéal pour les environnements à ressources limitées tels que la robotique et les applications mobiles.
    • Efficacité de la formation : Permet une formation rapide grâce à des poids pré-entraînés facilement disponibles et à des chargeurs de données optimisés.
  • Faiblesses :
    • Comme il s'agit d'une architecture plus récente, l'écosystème des tutoriels tiers se développe rapidement mais peut être plus petit que les versions plus anciennes de YOLO comme YOLOv5 ou YOLOv8.

PP-YOLOE+ : Le spécialiste de la PaddlePaddle

  • Points forts :
    • Haute précision : Excellente précision, en particulier pour les modèles les plus grands (PP-YOLOE+x).
    • Optimisation du cadre : Très optimisé pour les utilisateurs déjà profondément investis dans l'infrastructure PaddlePaddle .
  • Faiblesses :
    • Verrouillage de l'écosystème : Le support primaire est limité au framework PaddlePaddle , ce qui peut être un obstacle pour les équipes utilisant PyTorch ou TensorFlow.
    • Poids lourd : Nécessite beaucoup plus de ressources de calcul (FLOPs et Params) pour atteindre la précision des nouveaux modèles YOLO .

Recommandations de cas d'utilisation

Applications en temps réel et informatique de pointe

Pour les applications nécessitant des temps de réponse immédiats, telles que les véhicules autonomes ou les lignes de fabrication à grande vitesse, YOLOv10 est le meilleur choix. Sa faible latence et la suppression de l'étape NMS garantissent des vitesses d'inférence déterministes, essentielles pour les systèmes critiques en matière de sécurité.

Vision par ordinateur à usage général

Pour les développeurs à la recherche d'une solution polyvalente, les modèlesYOLO 'Ultralytics offrent un avantage certain grâce à l'écosystème bien entretenu. La possibilité de passer facilement d'une tâche à l'autredetect, segment, pose) et d'exporter vers des formats tels que ONNX, TensorRT et CoreML fait de YOLOv10 et de ses frères et sœurs une solution très adaptable.

Déploiements industriels spécifiques

Si votre infrastructure existante est entièrement construite sur la pile technologique de Baidu, PP-YOLOE+ fournit une solution native qui s'intègre bien avec les autres outils PaddlePaddle . Cependant, pour les nouveaux projets, l'efficacité de la formation et les coûts matériels inférieurs de YOLOv10 offrent souvent un meilleur retour sur investissement.

Démarrer avec YOLOv10

Découvrez la facilité d'utilisation caractéristique des modèles Ultralytics . Vous pouvez charger et exécuter des prédictions avec YOLOv10 en seulement quelques lignes de code Python :

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Cette API simple permet aux chercheurs de se concentrer sur les données et les résultats plutôt que sur le code standard.

Conclusion

Alors que PP-YOLOE+ reste un concurrent puissant dans son cadre spécifique, YOLOv10 offre un ensemble plus convaincant pour la communauté élargie de la vision par ordinateur. Ses avancées architecturales dans l'élimination des NMS, combinées à la robustesse de l'écosystème Ultralytics , offrent aux développeurs un outil non seulement plus rapide et plus léger, mais aussi plus facile à utiliser et à maintenir.

Pour ceux qui souhaitent rester à la pointe de la technologie, nous vous recommandons également d'explorer YOLO11le dernier modèle phare d'Ultralytics , qui repousse encore les limites de la polyvalence et de la performance pour de multiples tâches visuelles.

Explorer d'autres modèles

Ces comparaisons vous permettront de mieux comprendre le paysage de la détection d'objets :


Commentaires