Passer au contenu

PP-YOLOE+ vs YOLO11: naviguer dans l'évolution de la détection d'objets haute performance

Dans le domaine en pleine évolution de la vision par ordinateur, il est essentiel de choisir la bonne architecture de modèle pour trouver le juste équilibre entre précision, vitesse et contraintes de déploiement. Cette comparaison explore deux étapes importantes dans l'histoire de la détection : PP-YOLOE+, un détecteur sans ancrage perfectionné issu de PaddlePaddle , et YOLO11, une itération de pointe Ultralytics pour offrir une efficacité et une polyvalence supérieures.

Alors que PP-YOLOE+ représente une solution mature pour les applications industrielles dans des cadres spécifiques, YOLO11 les limites du possible sur les appareils périphériques grâce à des améliorations architecturales. De plus, nous nous tournerons vers YOLO26, la dernière innovation qui offre une détection native de bout en bout NMS.

Comparaison des métriques de performance

Le tableau suivant présente une comparaison directe des indicateurs de performance clés. YOLO11 présente un avantage évident en termes d'efficacité, offrant une précision comparable ou supérieure avec un nombre de paramètres considérablement réduit et des vitesses d'inférence plus rapides.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

PP-YOLOE+ : PaddlePaddle du PaddlePaddle

PP-YOLOE+ est une version améliorée de PP-YOLOE, développée par les chercheurs de Baidu dans le cadre de la boîte à outils PaddleDetection. Elle vise principalement à améliorer la vitesse de convergence de l'entraînement et les performances des tâches en aval de son prédécesseur.

Architecture technique

PP-YOLOE+ est un modèle sans ancrage qui exploite une structure CSPRepResNet et une stratégie d'apprentissage par alignement de tâches (TAL) pour l'attribution des étiquettes. Il utilise un mécanisme d'attention ESE (Effective Squeeze-and-Excitation) unique dans son cou pour améliorer la représentation des caractéristiques. Un choix architectural clé est l'utilisation d'une reparamétrisation de type RepVGG, qui permet au modèle d'avoir une dynamique d'apprentissage complexe qui se réduit à des structures plus simples et plus rapides pendant l'inférence.

Les principales caractéristiques comprennent :

  • Tête sans ancrage : simplifie la conception en supprimant le besoin de boîtes d'ancrage prédéfinies.
  • Apprentissage par alignement des tâches (TAL) : aligne dynamiquement les tâches de classification et de régression afin d'améliorer la précision.
  • Pré-entraînement Object365 : la version « Plus » (+) bénéficie grandement d'un pré-entraînement intensif sur l'énorme ensemble de données Objects365, ce qui accélère considérablement la vitesse de convergence sur les ensembles de données plus petits.

Métadonnées :

Contraintes liées à l'écosystème

Bien que PP-YOLOE+ offre des performances élevées, il est étroitement lié au PaddlePaddle . Les développeurs habitués à PyTorch TensorFlow rencontrer une courbe d'apprentissage abrupte et des frictions lors de son intégration dans des pipelines MLOps existants qui ne prennent pas en charge nativement Paddle Inference.

En savoir plus sur PP-YOLOE+

Ultralytics YOLO11: redéfinir l'efficacité

Publié par Ultralytics fin 2024, YOLO11 une amélioration significative de la YOLO , en privilégiant l'efficacité des paramètres et la capacité d'extraction des caractéristiques. Contrairement à certaines architectures axées sur la recherche, YOLO11 conçu pour une utilisation dans le monde réel, en équilibrant la précision brute et la vitesse opérationnelle.

Innovations architecturales

YOLO11 le bloc C3k2, une évolution plus légère et plus rapide du goulot d'étranglement CSP, et intègre C2PSA (Cross-Stage Partial with Spatial Attention) pour améliorer la concentration du modèle sur les zones critiques de l'image. Ces changements permettent d'obtenir un modèle moins coûteux en termes de calcul que les itérations précédentes, tout en conservant mAP compétitifs.

Les avantages pour les développeurs sont les suivants :

  • Empreinte mémoire réduite : YOLO11 nettement moins de paramètres que PP-YOLOE+ pour une précision similaire (par exemple, YOLO11x a environ 42 % de paramètres en moins que PP-YOLOE+x), ce qui le rend idéal pour les appareils périphériques dotés d'une mémoire RAM limitée.
  • Cadre unifié : prend en charge la détection, la segmentation, la classification, l'estimation de la pose et l'OBB de manière transparente.
  • PyTorch : basé sur le PyTorch largement adopté, garantissant la compatibilité avec la grande majorité des outils et bibliothèques d'IA modernes.

Métadonnées :

En savoir plus sur YOLO11

Analyse critique : choisir le bon outil

1. Facilité d'utilisation et écosystème

C'est là que la distinction est la plus marquée. Ultralytics sont réputés pour leur facilité d'utilisation. Le ultralytics Python permet la formation, la validation et le déploiement en moins de cinq lignes de code en général.

À l'inverse, PP-YOLOE+ nécessite l'installation du PaddlePaddle et le clonage du référentiel PaddleDetection. La configuration implique souvent la modification de fichiers YAML complexes et l'utilisation de scripts en ligne de commande plutôt que d'une API Python, ce qui peut ralentir le prototypage rapide.

2. Déploiement et polyvalence

YOLO11 en matière de polyvalence. Il peut être exporté sans effort vers des formats tels que ONNX, TensorRT, CoreML et TFLite une seule commande. Cela en fait le choix idéal pour un déploiement sur divers matériels, des modules NVIDIA aux iOS .

Bien que PP-YOLOE+ puisse être exporté, le processus donne souvent la priorité à Paddle Inference ou nécessite des étapes de conversion intermédiaires (par exemple, Paddle2ONNX) qui peuvent entraîner des problèmes de compatibilité. De plus, YOLO11 une gamme plus large de tâches, telles que la détection des boîtes englobantes orientées (OBB) et la segmentation d'instances, tandis que PP-YOLOE+ est principalement une architecture axée sur la détection.

3. Efficacité de la formation

Ultralytics sont optimisés pour une efficacité de formation accrue, nécessitant souvent moins CUDA et convergeant plus rapidement grâce à des hyperparamètres prédéfinis intelligents. L'écosystème offre également une intégration transparente avec des outils de suivi des expériences tels que Comet et Weights & Biases, ce qui rationalise le cycle de vie des MLOps.

Perspectives : La puissance de YOLO26

Pour les développeurs à la recherche d'une technologie de pointe, Ultralytics lancé YOLO26, une avancée révolutionnaire qui supplante à la fois YOLO11 PP-YOLOE+.

YOLO26 présente une conception native de bout en bout NMS, une avancée révolutionnaire lancée pour la première fois dans YOLOv10 désormais perfectionnée pour la production. Cela élimine le besoin d'un post-traitement par suppression non maximale (NMS), qui constitue souvent un goulot d'étranglement en termes de latence dans les applications en temps réel.

Les principales avancées de YOLO26 comprennent :

  • CPU jusqu'à 43 % plus rapide : en supprimant la perte focale de distribution (DFL) et en optimisant l'architecture de la tête, YOLO26 est spécialement adapté à l'informatique de pointe et aux environnements sans GPU puissants.
  • Optimiseur MuSGD : hybride entre SGD Muon (inspiré du Kimi K2 de Moonshot AI), cet optimiseur apporte la stabilité de l'entraînement des modèles linguistiques à grande échelle (LLM) à la vision par ordinateur, garantissant une convergence plus rapide.
  • ProgLoss + STAL : fonctions de perte avancées améliorant la détection des petits objets, essentielles pour des tâches telles que l'imagerie aérienne ou le contrôle qualité.
  • Améliorations spécifiques à la tâche : inclut la perte de segmentation sémantique pour une meilleure précision du masque et la perte d'angle spécialisée pour OBB, traitant les discontinuités des limites.

Recommandation

Pour les nouveaux projets, YOLO26 est le choix recommandé. Son architecture NMS simplifie considérablement les pipelines de déploiement, en supprimant la complexité du réglage IoU pour le post-traitement.

En savoir plus sur YOLO26

Exemple d'implémentation

Découvrez la simplicité de Ultralytics . Le code suivant montre comment charger et entraîner un modèle. Vous pouvez facilement passer de YOLO11 YOLO26 en modifiant la chaîne de caractères du nom du modèle.

from ultralytics import YOLO

# Load the latest YOLO26 model (or use "yolo11n.pt")
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset
# The system automatically handles data augmentation and logging
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free output is handled automatically for YOLO26
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified deployment
path = model.export(format="onnx")

Pour les utilisateurs intéressés par d'autres architectures spécialisées, la documentation couvre également des modèles tels que RT-DETR pour la détection basée sur les transformateurs et YOLO pour les tâches à vocabulaire ouvert.

Conclusion

Si PP-YOLOE+ reste une option solide pour ceux qui sont profondément investis dans l'écosystème Baidu, YOLO11 et le plus récent YOLO26 offrent un ensemble plus attrayant pour la communauté des développeurs en général. Avec une facilité d'utilisation supérieure, des exigences en mémoire réduites, des options d'exportation étendues et une communauté florissante, Ultralytics offrent l'équilibre de performances nécessaire aux applications modernes et évolutives de vision par ordinateur.


Commentaires