Passer au contenu

YOLO11 PP-YOLOE+ : comparaison technique des détecteurs en temps réel

Le choix de l'architecture optimale du réseau neuronal est essentiel lors du déploiement d'applications de vision par ordinateur en production. Dans cette comparaison technique, nous examinons deux modèles phares dans le domaine de la détection d'objets en temps réel : Ultralytics YOLO11 et PP-YOLOE+ de Baidu. Les deux architectures offrent des performances robustes, mais elles abordent les défis de la précision, de la vitesse d'inférence et de l'écosystème des développeurs de manière très différente.

Vous trouverez ci-dessous un graphique interactif présentant les limites de performance de ces modèles afin de vous aider à identifier celui qui correspond le mieux à vos contraintes matérielles.

Origines du modèle et lignée technique

Comprendre les origines et les philosophies de conception de ces modèles fournit un contexte précieux pour comprendre leurs forces respectives et leurs cas d'utilisation idéaux.

YOLO11

Développé par Ultralytics, YOLO11 une version hautement perfectionnée de la YOLO , qui privilégie l'équilibre entre une inférence à grande vitesse, une efficacité extrême des paramètres et une facilité d'utilisation inégalée. Il est largement reconnu pour ses capacités multitâches unifiées et Python conviviale pour les développeurs.

En savoir plus sur YOLO11

PP-YOLOE+ Détails

PP-YOLOE+ est une version améliorée de PP-YOLOv2, développée à partir du PaddlePaddle . Elle introduit des changements architecturaux tels que le backbone CSPRepResNet et le Task Alignment Learning (TAL) afin d'améliorer la précision, en particulier sur les GPU haut de gamme.

En savoir plus sur PP-YOLOE+

Différences architecturales

Les conceptions architecturales fondamentales de YOLO11 PP-YOLOE+ reflètent leurs priorités divergentes dans le domaine de la vision par ordinateur.

YOLO11 s'appuie sur une structure hautement optimisée et une tête de détection sans ancrage. Il utilise des blocs C3k2 et le Spatial Pyramid Pooling - Fast (SPPF) pour capturer des caractéristiques multi-échelles avec une charge de calcul minimale. Cette conception est très avantageuse pour réduire la latence d'inférence sur les appareils aux ressources limitées, tels que les NPU périphériques et les CPU mobiles. De plus, YOLO11 conçu nativement pour l'apprentissage multitâche, prenant en charge la segmentation d'instances, l'estimation de pose et la détection de boîtes englobantes orientées (OBB) dès sa sortie de l'emballage.

PP-YOLOE+ introduit le backbone CSPRepResNet et une tête alignée sur les tâches efficaces (ET-head). Il utilise largement les techniques de paramétrage répété pour augmenter la capacité de représentation pendant l'entraînement tout en intégrant ces paramètres dans des convolutions standard pour l'inférence. Bien que cela donne une précision moyenne impressionnante (mAP), les modèles qui en résultent ont tendance à être plus lourds en termes de paramètres et d'empreinte mémoire, ce qui les rend plus adaptés à un déploiement sur des GPU de serveurs robustes plutôt que sur des appareils périphériques légers.

Polyvalence multitâche

Si votre projet nécessite d'aller au-delà des boîtes englobantes standard, Ultralytics YOLO11 une prise en charge native de la segmentation, de l'estimation de la pose et de la classification au sein de la même API, ce qui réduit considérablement les frais de développement par rapport à l'intégration de plusieurs référentiels distincts.

Performances et analyses comparatives

Lors de l'évaluation des performances, nous examinons la précision (mAP), la vitesse d'inférence sur différents matériels et l'efficacité des modèles (paramètres et FLOP). Le tableau ci-dessous présente les mesures comparatives, les valeurs les plus efficaces ou les plus performantes étant indiquées en gras.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Analyse

YOLO11 un avantage évident en matière de équilibre des performances et l'efficacité des paramètres. Par exemple, YOLO11m obtient un mAP 51,5) supérieur à PP-YOLOE+m (49,8) tout en utilisant moins de paramètres (20,1 millions contre 23,43 millions) et en atteignant des vitesses d'inférence nettement plus rapides sur TensorRT 4,7 ms contre 5,56 ms). La légèreté des YOLO11 se traduit intrinsèquement par des besoins en mémoire réduits pendant les deux formation du modèle et déploiement.

Écosystème de formation et facilité d'utilisation

La véritable valeur d'un modèle réside souvent dans la facilité avec laquelle les développeurs peuvent l'entraîner sur des ensembles de données de vision par ordinateur personnalisés et le déployer en production.

L'avantage Ultralytics

Ultralytics une expérience développeur simplifiée. La formation YOLO11 gérée via une Python ou CLI simple, qui élimine les codes standard complexes. La Ultralytics améliore encore cette fonctionnalité en proposant une formation sans code, une gestion automatisée des ensembles de données et des exportations en un seul clic vers des formats tels que ONNX, CoreML et TensorRT.

De plus, YOLO sont très efficaces en termes de mémoire pendant l'entraînement, ce qui évite les surcoûts importants en VRAM typiques des architectures basées sur des transformateurs ou des modèles à paramètres répétés lourds, permettant ainsi l'entraînement sur du matériel grand public.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Écosystème PP-YOLOE+

PP-YOLOE+ fonctionne au sein de l'écosystème PaddleDetection. Bien que ce cadre soit puissant et profondément intégré aux solutions industrielles de Baidu, il exige des développeurs qu'ils adoptent le cadre d'apprentissage PaddlePaddle spécifique PaddlePaddle . Cela peut entraîner une courbe d'apprentissage plus raide pour les équipes déjà standardisées sur PyTorch. De plus, l'exportation des modèles PP-YOLOE+ vers des formats universels standard pour les appareils périphériques peut nécessiter des étapes de conversion supplémentaires par rapport aux pipelines d'exportation natifs des Ultralytics .

Cas d'utilisation idéaux

Le choix entre ces modèles dépend de votre environnement de déploiement spécifique.

  • Choisissez YOLO11 pour le développement agile, l'informatique de pointe et les applications mobiles. Sa vitesse d'inférence élevée, son faible encombrement mémoire et ses capacités d'exportation étendues le rendent idéal pour des tâches telles que la gestion en temps réel des stocks dans le commerce de détail sur des processeurs standard, l'analyse d'images aériennes par drone et les pipelines multitâches complexes.
  • Choisissez PP-YOLOE+ si l'ensemble de votre pipeline de production est déjà fortement investi dans PaddlePaddle ou si vous déployez sur des serveurs d'inférence haut de gamme dédiés où les contraintes de mémoire et la compatibilité matérielle (en dehors du matériel optimisé par Paddle) ne sont pas des préoccupations majeures.

La nouvelle génération : présentation de YOLO26

Si YOLO11 incroyablement puissant, le domaine de l'IA évolue rapidement. Pour être à la pointe de la technologie en matière de détection d'objets, Ultralytics lancé le nouveau YOLO26. Sorti en janvier 2026, YOLO26 s'appuie sur les succès de ses prédécesseurs pour offrir une efficacité et une précision sans précédent.

Principales innovations du YOLO26 :

  • Conception NMS de bout en bout : YOLO26 élimine nativement le post-traitement par suppression non maximale (NMS). Cela accélère considérablement l'inférence et simplifie la logique de déploiement, une avancée architecturale inaugurée pour la première fois dans YOLOv10.
  • CPU jusqu'à 43 % plus rapide : optimisée spécifiquement pour les appareils périphériques sans GPU, garantissant des performances en temps réel sur du matériel à faible consommation d'énergie.
  • Optimiseur MuSGD : inspiré par la stabilité de l'entraînement LLM, cet hybride de SGD Muon garantit une convergence plus rapide et un entraînement plus stable.
  • ProgLoss + STAL : les fonctions de perte améliorées optimisent considérablement la reconnaissance des petits objets, ce qui est essentiel pour les applications de drones et la surveillance de sécurité.
  • Suppression de la perte focale de distribution (DFL) : la suppression de la perte focale de distribution simplifie l'exportation des modèles et améliore considérablement la compatibilité avec une large gamme d'appareils périphériques.

Pour les nouveaux projets privilégiant la rapidité, l'exportation fluide et une précision maximale, nous recommandons vivement d'exploiter les capacités de YOLO26 via la Ultralytics .

Si vous évaluez d'autres architectures, vous pourriez également être intéressé par une comparaison YOLO11 RT-DETR ou explorer comment l'ancienne version YOLOv8 dans les benchmarks modernes.


Commentaires