YOLO11 PP-YOLOE+ : comparaison technique des détecteurs en temps réel

Le choix de l'architecture optimale du réseau neuronal est essentiel lors du déploiement d'applications de vision par ordinateur en production. Dans cette comparaison technique, nous examinons deux modèles phares dans le domaine de la détection d'objets en temps réel : Ultralytics YOLO11 et PP-YOLOE+ de Baidu. Les deux architectures offrent des performances robustes, mais elles abordent les défis de la précision, de la vitesse d'inférence et de l'écosystème des développeurs de manière très différente.

Ci-dessous se trouve un graphique interactif présentant les limites de performance de ces modèles pour vous aider à identifier la meilleure adéquation à vos contraintes matérielles.

Origines du modèle et lignée technique

Comprendre les origines et les philosophies de conception de ces modèles fournit un contexte précieux pour comprendre leurs forces respectives et leurs cas d'utilisation idéaux.

YOLO11

Développé par Ultralytics, YOLO11 représente une itération très raffinée de la série YOLO, privilégiant un équilibre entre inférence à haute vitesse, efficacité extrême des paramètres et facilité d'utilisation inégalée. Il est largement reconnu pour ses capacités multi-tâches unifiées et son API Python conviviale pour les développeurs.

Auteurs : Glenn Jocher et Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Docs :Documentation YOLO11

En savoir plus sur YOLO11

PP-YOLOE+ Détails

PP-YOLOE+ est une version améliorée de PP-YOLOv2, développée à partir du PaddlePaddle . Elle introduit des changements architecturaux tels que le backbone CSPRepResNet et le Task Alignment Learning (TAL) afin d'améliorer la précision, en particulier sur les GPU haut de gamme.

Auteurs : Auteurs de PaddlePaddle
Organisation :Baidu
Date : 2022-04-02
Arxiv :https://arxiv.org/abs/2203.16250
GitHub :https://github.com/PaddlePaddle/PaddleDetection/
Documentation :Documentation de configuration PP-YOLOE+

En savoir plus sur PP-YOLOE+

Différences architecturales

Les conceptions architecturales fondamentales de YOLO11 PP-YOLOE+ reflètent leurs priorités divergentes dans le domaine de la vision par ordinateur.

YOLO11 repose sur un backbone hautement optimisé et une tête de détection sans ancres. Il utilise des blocs C3k2 et le Spatial Pyramid Pooling - Fast (SPPF) pour capturer des caractéristiques multi-échelles avec un surcoût computationnel minimal. Cette conception est très avantageuse pour réduire la latence d'inférence sur les appareils à ressources limitées comme les NPUs de périphérie et les CPU mobiles. De plus, YOLO11 est conçu nativement pour l'apprentissage multi-tâches, prenant en charge la segmentation d'instances, l'estimation de pose et la détection de boîtes englobantes orientées (OBB) dès la première utilisation.

PP-YOLOE+ introduit le backbone CSPRepResNet et une tête Efficient Task-aligned (ET-head). Il utilise intensivement les techniques de re-paramétrisation pour augmenter la capacité de représentation pendant l'entraînement, tout en fusionnant ces paramètres dans des convolutions standard pour l'inférence. Bien que cela produise une précision moyenne (mAP) impressionnante, les modèles résultants ont tendance à être plus lourds en termes de paramètres et d'empreinte mémoire, ce qui les rend mieux adaptés au déploiement sur des GPU de serveurs robustes plutôt que sur des dispositifs périphériques légers.

Polyvalence multitâche

Si votre projet nécessite d'aller au-delà des boîtes englobantes standard, Ultralytics YOLO11 une prise en charge native de la segmentation, de l'estimation de la pose et de la classification au sein de la même API, ce qui réduit considérablement les frais de développement par rapport à l'intégration de plusieurs référentiels distincts.

Performances et analyses comparatives

Lors de l'évaluation des performances, nous examinons la précision (mAP), la vitesse d'inférence sur différents matériels et l'efficacité des modèles (paramètres et FLOP). Le tableau ci-dessous présente les mesures comparatives, les valeurs les plus efficaces ou les plus performantes étant indiquées en gras.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Analyse

YOLO11 un avantage évident en matière de équilibre des performances et l'efficacité des paramètres. Par exemple, YOLO11m atteint un mAP plus élevé (51,5) que PP-YOLOE+m (49,8) tout en utilisant moins de paramètres (20,1M contre 23,43M) et en atteignant des vitesses d'inférence significativement plus rapides sur TensorRT (4,7ms contre 5,56ms). La nature légère des modèles YOLO11 se traduit intrinsèquement par des exigences de mémoire inférieures pendant les deux formation du modèle et le déploiement.

Écosystème de formation et facilité d'utilisation

La véritable valeur d'un modèle réside souvent dans la facilité avec laquelle les développeurs peuvent l'entraîner sur des ensembles de données de vision par ordinateur personnalisés et le déployer en production.

L'avantage Ultralytics

Ultralytics une expérience développeur simplifiée. La formation YOLO11 gérée via une Python ou CLI simple, qui élimine les codes standard complexes. La Ultralytics améliore encore cette fonctionnalité en proposant une formation sans code, une gestion automatisée des ensembles de données et des exportations en un seul clic vers des formats tels que ONNX, CoreML et TensorRT.

De plus, YOLO sont très efficaces en termes de mémoire pendant l'entraînement, ce qui évite les surcoûts importants en VRAM typiques des architectures basées sur des transformateurs ou des modèles à paramètres répétés lourds, permettant ainsi l'entraînement sur du matériel grand public.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Écosystème PP-YOLOE+

PP-YOLOE+ fonctionne au sein de l'écosystème PaddleDetection. Bien que ce cadre soit puissant et profondément intégré aux solutions industrielles de Baidu, il exige des développeurs qu'ils adoptent le cadre d'apprentissage PaddlePaddle spécifique PaddlePaddle . Cela peut entraîner une courbe d'apprentissage plus raide pour les équipes déjà standardisées sur PyTorch. De plus, l'exportation des modèles PP-YOLOE+ vers des formats universels standard pour les appareils périphériques peut nécessiter des étapes de conversion supplémentaires par rapport aux pipelines d'exportation natifs des Ultralytics .

Cas d'utilisation idéaux

Le choix entre ces modèles dépend de votre environnement de déploiement spécifique.

Choisissez YOLO11 pour le développement agile, l'edge computing et les applications mobiles. Sa vitesse d'inférence élevée, son faible encombrement mémoire et ses vastes capacités d'exportation le rendent idéal pour des tâches telles que la gestion des stocks de détail en temps réel sur des CPU standards, l'analyse d'images aériennes par drone et les pipelines multi-tâches complexes.
Choisissez PP-YOLOE+ si l'ensemble de votre pipeline de production est déjà fortement investi dans l'écosystème PaddlePaddle ou si vous déployez sur des serveurs d'inférence dédiés haut de gamme où les contraintes de mémoire et la compatibilité matérielle (en dehors du matériel optimisé de Paddle) ne sont pas des préoccupations majeures.

La nouvelle génération : présentation de YOLO26

Si YOLO11 incroyablement puissant, le domaine de l'IA évolue rapidement. Pour être à la pointe de la technologie en matière de détection d'objets, Ultralytics lancé le nouveau YOLO26. Sorti en janvier 2026, YOLO26 s'appuie sur les succès de ses prédécesseurs pour offrir une efficacité et une précision sans précédent.

Principales innovations du YOLO26 :

Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement par Non-Maximum Suppression (NMS). Cela accélère considérablement l'inférence et simplifie la logique de déploiement, une avancée architecturale initiée par YOLOv10.
Jusqu'à 43 % plus rapide pour l'inférence CPU : Optimisé spécifiquement pour les appareils edge sans GPU, assurant des performances en temps réel sur du matériel à faible consommation.
Optimiseur MuSGD : Inspiré par la stabilité de l'entraînement des LLM, cet hybride de SGD et de Muon assure une convergence plus rapide et un entraînement plus stable.
ProgLoss + STAL: Des fonctions de perte améliorées améliorent considérablement la reconnaissance des petits objets, ce qui est essentiel pour les applications de drones et la surveillance de sécurité.
Suppression du DFL : La suppression de la Distribution Focal Loss simplifie l'exportation du modèle et améliore considérablement la compatibilité avec un large éventail d'appareils périphériques.

Pour les nouveaux projets privilégiant la rapidité, l'exportation fluide et une précision maximale, nous recommandons vivement d'exploiter les capacités de YOLO26 via la Ultralytics .

Si vous évaluez d'autres architectures, vous pourriez également être intéressé par une comparaison YOLO11 RT-DETR ou explorer comment l'ancienne version YOLOv8 dans les benchmarks modernes.