YOLO11 vs PP-YOLOE+ : une comparaison technique des détecteurs en temps réel
Le choix de l'architecture de réseau de neurones optimale est essentiel lors du déploiement d'applications de vision par ordinateur en production. Dans cette comparaison technique, nous examinons deux modèles de premier plan dans le domaine de la détection d'objets en temps réel : Ultralytics YOLO11 et PP-YOLOE+ de Baidu. Ces deux architectures offrent des performances robustes, mais elles abordent les défis de la précision, de la vitesse d'inférence et de l'écosystème de développement de manière assez différente.
Tu trouveras ci-dessous un graphique interactif présentant les limites de performance de ces modèles pour t'aider à identifier celui qui correspond le mieux à tes contraintes matérielles.
Origines des modèles et lignée technique
Comprendre les origines et les philosophies de conception de ces modèles fournit un contexte précieux sur leurs forces respectives et leurs cas d'utilisation idéaux.
Détails de YOLO11
Développé par Ultralytics, YOLO11 représente une itération hautement raffinée de la série YOLO, privilégiant un équilibre entre une inférence à haute vitesse, une efficacité extrême en termes de paramètres et une facilité d'utilisation inégalée. Il est largement reconnu pour ses capacités multitâches unifiées et son API Python conviviale pour les développeurs.
- Auteurs : Glenn Jocher et Jing Qiu
- Organisation : Ultralytics
- Date : 2024-09-27
- GitHub : https://github.com/ultralytics/ultralytics
- Docs : Documentation YOLO11
Détails sur PP-YOLOE+
PP-YOLOE+ est une version évoluée de PP-YOLOv2, construite sur le framework PaddlePaddle. Il introduit des changements architecturaux comme le backbone CSPRepResNet et l'apprentissage par alignement de tâches (Task Alignment Learning, TAL) pour repousser les limites de la précision, particulièrement sur les GPU haut de gamme.
- Auteurs : Auteurs de PaddlePaddle
- Organisation : Baidu
- Date : 02/04/2022
- Arxiv : https://arxiv.org/abs/2203.16250
- GitHub : https://github.com/PaddlePaddle/PaddleDetection/
- Docs : Documentation de configuration de PP-YOLOE+
Différences architecturales
Les conceptions architecturales fondamentales de YOLO11 et de PP-YOLOE+ reflètent leurs priorités divergentes dans le paysage de la vision par ordinateur.
YOLO11 s'appuie sur un backbone hautement optimisé et une tête de détection sans ancres (anchor-free). Il utilise des blocs C3k2 et le Spatial Pyramid Pooling - Fast (SPPF) pour capturer des caractéristiques multi-échelles avec un minimum de surcharge computationnelle. Cette conception est très avantageuse pour réduire la latence d'inférence sur des appareils aux ressources limitées tels que les NPU en périphérie (edge) et les CPU mobiles. De plus, YOLO11 est conçu nativement pour l'apprentissage multitâche, prenant en charge la segmentation d'instance, l' estimation de pose et la détection par boîte englobante orientée (OBB) dès sa sortie.
PP-YOLOE+ introduit le backbone CSPRepResNet et une tête efficace alignée sur les tâches (ET-head). Il utilise intensivement des techniques de rep-paramétrage pour augmenter la capacité de représentation pendant l'entraînement tout en repliant ces paramètres dans des convolutions standard pour l'inférence. Bien que cela produise une précision moyenne (mAP) impressionnante, les modèles qui en résultent ont tendance à être plus lourds en termes de paramètres et d'empreinte mémoire, ce qui les rend mieux adaptés à un déploiement sur des serveurs GPU robustes plutôt que sur des appareils en périphérie légers.
Si ton projet nécessite d'aller au-delà des boîtes englobantes standard, Ultralytics YOLO11 fournit un support natif pour la segmentation, l'estimation de pose et la classification au sein de la même API, réduisant considérablement la surcharge de développement par rapport à l'intégration de plusieurs dépôts distincts.
Performances et benchmarks
Lors de l'évaluation des performances, nous examinons la précision (mAP), la vitesse d'inférence sur différents matériels et l'efficacité du modèle (paramètres et FLOPs). Le tableau ci-dessous met en évidence les métriques comparatives, avec les valeurs les plus efficaces ou les plus performantes en gras.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4,7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analyse
YOLO11 demonstrates a clear advantage in performance balance and parameter efficiency. For instance, YOLO11m achieves a higher mAP (51.5) than PP-YOLOE+m (49.8) while utilizing fewer parameters (20.1M vs 23.43M) and achieving significantly faster inference speeds on TensorRT (4.7ms vs 5.56ms). The lightweight nature of YOLO11 models inherently translates to lower memory requirements during both model training and deployment.
Écosystème d'entraînement et facilité d'utilisation
The true value of a model often lies in how easily developers can train it on custom computer vision datasets and deploy it to production.
L'avantage Ultralytics
Ultralytics prioritizes a streamlined developer experience. Training YOLO11 is managed through a simple Python API or CLI, abstracting away complex boilerplate code. The Ultralytics Platform further enhances this by providing no-code training, automated dataset management, and single-click exports to formats like ONNX, CoreML, and TensorRT.
De plus, les modèles YOLO sont très économes en mémoire pendant l'entraînement, évitant les surcharges massives de VRAM typiques des architectures basées sur des Transformers ou des modèles lourdement rep-paramétrés, ce qui permet un entraînement sur du matériel grand public.
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()Écosystème PP-YOLOE+
PP-YOLOE+ fonctionne au sein de l'écosystème PaddleDetection. Bien que ce framework soit puissant et profondément intégré aux solutions industrielles de Baidu, il exige des développeurs qu'ils adoptent le framework d'apprentissage profond spécifique PaddlePaddle. Cela peut introduire une courbe d'apprentissage plus raide pour les équipes déjà standardisées sur PyTorch. De plus, l'exportation des modèles PP-YOLOE+ vers des formats universels standard pour les appareils en périphérie peut nécessiter des étapes de conversion supplémentaires par rapport aux pipelines d'exportation natifs trouvés dans les workflows Ultralytics.
Cas d'utilisation idéaux
Le choix entre ces modèles dépend de ton environnement de déploiement spécifique.
- Choisis YOLO11 pour un développement agile, l' informatique en périphérie (edge computing) et les applications mobiles. Sa vitesse d'inférence élevée, sa faible empreinte mémoire et ses capacités d'exportation étendues le rendent idéal pour des tâches comme la gestion des stocks au détail en temps réel sur des CPU standard, l'analyse d'images aériennes par drone et les pipelines multitâches complexes.
- Choisis PP-YOLOE+ si l'ensemble de ton pipeline de production est déjà fortement investi dans l'écosystème PaddlePaddle ou si tu déploies sur des serveurs d'inférence dédiés haut de gamme où les contraintes de mémoire et la compatibilité matérielle (en dehors du matériel optimisé par Paddle) ne sont pas des préoccupations premières.
La nouvelle génération : présentation de YOLO26
Bien que YOLO11 reste incroyablement puissant, le domaine de l'IA évolue rapidement. Pour le summum de la pointe en détection d'objets, Ultralytics a introduit le nouveau YOLO26. Sorti en janvier 2026, YOLO26 s'appuie sur les succès de ses prédécesseurs pour offrir une efficacité et une précision sans précédent.
Innovations clés de YOLO26 :
- Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement par Non-Maximum Suppression (NMS). Cela accélère considérablement l'inférence et simplifie la logique de déploiement, un saut architectural inauguré dans YOLOv10.
- Jusqu'à 43 % d'inférence CPU plus rapide : Optimisé spécifiquement pour les appareils en périphérie sans GPU, garantissant des performances en temps réel sur du matériel à faible consommation.
- Optimiseur MuSGD : Inspiré par la stabilité de l'entraînement des LLM, cet hybride de SGD et Muon assure une convergence plus rapide et un entraînement plus stable.
- ProgLoss + STAL : Les fonctions de perte améliorées augmentent radicalement la reconnaissance des petits objets, ce qui est critique pour les applications de drones et la surveillance de sécurité.
- Suppression de DFL : La suppression de la Distribution Focal Loss simplifie l'exportation du modèle et améliore considérablement la compatibilité sur une large gamme d'appareils en périphérie.
Pour les nouveaux projets privilégiant la vitesse, une exportation transparente et une précision maximale, nous te recommandons vivement d'exploiter les capacités de YOLO26 via la Plateforme Ultralytics.
Si tu évalues d'autres architectures, tu pourrais aussi être intéressé par la comparaison de YOLO11 avec RT-DETR ou par l'exploration de la façon dont l'ancien YOLOv8 se comporte dans les benchmarks modernes.