Passer au contenu

Ultralytics YOLO26 vs. PP-YOLOE+ : Une comparaison technique

Le paysage de la détection d'objets en temps réel est en constante évolution, les chercheurs et les ingénieurs s'efforçant d'atteindre l'équilibre optimal entre précision, vitesse et facilité de déploiement. Deux modèles éminents dans ce domaine sont Ultralytics YOLO26 et PP-YOLOE+. Bien que les deux modèles représentent des avancées significatives en vision par ordinateur, ils répondent à des besoins d'écosystème et à des philosophies architecturales différents.

Ce guide propose une comparaison technique complète, disséquant leurs architectures, leurs métriques de performance et leur adéquation aux applications du monde réel. Nous explorerons comment les innovations modernes de YOLO26 contrastent avec le cadre établi de PP-YOLOE+.

Aperçu et origines des modèles

Comprendre la lignée de ces modèles aide à clarifier leurs objectifs de conception et leur base d'utilisateurs visée.

Ultralytics YOLO26

Lancé en janvier 2026 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO26 représente la dernière évolution de la célèbre série YOLO. Il est conçu spécifiquement pour les appareils périphériques et à faible consommation, en se concentrant sur une efficacité native de bout en bout.

Les innovations clés incluent la suppression de la suppression non maximale (NMS) pour une inférence rationalisée, l'introduction de l'optimiseur MuSGD (inspiré par Kimi K2 de Moonshot AI) et des simplifications architecturales significatives comme la suppression de la perte focale de distribution (DFL). Ces changements en font un choix robuste pour les développeurs ayant besoin de vitesse et de simplicité sans sacrifier la précision.

En savoir plus sur YOLO26

PP-YOLOE+

PP-YOLOE+ est une version améliorée de PP-YOLOE, développée par l'équipe PaddlePaddle chez Baidu. Lancé vers avril 2022, il est construit sur le cadre d'apprentissage profond PaddlePaddle. Il se concentre sur l'affinage du backbone CSPRepResStage et l'utilisation d'une stratégie d'attribution dynamique des étiquettes connue sous le nom de TAL (Task Alignment Learning). Bien que très performant, il est étroitement lié à l'écosystème PaddlePaddle, ce qui peut influencer les choix de déploiement pour les utilisateurs habitués à PyTorch ou à d'autres frameworks.

Architecture et philosophie de conception

Les différences fondamentales entre ces deux modèles résident dans la manière dont ils gèrent l'attribution des étiquettes, le post-traitement et l'optimisation de l'entraînement.

YOLO26 : La révolution de bout en bout

YOLO26 est distinctement de bout en bout, ce qui signifie qu'il génère des prédictions finales directement à partir du réseau sans nécessiter une étape de post-traitement NMS distincte. Ce choix de conception, initié dans YOLOv10, élimine la latence et la complexité associées à l'ajustement des seuils NMS.

  • Suppression du DFL : En supprimant la Perte Focale de Distribution (Distribution Focal Loss), YOLO26 simplifie le graphe du modèle, rendant les formats d'exportation comme ONNX et TensorRT beaucoup plus propres et compatibles avec le matériel embarqué.
  • Optimiseur MuSGD : Hybride de SGD et de Muon, cet optimiseur apporte à la vision par ordinateur les améliorations de stabilité observées dans l'entraînement des LLM, assurant une convergence plus rapide.
  • Accent sur les petits objets : Des fonctionnalités comme ProgLoss et l'Assignation d'étiquettes sensible aux petites cibles (STAL) visent spécifiquement des améliorations dans la détection de petits objets, cruciales pour l'imagerie aérienne et les applications de drones.

PP-YOLOE+: Détection sans ancres affinée

PP-YOLOE+ suit un paradigme sans ancres mais repose sur un pipeline de post-traitement plus traditionnel comparé à l'approche de bout en bout de YOLO26.

  • Dorsale : Il utilise une dorsale CSPRepResStage, qui combine des blocs de style rep-vgg avec des connexions CSP (Cross Stage Partial).
  • Assignation d'étiquettes : Il emploie le Task Alignment Learning (TAL), qui aligne dynamiquement le score de classification et la qualité de localisation.
  • Objectif : La version « Plus » met l'accent sur l'amélioration de la vitesse d'entraînement et de la convergence en s'initialisant avec de meilleurs poids pré-entraînés, souvent sur Objects365.

Pourquoi le bout en bout est important

Pour le déploiement en périphérie, chaque milliseconde compte. Une conception de bout en bout sans NMS signifie que la sortie du modèle est prête à être utilisée immédiatement. Il n'est pas nécessaire de trier et de filtrer des milliers de boîtes candidates, ce qui est gourmand en CPU et constitue un goulot d'étranglement courant dans les détecteurs traditionnels fonctionnant sur du matériel limité comme le Raspberry Pi.

Comparaison des métriques de performance

Le tableau suivant compare les performances de YOLO26 et PP-YOLOE+ sur le jeu de données COCO. YOLO26 démontre une efficacité supérieure, notamment en termes de nombre de paramètres et de vitesse d'inférence, soulignant son optimisation pour le matériel moderne.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

Principaux points à retenir :

  • Efficacité : YOLO26n atteint une précision plus élevée (40.9 mAP) que PP-YOLOE+t (39.9 mAP) avec environ la moitié des paramètres (2.4M contre 4.85M) et un quart des FLOPs (5.4B contre 19.15B).
  • Vitesse : YOLO26 est significativement plus rapide pour l'inférence GPU (T4 TensorRT), le modèle nano affichant 1.7ms contre 2.84ms pour le modèle PP-YOLOE+ équivalent.
  • Optimisation CPU : YOLO26 est explicitement optimisé pour les CPU, capable d'une inférence jusqu'à 43 % plus rapide, ce qui le rend idéal pour les appareils dépourvus d'accélérateurs dédiés.

Formation et écosystème

L'expérience développeur est définie non seulement par l'architecture du modèle, mais aussi par les outils qui l'entourent.

Facilité d'utilisation avec Ultralytics

Ultralytics privilégie une expérience utilisateur fluide. YOLO26 est intégré dans un package python unifié qui prend en charge la detect, la segmentation, l'estimation de pose, la classification et les Oriented Bounding Boxes (OBB).

Les développeurs peuvent commencer l'entraînement en quelques secondes grâce à l'interface CLI ou à l'API python intuitives :

from ultralytics import YOLO

# Load the YOLO26s model
model = YOLO("yolo26s.pt")

# Train on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Cet écosystème s'étend à un déploiement sans effort. Le export mode prend en charge la conversion vers des formats tels que OpenVINO, CoreML, et TensorRT avec une seule commande.

PP-YOLOE+ et PaddlePaddle

PP-YOLOE+ est profondément intégré au framework PaddlePaddle. Bien que puissant, les utilisateurs sont souvent confrontés à une courbe d'apprentissage plus raide s'ils ne font pas déjà partie de l'écosystème Baidu. L'entraînement implique généralement la configuration de fichiers yaml complexes et l'utilisation de scripts PaddleDetection spécifiques. Le portage de modèles vers des moteurs d'inférence non-Paddle peut parfois nécessiter des étapes de conversion supplémentaires (par exemple, de Paddle à ONNX à TensorRT).

Cas d'utilisation et applications

Scénarios Idéaux pour YOLO26

  • IA en périphérie et IoT : Grâce à ses faibles FLOPs et à la suppression du DFL, YOLO26 excelle sur des appareils comme le Raspberry Pi ou le NVIDIA Jetson.
  • Analyse vidéo en temps réel : La vitesse d'inférence élevée le rend parfait pour la surveillance du trafic ou la surveillance de la sécurité où les fréquences d'images sont critiques.
  • Imagerie aérienne et par drone : Les fonctions STAL et ProgLoss offrent un avantage distinct pour la détection de petits objets depuis de hautes altitudes.
  • Exigences multi-tâches : Les projets nécessitant une estimation de pose ou une segmentation d'instance en plus de la detect peuvent utiliser la même API et la même famille de modèles.

Scénarios idéaux pour PP-YOLOE+

  • Déploiements en centre de données : Pour les scénarios où de vastes clusters GPU sont disponibles et où l'efficacité brute des paramètres est moins critique que les préférences architecturales spécifiques.
  • Systèmes hérités PaddlePaddle : Les organisations ayant déjà fortement investi dans l'infrastructure PaddlePaddle trouveront plus simple de migrer vers PP-YOLOE+ plutôt que de changer de framework.

Conclusion

Bien que PP-YOLOE+ reste un détecteur performant, Ultralytics YOLO26 offre une solution plus moderne, efficace et conviviale pour la grande majorité des applications de vision par ordinateur. Sa conception de bout en bout sans NMS, combinée à une précision de pointe et une utilisation minimale des ressources, le positionne comme le choix supérieur pour les développeurs souhaitant déployer des solutions d'IA robustes en 2026.

L'intégration transparente avec l'écosystème Ultralytics garantit que, de l'annotation de données au déploiement, le flux de travail reste fluide et productif.

Lectures complémentaires

Pour ceux qui souhaitent explorer d'autres options ou les générations précédentes, consultez la documentation de :

  • YOLO11 - Le modèle de pointe précédent.
  • YOLOv10 - Le pionnier de la détection d'objets en temps réel de bout en bout.
  • RT-DETR - Un détecteur basé sur des transformeurs offrant une grande précision.

Commentaires