YOLOX vs. PP-YOLOE+ : un examen approfondi de la détection d’objets sans ancrage
Dans le domaine en pleine évolution de la détection d'objets en temps réel, les architectures sans ancrage sont apparues comme une alternative puissante aux méthodes traditionnelles basées sur l'ancrage. Cette analyse compare deux modèles sans ancrage de premier plan : YOLOX (de Megvii) et PP-YOLOE+ (dePaddlePaddle). Nous explorons leurs innovations architecturales uniques, leurs benchmarks de performance et les considérations relatives à leur déploiement afin d'aider les développeurs à choisir l'outil adapté à leurs applications de vision par ordinateur.
Bien que ces deux frameworks offrent des améliorations significatives par rapport YOLO précédentes YOLO , les développeurs à la recherche d'une plateforme unifiée pour la formation, le déploiement et la gestion du cycle de vie se tournent souvent vers l' Ultralytics . Avec la sortie de YOLO26, les utilisateurs ont désormais accès à une détection de bout en bout NMS, à CPU nettement plus rapide et à une intégration transparente avec les workflows MLOps modernes.
YOLOX : La simplicité au service de la performance
YOLOX, sorti en 2021, a marqué un retour à la simplicité architecturale. En dissociant la tête de détection et en supprimant les boîtes d'ancrage, il a résolu des problèmes courants tels que l'échantillonnage positif/négatif déséquilibré, tout en obtenant des résultats à la pointe de la technologie pour l'époque.
Détails de YOLOX :
Zheng Ge, Songtao Liu, Feng Wang, Zeming Li, et Jian Sun
Megvii
18 juillet 2021
Arxiv | GitHub | Docs
Principales caractéristiques architecturales
- Tête découplée : contrairement YOLO précédentes YOLO (comme YOLOv3) où la classification et la localisation étaient effectuées dans une tête unifiée, YOLOX sépare ces tâches. Cette séparation réduit les conflits entre les deux objectifs, ce qui permet une convergence plus rapide et une meilleure précision.
- Conception sans ancrage : en prédisant directement les cadres de sélection sans ancrages prédéfinis, YOLOX simplifie le processus de conception, éliminant ainsi le besoin d'un réglage heuristique des ancrages (par exemple, le regroupement par la méthode des K-moyennes sur les étiquettes des ensembles de données).
- SimOTA : une stratégie dynamique d'attribution d'étiquettes appelée SimOTA (Simplified Optimal Transport Assignment) attribue automatiquement les objets de référence aux prédictions les plus appropriées, améliorant ainsi la stabilité de l'entraînement.
PP-YOLOE+ : perfectionné pour les applications industrielles
PP-YOLOE+, une évolution de laYOLO développée par PaddlePaddle de Baidu, est spécialement conçue pour le déploiement dans le cloud et en périphérie. Elle met fortement l'accent sur la vitesse d'inférence sur des backends matériels spécifiques tels que TensorRT OpenVINO.
PP-YOLOE+ Détails :
PaddlePaddle
Baidu
2 avril 2022
Arxiv | GitHub | Docs
Principales caractéristiques architecturales
- CSPRepResNet Backbone : cette infrastructure combine l'efficacité de CSPNet avec la capacité d'apprentissage résiduel de ResNet, optimisée à l'aide de techniques de reparamétrage afin d'augmenter la vitesse d'inférence sans sacrifier la précision.
- TAL (Task Alignment Learning) : remplaçant SimOTA, TAL aligne explicitement le score de classification et la qualité de localisation, garantissant que les détections hautement fiables présentent également un coefficient d'intersection sur union (IoU) élevé avec la vérité terrain.
- Tête alignée sur les tâches efficaces (ET-Head) : structure simplifiée qui réduit la charge de calcul tout en conservant les avantages de la prédiction découplée.
Comparaison des métriques de performance
Le tableau suivant compare les performances de YOLOX et PP-YOLOE+ sur COCO . Il met en évidence les compromis entre la taille du modèle (paramètres), le coût de calcul (FLOP) et la vitesse d'inférence sur différentes configurations matérielles.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Analyse des résultats
- Précision : PP-YOLOE+ obtient généralement des scoresmAPval plus élevés pour des modèles de tailles comparables (S, M, L, X), grâce à la nouvelle stratégie d'apprentissage par alignement des tâches (TAL).
- Modèles légers : YOLOX-Nano est extrêmement léger (0,91 Mo de paramètres), ce qui en fait un candidat idéal pour les appareils aux ressources très limitées où chaque kilo-octet compte.
- Efficacité de calcul : les modèles PP-YOLOE+ présentent généralement des FLOP moins élevés pour des niveaux de précision similaires, ce qui suggère une meilleure optimisation pour les opérations de multiplication matricielle courantes dans GPU .
Ultralytics : au-delà des benchmarks
Si les benchmarks bruts sont importants, l'expérience des développeurs et le soutien de l'écosystème sont essentiels à la réussite d'un projet. C'est là qu'interviennent Ultralytics , tels que YOLO11 et le très innovant YOLO26, se distinguent.
Facilité d'utilisation et écosystème
Python Ultralytics standardise le flux de travail pour la formation, la validation et le déploiement. Le passage d'un modèle à l'autre ne nécessite que la modification d'une seule chaîne de caractères, alors que le passage de YOLOX (PyTorch) à PP-YOLOE+ (PaddlePaddle) implique l'apprentissage de frameworks et de syntaxes API totalement différents.
from ultralytics import YOLO
# Load a model: Switch easily between generations
model = YOLO("yolo26n.pt")
# Train on any supported dataset with one command
results = model.train(data="coco8.yaml", epochs=100)
Les utilisateurs de la Ultralytics bénéficient également d'une gestion intégrée des ensembles de données, d'outils d'annotation automatique et d'une exportation en un clic vers des formats tels que TFLite et CoreML, ce qui simplifie le passage du prototype à la production.
Équilibre des performances avec YOLO26
Pour les développeurs à la recherche de l'équilibre parfait, YOLO26 introduit plusieurs avancées qui ne se trouvent pas dans YOLOX ou PP-YOLOE+ :
- NMS de bout en bout : en éliminant le post-traitementNMS(Non-Maximum Suppression), YOLO26 réduit la latence d'inférence et la complexité du déploiement.
- Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur hybride garantit une convergence stable et des temps de formation plus rapides.
- Détection améliorée des petits objets : grâce à ProgLoss et STAL (Soft Task Alignment Learning), YOLO26 excelle dans les scénarios difficiles tels que l'imagerie aérienne ou la surveillance IoT.
- CPU : la suppression de la perte focale de distribution (DFL) permet d'accélérer jusqu'à 43 % CPU , ce qui en fait une solution idéale pour les appareils périphériques sans accélérateurs IA dédiés.
Pourquoi choisir Ultralytics ?
Ultralytics nécessitent généralement moins GPU pendant l'entraînement que les architectures basées sur des transformateurs telles que RT-DETR. Cette efficacité démocratise l'accès à l'IA de pointe, permettant l'entraînement sur du matériel grand public.
Cas d'utilisation et recommandations
Quand choisir YOLOX
YOLOX est un excellent choix pour :
- Recherche universitaire : son architecture épurée et sans ancrage sert de base simple pour tester de nouvelles têtes de détection ou fonctions de perte.
- Appareils Edge hérités : la variante YOLOX-Nano est incroyablement petite, adaptée aux microcontrôleurs ou aux appareils mobiles plus anciens où le stockage est la principale contrainte.
Quand choisir PP-YOLOE+
PP-YOLOE+ est recommandé dans les cas suivants :
- PaddlePaddle : votre infrastructure existante repose sur l'écosystème Baidu.
- Prise en charge matérielle spécifique : vous effectuez le déploiement sur du matériel doté de noyaux hautement optimisés spécialement pour Paddle Lite ou le moteur d'inférence Paddle.
Quand choisir Ultralytics YOLO26)
Pour la majorité des projets de recherche commerciale et appliquée, YOLO26 est le choix idéal pour les raisons suivantes :
- Polyvalence : contrairement à YOLOX, qui est principalement un détecteur, Ultralytics les tâches de segmentation d'instances, d'estimation de pose et de boîte englobante orientée (OBB) au sein de la même bibliothèque.
- Préparation à la production : prise en charge native de l'exportation vers ONNX, TensorRTet OpenVINO garantissent que votre modèle fonctionne efficacement sur n'importe quel matériel cible.
- Assistance active : une communauté importante et des mises à jour fréquentes garantissent la compatibilité avec les dernières CUDA , Python et les accélérateurs matériels.
Applications concrètes
Analyse du commerce de détail
Dans les magasins, des caméras surveillent les rayons pour vérifier la disponibilité des stocks. YOLO26 est particulièrement efficace dans ce domaine grâce à sa grande précision sur les petits objets (ProgLoss) et à CPU faible CPU , ce qui permet aux détaillants de traiter les flux vidéo localement sur les serveurs des magasins sans avoir recours à des GPU coûteux.
Inspection autonome par drone
Pour l'inspection agricole ou infrastructurelle, les drones doivent être légers. Si le YOLOX-Nano est petit, le YOLO26n offre un meilleur compromis, avec une précision nettement supérieure pour détecter les maladies des cultures ou les fissures structurelles, tout en conservant des fréquences d'images en temps réel sur les contrôleurs de vol intégrés.
Gestion intelligente du trafic urbain
Les systèmes de surveillance du trafic doivent compter avec précision les véhicules et les piétons. PP-YOLOE+ peut fonctionner efficacement dans ce domaine s'il est déployé sur des boîtiers périphériques spécialisés optimisés pour Paddle. Cependant, YOLO26 simplifie cette tâche grâce à sa conception NMS, qui empêche le « double comptage » des véhicules dans un trafic dense, un problème courant avec les détecteurs traditionnels basés sur des ancrages qui nécessitent un réglage complexe après traitement.
Conclusion
YOLOX et PP-YOLOE+ ont tous deux contribué de manière significative à l'avancement de la détection d'objets. YOLOX a prouvé que la simplicité sans ancrage pouvait permettre d'obtenir des résultats de premier ordre, tandis que PP-YOLOE+ a repoussé les limites de la vitesse d'inférence sur du matériel spécifique. Cependant, pour une solution holistique combinant une précision de pointe, une facilité d'utilisation et des options de déploiement polyvalentes, Ultralytics s'impose comme la norme moderne. Ses fonctionnalités innovantes, telles que l'optimiseur MuSGD et l'architecture NMS, en font un choix pérenne pour 2026 et au-delà.
Pour approfondir vos recherches sur les modèles efficaces, nous vous invitons à consulter la documentation relative à YOLOv8 ou YOLOv10.