Passer au contenu

PP-YOLOE+ vs YOLOX : analyse technique des détecteurs sans ancrage

Dans le domaine en constante évolution de la vision par ordinateur, la détection d'objets sans ancrage est devenue un paradigme dominant, offrant des architectures plus simples et souvent des performances supérieures par rapport aux méthodes traditionnelles basées sur l'ancrage. Deux contributions significatives dans ce domaine sont PP-YOLOE+, développé par PaddlePaddle de Baidu, et YOLOX, un détecteur sans ancrage haute performance de Megvii.

Cette analyse examine en détail leurs architectures, leurs indicateurs de performance et leur applicabilité dans le monde réel, tout en soulignant comment Ultralytics moderne Ultralytics et le modèle de pointe YOLO26 offrent une alternative convaincante aux développeurs qui recherchent l'équilibre parfait entre vitesse, précision et facilité d'utilisation.

Aperçus des modèles

PP-YOLOE+

Auteurs : PaddlePaddle
Organisation :Baidu
Date : 02/04/2022
Arxiv :https://arxiv.org/abs/2203.16250
GitHub :PaddleDetection

PP-YOLOE+ est une évolution de PP-YOLOE, qui était lui-même une amélioration de PP-YOLOv2. Il sert de modèle phare pour la bibliothèque PaddleDetection. Il dispose d'une structure CSPRepResNet unique et utilise une stratégie d'apprentissage par alignement de tâches (TAL) pour attribuer dynamiquement des étiquettes. Optimisé pour le PaddlePaddle , il met l'accent sur des vitesses d'inférence élevées sur les GPU V100 et intègre des techniques telles que la perte varifocale pour gérer efficacement le déséquilibre des classes.

En savoir plus sur PP-YOLOE+

YOLOX

Auteurs : Zheng Ge, Songtao Liu, Feng Wang, Zeming Li et Jian Sun
Organisation : Megvii
Date : 18/07/2021
Arxiv :https://arxiv.org/abs/2107.08430
GitHub :Référentiel YOLOX

YOLOX a marqué un tournant dans la YOLO en passant à un mécanisme sans ancrage et en découplant la tête de détection. Cette conception sépare les tâches de classification et de régression, ce qui améliore considérablement la vitesse et la précision de convergence. En intégrant des techniques avancées telles que SimOTA pour l'attribution dynamique d'étiquettes, YOLOX a obtenu des résultats de pointe dès sa sortie, remportant le Streaming Perception Challenge lors de l'atelier CVPR 2021 sur la conduite autonome.

En savoir plus sur YOLOX

Comparaison architecturale

La différence fondamentale entre ces modèles réside dans leurs implémentations spécifiques du concept sans ancrage et leurs objectifs d'optimisation.

Backbone et Neck

PP-YOLOE+ utilise une structure CSPRepResNet, qui combine les avantages des connexions résiduelles avec l'efficacité du CSPNet (Cross Stage Partial Network). Celle-ci est associée à un réseau d'agrégation de chemins (PANet) afin d'améliorer la fusion des caractéristiques multi-échelles. La version « + » affine spécifiquement la structure à l'aide de techniques de reparamétrage, ce qui permet d'obtenir une structure d'apprentissage complexe qui se réduit à une structure plus simple et plus rapide lors de l'inférence.

YOLOX utilise généralement une structure CSPDarknet modifiée, similaire à YOLOv5, mais se distingue par sa tête découplée. YOLO traditionnelles effectuent simultanément la classification et la localisation, ce qui entraîne souvent des conflits. La tête découplée de YOLOX traite ces tâches dans des branches parallèles, ce qui permet un meilleur alignement des caractéristiques. Cela permet au modèle d'apprendre les caractéristiques spécifiques à « ce qu'est » l'objet (classification) séparément de « où il se trouve » (localisation).

Attribution d'étiquettes

L'attribution d'étiquettes, qui consiste à déterminer quels pixels de sortie correspondent aux objets réels, est cruciale pour les détecteurs sans ancrage.

  • YOLOX a introduit SimOTA (Simplified Optimal Transport Assignment). Cet algorithme traite l'attribution d'étiquettes comme un problème de transport optimal, attribuant dynamiquement des échantillons positifs à des vérités terrain en fonction d'un coût d'optimisation global. Il en résulte des performances robustes, même dans des scènes encombrées.
  • PP-YOLOE+ utilise l'apprentissage par alignement des tâches (TAL). Le TAL aligne explicitement le score de classification et la qualité de localisation (IoU), garantissant ainsi que les détections hautement fiables bénéficient également d'une grande précision de localisation. Cette approche minimise le désalignement entre les deux tâches, un problème courant dans les détecteurs à une seule étape.

Sans ancres vs. Basé sur des ancres

Les deux modèles sont sans ancrage, ce qui signifie qu'ils prédisent directement le centre et la taille des objets plutôt que d'affiner des boîtes d'ancrage prédéfinies. Cela simplifie la conception, réduit le nombre d'hyperparamètres (pas besoin d'ajuster la taille des ancrages) et améliore globalement la généralisation entre différents ensembles de données.

Analyse des performances

Lorsqu'on compare les performances, il est essentiel de tenir compte à la fois de la précision (mAP) et la vitesse (latence/FPS) sur différents matériels.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Principaux points à retenir :

  • Précision : le PP-YOLOE+ atteint généralement des performances supérieures mAP à des tailles de modèle comparables, en particulier dans les variantes plus grandes (L et X), grâce à la stratégie TAL raffinée et à la structure RepResNet.
  • Efficacité : alors que YOLOX est très efficace, PP-YOLOE+ affiche des FLOP et un nombre de paramètres inférieurs pour des niveaux de performance similaires, ce qui indique une conception architecturale plus compacte.
  • Vitesse : les vitesses d'inférence sont compétitives, mais PP-YOLOE+ surpasse souvent YOLOX sur le matériel TensorRT grâce à sa conception d'architecture neuronale adaptée au matériel.

Applications et cas d'utilisation réels

Quand choisir PP-YOLOE+

PP-YOLOE+ est parfaitement adapté aux applications industrielles dont l'environnement de déploiement prend en charge PaddlePaddle .

  • Contrôle qualité en fabrication : sa grande précision le rend idéal pour détecter les défauts subtils sur les chaînes de montage.
  • Commerce intelligent : les excellentes performances des variantes « s » et « m » permettent une reconnaissance efficace des produits sur les serveurs périphériques.
  • Transport à haut débit : son optimisation pour les GPU V100/T4 en fait un candidat idéal pour le traitement côté serveur des flux de trafic.

Quand choisir YOLOX

YOLOX reste très apprécié dans le milieu universitaire et scientifique grâce à son PyTorch pure PyTorch et à ses innovations architecturales évidentes.

  • Recherche sur la conduite autonome : après avoir remporté des défis en matière de perception en continu, YOLOX s'avère robuste dans les environnements dynamiques nécessitant un suivi stable.
  • Déploiements mobiles : les versions YOLOX-Nano et Tiny sont très légères, ce qui les rend adaptées aux applications mobiles ou aux drones dont la puissance de calcul est limitée.
  • Recherche personnalisée : sa tête découplée et sa conception sans ancre sont souvent plus faciles à modifier pour des tâches nouvelles allant au-delà de la détection standard.

L'avantage Ultralytics

Si PP-YOLOE+ et YOLOX sont des modèles performants, Ultralytics offre un avantage distinct aux développeurs qui privilégient la rapidité de développement, la facilité de maintenance et la flexibilité de déploiement.

Facilité d'utilisation et écosystème

Ultralytics , y compris le dernier YOLO26, sont conçus selon une philosophie « zero-to-hero » (de zéro à héros). Contrairement à PP-YOLOE+, qui nécessite le PaddlePaddle spécifique PaddlePaddle , ou à YOLOX, qui peut avoir des fichiers de configuration complexes, Ultralytics une Python unifiée. Vous pouvez entraîner, valider et déployer des modèles en quelques lignes de code seulement.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)

# Run inference
results = model("https://ultralytics.com/images/bus.jpg")

L'écosystème est encore renforcé par la Ultralytics , qui simplifie la gestion des ensembles de données, la formation dans le cloud et la gestion des versions des modèles.

Polyvalence inégalée

Ultralytics ne se limitent pas à la détection d'objets. La même API prend en charge :

Ni PP-YOLOE+ ni YOLOX n'offrent ce niveau de prise en charge native et multitâche dans un cadre unique et unifié.

Efficacité de la mémoire et entraînement

YOLO Ultralytics sont conçus pour être efficaces. Ils nécessitent généralement moins de GPU pendant l'entraînement que les architectures basées sur des transformateurs ou les anciens modèles de détection. Cela permet aux développeurs d'entraîner des lots plus importants sur du matériel grand public, démocratisant ainsi l'accès à l'IA haute performance. Les poids pré-entraînés sont facilement disponibles et téléchargés automatiquement, ce qui rationalise le processus d'apprentissage par transfert.

L'avenir : YOLO26

Pour les développeurs à la recherche d'une technologie de pointe, YOLO26 représente une avancée significative. Lancé en janvier 2026, il introduit des capacités natives de bout en bout qui éliminent le besoin de suppression non maximale (NMS).

Principales innovations de YOLO26

  • NMS de bout en bout : en supprimant l'étape NMS , YOLO26 simplifie les pipelines de déploiement et réduit la variance de latence, une fonctionnalité lancée dans YOLOv10.
  • Optimiseur MuSGD : inspiré de la formation LLM, cet optimiseur hybride (SGD Muon) garantit une formation stable et une convergence plus rapide.
  • Optimisation de la périphérie : grâce à la suppression de la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour les appareils périphériques tels que Raspberry Pi ou les téléphones mobiles.
  • ProgLoss + STAL : des fonctions de perte avancées améliorent la détection des petits objets, essentielle pour l'inspection par drone et les applications IoT.

En savoir plus sur YOLO26

Conclusion

PP-YOLOE+ et YOLOX ont contribué à lancer la révolution sans ancrage dans la détection d'objets. PP-YOLOE+ offre une grande précision au sein de PaddlePaddle , tandis que YOLOX fournit une architecture claire et efficace pour la recherche. Cependant, pour la plupart des applications modernes, YOLO Ultralytics , et plus particulièrement YOLO26, offrent un équilibre supérieur entre performances, polyvalence et facilité d'utilisation. Que vous développiez des solutions pour les villes intelligentes ou la robotique agricole, la Ultralytics garantit que votre pipeline de vision par ordinateur est pérenne et efficace.


Commentaires