Passer au contenu

PP-YOLOE+ vsYOLO: analyse approfondie de la détection d'objets industriels

Dans le domaine concurrentiel de la vision par ordinateur en temps réel, le choix de l'architecture optimale est une décision cruciale pour les ingénieurs et les chercheurs. Deux poids lourds de l'écosystème technologique chinois, PP-YOLOE+ de Baidu et YOLO d'Alibaba, proposent des approches distinctes pour résoudre le compromis entre vitesse et précision. Si les deux modèles utilisent des techniques avancées telles que la recherche d'architecture neuronale (NAS) et la reparamétrisation, ils s'adaptent à des environnements de déploiement et à des préférences d'écosystème différents.

Ce guide fournit une comparaison technique complète, analysant leurs innovations architecturales, leurs performances de référence et leur adéquation aux applications du monde réel. Nous explorons également comment l'architecture moderne Ultralytics pallie les limites de ces modèles antérieurs afin de fournir une solution unifiée pour le déploiement en périphérie et dans le cloud.

PP-YOLOE+: Détection sans ancres affinée

Lancé en avril 2022 par PaddlePaddle de Baidu, PP-YOLOE+ est une évolution de l'architecture PP-YOLOE, conçue pour améliorer la convergence de l'entraînement et la vitesse d'inférence. Il représente une transition vers une détection haute performance et sans ancrage au sein de PaddlePaddle .

Auteurs : PaddlePaddle
Organisation :Baidu
Date : 2 avril 2022
Arxiv :Article PP-YOLOE
GitHub :PaddlePaddle

Innovations architecturales

PP-YOLOE+ s'appuie sur le succès de ses prédécesseurs en intégrant plusieurs choix de conception clés visant à réduire la latence tout en conservant une haute précision :

  • CSPRepResStage : la structure principale utilise une architecture CSP (Cross-Stage Partial) combinée à des blocs résiduels reparamétrés. Cela permet au modèle de bénéficier d'une extraction de caractéristiques complexes pendant l'entraînement, tout en se repliant sur une structure plus simple et plus rapide pendant l'inférence.
  • Paradigme sans ancrage : en supprimant les boîtes d'ancrage, PP-YOLOE+ simplifie l'espace de recherche des hyperparamètres, réduisant ainsi la charge technique souvent associée aux détecteurs basés sur l'ancrage.
  • Apprentissage par alignement des tâches (TAL) : pour remédier au décalage entre la confiance en la classification et la confiance en la localisation, PP-YOLOE+ utilise le TAL, une stratégie d'attribution dynamique d'étiquettes qui sélectionne des positifs de haute qualité sur la base d'une métrique combinée du score de classification et IoU.
  • ET-Head : l'Efficient Task-aligned Head (ET-Head) découple les branches de classification et de régression, garantissant ainsi que les représentations des caractéristiques sont optimisées spécifiquement pour chaque tâche sans interférence.

En savoir plus sur PP-YOLOE

DAMO-YOLO : Efficacité axée sur la NAS

Lancé plus tard en novembre 2022 par Alibaba Group,YOLO Distillation-Augmented MOdel) exploite la recherche d'architecture neuronale (NAS) et la distillation intensive pour repousser les limites des performances à faible latence. Il est spécialement conçu pour maximiser le débit sur le matériel industriel.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Arxiv :YOLO
GitHub :YOLO

Innovations architecturales

YOLO seYOLO par l'accent mis sur la conception automatisée d'architecture et la fusion compacte de fonctionnalités :

  • MAE-NAS Backbone : contrairement aux backbones conçus manuellement,YOLO une structure découverte via Neural Architecture Search, baptisée MAE-NAS. Cela garantit que la profondeur et la largeur du réseau sont mathématiquement optimisées pour des contraintes matérielles spécifiques.
  • RepGFPN : le réseau pyramidal généralisé efficace (RepGFPN) améliore les FPN standard en optimisant les chemins de fusion des caractéristiques et les profondeurs des canaux, ce qui permet une meilleure détection multi-échelle des objets, des piétons aux véhicules.
  • ZeroHead : une conception de tête de détection légère qui réduit considérablement le coût de calcul (FLOP) des couches de prédiction finales, ce qui est crucial pour les applications en temps réel.
  • AlignedOTA : une version améliorée de l'Optimal Transport Assignment (OTA) qui aligne mieux les objectifs de classification et de régression pendant l'entraînement, ce qui accélère la convergence.

En savoir plus sur DAMO-YOLO

Comparaison des performances

Lorsque l'on compare ces modèles, le choix se résume souvent à la cible matérielle spécifique et au compromis acceptable entre le nombre de paramètres et la précision. PP-YOLOE+ offre généralement des performances robustes sur les GPU de classe serveur, tandis queYOLO dans les scénarios nécessitant une optimisation agressive de la latence grâce à son backbone dérivé du NAS.

Le tableau ci-dessous illustre les indicateurs clés. Notez queYOLO atteintYOLO une latence plus faible pour des niveaux de précision similaires grâce à ses optimisations ZeroHead et RepGFPN.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Ultralytics : entrez YOLO26

Bien que PP-YOLOE+ etYOLO des fonctionnalités compétitives, ils nécessitent souvent des environnements complexes et spécifiques à un framework (PaddlePaddle les piles internes d'Alibaba). Pour les développeurs à la recherche d'une solution universelle et prête à l'emploi, Ultralytics offre un avantage décisif.

Lancé en 2026, YOLO26 résout les problèmes historiques liés au déploiement de la détection d'objets. Il ne s'agit pas seulement d'un modèle, mais d'un écosystème complet conçu pour être facile à utiliser et permettre des itérations rapides.

Principales caractéristiques de YOLO26

  1. Conception NMS de bout en bout : contrairement à PP-YOLOE+ etYOLO, qui peuvent nécessiter un réglage minutieux des NMS , YOLO26 est nativement de bout en bout. Cela élimine complètement la suppression non maximale (NMS), garantissant une latence d'inférence déterministe et simplifiant les pipelines de déploiement.
  2. Optimiseur MuSGD : inspiré par les innovations dans la formation des grands modèles linguistiques (comme Kimi K2 de Moonshot AI), YOLO26 utilise l'optimiseur MuSGD. Cette approche hybride stabilise la dynamique de formation, permettant au modèle de converger plus rapidement avec moins d'époches par rapport au SGD standard SGD dans les architectures plus anciennes.
  3. ProgLoss + STAL : la détection des petits objets est considérablement améliorée grâce à ProgLoss et Soft Task Alignment Learning (STAL). Cela rend YOLO26 particulièrement efficace pour l'imagerie aérienne et l'inspection industrielle, où la précision sur les défauts minimes est primordiale.
  4. Optimisation des contours : en supprimant la perte focale de distribution (DFL), YOLO26 atteint CPU jusqu'à 43 % plus rapide, ce qui en fait le choix idéal pour Raspberry Pi, les appareils mobiles et les applications IoT.
  5. Une polyvalence inégalée : alors que les concurrents se concentrent principalement sur la détection, le Ultralytics prend en charge la segmentation d'instances, l'estimation de pose, l'OBB et la classification au sein d'une API unique et unifiée.

Flux de travail simplifié

Ultralytics vous permet de passer de l'annotation des données au déploiement en quelques minutes. Grâce à la Ultralytics , vous pouvez gérer des ensembles de données, effectuer des formations dans le cloud et exporter vers n'importe quel format (ONNX, TensorRT, CoreML) sans avoir à écrire de code standard.

Exemple de code : La simplicité en action

La formation d'un modèle de pointe avec Ultralytics intuitive. Python simplifie la complexité de la définition de l'architecture et du réglage des hyperparamètres.

from ultralytics import YOLO

# Load the latest YOLO26 model (nano version for edge devices)
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# YOLO26 automatically handles anchor-free assignment and efficient dataloading
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on an image
# NMS-free output is returned directly, ready for downstream logic
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the results
predictions[0].show()

En savoir plus sur YOLO26

Cas d'utilisation et recommandations

Le choix du modèle approprié dépend de vos contraintes spécifiques en matière d'intégration de l'écosystème, de disponibilité du matériel et de ressources de développement.

  • Choisissez PP-YOLOE+ si votre infrastructure est déjà profondément intégrée à l'écosystème Baidu PaddlePaddle. C'est un candidat idéal pour le traitement d'images statiques où la maximisation de mAP sur les serveurs est la priorité et que vous disposez des capacités techniques nécessaires pour gérer les dépendances spécifiques à Paddle.
  • ChoisissezYOLO si vous menez des recherches sur la recherche d'architecture neuronale ou si vous avez besoin d'optimisations spécifiques en matière de latence sur le matériel pris en charge. Sa tête légère le rend efficace pour l'analyse vidéo à haut débit, à condition que vous puissiez naviguer dans son pipeline de formation lourd en distillation.
  • Choisissez Ultralytics pour bénéficier du meilleur équilibre entre vitesse, précision et expérience développeur. Sa conception NMS simplifie la logique de déploiement, tandis que la suppression du DFL le rend exceptionnellement rapide sur les processeurs et les périphériques de pointe. Que vous développiez des systèmes de vente au détail intelligents ou des robots agricoles autonomes, la documentation complète et le soutien actif de la communauté garantissent la pérennité de votre projet.

Pour les utilisateurs intéressés par d'autres architectures efficaces, la documentation couvre également des modèles tels que YOLO11 et RT-DETR, offrant ainsi un large éventail d'outils pour relever tous les défis liés à la vision par ordinateur.

Conclusion

PP-YOLOE+ etYOLO tous deux contribué de manière significative à l'avancement de la détection d'objets sans ancrage. PP-YOLOE+ a affiné le processus d'entraînement grâce à l'alignement des tâches, tandis queYOLO la puissance du NAS et de la distillation. Cependant, la complexité de leurs pipelines d'entraînement respectifs et leur dépendance à un écosystème particulier peuvent constituer un obstacle pour de nombreuses équipes.

Ultralytics se distingue en démocratisant ces fonctionnalités avancées. En combinant une architectureNMS, l'optimisation MuSGD et des performances de pointe, il offre une solution complète qui s'adapte du prototype à la production avec un minimum de friction. Pour les développeurs qui cherchent à maximiser leur productivité et leurs performances, Ultralytics la référence dans le secteur.


Commentaires