Meet YOLO26: next-gen vision AI.

Link to this sectionPP-YOLOE+ vs DAMO-YOLO#

L'évolution continue de la vision par ordinateur a produit une gamme d'architectures hautement spécialisées pour la détection d'objets en temps réel. Lors de l'évaluation de modèles pour des applications industrielles et de recherche, deux frameworks importants de 2022 entrent souvent dans la discussion : PP-YOLOE+ par Baidu et DAMO-YOLO par Alibaba Group. Les deux modèles ont repoussé les limites de la détection sans ancres en introduisant de nouveaux backbones, des stratégies avancées d'assignation d'étiquettes et des techniques spécialisées de fusion de caractéristiques.

Ce guide fournit une analyse technique détaillée de PP-YOLOE+ et DAMO-YOLO, explorant leurs architectures, leurs méthodologies d'entraînement et leurs points forts en matière de déploiement. Nous examinerons également comment ces frameworks se comparent aux solutions modernes comme Ultralytics YOLO26 pour t'aider à choisir le bon outil en fonction de tes contraintes de déploiement spécifiques.

Link to this sectionPP-YOLOE+ : Détection d'objets industrielle raffinée#

Développé au sein de l'écosystème Baidu, PP-YOLOE+ est une amélioration itérative du PP-YOLOE original, fortement optimisé pour le framework d'apprentissage profond PaddlePaddle. Il a été conçu pour maximiser la précision et la vitesse d'inférence sur du matériel de classe serveur, ce qui en fait un candidat solide pour les applications d'inspection industrielle et de smart retail.

Link to this sectionInnovations architecturales#

PP-YOLOE+ introduit plusieurs améliorations architecturales pour surpasser les détecteurs sans ancres précédents :

  • Backbone CSPRepResNet : Ce backbone utilise une architecture de style RepVGG combinée à des connexions Cross Stage Partial (CSP), offrant un bon équilibre entre la capacité d'extraction de caractéristiques et la latence d'inférence.
  • Task Alignment Learning (TAL) : PP-YOLOE+ utilise une stratégie avancée d'assignation dynamique d'étiquettes qui aligne les tâches de classification et de régression pendant l'entraînement, réduisant l'écart entre les performances d'entraînement et d'inférence.
  • Efficient Task-aligned Head (ET-head) : Une tête de détection rationalisée conçue pour traiter les caractéristiques rapidement sans sacrifier la résolution spatiale, ce qui est très bénéfique pour maintenir des métriques mAP élevées.

Détails de PP-YOLOE+ :

En savoir plus sur PP-YOLOE+

Link to this sectionDAMO-YOLO : Recherche d'architecture neuronale à la périphérie#

Créé par l'Alibaba DAMO Academy, DAMO-YOLO adopte une approche distinctement différente. Au lieu de concevoir manuellement le backbone, l'équipe de recherche a utilisé la recherche d'architecture neuronale (NAS) pour découvrir des topologies de réseau hautement efficaces adaptées aux contraintes strictes de latence.

Link to this sectionFonctionnalités clés et pipeline d'entraînement#

DAMO-YOLO met l'accent sur une faible latence et une haute précision grâce à une méthodologie automatisée et basée sur une distillation intensive :

  • Backbones MAE-NAS : En utilisant la méthode d'automatisation de la recherche efficace d'architecture neuronale, DAMO-YOLO construit des backbones optimisés spécifiquement pour le compromis entre paramètres et précision.
  • Efficient RepGFPN : Un Generalized Feature Pyramid Network re-paramétré permet une fusion robuste des caractéristiques multi-échelles, ce qui aide le modèle à détecter des objets de tailles très différentes dans une même image.
  • Design ZeroHead : Une tête de détection hautement simplifiée qui réduit considérablement la charge computationnelle pendant la phase d'inférence.
  • Amélioration par distillation : Pour booster les performances des variantes plus petites, DAMO-YOLO s'appuie fortement sur un processus complexe de distillation des connaissances où un modèle enseignant plus grand guide le modèle élève.

Détails de DAMO-YOLO :

En savoir plus sur DAMO-YOLO

Verrouillage au framework

Bien que PP-YOLOE+ et DAMO-YOLO offrent des innovations théoriques robustes, ils sont étroitement liés à leurs frameworks respectifs (PaddlePaddle et des environnements Alibaba spécifiques). Cela peut introduire des frictions lors de la tentative de portage de ces modèles vers des déploiements cloud ou Edge standardisés.

Link to this sectionAnalyse des performances#

Lors de l'évaluation de ces modèles, le compromis entre latence, complexité computationnelle (FLOPs) et moyenne de la précision moyenne (mAP) dicte leur environnement de déploiement idéal.

Modèletaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2,627,9317,36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197,3

DAMO-YOLO atteint généralement des latences TensorRT plus faibles aux échelles nano et tiny, ce qui le rend très compétitif pour les flux vidéo à haut débit. Cependant, PP-YOLOE+ s'adapte incroyablement bien dans sa variante extra-large (x), atteignant une précision de premier ordre pour les images complexes où le temps d'inférence est une préoccupation secondaire.

Link to this sectionL'avantage Ultralytics : aller au-delà des architectures de 2022#

Alors que PP-YOLOE+ et DAMO-YOLO représentaient des étapes importantes, le développement moderne exige une plus grande polyvalence, des pipelines d'entraînement plus faciles et des besoins en mémoire plus faibles. La plateforme Ultralytics répond à ces besoins en offrant une expérience sans friction qui surpasse considérablement la distillation complexe et les configurations spécifiques aux frameworks requises par les anciens modèles.

Pour les développeurs cherchant à obtenir le meilleur équilibre de performance aujourd'hui, Ultralytics YOLO26 offre un saut révolutionnaire en matière d'efficacité de déploiement dans le monde réel.

Link to this sectionPourquoi YOLO26 est leader de l'industrie#

Sorti début 2026, YOLO26 s'appuie sur l'héritage de YOLO11 en introduisant des technologies de pointe adaptées à la production :

  • Design de bout en bout sans NMS : YOLO26 élimine le post-traitement Non-Maximum Suppression (NMS). Cela se traduit par une logique de déploiement plus simple et des latences d'inférence cohérentes et hautement prévisibles.
  • Optimiseur MuSGD : Inspiré par les techniques d'entraînement des grands modèles de langage, YOLO26 utilise un optimiseur MuSGD hybride. Cela garantit un entraînement incroyablement stable et une convergence rapide, économisant de précieuses heures de GPU.
  • Inférence CPU supérieure : En supprimant la Distribution Focal Loss (DFL) et en optimisant le graphe de réseau, YOLO26 permet une inférence CPU jusqu'à 43 % plus rapide, ce qui en fait le choix privilégié pour les appareils Edge AI.
  • ProgLoss + STAL : Ces fonctions de perte avancées permettent des améliorations remarquables dans la reconnaissance d'objets petits, ce qui est essentiel pour les opérations de drones et la télédétection.
  • Polyvalence inégalée : Contrairement à PP-YOLOE+ qui se concentre strictement sur la détection, YOLO26 prend nativement en charge l'estimation de pose, la segmentation d'instance, la classification d'images et les boîtes englobantes orientées (OBB) de manière transparente.

Link to this sectionFacilité d'utilisation et efficacité de l'entraînement#

L'entraînement d'un modèle DAMO-YOLO nécessite la gestion d'un lourd pipeline de distillation enseignant-élève. En revanche, l'entraînement d'un modèle Ultralytics ne nécessite que quelques lignes de Python, avec une utilisation minimale de mémoire CUDA par rapport aux architectures concurrentes.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model with native MuSGD optimization
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an end-to-end NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or TensorRT seamlessly
model.export(format="onnx")

En savoir plus sur YOLO26

Link to this sectionCas d'utilisation idéaux et recommandations#

Le choix de l'architecture de vision par ordinateur optimale dépend fortement de l'intégration à l'écosystème de ton équipe et de tes cibles de déploiement.

  • Choisis PP-YOLOE+ si l'ensemble de ton pipeline est profondément intégré à l'écosystème Baidu PaddlePaddle. Cela reste un excellent choix pour l'analyse d'images statiques sur des serveurs puissants où la maximisation de la précision est l'objectif principal.
  • Choisis DAMO-YOLO si tu mènes des recherches spécifiques sur les algorithmes de recherche d'architecture neuronale, ou si tu disposes des ressources d'ingénierie nécessaires pour maintenir des pipelines de distillation complexes afin d'atteindre des objectifs agressifs de latence TensorRT.
  • Choisis Ultralytics YOLO26 pour presque tous les scénarios de production modernes. L'écosystème Ultralytics fournit une documentation inégalée, des besoins en mémoire réduits et une API rationalisée. Que tu construises des systèmes de contrôle qualité automatisé ou que tu effectues un suivi en temps réel sur un Raspberry Pi, l'architecture sans NMS de YOLO26 garantit des résultats rapides, stables et très précis dès la sortie de la boîte.

Pour les développeurs explorant d'autres solutions de pointe, la documentation Ultralytics fournit également des ressources étendues sur YOLOv8, largement adopté, et le robuste YOLO11, garantissant que tu disposes du bon modèle pour tout défi de vision par ordinateur.

Contributeurs

Commentaires