Link to this sectionDAMO-YOLO vs PP-YOLOE+#

Dans le paysage hautement concurrentiel de la vision par ordinateur en temps réel, choisir l'architecture optimale pour tes besoins de déploiement spécifiques est crucial. Ce guide propose une comparaison technique complète entre DAMO-YOLO et PP-YOLOE+, en plongeant en profondeur dans leurs conceptions architecturales, leurs méthodologies d'entraînement et leurs métriques de performance. Nous examinerons également comment ces modèles se comparent aux solutions de pointe comme le tout nouveau Ultralytics YOLO26.

Link to this sectionAperçus des modèles#

Les deux frameworks sont apparus en 2022 comme des alternatives puissantes pour les applications industrielles, tirant parti de techniques sophistiquées pour repousser les limites de la précision et de la vitesse d'inférence.

Link to this sectionDAMO-YOLO#

Développé par le Alibaba Group, DAMO-YOLO a introduit plusieurs techniques innovantes pour optimiser le compromis latence-précision, en s'appuyant fortement sur des techniques de recherche automatisée et une fusion de caractéristiques avancée.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, et Xiuyu Sun
Organisation : Alibaba Group
Date : 23-11-2022
Arxiv : DAMO-YOLO: A Report on Real-Time Object Detection Design
GitHub : tinyvision/DAMO-YOLO
Docs : DAMO-YOLO README

DAMO-YOLO utilise une recherche d'architecture multi-échelle (MAE-NAS) pour concevoir automatiquement des backbones optimisés pour l'efficacité matérielle. Il dispose également d'un RepGFPN (Re-parameterized Generalized Feature Pyramid Network) efficace pour la fusion des caractéristiques du neck et d'une conception légère "ZeroHead". De plus, il repose fortement sur des techniques de distillation lors de l'entraînement pour augmenter la puissance de représentation du modèle étudiant.

En savoir plus sur DAMO-YOLO

Link to this sectionPP-YOLOE+#

Venant de l'équipe Baidu PaddlePaddle, PP-YOLOE+ est une mise à niveau incrémentale de l'architecture PP-YOLOE. Il se concentre sur le pré-entraînement à grande échelle et des fonctions de perte raffinées pour offrir un mAP élevé, surtout au sein de son framework d'apprentissage profond natif.

Auteurs : Auteurs de PaddlePaddle
Organisation : Baidu
Date : 02/04/2022
Arxiv : PP-YOLOE: An evolved version of YOLO
GitHub : PaddlePaddle/PaddleDetection
Docs : PP-YOLOE+ Configs

PP-YOLOE+ utilise un backbone CSPRepResNet et une ET-head (Efficient Task-aligned head). La version "plus" introduit une puissante stratégie de pré-entraînement sur le dataset Objects365, ce qui améliore considérablement sa capacité à se généraliser dans divers environnements réels.

En savoir plus sur PP-YOLOE+

Link to this sectionComparaison architecturale#

La divergence dans la philosophie de conception entre ces deux modèles influence fortement leurs cas d'utilisation idéaux et leur compatibilité matérielle.

Link to this sectionFusion de caractéristiques et backbones#

Les backbones générés par MAE-NAS de DAMO-YOLO sont hautement adaptés aux périphériques edge, offrant souvent un rapport vitesse/paramètres favorable. Cependant, ces architectures personnalisées peuvent être rigides et complexes à adapter pour de nouvelles tâches comme la segmentation d'instance. Le neck RepGFPN améliore la fusion de caractéristiques multi-échelle mais ajoute de la complexité lors de la phase d'exportation de re-paramétrage.

PP-YOLOE+ repose sur le CSPRepResNet plus traditionnel, mais très efficace. Bien que ce backbone nécessite une empreinte de paramètres plus importante que DAMO-YOLO pour une précision similaire, il est très stable à entraîner et plus facile à intégrer dans des pipelines existants. Son ET-head gère efficacement la classification et la régression, mais nécessite toujours des étapes de post-traitement comme la Non-Maximum Suppression (NMS).

Éliminer les délais de post-traitement

DAMO-YOLO et PP-YOLOE+ nécessitent tous deux NMS pour le post-traitement des BBox. Si la latence d'inférence est critique, envisage d'utiliser Ultralytics YOLO26, qui présente une conception native sans NMS de bout en bout. Cette approche révolutionnaire élimine le post-traitement NMS pour un pipeline de déploiement plus rapide et plus simple.

Link to this sectionAnalyse des performances et des mesures#

Lors de l'évaluation de ces modèles pour la production, l'équilibre entre la précision (mAP), la vitesse d'inférence et la taille des paramètres est critique. Tu trouveras ci-dessous une comparaison directe de leurs variantes principales.

Modèle	taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97,3

PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2,62	7,93	17,36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

Comme le montre le tableau, DAMO-YOLO atteint généralement une latence plus faible sur les échelles small (s) et tiny (t), grâce à ses backbones optimisés par NAS. Cependant, PP-YOLOE+ évolue incroyablement bien vers les niveaux medium (m) et large (l), affichant des scores mAP nettement plus élevés, bien qu'au prix d'une légère baisse de vitesse sur T4 TensorRT.

Link to this sectionBesoins en mémoire et efficacité de l'entraînement#

Le recours à la distillation par DAMO-YOLO signifie que tu dois souvent entraîner un modèle enseignant beaucoup plus grand avant d'entraîner le modèle étudiant plus petit. Cela augmente considérablement les exigences de mémoire CUDA et le budget de calcul global. PP-YOLOE+ simplifie cela avec un entraînement standard en une seule étape, mais reste étroitement lié au framework PaddlePaddle, ce qui peut limiter la flexibilité pour les équipes habituées à PyTorch.

En revanche, le modèle moderne Ultralytics YOLO26 résout ces goulots d'étranglement. Utilisant le nouvel optimiseur MuSGD—un hybride de SGD et Muon inspiré des innovations de l'entraînement des LLM—YOLO26 atteint une convergence plus rapide et un entraînement très stable sans nécessiter de pipelines de distillation complexes. De plus, les modèles YOLO nécessitent généralement beaucoup moins de mémoire CUDA pendant l'entraînement par rapport aux détecteurs basés sur des Transformer comme RT-DETR.

Link to this sectionApplications réelles et cas d'utilisation idéaux#

Link to this sectionQuand utiliser DAMO-YOLO#

DAMO-YOLO est idéal pour l'inférence edge à haut débit où la latence est le goulot d'étranglement ultime. Ses petites variantes excellent dans des environnements comme les systèmes de gestion du trafic ou la surveillance de base par drone, à condition que ton équipe d'ingénierie ait la capacité de gérer ses processus complexes de distillation et de re-paramétrage.

Link to this sectionQuand utiliser PP-YOLOE+#

PP-YOLOE+ brille lorsque tu es déjà profondément investi dans l'écosystème Baidu ou que tu exécutes des déploiements de serveur à grande échelle. Son mAP impressionnant le rend approprié pour l'analyse complexe d'images médicales ou la détection dense de défauts de fabrication.

Link to this sectionL'avantage Ultralytics#

Bien que DAMO-YOLO et PP-YOLOE+ offrent des avantages localisés spécifiques, les développeurs recherchant une polyvalence, une vitesse et une facilité d'utilisation maximales se tournent systématiquement vers la plateforme Ultralytics.

Lors de la mise à niveau de ton pipeline de vision par ordinateur, Ultralytics YOLO26 offre une expérience développeur inégalée :

Jusqu'à 43 % d'inférence CPU plus rapide : Avec la suppression complète de la Distribution Focal Loss (DFL), YOLO26 est remarquablement rapide sur les CPU edge et les appareils IoT à faible puissance.
Détection améliorée des petits objets : L'intégration des fonctions de perte ProgLoss et STAL offre des améliorations spectaculaires dans la reconnaissance des petits objets, vitale pour l'imagerie aérienne.
Polyvalence étendue : Contrairement à PP-YOLOE+ qui se concentre strictement sur la détection, YOLO26 gère de manière transparente l'estimation de pose, les BBox orientées (OBB) et la segmentation sémantique avec des améliorations architecturales spécifiques à la tâche.

Link to this sectionConclusion#

DAMO-YOLO et PP-YOLOE+ représentent des étapes importantes dans l'évolution de la détection d'objets sans ancrage (anchor-free). DAMO-YOLO a repoussé les limites de la recherche d'architecture neuronale pour la latence edge, tandis que PP-YOLOE+ a démontré la puissance du pré-entraînement à grande échelle.

Cependant, pour les développeurs recherchant le meilleur équilibre entre vitesse, précision et simplicité de déploiement, le modèle Ultralytics YOLO26 est le choix définitif. Son architecture sans NMS, son API Python robuste et son intégration transparente avec des outils comme Weights & Biases et TensorRT garantissent que tes projets passent en douceur du prototype à la production.

Prêt à commencer ? Explore le guide de démarrage rapide Ultralytics ou compare plus de modèles dans notre aperçu YOLO11 vs DAMO-YOLO.

Contributeurs

GLglenn-jocher¹⁵ PDpderrenger¹

Créé 27 janv. 2025Mis à jour il y a 3 semaines