DAMO-YOLO vs PP-YOLOE+ : Une comparaison technique détaillée.
Dans le domaine hautement concurrentiel de la vision par ordinateur en temps réel, il est essentiel de choisir l'architecture optimale pour vos besoins de déploiement spécifiques. Ce guide fournit une comparaison technique complète entre YOLO et PP-YOLOE+, en approfondissant leurs conceptions architecturales, leurs méthodologies de formation et leurs mesures de performance. Nous examinerons également comment ces modèles se comparent aux solutions de pointe telles que le tout nouveau Ultralytics .
Aperçus des modèles
Les deux frameworks ont émergé en 2022 comme des alternatives puissantes pour les applications industrielles, tirant parti de techniques sophistiquées pour repousser les limites de la précision et de la vitesse d'inférence.
DAMO-YOLO
Développé par le groupe Alibaba, DAMO-YOLO a introduit plusieurs techniques novatrices pour optimiser le compromis latence-précision, en s'appuyant fortement sur les techniques de recherche automatisée et la fusion avancée de caractéristiques.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Groupe Alibaba
- Date : 23 novembre 2022
- Arxiv : DAMO-YOLO : Rapport sur la conception de la détection d'objets en temps réel
- GitHub : YOLO
- Docs : README de DAMO-YOLO
DAMO-YOLO utilise une recherche d'architecture multi-échelle (MAE-NAS) pour concevoir automatiquement des backbones optimisés pour l'efficacité matérielle. Il intègre également un RepGFPN (Re-parameterized Generalized Feature Pyramid Network) efficace pour la fusion des caractéristiques du neck et une conception légère de type « ZeroHead ». De plus, il s'appuie fortement sur des techniques de distillation pendant l'entraînement pour améliorer la puissance de représentation du modèle étudiant.
PP-YOLOE+
Développé par PaddlePaddle Baidu PaddlePaddle , PP-YOLOE+ est une mise à niveau incrémentielle de l'architecture PP-YOLOE. Il se concentre sur le pré-entraînement à grande échelle et les fonctions de perte affinées afin d'offrir mAP élevé, en particulier dans son cadre d'apprentissage profond natif.
- Auteurs: Auteurs PaddlePaddle
- Organisation : Baidu
- Date : 2022-04-02
- Arxiv : PP-YOLOE : Une version évoluée de YOLO
- GitHub : PaddlePaddle
- Docs : Configurations PP-YOLOE+
PP-YOLOE+ utilise une structure CSPRepResNet et une tête ET (Efficient Task-aligned head). La version « plus » introduit une puissante stratégie de pré-entraînement sur l'ensemble de données Objects365, qui améliore considérablement sa capacité à généraliser dans divers environnements réels.
Comparaison architecturale
La divergence dans la philosophie de conception entre ces deux modèles influence fortement leurs cas d'utilisation idéaux et leur compatibilité matérielle.
Fusion de fonctionnalités et structures de base
Les backbones générés par MAE-NAS de DAMO-YOLO sont hautement adaptés aux appareils périphériques, offrant souvent un rapport vitesse/paramètres favorable. Cependant, ces architectures personnalisées peuvent être rigides et complexes à adapter pour de nouvelles tâches comme la segmentation d'instances. Le neck RepGFPN améliore la fusion des caractéristiques multi-échelles mais ajoute de la complexité lors de la phase d'exportation de re-paramétrisation.
PP-YOLOE+ s'appuie sur le CSPRepResNet, plus traditionnel mais très efficace. Bien que cette architecture nécessite un plus grand nombre de paramètres queYOLO une précision similaire, elle est très stable à entraîner et plus facile à intégrer dans les pipelines existants. Son ET-head gère efficacement la classification et la régression, mais nécessite tout de même des étapes de post-traitement telles que la suppression non maximale (NMS).
Élimination des délais liés au post-traitement
DAMO-YOLO et PP-YOLOE+ nécessitent tous deux NMS pour le post-traitement des boîtes englobantes. Si la latence d'inférence est critique, envisagez d'utiliser Ultralytics YOLO26, qui intègre une conception nativement sans NMS de bout en bout. Cette approche révolutionnaire élimine le post-traitement NMS pour un pipeline de déploiement plus rapide et plus simple.
Analyse des performances et des indicateurs
Lors de l'évaluation de ces modèles pour la production, l'équilibre entre la précision (mAP), la vitesse d'inférence et la taille des paramètres est essentiel. Vous trouverez ci-dessous une comparaison directe de leurs principales variantes.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
Comme l'illustre le tableau, DAMO-YOLO atteint généralement une latence plus faible sur les petites (s) et très petites (t) échelles, grâce à ses backbones optimisés par NAS. Cependant, PP-YOLOE+ s'adapte incroyablement bien aux niveaux moyen (m) et grand (l), affichant des scores mAP significativement plus élevés, bien qu'au prix d'une légère réduction de la vitesse TensorRT sur T4.
Besoins en mémoire et efficacité de l'apprentissage
La dépendance de DAMO-YOLO à la distillation signifie qu'il est souvent nécessaire d'entraîner un modèle enseignant beaucoup plus grand avant d'entraîner le modèle étudiant plus petit. Cela augmente drastiquement les exigences en mémoire CUDA et le budget de calcul global. PP-YOLOE+ simplifie cela avec un entraînement standard en une seule étape, mais reste étroitement lié au framework PaddlePaddle, ce qui peut limiter la flexibilité pour les équipes habituées à PyTorch.
En revanche, le modèle moderne Ultralytics YOLO26 résout ces goulots d'étranglement. En utilisant le nouvel optimiseur MuSGD—un hybride de SGD et de Muon inspiré par les innovations d'entraînement des LLM—YOLO26 atteint une convergence plus rapide et un entraînement très stable sans nécessiter de pipelines de distillation complexes. De plus, les modèles YOLO nécessitent généralement beaucoup moins de mémoire CUDA pendant l'entraînement par rapport aux détecteurs basés sur des transformeurs comme RT-DETR.
Applications concrètes et cas d'utilisation idéaux
Quand utiliserYOLO
DAMO-YOLO est idéal pour l'inférence en périphérie à haut débit où la latence est le goulot d'étranglement ultime. Ses petites variantes excellent dans des environnements tels que les systèmes de gestion du trafic ou la surveillance de drones basique, à condition que votre équipe d'ingénierie ait la capacité de gérer ses processus complexes de distillation et de re-paramétrisation.
Quand utiliser PP-YOLOE+
PP-YOLOE+ est particulièrement performant lorsque vous êtes déjà fortement impliqué dans l'écosystème Baidu ou que vous gérez des déploiements de serveurs à grande échelle. Son impressionnant mAP le mAP adapté à l'analyse d'images médicales complexes ou à la détection de défauts de fabrication denses.
L'avantage Ultralytics
Bien queYOLO PP-YOLOE+ offrent tous deux des avantages spécifiques localisés, les développeurs à la recherche d'une polyvalence, d'une rapidité et d'une facilité d'utilisation maximales se tournent systématiquement vers la Ultralytics .
Lorsque vous mettez à niveau votre pipeline de vision par ordinateur, Ultralytics offre une expérience de développement inégalée :
- Jusqu'à 43 % plus rapide pour l'inférence CPU : Avec la suppression complète de la Distribution Focal Loss (DFL), YOLO26 est remarquablement rapide sur les CPU périphériques et les appareils IoT basse consommation.
- Détection améliorée de petits objets : L'intégration des fonctions de perte ProgLoss et STAL apporte des améliorations spectaculaires dans la reconnaissance de petits objets, vital pour l'imagerie aérienne.
- Polyvalence étendue : Contrairement à PP-YOLOE+ qui se concentre strictement sur la detection, YOLO26 gère de manière transparente l'estimation de pose, les boîtes englobantes orientées (OBB) et la segmentation sémantique avec des améliorations architecturales spécifiques à la tâche.
Conclusion
DAMO-YOLO et PP-YOLOE+ représentent des étapes importantes dans l'évolution de la detect d'objets sans ancres. DAMO-YOLO a repoussé les limites de la recherche d'architecture neuronale pour la latence en périphérie, tandis que PP-YOLOE+ a démontré la puissance du pré-entraînement à grande échelle.
Cependant, pour les développeurs qui recherchent le meilleur équilibre entre vitesse, précision et simplicité de déploiement, le modèle Ultralytics est le choix incontournable. Son architecture NMS, Python robuste et son intégration transparente avec des outils tels que Weights & Biases et TensorRT garantissent que vos projets passent sans encombre du prototype à la production.
Prêt à commencer ? Consultez le guideUltralytics ou comparez d'autres modèles dans notre aperçu YOLO11 YOLO.