PP-YOLOE+ vs DAMO-YOLO : Une comparaison technique pour la détection d'objets
Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre les compromis entre la précision, la vitesse d'inférence et le coût de calcul. Cette page fournit une comparaison technique détaillée entre PP-YOLOE+, développé par Baidu, et DAMO-YOLO, du groupe Alibaba. Nous analyserons leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux pour aider les développeurs et les chercheurs à faire un choix éclairé pour leurs projets de vision par ordinateur.
PP-YOLOE+ : Haute précision au sein de l'écosystème PaddlePaddle
PP-YOLOE+ est un modèle de détection d'objets sans ancrage à une seule étape développé par Baidu dans le cadre de sa suite PaddleDetection. Sorti en 2022, il se concentre sur l'obtention d'une grande précision tout en conservant une efficacité raisonnable, en particulier au sein du framework de deep learning PaddlePaddle.
Détails techniques :
- Auteurs : Auteurs de PaddlePaddle
- Organisation : Baidu
- Date : 2022-04-02
- Arxiv : https://arxiv.org/abs/2203.16250
- GitHub : https://github.com/PaddlePaddle/PaddleDetection/
- Documentation : Documentation PP-YOLOE+
Architecture et principales fonctionnalités
PP-YOLOE+ s'appuie sur la famille YOLO avec plusieurs améliorations clés visant à améliorer le compromis précision-vitesse.
- Conception sans ancres : En éliminant les boîtes d'ancrage prédéfinies, PP-YOLOE+ simplifie le pipeline de détection et réduit la complexité de l'ajustement des hyperparamètres. Cette approche est courante dans les détecteurs modernes, y compris de nombreux modèles Ultralytics YOLO. Vous pouvez en apprendre davantage sur les détecteurs sans ancres dans notre glossaire.
- Composants efficaces : Le modèle utilise un backbone CSPRepResNet pour une extraction de caractéristiques puissante et un neck Path Aggregation Network (PAN) pour une fusion efficace des caractéristiques à différentes échelles.
- Tête découplée : Elle sépare les tâches de classification et de régression dans la tête de détection, une technique connue pour améliorer les performances en empêchant l'interférence entre les deux tâches.
- Apprentissage de l’alignement des tâches (TAL) : PP-YOLOE+ utilise une fonction de perte spécialisée pour mieux aligner les scores de classification et la précision de la localisation, ce qui permet d’obtenir des prédictions plus précises.
Points forts et faiblesses
- Points forts : PP-YOLOE+ est reconnu pour sa haute précision, en particulier dans ses configurations plus grandes (l, x). Sa conception est bien intégrée et optimisée pour l’écosystème PaddlePaddle, ce qui en fait un choix solide pour les développeurs qui travaillent déjà dans ce framework.
- Points faibles : La principale limitation est sa dépendance au framework PaddlePaddle. Les utilisateurs de frameworks plus courants comme PyTorch peuvent rencontrer des difficultés d'intégration et de déploiement. De plus, son support communautaire et ses ressources disponibles peuvent être moins importants que ceux des modèles plus largement adoptés.
Cas d'utilisation
PP-YOLOE+ est bien adapté aux applications où une haute précision est primordiale et où l'environnement de développement est basé sur PaddlePaddle. Les cas d'utilisation courants sont les suivants :
- Inspection de qualité industrielle : Détection des défauts subtils dans la fabrication.
- Commerce de détail intelligent : Alimente des applications telles que la gestion automatisée des stocks.
- Automatisation du recyclage : Identification de différents matériaux pour les systèmes de tri automatisé.
DAMO-YOLO : Une méthode rapide et précise d’Alibaba
DAMO-YOLO est un modèle de détection d'objets développé par des chercheurs d'Alibaba Group. Lancé fin 2022, il vise à repousser les limites de l'état de l'art en termes de compromis vitesse-précision en intégrant plusieurs nouvelles techniques, de la recherche d'architecture réseau aux stratégies avancées d'attribution d'étiquettes.
Détails techniques :
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444
- GitHub : https://github.com/tinyvision/DAMO-YOLO
- Documentation : Documentation DAMO-YOLO
Architecture et principales fonctionnalités
DAMO-YOLO introduit une suite de technologies pour atteindre ses performances impressionnantes.
- Neural Architecture Search (NAS) : Il utilise NAS pour trouver une architecture de colonne vertébrale optimale (MAE-NAS), ce qui donne un extracteur de caractéristiques très efficace.
- Neck RepGFPN efficace : Le modèle intègre une nouvelle conception de neck, RepGFPN, qui est conçue pour une fusion multi-échelle efficace des caractéristiques avec une faible latence.
- ZeroHead : DAMO-YOLO propose une « ZeroHead » qui réduit considérablement la surcharge de calcul de la tête de détection, en la découplant du neck et en améliorant encore la vitesse.
- Attribution de label AlignedOTA : Elle utilise une stratégie d'attribution dynamique de labels appelée AlignedOTA, qui aligne les tâches de classification et de régression pour sélectionner des échantillons positifs de haute qualité pendant l'entraînement, ce qui améliore la précision.
- Distillation des connaissances : Le processus de formation est amélioré grâce à la distillation des connaissances afin d’améliorer davantage la performance des plus petits modèles.
Points forts et faiblesses
- Points forts : Le principal avantage de DAMO-YOLO est son équilibre exceptionnel entre vitesse et précision, en particulier pour ses modèles plus petits. Les composants innovants tels que MAE-NAS et ZeroHead en font l'un des détecteurs les plus rapides disponibles pour un niveau mAP donné.
- Points faibles : Bien que puissant, DAMO-YOLO est un modèle axé sur la recherche. Son implémentation peut être moins soignée et conviviale par rapport aux frameworks prêts pour la production. L'écosystème qui l'entoure n'est pas aussi complet, ce qui rend potentiellement l'entraînement et le déploiement plus difficiles pour les non-experts.
Cas d'utilisation
La vitesse de DAMO-YOLO en fait un excellent candidat pour les applications nécessitant une inférence en temps réel, en particulier sur du matériel aux ressources limitées.
- Systèmes autonomes : Convient à la robotique et aux drones où une faible latence est essentielle.
- Edge AI : Les modèles petits et rapides (t, s) sont optimisés pour un déploiement sur des appareils périphériques tels que le NVIDIA Jetson.
- Vidéosurveillance : Traitement efficace des flux vidéo pour des applications telles que la prévention du vol ou la surveillance du trafic.
Analyse des performances : PP-YOLOE+ vs. DAMO-YOLO
Lorsqu'on compare les deux modèles, on observe des compromis distincts. DAMO-YOLO offre généralement une vitesse supérieure pour sa taille, tandis que PP-YOLOE+ s'étend à une plus grande précision avec ses variantes plus grandes.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
D'après le tableau, DAMO-YOLOt atteint un mAP plus élevé (42,0) avec une inférence plus rapide (2,32 ms) que PP-YOLOE+t (39,9 mAP, 2,84 ms). Cependant, PP-YOLOE+s est plus efficace en termes de paramètres et de FLOPs. À l'extrémité supérieure, PP-YOLOE+x atteint la plus haute précision (54,7 mAP) mais à un coût important en termes de taille et de latence.
L'avantage Ultralytics : Pourquoi choisir YOLO11 ?
Bien que PP-YOLOE+ et DAMO-YOLO offrent tous deux des fonctionnalités intéressantes, les développeurs à la recherche d'une solution holistique, haute performance et conviviale devraient envisager Ultralytics YOLO11. Il représente le point culminant d'années de recherche et développement, offrant un mélange optimal de performances et de convivialité.
- Facilité d'utilisation : Les modèles Ultralytics sont connus pour leur expérience utilisateur simplifiée. Avec une API Python simple, une documentation exhaustive et de nombreux guides, il est incroyablement rapide de démarrer.
- Écosystème bien maintenu : Ultralytics fournit un écosystème complet qui comprend un développement actif sur GitHub, un fort soutien de la communauté et la plateforme Ultralytics HUB pour la formation, le déploiement et la gestion des modèles sans code.
- Équilibre des performances : YOLO11 est conçu pour offrir un excellent compromis entre vitesse et précision, ce qui le rend adapté à un large éventail de scénarios de déploiement réels, des serveurs cloud aux appareils périphériques à faible consommation d’énergie.
- Polyvalence : Contrairement aux détecteurs spécialisés, les modèles Ultralytics YOLO sont de véritables concentrés de puissance multitâches. Un seul modèle YOLO11 peut effectuer la détection d'objets, la segmentation, la classification et l'estimation de pose, offrant une flexibilité inégalée.
- Efficacité de l'entraînement : Grâce à des poids pré-entraînés facilement disponibles et à un processus d'entraînement efficace, les utilisateurs peuvent obtenir des résultats de pointe sur des ensembles de données personnalisés avec un minimum d'effort. Les modèles Ultralytics sont également optimisés pour une utilisation réduite de la mémoire pendant l'entraînement et l'inférence par rapport à de nombreuses alternatives.
Pour les développeurs à la recherche d'un modèle robuste, polyvalent et facile à utiliser, d'autres modèles Ultralytics tels que YOLOv8 et YOLOv10 offrent également des avantages significatifs par rapport à PP-YOLOE+ et DAMO-YOLO.
Conclusion
PP-YOLOE+ et DAMO-YOLO sont tous deux des modèles de détection d'objets puissants qui ont fait progresser le domaine. PP-YOLOE+ est un concurrent sérieux pour les utilisateurs qui privilégient une haute précision au sein de l'écosystème PaddlePaddle. DAMO-YOLO excelle en offrant une vitesse exceptionnelle, ce qui le rend idéal pour les applications en temps réel.
Cependant, pour la plupart des développeurs et des chercheurs, la famille Ultralytics YOLO, en particulier le dernier YOLO11, offre l'ensemble le plus convaincant. Sa combinaison de haute performance, de polyvalence dans de multiples tâches de vision, de facilité d'utilisation et d'un écosystème de soutien et bien entretenu en fait le choix supérieur pour la construction de solutions d'IA de nouvelle génération.