PP-YOLOE+ vs DAMO-YOLO : Une comparaison technique
Le choix du modèle de détection d'objets optimal est une étape essentielle dans le développement d'applications de vision par ordinateur efficaces. Il implique de naviguer dans les compromis complexes entre la précision, la latence d'inférence et les contraintes matérielles. Cette comparaison technique explore deux modèles importants des géants technologiques asiatiques : PP-YOLOE+, développé par l'équipe PaddlePaddle de Baidu, et DAMO-YOLO, conçu par le groupe Alibaba. Les deux modèles représentent des avancées significatives dans l'évolution des détecteurs en temps réel, offrant des innovations architecturales et des profils de performance uniques.
Lors de l'analyse de ces modèles, il est utile de considérer le paysage plus large de l'IA de vision. Des solutions telles que Ultralytics YOLO11 offrent une alternative intéressante, offrant des performances de pointe avec un accent sur la convivialité et un écosystème robuste et indépendant du framework.
Comparaison des métriques de performance
Le tableau suivant présente une comparaison directe des indicateurs clés de performance, notamment la précision moyenne (mAP), la vitesse d'inférence sur les GPU T4 à l'aide de TensorRT, le nombre de paramètres et la complexité de calcul (FLOPs).
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
PP-YOLOE+: Précision affinée dans l'écosystème Paddle
PP-YOLOE+ est une version évoluée de PP-YOLOE, représentant le détecteur sans ancres à une étape phare de Baidu. Sorti en 2022 dans le cadre de la suite PaddleDetection, il met l'accent sur la détection de haute précision et est profondément optimisé pour le framework deep learning PaddlePaddle.
Détails techniques :
- Auteurs : Auteurs de PaddlePaddle
- Organisation :Baidu
- Date : 2022-04-02
- Arxiv :https://arxiv.org/abs/2203.16250
- GitHub :https://github.com/PaddlePaddle/PaddleDetection/
- Documentation :Documentation PP-YOLOE+
Architecture et technologies de base
PP-YOLOE+ intègre plusieurs composants avancés pour rationaliser le pipeline de détection tout en augmentant la précision.
- Mécanisme sans ancres : En supprimant les boîtes d'ancrage prédéfinies, le modèle réduit la complexité du réglage des hyperparamètres et accélère la convergence de l'entraînement, une tendance observée dans de nombreuses architectures modernes.
- Colonne vertébrale CSPRepResNet : Le modèle utilise une colonne vertébrale CSPRepResNet, qui combine les avantages du flux de gradient des réseaux Cross Stage Partial (CSP) avec l'efficacité d'inférence des blocs ResNet reparamétrés.
- Task Alignment Learning (TAL) : Pour résoudre l’écart entre la confiance de la classification et la qualité de la localisation, PP-YOLOE+ utilise TAL. Cette stratégie d’attribution dynamique d’étiquettes garantit que les prédictions de la plus haute qualité sont priorisées pendant l’entraînement.
- Head efficace aligné sur les tâches (ET-Head) : Le head de détection découplé sépare les caractéristiques de classification et de régression, permettant à chaque tâche d’être optimisée indépendamment sans interférence.
Dépendance à l'égard de l'écosystème
PP-YOLOE+ est natif de PaddlePaddle. Bien que très efficace dans cet environnement, les utilisateurs familiers avec PyTorch peuvent trouver la transition et l'outillage (tel que paddle2onnx pour l'exportation) nécessite un apprentissage supplémentaire par rapport aux modèles natifs PyTorch.
Points forts et faiblesses
Points forts : PP-YOLOE+ excelle dans les scénarios privilégiant la précision brute. Les variantes 'medium', 'large' et 'extra-large' démontrent des scores de mAP robustes sur l'ensemble de données COCO, les rendant adaptés aux tâches d'inspection détaillées comme le contrôle qualité industriel.
Faiblesses :
La principale limitation est son couplage au framework. L'outillage, les chemins de déploiement et les ressources communautaires sont principalement centrés sur PaddlePaddle, ce qui peut être un point de friction pour les équipes établies dans les écosystèmes PyTorch ou TensorFlow. De plus, le nombre de paramètres pour ses modèles plus petits (comme s) est remarquablement efficace, mais ses modèles plus grands peuvent être gourmands en calcul.
DAMO-YOLO : Innovation axée sur la vitesse d'Alibaba
DAMO-YOLO, introduit par le groupe Alibaba fin 2022, cible le point idéal entre faible latence et haute performance. Il exploite une recherche d'architecture neuronale (NAS) étendue pour découvrir automatiquement des structures efficaces.
Détails techniques :
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 2022-11-23
- Arxiv :https://arxiv.org/abs/2211.15444
- GitHub :https://github.com/tinyvision/DAMO-YOLO
- Documentation :Documentation DAMO-YOLO
Architecture et principales fonctionnalités
DAMO-YOLO se caractérise par son optimisation agressive pour la vitesse d'inférence.
- L'épine dorsale MAE-NAS : Au lieu d'élaborer manuellement l'extracteur de caractéristiques, les auteurs ont utilisé la méthode Method-Aware Efficient NAS pour générer des dorsales avec des profondeurs et des largeurs variables, en optimisant les budgets de calcul spécifiques.
- RepGFPN efficace : L’architecture de neck, un réseau de pyramide de caractéristiques généralisé (GFPN), utilise la reparamétrisation pour maximiser l’efficacité de la fusion des caractéristiques tout en minimisant la latence sur le matériel.
- Technologie ZeroHead : Une caractéristique remarquable est le « ZeroHead », qui simplifie les couches de prédiction finales afin de réduire considérablement les FLOPs, laissant le gros du travail au backbone et au neck.
- AlignedOTA : Cette stratégie d’attribution d’étiquettes aligne les objectifs de classification et de régression, garantissant que les échantillons « positifs » sélectionnés pendant la formation contribuent le plus efficacement à la perte finale.
Points forts et faiblesses
Points forts : DAMO-YOLO est exceptionnellement rapide. Ses modèles 'tiny' et 'small' offrent un mAP impressionnant pour leur vitesse, surpassant de nombreux concurrents dans les scénarios d'inférence en temps réel. Cela le rend idéal pour les applications d'IA en périphérie où la latence en millisecondes est importante, comme les drones autonomes ou la surveillance du trafic.
Points faibles : En tant que version axée sur la recherche, DAMO-YOLO peut manquer des outils de déploiement peaufinés et de la documentation exhaustive que l’on trouve dans les projets plus matures. Sa dépendance à des structures NAS spécifiques peut également rendre la personnalisation et le réglage fin plus complexes pour les utilisateurs qui souhaitent modifier l’architecture.
L'avantage Ultralytics : pourquoi YOLO11 est le choix supérieur
Bien que PP-YOLOE+ et DAMO-YOLO offrent des fonctionnalités compétitives dans leurs niches respectives, Ultralytics YOLO11 se distingue comme la solution la plus équilibrée, la plus polyvalente et la plus conviviale pour la vision par ordinateur moderne.
Facilité d'utilisation et écosystème inégalés
Ultralytics a démocratisé l'IA en donnant la priorité à l'expérience utilisateur. Contrairement aux référentiels de recherche qui peuvent nécessiter une configuration complexe, YOLO11 est accessible via une simple installation pip et une API python intuitive. L'écosystème Ultralytics est activement maintenu, assurant la compatibilité avec le matériel le plus récent (comme NVIDIA Jetson, les puces Apple série M) et les bibliothèques logicielles.
Équilibre optimal des performances
YOLO11 est conçu pour offrir une précision à la pointe de la technologie sans compromettre la vitesse. Il égale ou dépasse souvent la précision de modèles tels que PP-YOLOE+ tout en conservant l'efficacité d'inférence requise pour les applications en temps réel. Cet équilibre est essentiel pour les déploiements dans le monde réel où la précision et le débit sont non négociables.
Efficacité et polyvalence
L'un des principaux avantages des modèles Ultralytics est leur polyvalence. Alors que DAMO-YOLO et PP-YOLOE+ se concentrent principalement sur la détection d'objets, une seule architecture de modèle YOLO11 prend en charge :
- Détection d'objets
- Segmentation d'instance
- Classification d'images
- Estimation de pose
- Boîtes englobantes orientées (OBB)
De plus, YOLO11 est optimisé pour des besoins en mémoire plus faibles pendant l'entraînement et l'inférence par rapport à de nombreuses alternatives basées sur Transformer ou aux anciennes versions de YOLO. Cette efficacité permet aux développeurs d'entraîner des tailles de lots plus importantes sur des GPU standard et de déployer sur des appareils périphériques plus contraints.
Efficacité de l'entraînement
Grâce aux poids pré-entraînés facilement disponibles et aux pipelines d’entraînement optimisés, les utilisateurs peuvent obtenir des performances élevées sur des ensembles de données personnalisés avec un temps d’entraînement minimal.
Exemple : Exécution de YOLO11
Le déploiement de capacités de vision avancées est simple avec Ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Perform object detection on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
results[0].show()
Conclusion
PP-YOLOE+ et DAMO-YOLO sont tous deux des contributions formidables dans le domaine de la vision par ordinateur. PP-YOLOE+ est un candidat solide pour les utilisateurs profondément intégrés dans l'écosystème PaddlePaddle nécessitant une grande précision. DAMO-YOLO offre des choix architecturaux innovants pour maximiser la vitesse sur les appareils périphériques.
Cependant, pour la grande majorité des développeurs et des entreprises, Ultralytics YOLO11 reste le choix recommandé. Sa combinaison de prise en charge native de PyTorch, de polyvalence multitâche, de documentation supérieure et de prise en charge active de la communauté réduit considérablement les délais de commercialisation des solutions d'IA. Que vous construisiez un système d'alarme de sécurité ou un pipeline de contrôle de la qualité de la fabrication, YOLO11 offre la fiabilité et les performances nécessaires au succès.