Passer au contenu

DAMO-YOLO vs. PP-YOLOE+ : Une comparaison technique

Choisir le bon modèle de détection d'objets est une décision cruciale qui équilibre la précision, la vitesse d'inférence et le coût de calcul. Cette page fournit une comparaison technique détaillée entre DAMO-YOLO, développé par Alibaba Group, et PP-YOLOE+, développé par Baidu. Nous analyserons leurs architectures, leurs mesures de performance et leurs cas d'utilisation idéaux pour aider les développeurs et les chercheurs à faire un choix éclairé pour leurs projets de vision par ordinateur.

Bien que les deux modèles offrent des avancées significatives, il est également important de considérer des alternatives telles que la série Ultralytics YOLO. Les modèles tels que Ultralytics YOLO11 offrent un équilibre très compétitif entre performances et efficacité, associé à un écosystème convivial et bien maintenu qui accélère le développement de la recherche à la production.

DAMO-YOLO : Une méthode rapide et précise d’Alibaba

DAMO-YOLO a été introduit par le groupe Alibaba comme une méthode de détection d’objets rapide et précise qui exploite plusieurs nouvelles techniques pour atteindre un équilibre supérieur entre la vitesse et la précision. Il s’appuie sur la philosophie YOLO, mais intègre des composants avancés pour repousser les limites de la performance.

Détails techniques :

En savoir plus sur DAMO-YOLO

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO se distingue par son intégration de techniques de pointe découvertes grâce à la recherche d’architecture neuronale (NAS) et à d’autres optimisations.

  • Colonnes vertébrales basées sur NAS : DAMO-YOLO utilise des colonnes vertébrales générées par MAE-NAS d’Alibaba, ce qui donne des extracteurs de caractéristiques très efficaces conçus pour la détection d’objets.
  • Neck RepGFPN efficace : Il introduit un nouveau neck, le Generalized Feature Pyramid Network (GFPN), avec reparamétrisation pour améliorer la fusion des caractéristiques à différentes échelles tout en maintenant une faible latence.
  • ZeroHead : Le modèle utilise une tête simplifiée à paramètre zéro qui découple les tâches de classification et de régression, réduisant ainsi la surcharge de calcul et améliorant les performances.
  • Attribution d'étiquettes AlignedOTA : Une stratégie d'attribution d'étiquettes dynamique et axée sur l'alignement, AlignedOTA, est utilisée pour garantir que les ancres les plus appropriées sont sélectionnées pendant l'entraînement, ce qui conduit à des prédictions plus précises.
  • Amélioration par distillation : DAMO-YOLO exploite la distillation des connaissances pour transférer les connaissances de modèles enseignants plus grands et plus puissants vers des modèles étudiants plus petits, augmentant ainsi leur précision sans augmenter le coût d'inférence.

Points forts et faiblesses

Points forts :

  • Excellent compromis vitesse-précision : DAMO-YOLO excelle en offrant une grande précision à des vitesses d’inférence très rapides, ce qui le rend idéal pour les applications en temps réel.
  • Efficacité de calcul : Le modèle est conçu pour être léger en termes de paramètres et de FLOPs, ce qui est avantageux pour le déploiement sur des appareils aux ressources limitées.
  • Architecture innovante : L'utilisation de NAS, RepGFPN et ZeroHead représente un progrès significatif dans la conception de modèles efficaces.

Faiblesses :

  • Intégration de l'écosystème : Le modèle est principalement implémenté dans un framework basé sur MMDetection, ce qui peut nécessiter des efforts supplémentaires pour l'intégrer dans les flux de travail PyTorch standard.
  • Support communautaire : En tant que modèle axé sur la recherche et provenant d'un laboratoire d'entreprise, il peut avoir une communauté plus petite et moins de ressources tierces par rapport aux modèles plus largement adoptés.

PP-YOLOE+ : Haute précision au sein de l'écosystème PaddlePaddle

PP-YOLOE+, développé par Baidu, est une version améliorée de la série PP-YOLOE. Il s'agit d'un détecteur à une étape sans ancres qui privilégie l'obtention d'une haute précision tout en maintenant une efficacité raisonnable, en particulier au sein du framework d'apprentissage profond PaddlePaddle.

Détails techniques :

En savoir plus sur PP-YOLOE+

Architecture et principales fonctionnalités

PP-YOLOE+ s'appuie sur une base "anchor-free" solide avec plusieurs améliorations clés visant à améliorer les performances.

  • Conception sans ancres : En éliminant les boîtes d'ancrage prédéfinies, PP-YOLOE+ simplifie le pipeline de détection et réduit le nombre d'hyperparamètres qui nécessitent un réglage.
  • Colonne vertébrale CSPRepResNet : Elle utilise une colonne vertébrale puissante qui combine les principes de CSPNet et de RepVGG pour créer un extracteur de caractéristiques à la fois robuste et efficace.
  • Fonction de perte et tête avancées : Le modèle intègre la fonction de perte Varifocal et une tête ET (Efficient Task-aligned Head) efficace pour mieux aligner les tâches de classification et de localisation, améliorant ainsi la précision de la détection.
  • Optimisation PaddlePaddle : PP-YOLOE+ est profondément intégré et optimisé pour le framework PaddlePaddle, offrant une formation, une inférence et un déploiement transparents aux utilisateurs de cet écosystème.

Points forts et faiblesses

Points forts :

  • Haute précision : Les variantes plus grandes de PP-YOLOE+ atteignent une précision à la pointe de la technologie sur le jeu de données COCO.
  • Modèles Scalables : Il est disponible en différentes tailles (t, s, m, l, x), permettant aux utilisateurs de choisir un modèle adapté à leur budget de calcul spécifique.
  • Forte prise en charge de l’écosystème : Il est bien documenté et pris en charge dans la boîte à outils PaddleDetection.

Faiblesses :

  • Dépendance au Framework : Sa dépendance principale au framework PaddlePaddle peut être un obstacle important pour les développeurs et les équipes standardisés sur PyTorch.
  • Moins efficace : Comparativement à DAMO-YOLO, les modèles PP-YOLOE+ ont souvent plus de paramètres et des FLOPs plus élevés pour un niveau de précision similaire, ce qui les rend plus gourmands en calcul.

Analyse des performances : DAMO-YOLO vs. PP-YOLOE+

Les performances de DAMO-YOLO et PP-YOLOE+ mettent en évidence leurs différentes philosophies de conception. DAMO-YOLO est conçu pour une efficacité maximale, offrant un meilleur compromis vitesse-précision. En revanche, PP-YOLOE+ se concentre sur le dépassement des limites de la précision, en particulier avec ses modèles plus grands, au prix d'exigences de calcul plus élevées.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
PP-YOLOE+t 640 39.9 - 2.84 4.85 19.15
PP-YOLOE+s 640 43.7 - 2.62 7.93 17.36
PP-YOLOE+m 640 49.8 - 5.56 23.43 49.91
PP-YOLOE+l 640 52.9 - 8.36 52.2 110.07
PP-YOLOE+x 640 54.7 - 14.3 98.42 206.59

D'après le tableau, nous pouvons observer :

  • Précision (mAP) : PP-YOLOE+x atteint le mAP le plus élevé de 54,7 %, dépassant toutes les variantes de DAMO-YOLO. Cependant, à plus petite échelle, les modèles DAMO-YOLO sont très compétitifs.
  • Vitesse : Les modèles DAMO-YOLO affichent systématiquement des vitesses d'inférence plus rapides sur un GPU T4 par rapport aux modèles PP-YOLOE+ de taille similaire.
  • Efficacité (Paramètres et FLOPs) : DAMO-YOLO est généralement plus efficace. Par exemple, DAMO-YOLOm atteint un mAP de 49,2 % avec 28,2 millions de paramètres, tandis que le PP-YOLOE+m légèrement plus précis (mAP de 49,8 %) nécessite 23,43 millions de paramètres, mais est plus lent. Le plus grand modèle PP-YOLOE+x est considérablement plus grand en termes de paramètres et de FLOPs.

L'avantage Ultralytics : Pourquoi choisir YOLO11 ?

Bien que DAMO-YOLO et PP-YOLOE+ soient des modèles puissants, ils sont livrés avec des contraintes d'écosystème. Pour les développeurs à la recherche d'une solution polyvalente, facile à utiliser et à haute performance, Ultralytics YOLO11 est une alternative exceptionnelle.

Les modèles Ultralytics sont conçus en accordant une priorité absolue à l'expérience du développeur. Les principaux avantages sont les suivants :

  • Facilité d'utilisation : Une API Python simplifiée, une documentation complète et une CLI simple rendent l'entraînement, la validation et le déploiement incroyablement faciles.
  • Écosystème bien maintenu : Ultralytics fournit un écosystème robuste avec un développement actif, un fort soutien de la communauté sur GitHub et une intégration avec Ultralytics HUB pour un MLOps de bout en bout.
  • Polyvalence : Contrairement aux détecteurs spécialisés, YOLO11 est un modèle multitâche prenant en charge la détection d'objets, la segmentation, la classification et l'estimation de pose prêtes à l'emploi.
  • Efficacité de l'entraînement : Les modèles Ultralytics YOLO sont optimisés pour un entraînement efficace, nécessitant souvent moins de mémoire et de temps, avec un riche ensemble de poids pré-entraînés disponibles pour démarrer n'importe quel projet.

Conclusion : Quel modèle vous convient le mieux ?

Le choix entre DAMO-YOLO et PP-YOLOE+ dépend fortement des priorités spécifiques de votre projet et de votre pile technologique existante.

  • Choisissez DAMO-YOLO si votre objectif principal est d’obtenir le meilleur compromis possible entre vitesse et précision pour l’inférence en temps réel, en particulier sur les appareils périphériques. C’est un excellent choix pour ceux qui apprécient l’efficacité informatique et qui sont à l’aise avec son framework basé sur MMDetection.

  • Choisissez PP-YOLOE+ si votre application exige la plus grande précision possible et que vous travaillez déjà dans l’écosystème Baidu PaddlePaddle ou que vous prévoyez de l’adopter. Ses modèles plus grands sont idéaux pour les applications à enjeux élevés où la précision est primordiale.

  • Pour la plupart des développeurs et des chercheurs, nous recommandons Ultralytics YOLO11. Il offre une combinaison convaincante de haute performance, de polyvalence pour de multiples tâches de vision et une facilité d'utilisation inégalée. L'écosystème robuste et bien maintenu élimine les frictions associées aux modèles spécifiques à un framework, vous permettant de vous concentrer plus rapidement sur la création et le déploiement de solutions d'IA innovantes.

Explorer d’autres comparaisons



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires