Passer au contenu

DAMO-YOLO vs. YOLOX : Une comparaison technique

Choisir le bon modèle de détection d'objets implique un compromis entre la précision, la vitesse et la complexité du déploiement. Cette page offre une comparaison technique détaillée entre deux modèles puissants dans le paysage de la vision par ordinateur : DAMO-YOLO et YOLOX. Les deux modèles ont introduit des innovations significatives dans la famille YOLO, mais ils répondent à des priorités et à des cas d'utilisation différents. Nous examinerons en profondeur leurs architectures, leurs mesures de performance et leurs applications idéales afin de vous aider à prendre une décision éclairée.

DAMO-YOLO : Un détecteur rapide et précis

DAMO-YOLO est un modèle de détection d'objets haute performance développé par Alibaba Group. Il introduit une suite de technologies avancées pour atteindre un équilibre supérieur entre la vitesse et la précision, en particulier sur les appareils GPU. Le modèle exploite la recherche d'architecture neuronale (NAS) pour optimiser ses composants pour une efficacité maximale.

Détails techniques :

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO est basée sur plusieurs innovations clés :

  • Backbone alimenté par NAS : Au lieu d’un backbone conçu manuellement, DAMO-YOLO utilise un backbone appelé GiraffeNet, qui est généré à l’aide de la recherche d’architecture neuronale (NAS). Cela permet au réseau de trouver une structure optimale pour l’extraction des caractéristiques, adaptée à l’efficacité.
  • Neck RepGFPN efficace : Le modèle utilise une structure de neck efficace, RepGFPN, qui est également optimisée via NAS. Ce composant est responsable de la fusion des caractéristiques provenant de différentes échelles du backbone, et sa conception se concentre sur l'obtention de hautes performances avec un faible coût de calcul.
  • ZeroHead : DAMO-YOLO simplifie la tête de détection en introduisant ZeroHead, ce qui réduit le nombre de couches et de paramètres nécessaires pour les tâches de classification et de régression sans sacrifier la précision.
  • Attribution de label AlignedOTA : Elle utilise une stratégie avancée d'attribution de labels appelée AlignedOTA, qui améliore les méthodes précédentes en alignant mieux les tâches de classification et de régression, ce qui permet d'obtenir des prédictions plus précises.

Points forts

  • Excellent compromis vitesse-précision : DAMO-YOLO excelle en offrant une grande précision à des vitesses d’inférence très rapides, en particulier sur les GPU modernes.
  • Architecture innovante : L'utilisation de NAS pour le backbone et le neck démontre une approche avant-gardiste de la conception de modèles, repoussant les limites de l'apprentissage automatique automatisé.
  • Modèles Scalables : Il offre une famille de modèles (Tiny, Small, Medium, Large) qui permettent aux développeurs de choisir le bon équilibre entre performances et utilisation des ressources pour leurs besoins spécifiques.

Faiblesses

  • Optimisation axée sur le GPU : Le modèle est hautement optimisé pour l’inférence GPU, avec moins d’emphase sur les performances du CPU, ce qui pourrait être une limite pour certains scénarios d'informatique en périphérie.
  • Écosystème et support : En tant que modèle provenant d'un référentiel externe, il ne possède pas l'intégration transparente, la documentation exhaustive et le soutien communautaire actif que l'on retrouve au sein de l'écosystème Ultralytics.
  • Spécificité de la tâche : DAMO-YOLO est principalement conçu pour la détection d’objets et ne prend pas en charge nativement d’autres tâches de vision telles que la segmentation ou l’estimation de pose.

Cas d'utilisation

DAMO-YOLO est un excellent choix pour les applications où la performance en temps réel sur le matériel GPU est essentielle :

  • Services de vision basés sur le cloud : Traitement de flux vidéo à haut volume pour l'analyse et la surveillance.
  • Automatisation industrielle : Contrôle qualité à haute vitesse et détection de défauts sur les chaînes de production.
  • Surveillance en temps réel : Alimente les systèmes de sécurité qui nécessitent une détection d’objets rapide et précise.

En savoir plus sur DAMO-YOLO

YOLOX : Une alternative sans ancres et à hautes performances

YOLOX, développé par Megvii, a marqué une étape importante dans l'évolution des modèles YOLO en introduisant une conception sans ancrage. Cette simplification du pipeline de détection visait à améliorer les performances et à réduire la complexité associée au réglage des boîtes d'ancrage.

Détails techniques :

Architecture et principales fonctionnalités

YOLOX se distingue par plusieurs décisions architecturales clés :

  • Conception sans ancres : En éliminant les boîtes d'ancrage prédéfinies, YOLOX simplifie le processus d'entraînement et réduit le nombre d'hyperparamètres, ce qui peut conduire à une meilleure généralisation.
  • Tête découplée : Elle utilise des têtes séparées pour les tâches de classification et de localisation. Il a été constaté que ce découplage résout un problème de désalignement présent dans les têtes couplées, améliorant ainsi la précision et la vitesse de convergence.
  • Attribution de label SimOTA : YOLOX a introduit une stratégie avancée d’attribution de label appelée SimOTA, qui traite le processus d’attribution comme un problème de transport optimal pour attribuer dynamiquement des échantillons positifs, ce qui améliore les performances.
  • Fortes augmentations : Le modèle s’appuie sur de fortes augmentations de données comme MixUp et Mosaic pour améliorer sa robustesse et sa précision.

Points forts

  • Haute précision : YOLOX atteint des scores mAP compétitifs, sa plus grande variante (YOLOX-X) atteignant plus de 51 % de mAP sur l’ensemble de données COCO.
  • Pipeline simplifié : L’approche sans ancres rend le modèle plus facile à comprendre et à mettre en œuvre par rapport aux détecteurs traditionnels basés sur des ancres.
  • Établi et bien documenté : En tant que modèle plus ancien, YOLOX dispose d’une quantité considérable de ressources communautaires, de tutoriels et d’exemples de déploiement.

Faiblesses

  • Inférence plus lente : Comparé aux modèles plus récents comme DAMO-YOLO, YOLOX peut avoir des vitesses d'inférence plus lentes pour un niveau de précision donné, en particulier ses variantes les plus grandes.
  • Écosystème externe : Il ne fait pas partie de l’écosystème Ultralytics intégré, ce qui signifie que les utilisateurs passent à côté de flux de travail rationalisés, d’outils tels que Ultralytics HUB et d’un support unifié.
  • Polyvalence limitée : Tout comme DAMO-YOLO, YOLOX est principalement axé sur la détection d'objets et ne prend pas en charge nativement d'autres tâches de vision par ordinateur.

Cas d'utilisation

YOLOX est bien adapté aux applications où une grande précision est une priorité absolue et où la conception sans ancrage est avantageuse :

  • Conduite autonome : Systèmes de perception dans les véhicules autonomes qui nécessitent une détection d'objets précise.
  • Robotique avancée : Permet aux robots de naviguer et d’interagir avec des environnements complexes et non structurés.
  • Recherche et développement : Sert de base solide pour la recherche universitaire et industrielle sur les méthodes de détection sans ancres.

En savoir plus sur YOLOX

Analyse des performances : DAMO-YOLO vs. YOLOX

Le tableau suivant fournit une comparaison détaillée des performances entre différentes tailles de modèles DAMO-YOLO et YOLOX, évaluées sur l'ensemble de données COCO val.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOXnano 416 25.8 - - 0.91 1.08
YOLOXtiny 416 32.8 - - 5.06 6.45
YOLOXs 640 40.5 - 2.56 9.0 26.8
YOLOXm 640 46.9 - 5.43 25.3 73.8
YOLOXl 640 49.7 - 9.04 54.2 155.6
YOLOXx 640 51.1 - 16.1 99.1 281.9

D'après les données, nous pouvons tirer plusieurs conclusions :

  • DAMO-YOLO offre généralement un meilleur front de Pareto vitesse-précision. Par exemple, DAMO-YOLOs atteint 46,0 mAP à 3,45 ms, tandis que YOLOXm atteint un mAP similaire de 46,9, mais à une vitesse plus lente de 5,43 ms.
  • YOLOX offre une précision de pointe plus élevée avec son modèle YOLOX-x (51,1 mAP), mais cela se fait au prix d'un coût important en termes de paramètres, de FLOP et de latence.
  • Pour les modèles légers, YOLOX-Nano est le plus efficace en termes de paramètres et de FLOP, bien qu'il fonctionne à une résolution d'entrée inférieure.
  • DAMO-YOLO démontre une latence GPU supérieure pour des tailles de modèles comparables, ce qui en fait un meilleur candidat pour les applications en temps réel sur le matériel NVIDIA.

L'avantage Ultralytics : Une alternative supérieure

Bien que DAMO-YOLO et YOLOX soient tous deux des modèles puissants, les développeurs et les chercheurs à la recherche d'un mélange optimal de performances, de convivialité et de polyvalence devraient envisager les modèles de l'écosystème Ultralytics YOLO, tels que YOLOv8 et le dernier YOLO11.

Les modèles Ultralytics offrent plusieurs avantages clés :

  • Facilité d'utilisation : Une API Python simplifiée, une documentation exhaustive et des flux de travail d'entraînement et de déploiement simples rendent la prise en main incroyablement facile.
  • Écosystème bien maintenu : Bénéficiez d'un développement actif, d'un fort soutien de la communauté via GitHub, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour la gestion et l'entraînement des ensembles de données.
  • Compromis de performance : Les modèles Ultralytics sont hautement optimisés pour offrir un excellent compromis entre la vitesse d’inférence (sur CPU et GPU) et la précision, ce qui les rend adaptés à un large éventail de scénarios de déploiement, des appareils périphériques aux serveurs cloud.
  • Efficacité de la mémoire : Les modèles Ultralytics YOLO nécessitent généralement moins de mémoire pour l’entraînement et l’inférence par rapport aux architectures plus complexes, ce qui permet le développement sur du matériel moins puissant.
  • Polyvalence : Prise en charge native de plusieurs tâches au-delà de la détection, notamment la segmentation d’instance, la classification d’images, l’estimation de pose et les boîtes englobantes orientées (OBB).
  • Efficacité de l'entraînement : Des temps d'entraînement rapides et des poids pré-entraînés facilement disponibles sur divers ensembles de données tels que COCO accélèrent les délais des projets.

Conclusion

DAMO-YOLO et YOLOX sont tous deux des modèles de détection d'objets formidables qui ont fait progresser le domaine. DAMO-YOLO se distingue par sa vitesse GPU exceptionnelle et sa conception innovante basée sur NAS, ce qui le rend idéal pour les systèmes en temps réel à haut débit. YOLOX offre une alternative robuste, de haute précision et sans ancrage, qui a prouvé sa valeur tant dans la recherche que dans l'industrie.

Cependant, pour la plupart des développeurs et des chercheurs, les modèles Ultralytics YOLO comme YOLO11 présentent l'ensemble le plus convaincant. Ils combinent des performances de pointe avec une facilité d'utilisation inégalée, une polyvalence multitâche et un écosystème prospère et bien pris en charge. Cette approche holistique fait des modèles Ultralytics le choix recommandé pour la construction de solutions de vision par ordinateur pratiques, performantes et évolutives.

Explorer d'autres modèles

Les utilisateurs intéressés par d'autres comparaisons peuvent souhaiter explorer comment DAMO-YOLO et YOLOX se comparent à d'autres modèles de pointe :



📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires