Passer au contenu

DAMO-YOLO vs. YOLOv7 : Une comparaison technique détaillée

Choisir le bon modèle de détection d'objets est une étape cruciale dans tout projet de vision par ordinateur, qui a un impact direct sur les performances, la vitesse et la faisabilité du déploiement. Cette page fournit une comparaison technique détaillée entre DAMO-YOLO et YOLOv7, deux modèles puissants qui ont apporté des contributions significatives au domaine en 2022. Nous explorerons leurs différences architecturales, leurs mesures de performance et leurs cas d'utilisation idéaux pour vous aider à prendre une décision éclairée en fonction de vos besoins spécifiques.

DAMO-YOLO : Détection rapide et précise avec une technologie avancée

DAMO-YOLO est un modèle de détection d'objets développé par Alibaba Group, axé sur l'atteinte de hautes performances grâce à une combinaison de technologies de pointe. Il vise à offrir un équilibre supérieur entre vitesse et précision, en particulier pour les scénarios de déploiement réels.

Architecture et principales fonctionnalités

L’architecture de DAMO-YOLO est basée sur plusieurs innovations clés conçues pour optimiser la performance et l’efficacité :

  • Colonnes vertébrales basées sur NAS : Elle exploite Neural Architecture Search (NAS) pour générer des réseaux de colonnes vertébrales optimaux. Cette approche automatisée permet de découvrir des architectures qui offrent un meilleur compromis vitesse-précision que celles conçues manuellement.
  • Neck RepGFPN efficace : Le modèle introduit une nouvelle structure de neck appelée Generalized Feature Pyramid Network (GFPN), qui est améliorée avec des techniques de reparamétrisation. Cette conception permet une fusion multi-échelle efficace des caractéristiques, essentielle pour détecter des objets de différentes tailles.
  • ZeroHead : DAMO-YOLO intègre une tête simplifiée, sans paramètre, qui sépare les tâches de classification et de régression. Cela réduit la complexité du calcul et la taille du modèle sans sacrifier les performances.
  • Attribution de label AlignedOTA : Elle utilise une stratégie avancée d'attribution de labels appelée AlignedOTA, qui résout les problèmes de désalignement entre les scores de classification et la précision de la localisation, ce qui permet d'obtenir des détections plus précises.

Points forts et faiblesses

Points forts :

  • Vitesse d'inférence élevée : Les variantes plus petites (DAMO-YOLO-t/s) sont exceptionnellement rapides, ce qui les rend idéales pour les applications nécessitant une faible latence, telles que celles sur les appareils edge AI.
  • Technologie innovante : Intègre des techniques de pointe comme NAS et une conception de neck efficace pour repousser les limites de performance.

Faiblesses :

  • Intégration de l'écosystème : Peut manquer de l'écosystème complet, de la documentation complète et de l'expérience utilisateur rationalisée que l'on trouve dans les frameworks comme Ultralytics.
  • Support communautaire : En tant que modèle axé sur la recherche et provenant d'une seule entreprise, il peut avoir une communauté open source plus petite par rapport aux modèles plus largement adoptés.

En savoir plus sur DAMO-YOLO

YOLOv7 : Repousser les limites de la précision en temps réel

YOLOv7, introduit par Chien-Yao Wang et al., a établi une nouvelle référence pour les détecteurs d'objets en temps réel lors de sa publication. Il s'est concentré sur l'optimisation du processus d'entraînement pour améliorer la précision sans augmenter le coût d'inférence.

Architecture et principales fonctionnalités

YOLOv7 a introduit plusieurs améliorations architecturales et d'entraînement qui ont considérablement amélioré ses performances :

  • E-ELAN (Extended Efficient Layer Aggregation Network) : Cette structure de réseau avancée améliore la capacité d’apprentissage du modèle en lui permettant d’apprendre des caractéristiques plus diverses sans perturber le chemin de gradient d’origine.
  • Mise à l'échelle composite du modèle : YOLOv7 emploie une stratégie de mise à l'échelle du modèle qui ajuste correctement la profondeur et la largeur du modèle pour les architectures basées sur la concaténation, garantissant des performances optimales pour différentes tailles de modèle.
  • Sac de cadeaux entraînable : Une contribution clé de YOLOv7 est son utilisation d'optimisations au moment de l'entraînement, telles que les têtes auxiliaires et la perte guidée grossière à fine, qui améliorent la précision finale du modèle sans ajouter de surcharge de calcul pendant l'inférence.

Points forts et faiblesses

Points forts :

  • Excellent équilibre précision-vitesse : YOLOv7 offre une combinaison remarquable de mAP élevée et de vitesses d’inférence rapides, ce qui le rend parfaitement adapté à l’inférence en temps réel.
  • Entraînement efficace : L'approche « bag-of-freebies » lui permet d'obtenir une plus grande précision à partir du processus d'entraînement sans ralentir le modèle final.
  • Performances établies : Il a été rigoureusement testé sur des ensembles de données standard comme MS COCO, avec des résultats éprouvés.

Faiblesses :

  • Complexité : L’architecture et les stratégies d’entraînement peuvent être complexes à comprendre et à implémenter à partir de zéro.
  • Polyvalence limitée : YOLOv7 est principalement un modèle de détection d’objets. Bien qu’il existe des versions communautaires pour d’autres tâches, il ne possède pas la polyvalence multitâche intégrée de frameworks tels que Ultralytics YOLOv8.
  • Gourmand en ressources : L'entraînement de modèles YOLOv7 plus grands peut nécessiter des ressources GPU importantes.

En savoir plus sur YOLOv7

Analyse des performances : Vitesse vs. Précision

Lors de la comparaison de DAMO-YOLO et YOLOv7, le compromis entre la vitesse et la précision est évident. Les modèles plus petits de DAMO-YOLO, comme DAMO-YOLO-t, offrent les temps d'inférence les plus rapides, ce qui en fait un choix de premier ordre pour les applications critiques en termes de latence sur du matériel aux ressources limitées. D'autre part, YOLOv7, en particulier la variante YOLOv7x, atteint un mAP plus élevé, ce qui le rend adapté aux scénarios où une précision maximale est la priorité. Les modèles de taille moyenne des deux familles, DAMO-YOLO-l et YOLOv7-l, offrent des performances compétitives, YOLOv7-l atteignant un mAP légèrement supérieur au prix d'une légère augmentation de la latence.

Modèle Taille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt 640 42.0 - 2.32 8.5 18.1
DAMO-YOLOs 640 46.0 - 3.45 16.3 37.8
DAMO-YOLOm 640 49.2 - 5.09 28.2 61.8
DAMO-YOLOl 640 50.8 - 7.18 42.1 97.3
YOLOv7l 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9

Pourquoi choisir les modèles Ultralytics YOLO ?

Bien que DAMO-YOLO et YOLOv7 soient des modèles puissants, les développeurs et les chercheurs trouvent souvent une valeur supérieure dans l'écosystème Ultralytics avec des modèles comme YOLOv8 et le dernier Ultralytics YOLO11. Les modèles Ultralytics offrent des avantages significatifs qui vont au-delà des mesures brutes :

  • Facilité d'utilisation : Les modèles Ultralytics sont dotés d'une API Python simplifiée et de commandes CLI simples, soutenues par une documentation complète, ce qui facilite l'entraînement, la validation et le déploiement des modèles.
  • Écosystème bien maintenu : Les utilisateurs bénéficient d'un développement actif, d'une forte communauté open source, de mises à jour fréquentes et d'une intégration transparente avec des outils tels que Ultralytics HUB pour un MLOps de bout en bout.
  • Équilibre des performances : Les modèles Ultralytics sont conçus pour offrir un excellent compromis entre la vitesse et la précision, ce qui les rend adaptés à un large éventail d’applications, des appareils périphériques aux serveurs cloud.
  • Efficacité de la mémoire : Les modèles Ultralytics YOLO sont conçus pour une utilisation efficace de la mémoire pendant l’entraînement et l’inférence, nécessitant souvent moins de mémoire CUDA que d’autres architectures.
  • Polyvalence : Les modèles tels que YOLOv8 et YOLO11 ne se limitent pas à la détection. Ils prennent en charge plusieurs tâches prêtes à l’emploi, notamment la segmentation d’instance, la classification d’images, l’estimation de pose et la détection d’objets orientés (OBB), offrant une solution unifiée pour divers besoins en matière de vision par ordinateur.
  • Efficacité de l'entraînement : Bénéficiez de processus d'entraînement efficaces, de poids pré-entraînés facilement disponibles sur des ensembles de données tels que COCO, et de temps de convergence plus rapides.

Conclusion

DAMO-YOLO et YOLOv7 représentent tous deux des avancées significatives dans la détection d'objets. DAMO-YOLO excelle en termes de vitesse d'inférence, en particulier avec ses variantes plus petites, ce qui en fait un concurrent sérieux pour les appareils périphériques ou les applications privilégiant une faible latence. YOLOv7 repousse les limites de la précision tout en conservant de bonnes performances en temps réel, particulièrement adapté aux scénarios où l'obtention du mAP le plus élevé possible est essentielle.

Cependant, les développeurs peuvent également envisager des modèles au sein de l'écosystème Ultralytics, tels que YOLOv8 ou le dernier YOLO11. Ces modèles offrent souvent un équilibre supérieur entre performance, facilité d'utilisation, documentation complète, entraînement efficace, besoins en mémoire réduits et polyvalence dans de nombreuses tâches de vision, tous pris en charge par un écosystème bien entretenu et un soutien actif de la communauté via Ultralytics HUB.

Autres modèles

Les utilisateurs intéressés par DAMO-YOLO et YOLOv7 peuvent également trouver ces modèles pertinents :

  • Ultralytics YOLOv5 : Un modèle très populaire et efficace, reconnu pour sa rapidité et sa facilité de déploiement. Découvrez la documentation de YOLOv5.
  • Ultralytics YOLOv8 : Un modèle polyvalent à la pointe de la technologie offrant d’excellentes performances dans les tâches de détection, de segmentation, de pose et de classification. Découvrez la documentation de YOLOv8.
  • YOLOv9 : Introduit des innovations telles que PGI et GELAN pour une précision et une efficacité améliorées. Voir la documentation de YOLOv9.
  • YOLOv10 : Se concentre sur la détection de bout en bout sans NMS pour une latence réduite. Comparer YOLOv10 vs DAMO-YOLO.
  • Ultralytics YOLO11 : Le dernier modèle de pointe d’Ultralytics, mettant l’accent sur la vitesse, l’efficacité et la facilité d’utilisation avec une conception sans ancrage. En savoir plus sur YOLO11.
  • RT-DETR : Un modèle de détection en temps réel basé sur les transformers. Comparer RT-DETR et DAMO-YOLO.


📅 Créé il y a 1 an ✏️ Mis à jour il y a 1 mois

Commentaires