DAMO-YOLO vs. YOLOv6-3.0 : Une comparaison technique
Choisir le modèle de détection d'objets optimal est une décision cruciale dans les projets de vision par ordinateur. Cette page offre une comparaison technique détaillée entre DAMO-YOLO, un modèle de haute précision d'Alibaba Group, et YOLOv6-3.0, un modèle axé sur l'efficacité de Meituan. Nous explorerons leurs nuances architecturales, leurs benchmarks de performance et leur adéquation à diverses applications pour guider votre sélection.
Présentation de DAMO-YOLO
DAMO-YOLO est un modèle de détection d'objets rapide et précis développé par Alibaba Group. Il introduit plusieurs nouvelles techniques pour repousser les limites de l'état de l'art en matière de compromis entre vitesse et précision. Le modèle est conçu pour être hautement évolutif, offrant une gamme de tailles pour s'adapter à différents budgets de calcul.
Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation : Alibaba Group
Date : 2022-11-23
Arxiv : https://arxiv.org/abs/2211.15444
GitHub : https://github.com/tinyvision/DAMO-YOLO
Docs : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Architecture et principales fonctionnalités
L’architecture de DAMO-YOLO est basée sur un paradigme de détecteur « à une étape », mais intègre plusieurs composants avancés pour améliorer la performance :
- Backbones NAS : Utilise la recherche d’architecture neuronale (NAS) pour trouver des backbones optimaux (en particulier, MazeNet) pour l’extraction des caractéristiques, ce qui améliore les performances.
- RepGFPN efficace : Implémente un Generalized Feature Pyramid Network (FPN) avec reparamétrisation, ce qui permet une fusion multi-échelle efficace des caractéristiques pendant l'inférence.
- ZeroHead : Une conception de tête simplifiée, sans paramètre, qui réduit la surcharge de calcul et la complexité de la tête de détection.
- Attribution de label AlignedOTA : Une stratégie d'attribution de label améliorée qui permet de mieux aligner les tâches de classification et de régression, ce qui permet d'obtenir des prédictions plus précises.
- Amélioration par distillation : Emploie la distillation des connaissances pour transférer les connaissances d'un modèle enseignant plus grand vers un modèle étudiant plus petit, améliorant ainsi les performances des variantes plus petites.
Points forts
- Haute précision : Obtient des scores mAP très compétitifs, en particulier dans ses configurations moyennes et grandes.
- Innovation architecturale : Introduit des concepts novateurs comme ZeroHead et RepGFPN efficace qui repoussent les limites de la conception de détecteurs.
- Scalabilité : Offre une large gamme de tailles de modèles (Tiny, Small, Medium, Large), ce qui le rend adaptable à diverses contraintes matérielles.
Faiblesses
- Complexité de l’intégration : En tant que projet de recherche autonome, l’intégration de DAMO-YOLO dans les pipelines de production peut nécessiter plus d’efforts que les modèles au sein d’un écosystème complet.
- Polyvalence limitée : Principalement axé sur la détection d’objets, il ne prend pas en charge nativement les tâches multiples (par exemple, la segmentation, l’estimation de pose) que l’on retrouve dans des frameworks comme Ultralytics YOLO.
- Communauté et support : Peut avoir une communauté plus petite et moins de ressources facilement disponibles par rapport aux modèles plus largement adoptés comme YOLOv8 d'Ultralytics.
Performance et cas d'utilisation
DAMO-YOLO excelle dans les scénarios exigeant une haute précision et une évolutivité. Ses différentes tailles de modèles permettent un déploiement sur divers matériels, ce qui le rend polyvalent pour diverses applications telles que :
- Conduite autonome : La grande précision des modèles DAMO-YOLO plus grands est bénéfique pour la détection précise requise dans les véhicules autonomes.
- Systèmes de sécurité haut de gamme : Pour les applications où une haute précision est cruciale pour identifier les menaces potentielles, comme dans les villes intelligentes.
- Inspection industrielle : Dans le secteur de la fabrication, DAMO-YOLO peut être utilisé pour le contrôle qualité et la détection des défauts où la précision est primordiale.
Présentation de YOLOv6-3.0
YOLOv6-3.0, développé par Meituan, est conçu pour les applications industrielles, en mettant l'accent sur une performance équilibrée entre efficacité et précision. La version 3.0 représente une itération affinée axée sur l'amélioration des performances et de la robustesse pour un déploiement dans le monde réel.
Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation : Meituan
Date : 2023-01-13
Arxiv : https://arxiv.org/abs/2301.05586
GitHub : https://github.com/meituan/YOLOv6
Docs : https://docs.ultralytics.com/models/yolov6/
Architecture et principales fonctionnalités
YOLOv6-3.0 met l’accent sur une architecture rationalisée pour la vitesse et l’efficacité, conçue pour être sensible au matériel. Les principales caractéristiques comprennent :
- Backbone EfficientRep : Un backbone reparamétrable qui peut être converti en une structure plus simple et plus rapide pour l'inférence.
- Cou Rep-PAN : Une topologie de réseau d'agrégation de chemins (PAN) qui utilise des blocs reparamétrables pour équilibrer la capacité de fusion de caractéristiques et l'efficacité.
- Tête découplée : Sépare les têtes de classification et de régression, ce qui est une pratique courante dans les modèles YOLO modernes pour améliorer la performance.
- Auto-distillation : Une stratégie d’entraînement où le modèle apprend de ses propres couches profondes, améliorant ainsi les performances des modèles plus petits sans enseignant externe.
Points forts
- Orientation industrielle : Conçu pour les défis de déploiement industriel réels, avec un fort accent sur la vitesse d’inférence.
- Balanced Performance : Offre un bon compromis entre la vitesse et la précision, en particulier avec ses modèles plus petits.
- Optimisation matérielle : Performances efficaces sur diverses plateformes matérielles, avec d’excellentes vitesses d’inférence sur les GPU.
Faiblesses
- Compromis en matière de précision : Peut privilégier la vitesse et l’efficacité plutôt que d’atteindre la précision absolue la plus élevée par rapport aux modèles plus spécialisés.
- Intégration de l'écosystème : Bien qu'il soit open source, il peut ne pas s'intégrer aussi facilement dans une plateforme unifiée comme Ultralytics HUB, ce qui simplifie la formation, le déploiement et la gestion.
- Spécificité de la tâche : Comme DAMO-YOLO, il s’agit principalement d’un détecteur d’objets et il ne possède pas la polyvalence intégrée des modèles multitâches.
Performance et cas d'utilisation
YOLOv6-3.0 est particulièrement bien adapté aux scénarios industriels nécessitant un mélange de vitesse et de précision. Sa conception optimisée le rend efficace pour :
- Automatisation industrielle : Contrôle qualité et surveillance des processus dans la fabrication.
- Commerce de détail intelligent : Gestion des stocks en temps réel et systèmes de caisse automatisés.
- Déploiement Edge : Applications sur des appareils avec des ressources limitées comme les caméras intelligentes ou NVIDIA Jetson, où son nombre élevé d’IPS (images par seconde) est un avantage majeur.
Comparaison des performances : DAMO-YOLO contre YOLOv6-3.0
Les performances de DAMO-YOLO et YOLOv6-3.0 sur le jeu de données COCO val2017 révèlent leurs forces distinctes. YOLOv6-3.0 excelle généralement en termes de vitesse d'inférence et d'efficacité de calcul (FLOPs/paramètres), en particulier avec sa version nano ('n'), qui est l'un des modèles les plus rapides disponibles. Sa version large ('l') atteint également le mAP le plus élevé dans cette comparaison.
Inversement, DAMO-YOLO démontre un fort équilibre, atteignant souvent une précision plus élevée que YOLOv6-3.0 pour une taille de modèle similaire ou plus petite dans la plage petite à moyenne. Par exemple, DAMO-YOLOs atteint un mAP plus élevé que YOLOv6-3.0s avec moins de paramètres et de FLOPs, bien qu’à une vitesse d’inférence légèrement plus lente.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
Conclusion
DAMO-YOLO et YOLOv6-3.0 sont tous deux des modèles de détection d'objets puissants avec des avantages distincts. DAMO-YOLO est un excellent choix pour les applications où l'obtention de la plus grande précision possible est l'objectif principal, grâce à ses composants architecturaux innovants. YOLOv6-3.0 se distingue par sa vitesse d'inférence et son efficacité exceptionnelles, ce qui le rend idéal pour les applications industrielles en temps réel et le déploiement sur des appareils périphériques.
Cependant, pour les développeurs et les chercheurs à la recherche d'une solution plus holistique, Ultralytics YOLO11 offre une alternative intéressante. YOLO11 offre un équilibre supérieur entre vitesse et précision tout en faisant partie d'un écosystème robuste et bien maintenu. Les principaux avantages sont les suivants :
- Facilité d'utilisation : Une expérience utilisateur simplifiée avec une API simple, une documentation exhaustive et des poids pré-entraînés facilement disponibles.
- Polyvalence : Prise en charge native de plusieurs tâches, notamment la détection d’objets, la segmentation d’instance, l’estimation de pose et la classification, le tout dans un seul cadre.
- Écosystème bien maintenu : Développement actif, fort soutien de la communauté et intégration transparente avec Ultralytics HUB pour le développement et le déploiement de modèles de bout en bout.
- Efficacité de l'entraînement : Des processus d'entraînement optimisés et des besoins en mémoire réduits le rendent plus rapide et plus accessible pour entraîner des modèles personnalisés.
Bien que DAMO-YOLO et YOLOv6-3.0 soient de sérieux concurrents dans le domaine de la détection d'objets, la polyvalence, la facilité d'utilisation et la prise en charge complète des modèles Ultralytics comme YOLO11 en font un choix plus pratique et puissant pour un large éventail d'applications du monde réel.
Explorer d'autres modèles
Si ces modèles vous intéressent, vous pourriez également explorer d'autres comparaisons dans notre documentation :
- YOLOv8 vs. DAMO-YOLO
- YOLOv10 vs. DAMO-YOLO
- RT-DETR vs. DAMO-YOLO
- YOLOv8 vs. YOLOv6
- YOLOv10 vs. YOLOv6
- YOLOv5 vs YOLOv6
- PP-YOLOE vs. DAMO-YOLO
- EfficientDet contre. YOLOv6