YOLOv6-3.0 vs. DAMO-YOLO : une comparaison technique pour la détection d’objets
Choisir le modèle de détection d'objets optimal est une décision cruciale dans les projets de vision par ordinateur. Cette page offre une comparaison technique détaillée entre YOLOv6-3.0 et DAMO-YOLO, deux modèles importants reconnus pour leur efficacité et leur précision dans les tâches de détection d'objets. Nous explorerons leurs nuances architecturales, leurs benchmarks de performance et leur adéquation à diverses applications pour guider votre sélection.
Présentation de YOLOv6-3.0
YOLOv6-3.0, développé par Meituan, est un framework de détection d'objets conçu principalement pour les applications industrielles. Sorti début 2023, il se concentre sur la fourniture d'un équilibre solide entre une vitesse d'inférence élevée et une précision compétitive, le rendant adapté aux scénarios de déploiement réels.
- Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
- Organisation : Meituan
- Date : 2023-01-13
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub : https://github.com/meituan/YOLOv6
- Documentation : https://docs.ultralytics.com/models/yolov6/
Architecture et principales fonctionnalités
YOLOv6-3.0 met l'accent sur une conception de réseau neuronal adaptée au matériel afin de maximiser l'efficacité. Son architecture est rationalisée pour la vitesse et l'aspect pratique.
- Backbone à reparamétrisation efficace : Cette conception optimise la structure du réseau après l'entraînement, ce qui accélère considérablement la vitesse d'inférence sans compromettre la puissance de représentation du modèle.
- Stratégie de canaux hybrides : Le modèle emploie une stratégie de canaux hybrides dans son neck, équilibrant la précision et l'efficacité de calcul dans les couches d'extraction de caractéristiques.
- Stratégie d'apprentissage optimisée : YOLOv6-3.0 intègre un régime d'apprentissage amélioré, y compris l'auto-distillation, afin d'améliorer la convergence du modèle et les performances globales pendant la phase d'apprentissage.
Performance et cas d'utilisation
YOLOv6-3.0 est particulièrement bien adapté aux scénarios industriels nécessitant un mélange de vitesse et de précision. Sa conception optimisée le rend efficace pour :
- Automatisation industrielle : Réalisation du contrôle qualité et de la surveillance des processus dans le secteur de la fabrication.
- Commerce de détail intelligent : Alimente la gestion des stocks et les systèmes de caisse automatisés.
- Déploiement en périphérie (Edge Deployment) : Exécution d'applications sur des appareils aux ressources limitées comme les caméras intelligentes ou NVIDIA Jetson.
Points forts :
- Orientation industrielle : Conçu pour répondre aux défis du déploiement industriel réel.
- Balanced Performance : Offre un compromis important entre la vitesse et la précision.
- Optimisation matérielle : Conçu pour des performances efficaces sur diverses plateformes matérielles.
Faiblesses :
- Compromis en matière de précision : Peut privilégier la vitesse et l’efficacité plutôt que d’atteindre la précision absolue la plus élevée par rapport aux modèles plus spécialisés ou plus récents.
- Communauté et écosystème : Bien qu'il soit open source, sa communauté est plus petite et ses ressources moins nombreuses que celles des modèles de l'écosystème complet d'Ultralytics, tels que YOLOv8 d'Ultralytics.
Présentation de DAMO-YOLO
DAMO-YOLO, développé par le groupe Alibaba, est une méthode de détection d’objets rapide et précise qui introduit plusieurs nouvelles techniques. Il vise à repousser les limites du compromis vitesse-précision en tirant parti de composants architecturaux et de stratégies de formation avancés.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444v2
- GitHub : https://github.com/tinyvision/DAMO-YOLO
- Documentation : https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
Architecture et principales fonctionnalités
L’architecture de DAMO-YOLO est un ensemble de composants innovants conçus pour une performance supérieure.
- Colonne vertébrale basée sur NAS : Elle utilise une colonne vertébrale générée par Neural Architecture Search (NAS), qui trouve automatiquement une structure optimale pour l’extraction de caractéristiques.
- Neck RepGFPN efficace : Le modèle intègre un nouveau Generalized Feature Pyramid Network (GFPN) avec reparamétrisation, améliorant efficacement la fusion des caractéristiques multi-échelles.
- ZeroHead : DAMO-YOLO introduit une tête simplifiée à paramètre zéro, qui réduit la surcharge de calcul et découple les tâches de classification et de régression.
- Attribution de label AlignedOTA : Elle emploie une stratégie d'attribution dynamique de labels appelée AlignedOTA, qui aligne mieux les cibles de classification et de régression pour une stabilité et une précision d'entraînement améliorées.
- Amélioration par distillation : Le modèle exploite la distillation des connaissances pour transférer les connaissances d'un modèle enseignant plus grand vers un modèle étudiant plus petit, améliorant ainsi les performances sans augmenter le coût d'inférence.
Performance et cas d'utilisation
DAMO-YOLO excelle dans les scénarios exigeant une grande précision et une évolutivité. Ses différentes tailles de modèles permettent un déploiement sur divers matériels, ce qui le rend polyvalent pour diverses applications.
- Conduite autonome : La haute précision des modèles DAMO-YOLO plus grands est bénéfique pour la détection précise requise dans les véhicules autonomes.
- Systèmes de sécurité haut de gamme : Pour les applications où une haute précision est cruciale pour identifier les menaces potentielles, comme dans les villes intelligentes.
- Inspection Industrielle de Précision : Dans le secteur de la fabrication, DAMO-YOLO peut être utilisé pour le contrôle qualité et la détection des défauts où la précision est primordiale.
Points forts :
- Haute précision : Obtient d'excellents scores mAP, en particulier avec ses variantes plus grandes.
- Architecture Scalable : Offre une gamme de tailles de modèles (Tiny à Large) pour s'adapter à différents budgets de calcul.
- Composants innovants : Intègre des techniques de pointe telles que NAS et l'attribution avancée d'étiquettes.
Faiblesses :
- Complexité : La combinaison de plusieurs techniques avancées peut rendre l'architecture plus complexe à comprendre et à modifier.
- Intégration de l'écosystème : Manque d'intégration transparente, de documentation complète et de soutien communautaire actif que l'on trouve dans l'écosystème Ultralytics.
- Polyvalence des tâches : Principalement axé sur la détection d'objets, contrairement aux modèles multitâches tels que YOLO11 qui gèrent la segmentation, la classification et l'estimation de pose dans un seul framework.
Analyse des performances : YOLOv6-3.0 vs. DAMO-YOLO
Vous trouverez ci-dessous une comparaison des performances de YOLOv6-3.0 et DAMO-YOLO sur l'ensemble de données COCO val2017.
Modèle | Taille (pixels) |
mAPval 50-95 |
Vitesse CPU ONNX (ms) |
Vitesse T4 TensorRT10 (ms) |
paramètres (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
D'après le tableau, plusieurs informations clés se dégagent :
- Précision : YOLOv6-3.0l atteint le mAP le plus élevé de 52,8, surpassant toutes les variantes DAMO-YOLO. Cependant, DAMO-YOLOs montre un léger avantage sur YOLOv6-3.0s (46,0 contre 45,0 mAP).
- Vitesse : Les modèles YOLOv6-3.0 sont généralement plus rapides, YOLOv6-3.0n étant le modèle le plus rapide dans l'ensemble avec une latence de 1,17 ms.
- Efficacité : Les modèles DAMO-YOLO ont tendance à être plus efficaces en termes de paramètres. Par exemple, DAMO-YOLOl atteint un mAP de 50,8 % avec moins de paramètres et de FLOPs que YOLOv6-3.0l. Inversement, YOLOv6-3.0n est le modèle le plus léger en termes de paramètres et de FLOPs.
Le choix dépend des exigences spécifiques du projet. Pour une vitesse maximale sur les appareils périphériques, YOLOv6-3.0n est un choix évident. Pour la plus haute précision, YOLOv6-3.0l est le plus performant. DAMO-YOLO offre un équilibre convaincant, en particulier dans le milieu de gamme, où il offre une bonne précision avec un coût de calcul inférieur.
Conclusion et recommandation
YOLOv6-3.0 et DAMO-YOLO sont tous deux des détecteurs d'objets puissants qui ont fait progresser le domaine. YOLOv6-3.0 est un excellent choix pour les applications industrielles où la vitesse et un équilibre précision-efficacité fiable sont cruciaux. DAMO-YOLO se distingue par son architecture innovante et sa haute précision, ce qui le rend adapté aux applications où la précision est la priorité absolue.
Cependant, pour les développeurs et les chercheurs à la recherche d'un modèle de pointe qui combine des performances élevées avec une facilité d'utilisation et une polyvalence exceptionnelles, nous recommandons d'explorer les modèles de la série Ultralytics YOLO, tels que YOLOv8 et le dernier YOLO11.
Les modèles Ultralytics offrent plusieurs avantages clés :
- Écosystème bien maintenu : Ils font partie d'un écosystème robuste avec un développement actif, une documentation exhaustive et un fort soutien de la communauté via GitHub et Discord.
- Polyvalence : Un framework unique prend en charge plusieurs tâches, notamment la détection, la segmentation d’instance, l’estimation de pose, la classification et la détection de boîtes englobantes orientées.
- Facilité d'utilisation : Une API simplifiée, des tutoriels clairs et l'intégration avec Ultralytics HUB simplifient l'entraînement, la validation et le déploiement.
- Compromis de performance : Les modèles Ultralytics sont conçus pour offrir un compromis optimal entre vitesse et précision, ce qui les rend adaptés à un large éventail de scénarios réels, des appareils périphériques aux serveurs cloud.
En fin de compte, bien que YOLOv6-3.0 et DAMO-YOLO soient de sérieux concurrents, la prise en charge complète, les capacités multitâches et la nature conviviale de la plateforme Ultralytics offrent une expérience de développement supérieure.
Explorer d'autres modèles
Si vous souhaitez savoir comment DAMO-YOLO se compare à d'autres modèles de pointe, consultez ces autres pages de comparaison :
- DAMO-YOLO vs. YOLOv8
- DAMO-YOLO vs. YOLOv7
- DAMO-YOLO vs. YOLOX
- DAMO-YOLO vs. RT-DETR
- DAMO-YOLO vs. PP-YOLOE+