YOLOv6-3.0 vs. DAMO-YOLO : Une comparaison technique pour la détection d'objets

Le choix de la bonne architecture de vision par ordinateur est une décision cruciale pour les ingénieurs et les chercheurs. Le paysage de la détection d'objets est compétitif, les géants industriels repoussant constamment les limites de la vitesse et de la précision. Cette page fournit une comparaison technique complète entre YOLOv6-3.0, un modèle économe en matériel de Meituan, et DAMO-YOLO, une architecture riche en technologie d'Alibaba Group.

Présentation de YOLOv6-3.0

YOLOv6-3.0 sert de framework robuste spécialement conçu pour les applications industrielles. Publié par le département Vision AI de Meituan, il privilégie l'efficacité dans le monde réel, dans le but de fournir des performances élevées sur les contraintes matérielles standard que l'on trouve dans la fabrication et l'automatisation.

Auteurs : Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu et Xiangxiang Chu
Organisation :Meituan
Date : 2023-01-13
Arxiv:YOLOv6 v3.0 : Un rechargement complet
GitHub :meituan/YOLOv6
Docs :Documentation Ultralytics YOLOv6

Architecture et innovations clés

YOLOv6-3.0 affine le paradigme du détecteur à une seule étape en mettant l'accent sur la reparamétrisation. Cette technique permet au modèle d'avoir une structure complexe pendant l'entraînement pour un meilleur apprentissage, mais se réduit à une structure plus simple et plus rapide pendant l'inférence.

EfficientRep Backbone : Le backbone utilise des blocs distincts pour différentes tailles de modèle (EfficientRep pour les petits modèles et CSPStackRep pour les plus grands), optimisant ainsi l'utilisation des capacités du matériel GPU.
Cou Rep-PAN : Le cou emploie une topologie Rep-PAN, améliorant la fusion des caractéristiques tout en maintenant des vitesses d'inférence élevées.
Auto-Distillation : Une méthodologie d'entraînement clé où le modèle apprend de ses propres prédictions (plus précisément, une branche enseignante au sein du même réseau) pour améliorer la précision sans le coût de calcul d'un modèle enseignant distinct pendant le déploiement.

Optimisation industrielle

YOLOv6 est explicitement conçu avec la quantification à l'esprit. Son architecture est compatible avec la quantification post-entraînement (PTQ) et l'entraînement conscient de la quantification (QAT), ce qui en fait un candidat idéal pour le déploiement sur des appareils edge où la précision INT8 est préférée pour la vitesse.

En savoir plus sur YOLOv6

Présentation de DAMO-YOLO

DAMO-YOLO, développé par le groupe Alibaba, introduit une suite de nouvelles technologies pour optimiser le compromis entre performance et latence. Il se distingue par l'intégration de la recherche d'architecture neuronale (NAS) et de techniques avancées de fusion de caractéristiques.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :DAMO-YOLO : un rapport sur la conception de la detect d’objets en temps réel
GitHub :tinyvision/DAMO-YOLO
Documentation :DAMO-YOLO GitHub README

Architecture et innovations clés

DAMO-YOLO s'éloigne des architectures purement artisanales, s'appuyant en partie sur des stratégies de recherche automatisées pour trouver des structures efficaces.

Backbone alimenté par NAS (MazeNet) : Le backbone est généré à l'aide de MAE-NAS (Neural Architecture Search), ce qui donne une structure appelée MazeNet qui est hautement optimisée pour différents budgets de calcul.
RepGFPN efficace : Il utilise un réseau de pyramide de caractéristiques généralisé (GFPN) combiné à la reparamétrisation. Cela permet une fusion riche des caractéristiques multi-échelles, ce qui est essentiel pour détecter les objets de différentes tailles.
ZeroHead : Une conception de tête de détection simplifiée qui réduit le nombre de paramètres et la complexité de calcul à l’étape finale du réseau.
AlignedOTA : Une stratégie d’attribution dynamique des étiquettes qui résout le problème de désalignement entre les tâches de classification et de régression pendant le processus de formation.

Fusion de fonctionnalités avancée

Le neck RepGFPN dans DAMO-YOLO est particulièrement efficace pour gérer les scènes complexes avec des objets qui se chevauchent. En autorisant les connexions directes à travers différents niveaux d'échelle, il préserve mieux l'information sémantique que les structures FPN standard.

En savoir plus sur DAMO-YOLO

Analyse des performances : Vitesse vs. Précision

La comparaison suivante utilise les données du COCO val2017 dataset. Les métriques mettent en évidence les compromis entre les deux modèles à différentes échelles.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Points clés à retenir

Chef de file en matière de latence :YOLOv6-3.0n est le modèle le plus rapide de cette comparaison, atteignant 1,17 ms sur un GPU T4. Cela le rend particulièrement bien adapté aux exigences de FPS élevés dans les scénarios d'inférence en temps réel.
Pic de précision : YOLOv6-3.0l atteint la plus haute précision avec un mAP de 52,8, démontrant l’efficacité de son backbone lourd et de sa stratégie d’auto-distillation, bien qu’au prix de paramètres et de FLOPs plus élevés par rapport à DAMO-YOLO.
Point d'équilibre de l'efficacité : DAMO-YOLOs surpasse YOLOv6-3.0s en termes de précision (46,0 contre 45,0 mAP) tout en ayant moins de paramètres (16,3M contre 18,5M). Ceci souligne l'efficacité du backbone recherché par NAS dans le régime des petits modèles.
Efficacité des paramètres : Généralement, les modèles DAMO-YOLO présentent des nombres de FLOPs et de paramètres inférieurs pour une précision comparable dans la plage moyenne à grande, ce qui valide l’efficacité de la conception ZeroHead.

L'avantage Ultralytics

Bien que YOLOv6-3.0 et DAMO-YOLO offrent des fonctionnalités intéressantes pour des niches spécifiques, Ultralytics YOLO11 fournit une solution plus holistique pour le développement de l'IA moderne. Choisir un modèle Ultralytics déverrouille un écosystème complet conçu pour rationaliser l'ensemble du cycle de vie de l'apprentissage automatique.

Pourquoi choisir Ultralytics YOLO ?

Facilité d'utilisation inégalée : Contrairement aux référentiels de recherche qui nécessitent souvent des configurations d'environnement complexes et la compilation d'opérateurs C++ personnalisés, les modèles Ultralytics peuvent être installés via un simple pip install ultralytics. L'intuitif API Python vous permet de former et de déployer des modèles en quelques lignes de code seulement.
Équilibre des performances : YOLO11 est conçu pour offrir un équilibre optimal entre la vitesse d'inférence et la précision, surpassant souvent ses concurrents dans les benchmarks du monde réel tout en maintenant des besoins en mémoire plus faibles pendant l'entraînement.
Polyvalence des tâches : Alors que YOLOv6 et DAMO-YOLO sont principalement des détecteurs d’objets, Ultralytics YOLO prend en charge nativement un large éventail de tâches, y compris la segmentation d’instance, l'estimation de la pose, la classification et la détection de boîtes englobantes orientées (OBB).
Écosystème bien maintenu : Ultralytics fournit un écosystème vivant avec des mises à jour fréquentes, une documentation exhaustive et un support communautaire via Discord et GitHub. Cela garantit que votre projet reste à l'épreuve du temps et compatible avec les dernières bibliothèques matérielles et logicielles.
Flexibilité de déploiement : Exportez facilement vos modèles entraînés vers différents formats tels que ONNX, TensorRT, CoreML et OpenVINO à l'aide du mode d'exportation intégré, facilitant ainsi le déploiement sur tous les supports, des serveurs cloud aux appareils Raspberry Pi.

Exemple : Exécution de la détection d'objets avec YOLO11

Démarrer avec la détection de pointe est remarquablement simple avec Ultralytics :

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

Conclusion

YOLOv6-3.0 et DAMO-YOLO représentent tous deux des étapes importantes dans l'évolution de la détection d'objets. YOLOv6-3.0 excelle dans les environnements industriels où la vitesse brute et la prise en charge de la quantification sont primordiales, en particulier avec sa variante Nano. DAMO-YOLO met en valeur la puissance de la recherche d'architecture neuronale et de la fusion innovante de caractéristiques, offrant une efficacité et une précision élevées dans la gamme des modèles petits à moyens.

Cependant, pour les développeurs à la recherche d'une solution prête à la production qui combine des performances de pointe avec polyvalence et facilité d'utilisation, Ultralytics YOLO11 reste le choix recommandé. Son écosystème robuste, ses capacités multitâches et son intégration transparente dans les flux de travail MLOps modernes offrent un avantage distinct pour assurer le succès du projet.

Explorer d'autres modèles

Pour élargir votre compréhension du paysage de la détection d'objets, envisagez d'explorer ces comparaisons de modèles connexes :

YOLOv6-3.0 vs. DAMO-YOLO : Une comparaison technique pour la détection d'objets

Présentation de YOLOv6-3.0

Architecture et innovations clés

Présentation de DAMO-YOLO

Architecture et innovations clés

Analyse des performances : Vitesse vs. Précision

Points clés à retenir

L'avantage Ultralytics

Pourquoi choisir Ultralytics YOLO ?

Exemple : Exécution de la détection d'objets avec YOLO11

Conclusion

Explorer d'autres modèles

Commentaires