YOLO11 vs DAMO-YOLO : Une comparaison technique

Dans le paysage en évolution rapide de la vision par ordinateur, le choix du bon modèle de détection d'objets est essentiel pour la réussite d'un projet. Cette page présente une comparaison technique détaillée entre Ultralytics YOLO11 et DAMO-YOLO, deux architectures hautes performances conçues pour la vitesse et la précision. Alors que DAMO-YOLO introduit des techniques innovantes issues de la recherche universitaire, YOLO11 se distingue comme une solution polyvalente, prête à la production et soutenue par un écosystème robuste.

Résumé

Ultralytics YOLO11 représente la dernière évolution de la série YOLO, optimisant l’inférence en temps réel sur divers matériels, des appareils périphériques aux serveurs cloud. Il prend en charge nativement plusieurs tâches, notamment la détection, la segmentation et l’estimation de pose, ce qui en fait une solution unifiée pour les pipelines d’IA complexes.

DAMO-YOLO, développé par Alibaba Group, se concentre sur l'équilibre entre la vitesse de détection et la précision en utilisant la recherche d'architecture neuronale (NAS) et de nouvelles techniques de fusion de caractéristiques. Il s'agit principalement d'un détecteur axé sur la recherche et optimisé pour le débit GPU.

Ultralytics YOLO11

Auteurs : Glenn Jocher, Jing Qiu
Organisation :Ultralytics
Date : 2024-09-27
GitHub :https://github.com/ultralytics/ultralytics
Docs :https://docs.ultralytics.com/models/yolo11/

YOLO11 affine l'état de l'art en introduisant des améliorations architecturales qui améliorent l'extraction des caractéristiques tout en maintenant une efficacité élevée. Il utilise une dorsale CSPNet modifiée et une tête sans ancrage avancée pour offrir une précision supérieure avec moins de paramètres par rapport aux générations précédentes.

Principales caractéristiques et points forts

Polyvalence : Contrairement à de nombreux modèles spécialisés, YOLO11 est un framework multitâche. Il prend en charge la détection d’objets, la segmentation d’instance, la classification d’images, l’estimation de pose et les boîtes englobantes orientées (OBB).
Architecture affinée : Intègre des blocs C3k2 et des modules C2PSA (Cross-Stage Partial with Spatial Attention) pour capturer efficacement des motifs complexes, améliorant ainsi les performances sur les petits objets et les arrière-plans difficiles.
Large prise en charge matérielle : Optimisé pour l’inférence CPU et GPU, offrant différentes échelles de modèles (Nano à X-Large) pour s’adapter aux contraintes allant du Raspberry Pi aux clusters NVIDIA A100.
Facilité d'utilisation : L'API Python et la CLI Ultralytics permettent aux développeurs d'entraîner, de valider et de déployer des modèles avec un minimum de code.

Écosystème prêt pour la production

YOLO11 s'intègre de manière transparente à l'écosystème Ultralytics, y compris les outils de gestion des données, l'entraînement des modèles via Ultralytics HUB et les exportations en un clic vers des formats tels que ONNX, TensorRT et CoreML.

En savoir plus sur YOLO11

DAMO-YOLO

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO est conçu en mettant l'accent sur la faible latence et le débit élevé pour les applications industrielles. Il introduit plusieurs composants "nouvelle technologie" dans la famille YOLO pour repousser les limites des compromis vitesse-précision.

Innovations architecturales

MAE-NAS Backbone : Utilise la recherche d'architecture neuronale (NAS) guidée par l'erreur absolue moyenne (MAE) pour découvrir automatiquement une topologie de réseau efficace.
RepGFPN efficace : Un réseau de pyramide de caractéristiques généralisé (GFPN) qui emploie la reparamétrisation, permettant une fusion complexe des caractéristiques pendant l’entraînement tout en se réduisant à une structure plus simple et plus rapide pendant l’inférence.
ZeroHead : Une tête de détection légère qui découple les tâches de classification et de régression, réduisant considérablement la surcharge de calcul des couches de sortie finales.
AlignedOTA : Une stratégie améliorée d’attribution d’étiquettes qui résout le problème de désalignement entre la confiance de la classification et la précision de la régression pendant la formation.

Bien que DAMO-YOLO excelle dans des mesures spécifiques, il s'agit principalement d'un référentiel de recherche. Il manque la documentation complète, les mises à jour continues et le large soutien de la communauté que l'on trouve dans l'écosystème Ultralytics.

En savoir plus sur DAMO-YOLO

Métriques de performance : face-à-face

Le tableau suivant compare les performances de YOLO11 et DAMO-YOLO sur le jeu de données COCO val2017. Les principales métriques incluent la précision moyenne (mAP) et la vitesse d'inférence sur le matériel CPU et GPU.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Analyse des résultats

Domination de l’efficacité : YOLO11 démontre une efficacité de paramètre supérieure. Par exemple, le modèle YOLO11m atteint 51,5 mAP avec seulement 20,1 millions de paramètres, tandis que le DAMO-YOLOm comparable est à la traîne à 49,2 mAP avec une empreinte plus importante de 28,2 millions de paramètres.
Précision ultime : La plus grande variante, YOLO11x, atteint un mAP de 54,7 remarquable, dépassant le plus grand modèle DAMO-YOLO répertorié. Cela fait de YOLO11 le choix préférable pour les tâches de haute précision comme l'imagerie médicale ou la détection de défauts.
Déploiement Edge : Le modèle YOLO11n (Nano) est exceptionnellement léger (2,6 M de paramètres) et rapide (1,5 ms sur T4), ce qui le rend parfait pour les systèmes embarqués où la mémoire est limitée. En revanche, le plus petit modèle DAMO-YOLO est nettement plus lourd (8,5 M de paramètres).
Performance du CPU : Ultralytics fournit des benchmarks CPU transparents, soulignant la viabilité de YOLO11 pour les déploiements sans accélérateurs dédiés. DAMO-YOLO ne signale pas officiellement les vitesses du CPU, ce qui limite son évaluation pour les applications IoT à faible consommation d’énergie.

Analyse technique approfondie

Entraînement et architecture

DAMO-YOLO s'appuie fortement sur la recherche d'architecture neuronale (NAS) pour définir son backbone. Bien que cela puisse donner des structures théoriquement optimales, il en résulte souvent des blocs irréguliers qui peuvent ne pas être compatibles avec le matériel sur tous les appareils. En revanche, YOLO11 utilise des blocs raffinés et fabriqués à la main (C3k2, C2PSA) qui sont intuitivement conçus pour les bibliothèques d'accélération GPU et CPU standard.

YOLO11 met également l'accent sur l'efficacité de l'entraînement. Il converge rapidement grâce à des hyperparamètres optimisés et à des stratégies d'augmentation des données. Ses besoins en mémoire pendant l'entraînement sont généralement inférieurs à ceux des architectures complexes basées sur des transformateurs ou sur NAS, ce qui permet aux chercheurs d'entraîner des modèles efficaces sur du matériel grand public.

Écosystème et facilité d'utilisation

L'un des principaux éléments de différenciation est l'écosystème. DAMO-YOLO est avant tout un dépôt de code permettant de reproduire les résultats des articles de recherche.

Ultralytics YOLO11, cependant, est une plateforme de service complète :

Documentation : Guides complets sur chaque aspect du pipeline.
Intégrations : Support natif pour MLFlow, TensorBoard et Weights & Biases pour le suivi des expériences.
Communauté : Une communauté massive et active sur GitHub et Discord qui garantit que les bugs sont corrigés rapidement et que les questions reçoivent une réponse.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for deployment
path = model.export(format="onnx")

Recommandations de cas d'utilisation

Quand choisir Ultralytics YOLO11

Déploiement dans le monde réel : Si vous devez déployer sur divers matériels (iOS, Android, Edge TPU, Jetson), les capacités d’exportation de YOLO11 sont inégalées.
Pipelines de vision complexes : Lorsque votre projet nécessite plus que de simples boîtes englobantes, comme le track d’objets ou l’estimation de la pose corporelle, YOLO11 gère ces éléments nativement.
Prototypage rapide : La facilité d'utilisation permet aux développeurs de passer des données à une démonstration fonctionnelle en quelques minutes.
Contraintes de ressources : Les modèles Nano et Small offrent le meilleur rapport précision/taille pour les appareils alimentés par batterie.

Quand envisager DAMO-YOLO

Recherche académique : Les chercheurs qui étudient l’efficacité de NAS dans la détection d’objets ou les techniques de reparamétrisation pourraient trouver que DAMO-YOLO est une base de référence précieuse.
Configurations GPU spécifiques : Dans les scénarios où les blocs architecturaux spécifiques de DAMO-YOLO s’alignent parfaitement avec la hiérarchie de cache d’un accélérateur cible, il peut offrir un débit compétitif.

Conclusion

Bien que DAMO-YOLO introduise des concepts académiques impressionnants tels que MAE-NAS et RepGFPN, Ultralytics YOLO11 reste le choix supérieur pour la grande majorité des développeurs et des entreprises. Sa combinaison d'une précision de pointe, d'une architecture légère et d'un écosystème florissant garantit que les projets sont non seulement performants, mais aussi maintenables et évolutifs.

Pour les développeurs à la recherche d'une solution de vision par ordinateur fiable, polyvalente et performante, YOLO11 fournit les outils et les mesures nécessaires pour réussir en 2025 et au-delà.

Explorer d’autres comparaisons de modèles

Pour mieux comprendre le paysage des modèles de détection d'objets, explorez ces comparaisons connexes :