DAMO-YOLO vs. YOLOv5 : Une comparaison technique complète

Le choix de l'architecture de détection d'objets optimale est une étape essentielle dans le développement de la vision par ordinateur, nécessitant une évaluation attentive de la précision, de la vitesse d'inférence et de la complexité de l'intégration. Cette analyse compare DAMO-YOLO, un modèle de haute précision développé par Alibaba Group, à Ultralytics YOLOv5, une architecture standard de l'industrie célébrée pour son équilibre entre performance, vitesse et écosystème convivial pour les développeurs. Nous explorons leurs innovations architecturales, leurs mesures de référence et leurs scénarios d'application idéaux pour vous aider à prendre une décision éclairée.

DAMO-YOLO : Architecture axée sur la précision

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO
Docs :DAMO-YOLO README

DAMO-YOLO représente un effort significatif du groupe Alibaba pour repousser les limites de la précision de la détection tout en maintenant une latence raisonnable. Il intègre des technologies avancées de recherche d'architecture neuronale (NAS) et de nouvelles stratégies de fusion de caractéristiques pour surpasser de nombreux concurrents sur des benchmarks statiques.

Innovations architecturales

DAMO-YOLO se distingue par plusieurs composants techniquement complexes conçus pour extraire des performances maximales du réseau :

L'épine dorsale MAE-NAS : Contrairement aux modèles dont l'ossature est conçue manuellement, YOLO utilise la recherche d'architecture neuronale (NAS) guidée par le principe de l'entropie maximale. Il en résulte une structure dorsale optimisée spécifiquement pour l'efficacité de l'extraction des caractéristiques sous différentes contraintes.
RepGFPN efficace : Le modèle utilise un réseau de pyramide de caractéristiques généralisé reparamétré (RepGFPN). Ce module de neck avancé améliore les FPN standard en optimisant la fusion des caractéristiques à différentes échelles et en tirant parti de la reparamétrisation pour réduire la latence d’inférence sans sacrifier la précision.
ZeroHead : Afin de minimiser le coût de calcul de la tête de détection, DAMO-YOLO introduit ZeroHead, une tête découplée légère qui gère efficacement les tâches de classification et de régression.
AlignedOTA : La stabilité et la précision de la formation sont améliorées par Aligned Optimal Transport Assignment (AlignedOTA), une stratégie d’attribution dynamique des étiquettes qui aligne les ancres de prédiction avec les objets de vérité terrain plus efficacement que les règles de correspondance statiques.
Amélioration de la distillation : Le processus de formation implique souvent une distillation des connaissances, où un modèle « enseignant » plus grand guide l’apprentissage du modèle « étudiant » plus petit, transmettant des représentations de caractéristiques plus riches.

Conception axée sur la recherche

DAMO-YOLO est fortement optimisé pour atteindre un mAP élevé sur des benchmarks comme COCO. Son utilisation de NAS et de la distillation en fait un outil puissant pour la recherche académique et les scénarios où chaque fraction de pour cent de précision compte, même si cela se fait au détriment de la complexité de l'entraînement.

Points forts et faiblesses

L'avantage principal de DAMO-YOLO est sa précision de détection brute. En tirant parti de NAS et de conceptions de cou avancées, il atteint souvent des scores de précision moyenne (mAP) plus élevés que les modèles comparables de la même génération. Il excelle dans l'identification d'objets dans des scènes complexes où la discrimination fine des caractéristiques est essentielle.

Cependant, ces gains s'accompagnent de compromis. La dépendance à l'égard des backbones NAS et des pipelines de distillation augmente la complexité de l'entraînement et de l'intégration. Contrairement à la nature plug-and-play de certaines alternatives, la mise en place d'un pipeline d'entraînement personnalisé pour DAMO-YOLO peut nécessiter beaucoup de ressources. De plus, son écosystème est relativement plus petit, ce qui signifie que moins de ressources communautaires, de tutoriels et d'intégrations tierces sont disponibles par rapport aux frameworks plus établis.

En savoir plus sur DAMO-YOLO

Ultralytics YOLOv5 : La norme pour l’IA pratique

Auteur: Glenn Jocher
Organisation:Ultralytics
Date: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Docs:https://docs.ultralytics.com/models/yolov5/

Depuis sa sortie, YOLOv5 Ultralytics s'est imposé comme la solution de référence pour les applications de vision par ordinateur dans le monde réel. Il offre un équilibre légendaire entre vitesse, précision et facilité d'utilisation, soutenu par un écosystème qui simplifie chaque étape du cycle de vie de l'apprentissage automatique, de la conservation des ensembles de données au déploiement.

Architecture et convivialité

YOLOv5 utilise un backbone CSPDarknet53 combiné à un neck PANet, des architectures choisies pour leur robustesse et leur efficacité sur le matériel GPU et CPU. Bien qu'il utilise la détection basée sur des ancres—une méthodologie éprouvée—sa véritable puissance réside dans son ingénierie et son écosystème:

Expérience utilisateur simplifiée : YOLOv5 est célèbre pour sa philosophie "Zero to Hero". Les développeurs peuvent configurer l'environnement, s'entraîner sur des ensembles de données personnalisés et exécuter l'inférence avec seulement quelques lignes de code.
Polyvalence : Au-delà de la détection d’objets standard, YOLOv5 prend en charge la segmentation d’instance et la classification d’images, permettant aux utilisateurs de s’attaquer à plusieurs tâches de vision au sein d’un seul framework.
Exportabilité : Le modèle prend en charge l’exportation transparente vers de nombreux formats, notamment ONNX, TensorRT, CoreML et TFLite, assurant un déploiement facile sur tous les supports, des serveurs cloud aux appareils périphériques.
Efficacité de la mémoire : Les modèles Ultralytics présentent généralement une utilisation de la mémoire plus faible pendant l’entraînement par rapport aux architectures complexes basées sur transformateur ou aux modèles lourds en NAS, ce qui les rend accessibles sur une plus large gamme de matériel.

Avantage de l'écosystème

L'écosystème Ultralytics est un accélérateur massif pour le développement. Grâce à une documentation exhaustive, des forums communautaires actifs et des mises à jour fréquentes, les développeurs passent moins de temps à déboguer et plus de temps à innover. Les intégrations avec des outils tels que Ultralytics HUB rationalisent davantage la gestion et la formation des modèles.

Pourquoi les développeurs choisissent YOLOv5

YOLOv5 reste un choix de premier ordre, car il privilégie la facilité d'utilisation et l'efficacité de l'entraînement. Les poids pré-entraînés sont facilement disponibles et robustes, ce qui permet un apprentissage par transfert rapide. Sa vitesse d'inférence est exceptionnelle, ce qui le rend idéal pour les applications en temps réel telles que l'analyse vidéo, la navigation autonome et l'inspection industrielle.

Bien que des modèles plus récents comme YOLO11 aient depuis introduit des architectures sans ancres et d'autres gains de performance, YOLOv5 reste un cheval de trait fiable, bien pris en charge et très performant pour d'innombrables systèmes de production.

En savoir plus sur YOLOv5

Comparaison des performances

Dans une comparaison directe, la distinction entre les deux modèles devient claire : DAMO-YOLO tend à maximiser la précision de la validation (mAP), tandis que YOLOv5 optimise la vitesse d'inférence et l'aspect pratique du déploiement. Le tableau ci-dessous souligne que, bien que les modèles DAMO-YOLO atteignent souvent des scores mAP plus élevés avec un nombre de paramètres similaire, les modèles YOLOv5 (en particulier les variantes Nano et Small) offrent une vitesse supérieure sur CPU et GPU, ce qui est souvent le facteur décisif pour les déploiements en périphérie.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Code d'application dans le monde réel

L'un des arguments les plus convaincants en faveur des modèles Ultralytics est la simplicité de l'intégration. Vous trouverez ci-dessous un exemple vérifié de la facilité avec laquelle un modèle YOLOv5 peut être chargé et utilisé pour l'inférence à l'aide de PyTorch Hub, ce qui démontre la nature conviviale de l'écosystème pour les développeurs.

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the results
results.show()

Conclusion

Les deux architectures remplissent des rôles distincts dans le paysage de la vision par ordinateur. DAMO-YOLO est un choix formidable pour la recherche universitaire et les compétitions où l'objectif unique est d'atteindre une précision de pointe, et où la complexité des pipelines d'entraînement basés sur NAS est acceptable.

Cependant, pour la grande majorité des développeurs, des chercheurs et des entreprises, Ultralytics YOLOv5 (et son successeur, YOLO11) reste la meilleure recommandation. Les avantages de l'écosystème bien entretenu ne peuvent être surestimés : des API simples, une documentation complète et des options d'exportation transparentes réduisent considérablement les délais de commercialisation. Avec un équilibre des performances qui gère efficacement les contraintes de temps réel et une polyvalence dans des tâches telles que la segmentation et la classification, les modèles Ultralytics fournissent une base robuste et évolutive pour la création de solutions d'IA pratiques.

Pour ceux qui recherchent le nec plus ultra en matière de performances et de fonctionnalités, nous vous recommandons vivement d'explorer YOLO11, qui s'appuie sur l'héritage de YOLOv5 avec une précision et une efficacité encore accrues.

Explorer d’autres comparaisons

Pour évaluer plus précisément le meilleur modèle pour vos besoins, explorez ces comparaisons détaillées :