YOLOv5 YOLO: comparaison technique complète

Le paysage de la vision par ordinateur en temps réel est en constante évolution, les chercheurs et les ingénieurs s'efforçant de trouver l'équilibre parfait entre précision, rapidité et facilité d'utilisation. Deux modèles phares ont marqué cette évolution : Ultralytics YOLOv5 et YOLO d'Alibaba.

Ce guide fournit une analyse technique approfondie de leurs architectures, de leurs indicateurs de performance et de leurs méthodologies de formation afin de vous aider à choisir le modèle adapté à votre prochain déploiement.

Contexte des modèles

Avant de plonger dans les nuances techniques, il est important de comprendre les origines et les philosophies de conception principales de chacun de ces modèles de vision influents.

Ultralytics YOLOv5

Développé par Glenn Jocher et l'équipe d'Ultralytics, YOLOv5 est devenu un standard de l'industrie depuis sa publication. Construit nativement sur le framework PyTorch, il a priorisé une expérience développeur simplifiée et des capacités de déploiement robustes dès le départ.

Auteur : Glenn Jocher
Organisation :Ultralytics
Date : 2020-06-26
GitHub :https://github.com/ultralytics/yolov5
Docs :Documentation Ultralytics YOLOv5

En savoir plus sur YOLOv5

DAMO-YOLO

Créé par des chercheurs d'Alibaba Group, DAMO-YOLO se concentre fortement sur la recherche d'architecture neuronale (NAS) et les techniques de distillation avancées. Il repousse les limites théoriques des performances spécifiques au matériel, s'adressant particulièrement aux environnements de recherche et périphériques qui nécessitent un réglage extrême.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 2022-11-23
Arxiv :https://arxiv.org/abs/2211.15444v2
GitHub :https://github.com/tinyvision/DAMO-YOLO

En savoir plus sur DAMO-YOLO

Innovations architecturales

Les deux modèles exploitent des concepts structurels uniques pour atteindre leurs performances en temps réel, bien que leurs approches diffèrent considérablement.

YOLOv5: stabilité et polyvalence

YOLOv5 une structure de base CSP (Cross Stage Partial) modifiée associée à un cou PANet (Path Aggregation Network). Cette structure est très efficace et minimise CUDA pendant l'entraînement et l'inférence.

L'une des plus grandes forces YOLOv5 réside dans sa polyvalence. Au-delà des prédictions de boîtes englobantes, il offre des architectures dédiées à la segmentation et à la classification d'images, permettant ainsi aux développeurs de standardiser leurs pipelines de vision autour d'un cadre unique et cohérent.

DAMO-YOLO : Recherche d'architecture automatisée.

L'innovation majeure de DAMO-YOLO est son backbone MAE-NAS. En utilisant une recherche évolutive multi-objectifs, l'équipe d'Alibaba a découvert des backbones qui équilibrent dynamiquement la précision de détection et la vitesse d'inférence.

De plus, il intègre le neck Efficient RepGFPN pour une meilleure fusion des caractéristiques, ce qui est très bénéfique pour les variations d'échelle complexes souvent observées dans l'analyse d'images satellites. Sa conception ZeroHead simplifie les couches de prédiction finales pour réduire la latence, bien que cette génération structurelle complexe puisse rendre l'architecture rigide et plus difficile à modifier pour des applications personnalisées.

Besoins en mémoire

Les architectures basées sur des transformateurs sont souvent confrontées à une consommation élevée de VRAM. YOLOv5 YOLO tous deux des conceptions convolutives efficaces pour réduire l'empreinte mémoire, mais Ultralytics sont particulièrement optimisés pour les GPU grand public, ce qui les rend beaucoup plus accessibles aux chercheurs indépendants et aux start-ups.

Performance et indicateurs

L'évaluation des détecteurs d'objets en temps réel nécessite d'examiner une matrice de paramètres mAP précision moyenne), vitesse d'inférence et taille du modèle.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

Alors queYOLO mAP très compétitifs avec certains nombres de paramètres, YOLOv5 affiche YOLOv5 des performances exceptionnelles. TensorRT et des nombres de paramètres incroyablement faibles pour ses configurations nano et petites. Cet équilibre des performances garantit que YOLOv5 efficacement dans divers scénarios de déploiement en périphérie.

Efficacité de l'entraînement et écosystème

La précision théorique d'un modèle n'est aussi bonne que sa capacité de mise en œuvre pratique. C'est là que les modèles divergent considérablement.

La complexité de la distillation

DAMO-YOLO s'appuie fortement sur une méthodologie d'entraînement multi-étapes. Il met en œuvre une technique de distillation de connaissances enseignant-étudiant connue sous le nom d'AlignedOTA. Bien que cela permette d'extraire les performances maximales du modèle étudiant, cela nécessite d'entraîner initialement un modèle enseignant massif. Cela augmente drastiquement le temps de calcul, les coûts énergétiques et le matériel requis, ce qui constitue un goulot d'étranglement pour les équipes ML agiles.

Ultralytics : facilité d'utilisation

Inversement, l'écosystème Ultralytics est mondialement reconnu pour ses API intuitives et son efficacité d'entraînement. Soutenu par un développement actif et une immense communauté open source, les développeurs peuvent entraîner, valider et déployer des modèles de manière transparente.

from ultralytics import YOLO

# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export to ONNX format for deployment
model.export(format="onnx")

Ultralytics offre Ultralytics une prise en charge intégrée du suivi des expériences via des outils tels que Weights & Biases Comet , créant ainsi un flux de travail fluide.

Cas d'utilisation concrets

YOLOv5 excelle dans les environnements de production à rythme rapide. Sa facilité d'exportation en fait le choix privilégié pour l'analyse intelligente du commerce de détail, la détection rapide des défauts de fabrication et l'intégration dans les applications mobiles via CoreML.
DAMO-YOLO est parfaitement adapté aux benchmarks académiques stricts et aux scénarios où de vastes ressources de calcul sont disponibles pour exécuter de longs entraînements distillés visant à obtenir des améliorations fractionnaires du mAP pour des cibles matérielles spécifiques et fixes.

Cas d'utilisation et recommandations

Le choix entre YOLOv5 et DAMO-YOLO dépend des exigences spécifiques de votre projet, des contraintes de déploiement et des préférences de l'écosystème.

Quand choisir YOLOv5

YOLOv5 un excellent choix pour :

Systèmes de Production Éprouvés : Déploiements existants où la longue expérience de YOLOv5 en matière de stabilité, sa documentation exhaustive et son support communautaire massif sont appréciés.
Entraînement à ressources limitées : Environnements avec des ressources GPU limitées où le pipeline d'entraînement efficace de YOLOv5 et les exigences de mémoire inférieures sont avantageux.
Prise en charge étendue des formats d'exportation : Projets nécessitant un déploiement sur de nombreux formats, y compris ONNX, TensorRT, CoreML et TFLite.

Quand choisir DAMO-YOLO

DAMO-YOLO est recommandé pour :

Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

La prochaine évolution : YOLO26

Si vous démarrez un nouveau projet, il est fortement recommandé de vous tourner vers l'avenir. Ultralytics s'appuie sur les bases incroyables de YOLOv5 et intègre des avancées révolutionnaires qui redéfinissent l'IA de pointe en matière de vision.

Pourquoi passer à YOLO26 ?

Accueilli avec enthousiasme par tous, YOLO26 est nativement de bout en bout. Il présente une conception de bout en bout NMS, éliminant complètement le post-traitement de suppression non maximale pour un déploiement nettement plus rapide et plus simple.

Les principales innovations de YOLO26 comprennent :

Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement des LLM, cet hybride de SGD et de Muon assure un entraînement très stable et une convergence rapide.
Jusqu'à 43 % plus rapide pour l'inférence CPU : Fortement optimisé pour l'edge computing, ce qui le rend parfait pour les appareils IoT fonctionnant sans GPU dédiés.
ProgLoss + STAL : Des fonctions de perte avancées qui améliorent drastiquement la reconnaissance de petits objets, ce qui est essentiel pour l'imagerie par drone aérien et la robotique.
Améliorations spécifiques aux tâches: De la perte angulaire spécialisée pour les boîtes englobantes orientées (OBB) à l'estimation de la log-vraisemblance résiduelle (RLE) pour une estimation de pose précise, YOLO26 gère les domaines complexes avec aisance.

Conclusion

YOLOv5 et DAMO-YOLO ont tous deux marqué leur place dans l'histoire de la détection d'objets. DAMO-YOLO reste une étude fascinante sur la recherche d'architecture neuronale et la distillation. Cependant, pour les organisations qui privilégient un écosystème bien entretenu, la facilité d'utilisation et un chemin rapide vers la production, les modèles Ultralytics restent inégalés.

Nous vous recommandons vivement d'utiliser la Ultralytics pour annoter, entraîner et déployer la prochaine génération de modèles, tels que YOLO26, afin de garantir que votre pipeline de vision par ordinateur soit pérenne, rapide et d'une précision remarquable.

Lectures complémentaires

Découvrez le système RT-DETR basé sur un transformateur RT-DETR pour les applications de haute précision.
Découvrez la génération précédente YOLO11 .
Découvrez comment optimiser les déploiements avec OpenVINO.