YOLOv5 YOLO: comparaison technique complète
Le paysage de la vision par ordinateur en temps réel est en constante évolution, les chercheurs et les ingénieurs s'efforçant de trouver l'équilibre parfait entre précision, rapidité et facilité d'utilisation. Deux modèles phares ont marqué cette évolution : Ultralytics YOLOv5 et YOLO d'Alibaba.
Ce guide fournit une analyse technique approfondie de leurs architectures, de leurs indicateurs de performance et de leurs méthodologies de formation afin de vous aider à choisir le modèle adapté à votre prochain déploiement.
Contexte des modèles
Avant d'entrer dans les détails techniques, il est important de comprendre les origines et les principales philosophies de conception qui sous-tendent chacun de ces modèles de vision influents.
Ultralytics YOLOv5
Développé par Glenn Jocher et l'équipe Ultralytics, YOLOv5 devenu une référence dans le secteur depuis sa sortie. Construit en natif sur le PyTorch , il privilégie une expérience de développement simplifiée et des capacités de déploiement robustes dès sa sortie de l'emballage.
- Auteur : Glenn Jocher
- Organisation :Ultralytics
- Date : 2020-06-26
- GitHub :https://github.com/ultralytics/yolov5
- Docs :Documentation Ultralytics YOLOv5
DAMO-YOLO
Créé par des chercheurs du groupe Alibaba,YOLO principalement sur la recherche d'architecture neuronale (NAS) et les techniques de distillation avancées. Il repousse les limites théoriques des performances spécifiques au matériel, répondant ainsi aux besoins des environnements de recherche et de pointe qui nécessitent un réglage extrême.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation :Alibaba Group
- Date : 2022-11-23
- Arxiv :https://arxiv.org/abs/2211.15444v2
- GitHub :https://github.com/tinyvision/DAMO-YOLO
Innovations architecturales
Les deux modèles exploitent des concepts structurels uniques pour atteindre leurs performances en temps réel, bien que leurs approches diffèrent considérablement.
YOLOv5: stabilité et polyvalence
YOLOv5 une structure de base CSP (Cross Stage Partial) modifiée associée à un cou PANet (Path Aggregation Network). Cette structure est très efficace et minimise CUDA pendant l'entraînement et l'inférence.
L'une des plus grandes forces YOLOv5 réside dans sa polyvalence. Au-delà des prédictions de boîtes englobantes, il offre des architectures dédiées à la segmentation et à la classification d'images, permettant ainsi aux développeurs de standardiser leurs pipelines de vision autour d'un cadre unique et cohérent.
YOLO: Recherche automatisée d'architecture
L'innovation principaleYOLO réside dans son backbone MAE-NAS. À l'aide d'une recherche évolutive multi-objectifs, l'équipe d'Alibaba a découvert des backbones qui équilibrent de manière dynamique la précision de détection et la vitesse d'inférence.
De plus, il est doté du cou Efficient RepGFPN pour une meilleure fusion des caractéristiques, ce qui est très utile pour les variations d'échelle complexes souvent observées dans l'analyse d'images satellites. Sa conception ZeroHead simplifie les couches de prédiction finales afin de réduire la latence, bien que cette génération structurelle complexe puisse rendre l'architecture rigide et plus difficile à modifier pour des applications personnalisées.
Besoins en mémoire
Les architectures basées sur des transformateurs sont souvent confrontées à une consommation élevée de VRAM. YOLOv5 YOLO tous deux des conceptions convolutives efficaces pour réduire l'empreinte mémoire, mais Ultralytics sont particulièrement optimisés pour les GPU grand public, ce qui les rend beaucoup plus accessibles aux chercheurs indépendants et aux start-ups.
Performance et indicateurs
L'évaluation des détecteurs d'objets en temps réel nécessite d'examiner une matrice de paramètres mAP précision moyenne), vitesse d'inférence et taille du modèle.
| Modèle | Taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | paramètres (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Alors queYOLO mAP très compétitifs avec certains nombres de paramètres, YOLOv5 affiche YOLOv5 des performances exceptionnelles. TensorRT et des nombres de paramètres incroyablement faibles pour ses configurations nano et petites. Cet équilibre des performances garantit que YOLOv5 efficacement dans divers scénarios de déploiement en périphérie.
Efficacité de l'entraînement et écosystème
La précision théorique d'un modèle dépend de sa faisabilité pratique. C'est là que les modèles divergent considérablement.
La complexité de la distillation
YOLO fortement sur une méthodologie de formation en plusieurs étapes. Il met en œuvre une technique de distillation des connaissances enseignant-élève connue sous le nom d'AlignedOTA. Si cette technique permet d'obtenir des performances maximales du modèle élève, elle nécessite toutefois de former au préalable un modèle enseignant de grande envergure. Cela augmente considérablement le temps de calcul, les coûts énergétiques et le matériel requis, ce qui constitue un obstacle pour les équipes ML agiles.
Ultralytics : facilité d'utilisation
À l'inverse, Ultralytics est mondialement reconnu pour ses API intuitives et l'efficacité de ses formations. Grâce à un développement actif et à une vaste communauté open source, les développeurs peuvent former, valider et déployer des modèles en toute transparence.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")
Ultralytics offre Ultralytics une prise en charge intégrée du suivi des expériences via des outils tels que Weights & Biases Comet , créant ainsi un flux de travail fluide.
Cas d'utilisation concrets
- YOLOv5 excelle dans les environnements de production au rythme soutenu. Sa facilité d'exportation en fait le choix idéal pour l'analyse intelligente des ventes au détail, la détection rapide des défauts de fabrication et l'intégration dans des applications mobiles via CoreML.
- YOLO est particulièrement adapté aux benchmarks académiques rigoureux et aux scénarios où d'importantes ressources informatiques sont disponibles pour exécuter de longs cycles d'entraînement distillés visant à obtenir mAP fractionnaires mAP pour des cibles matérielles spécifiques et fixes.
Cas d'utilisation et recommandations
Le choix entre YOLOv5 YOLO des exigences spécifiques de votre projet, des contraintes de déploiement et de vos préférences en matière d'écosystème.
Quand choisir YOLOv5
YOLOv5 un excellent choix pour :
- Systèmes de production éprouvés : déploiements existants où track longue track YOLOv5 en matière de stabilité, sa documentation exhaustive et le soutien massif de la communauté sont appréciés.
- Formation avec ressources limitées : environnements avec GPU limitées où le pipeline de formation efficace et les faibles exigences en mémoire YOLOv5 sont avantageux.
- Prise en charge étendue des formats d'exportation : projets nécessitant un déploiement dans de nombreux formats, notamment ONNX, TensorRT, CoreMLet TFLite.
Quand choisir DAMO-YOLO
YOLO recommandé pour :
- Analyse vidéo à haut débit : traitement de flux vidéo à fréquence d'images élevée surGPU NVIDIA fixe où le débit du lot 1 est la principale métrique.
- Lignes de fabrication industrielle : scénarios avec des contraintes strictes GPU sur du matériel dédié, tels que le contrôle qualité en temps réel sur les chaînes de montage.
- Recherche sur la recherche d'architecture neuronale : étude des effets de la recherche automatisée d'architecture (MAE-NAS) et des structures de base reparamétrées efficaces sur les performances de détection.
Quand choisir Ultralytics YOLO26)
Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :
- DéploiementNMS suppressionNMS maximale (NMS: applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression non maximale.
- EnvironnementsCPU: appareils sans GPU dédiée, où CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : scénarios complexes tels que l'imagerie aérienne par drone ou l'analyse par capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
La prochaine évolution : YOLO26
Si vous démarrez un nouveau projet, il est fortement recommandé de vous tourner vers l'avenir. Ultralytics s'appuie sur les bases incroyables de YOLOv5 et intègre des avancées révolutionnaires qui redéfinissent l'IA de pointe en matière de vision.
Pourquoi passer à YOLO26 ?
Accueilli avec enthousiasme par tous, YOLO26 est nativement de bout en bout. Il présente une conception de bout en bout NMS, éliminant complètement le post-traitement de suppression non maximale pour un déploiement nettement plus rapide et plus simple.
Les principales innovations de YOLO26 comprennent :
- Optimiseur MuSGD : inspiré des innovations en matière d'entraînement LLM, cet hybride de SGD Muon garantit un entraînement très stable et une convergence rapide.
- CPU jusqu'à 43 % plus rapide : fortement optimisé pour l'informatique de pointe, ce qui le rend parfait pour les appareils IoT fonctionnant sans GPU dédiés.
- ProgLoss + STAL : fonctions de perte avancées qui améliorent considérablement la reconnaissance des petits objets, ce qui est essentiel pour l'imagerie aérienne par drone et la robotique.
- Améliorations spécifiques à certaines tâches : de la perte d'angle spécialisée pour les boîtes englobantes orientées (OBB) à l'estimation de la vraisemblance logarithmique résiduelle (RLE) pour une estimation précise de la pose, YOLO26 gère facilement les domaines complexes.
Conclusion
YOLOv5 YOLO tous deux consolidé leur place dans l'histoire de la détection d'objets.YOLO une étude fascinante dans le domaine de la recherche et de la distillation d'architectures neuronales. Cependant, pour les organisations qui privilégient un écosystème bien entretenu, une facilité d'utilisation et une mise en production rapide, Ultralytics restent inégalés.
Nous vous recommandons vivement d'utiliser la Ultralytics pour annoter, entraîner et déployer la prochaine génération de modèles, tels que YOLO26, afin de garantir que votre pipeline de vision par ordinateur soit pérenne, rapide et d'une précision remarquable.
Lectures complémentaires
- Découvrez le système RT-DETR basé sur un transformateur RT-DETR pour les applications de haute précision.
- Découvrez la génération précédente YOLO11 .
- Découvrez comment optimiser les déploiements avec OpenVINO.