YOLOv5 vs. DAMO-YOLO : une comparaison technique complète
Le paysage de la vision par ordinateur en temps réel est en constante évolution, avec des chercheurs et des ingénieurs qui s'efforcent d'atteindre l'équilibre parfait entre précision, vitesse et facilité d'utilisation. Deux modèles importants ont marqué ce parcours : Ultralytics YOLOv5 et DAMO-YOLO d'Alibaba.
Ce guide fournit une analyse technique approfondie de leurs architectures, de leurs mesures de performance et de leurs méthodologies d'entraînement pour t'aider à choisir le bon modèle pour ton prochain déploiement.
Historique des modèles
Avant de plonger dans les nuances techniques, il est important de comprendre les origines et les philosophies de conception fondamentales derrière chacun de ces modèles de vision influents.
Ultralytics YOLOv5
Développé par Glenn Jocher et l'équipe d'Ultralytics, YOLOv5 est devenu un standard de l'industrie depuis sa sortie. Construit nativement sur le framework PyTorch, il privilégie une expérience développeur rationalisée et des capacités de déploiement robustes dès la sortie de boîte.
- Auteur : Glenn Jocher
- Organisation : Ultralytics
- Date : 26-06-2020
- GitHub : https://github.com/ultralytics/yolov5
- Docs : Documentation Ultralytics YOLOv5
DAMO-YOLO
Créé par des chercheurs d'Alibaba Group, DAMO-YOLO se concentre fortement sur la recherche d'architecture neuronale (NAS) et les techniques de distillation avancées. Il repousse les limites théoriques de la performance matérielle spécifique, s'adressant particulièrement aux environnements de recherche et de périphérie (edge) nécessitant un réglage extrême.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 23-11-2022
- Arxiv : https://arxiv.org/abs/2211.15444v2
- GitHub : https://github.com/tinyvision/DAMO-YOLO
Innovations architecturales
Les deux modèles exploitent des concepts structurels uniques pour atteindre leurs performances en temps réel, bien que leurs approches diffèrent considérablement.
YOLOv5 : Stabilité et polyvalence
YOLOv5 utilise une backbone CSP (Cross Stage Partial) modifiée associée à un cou PANet (Path Aggregation Network). Cette structure est très efficace, minimisant l'utilisation de la mémoire CUDA pendant l'entraînement et l'inférence.
L'une des plus grandes forces de YOLOv5 est sa polyvalence selon les tâches. Au-delà des prédictions de boîtes englobantes, il offre des architectures dédiées pour la segmentation d'image et la classification d'image, permettant aux développeurs de standardiser leurs pipelines de vision autour d'un framework unique et cohérent.
DAMO-YOLO : Recherche d'architecture automatisée
L'innovation principale de DAMO-YOLO est sa backbone MAE-NAS. En utilisant une recherche évolutive multi-objectifs, l'équipe d'Alibaba a découvert des backbones qui équilibrent dynamiquement la précision de détection et la vitesse d'inférence.
De plus, il dispose du cou Efficient RepGFPN pour une fusion de caractéristiques améliorée, très bénéfique pour les variations d'échelle complexes souvent observées dans l'analyse d'imagerie satellite. Sa conception ZeroHead simplifie les couches de prédiction finales pour réduire la latence, bien que cette génération structurelle complexe puisse rendre l'architecture rigide et plus difficile à modifier pour des applications personnalisées.
Les architectures basées sur les Transformer peinent souvent avec une consommation élevée de VRAM. YOLOv5 et DAMO-YOLO utilisent tous deux des conceptions convolutives efficaces pour maintenir des empreintes mémoire faibles, mais les modèles Ultralytics sont notablement optimisés pour les GPU grand public, les rendant beaucoup plus accessibles aux chercheurs indépendants et aux startups.
Performance et métriques
L'évaluation des détecteurs d'objets en temps réel nécessite l'examen d'une matrice de paramètres : mAP (précision moyenne), vitesse d'inférence et taille du modèle.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45,4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Alors que DAMO-YOLO atteint des scores de mAP très compétitifs pour certains nombres de paramètres, YOLOv5 démontre constamment des vitesses TensorRT exceptionnelles et des nombres de paramètres incroyablement bas pour ses configurations nano et small. Cet équilibre de performance garantit que YOLOv5 fonctionne efficacement dans divers scénarios de déploiement en périphérie (edge).
Efficacité d'entraînement et écosystème
La précision théorique d'un modèle n'est valable que si sa mise en œuvre pratique est assurée. C'est là que les modèles divergent considérablement.
La complexité de la distillation
DAMO-YOLO repose fortement sur une méthodologie d'entraînement en plusieurs étapes. Il implémente une technique de distillation des connaissances enseignant-élève appelée AlignedOTA. Bien que cela extraie une performance maximale du modèle élève, cela nécessite l'entraînement initial d'un modèle enseignant massif. Cela augmente considérablement le temps de calcul, les coûts énergétiques et le matériel requis, constituant un goulot d'étranglement pour les équipes ML agiles.
L'avantage Ultralytics : Facilité d'utilisation
À l'inverse, l'écosystème Ultralytics est mondialement reconnu pour ses API intuitives et son efficacité d'entraînement. Soutenus par un développement actif et une énorme communauté open-source, les développeurs peuvent entraîner, valider et déployer des modèles de manière transparente.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics fournit également un support intégré pour le suivi d'expériences via des outils comme Weights & Biases et Comet ML, créant un flux de travail sans friction.
Cas d'utilisation réels
- YOLOv5 excelle dans les environnements de production rapides. Sa facilité d'exportation en fait le choix privilégié pour l'analyse intelligente du commerce de détail, la détection de défauts de fabrication à grande vitesse et l'intégration dans des applications mobiles via CoreML.
- DAMO-YOLO est très approprié pour l'analyse comparative académique stricte et les scénarios où de vastes ressources informatiques sont disponibles pour exécuter de longs entraînements distillés visant à extraire des gains de mAP fractionnaires pour des cibles matérielles spécifiques et fixes.
Cas d'utilisation et recommandations
Le choix entre YOLOv5 et DAMO-YOLO dépend des exigences spécifiques de ton projet, de tes contraintes de déploiement et de tes préférences en matière d'écosystème.
Quand choisir YOLOv5
YOLOv5 est un choix solide pour :
- Systèmes de production éprouvés : Déploiements existants où l'historique de stabilité de YOLOv5, sa documentation étendue et son immense soutien communautaire sont valorisés.
- Entraînement avec ressources limitées : Environnements dotés de ressources GPU limitées où le pipeline d'entraînement efficace et les exigences en mémoire plus faibles de YOLOv5 sont avantageux.
- Support étendu des formats d'exportation : Projets nécessitant un déploiement sur de nombreux formats, notamment ONNX, TensorRT, CoreML et TFLite.
Quand choisir DAMO-YOLO
DAMO-YOLO est recommandé pour :
- Analytique vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit batch-1 est la métrique principale.
- Lignes de fabrication industrielle : Scénarios avec des contraintes de latence GPU strictes sur du matériel dédié, comme l'inspection qualité en temps réel sur les chaînes de montage.
- Recherche en recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.
Quand choisir Ultralytics (YOLO26)
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par suppression des non-maximums.
- Environnements 100 % CPU : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT, où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
La prochaine évolution : YOLO26
Si tu démarres un nouveau projet, il est vivement recommandé de te tourner vers l'avenir. Ultralytics YOLO26 s'appuie sur l'incroyable fondation de YOLOv5, en intégrant des avancées révolutionnaires qui redéfinissent l'IA de vision de pointe.
Sorti sous les acclamations universelles, YOLO26 est nativement de bout en bout. Il présente une conception End-to-End NMS-Free, éliminant complètement le post-traitement Non-Maximum Suppression pour un déploiement sensiblement plus rapide et plus simple.
Les innovations clés dans YOLO26 incluent :
- MuSGD Optimizer : Inspiré par les innovations en matière d'entraînement LLM, cet hybride de SGD et Muon assure un entraînement très stable et une convergence rapide.
- Inférence CPU jusqu'à 43 % plus rapide : Fortement optimisé pour l'edge computing, ce qui le rend parfait pour les appareils IoT fonctionnant sans GPU dédié.
- ProgLoss + STAL : Fonctions de perte avancées qui améliorent considérablement la reconnaissance des petits objets, ce qui est crucial pour l'imagerie par drone aérien et la robotique.
- Améliorations spécifiques aux tâches : De la perte d'angle spécialisée pour les Oriented Bounding Boxes (OBB) à l'estimation de vraisemblance logarithmique résiduelle (RLE) pour une estimation de pose précise, YOLO26 gère des domaines complexes avec aisance.
Conclusion
YOLOv5 et DAMO-YOLO ont tous deux cimenté leur place dans l'histoire de la détection d'objets. DAMO-YOLO reste une étude fascinante sur la recherche d'architecture neuronale et la distillation. Cependant, pour les organisations qui privilégient un écosystème bien entretenu, une facilité d'utilisation et une voie rapide vers la production, les modèles Ultralytics restent inégalés.
Nous te recommandons vivement d'utiliser la plateforme Ultralytics pour annoter, entraîner et déployer la prochaine génération de modèles, tels que YOLO26, garantissant que ton pipeline de vision par ordinateur est pérenne, rapide et remarquablement précis.