Link to this sectionYOLOv5 vs DAMO-YOLO#
Le paysage de la vision par ordinateur en temps réel est en constante évolution, avec des chercheurs et des ingénieurs qui s'efforcent d'atteindre l'équilibre parfait entre précision, vitesse et convivialité. Deux modèles de premier plan ont marqué ce parcours : Ultralytics YOLOv5 et DAMO-YOLO d'Alibaba.
Ce guide fournit une analyse technique approfondie de leurs architectures, de leurs mesures de performance et de leurs méthodologies d'entraînement pour t'aider à choisir le modèle adapté à ton prochain déploiement.
Link to this sectionContexte des modèles#
Avant de plonger dans les nuances techniques, il est important de comprendre les origines et les philosophies de conception principales derrière chacun de ces modèles de vision influents.
Link to this sectionUltralytics YOLOv5#
Développé par Glenn Jocher et l'équipe d'Ultralytics, YOLOv5 est devenu une norme industrielle depuis sa sortie. Construit nativement sur le framework PyTorch, il privilégie une expérience développeur rationalisée et des capacités de déploiement robustes dès la sortie de boîte.
- Auteur : Glenn Jocher
- Organisation : Ultralytics
- Date : 2020-06-26
- GitHub : https://github.com/ultralytics/yolov5
- Docs : Documentation Ultralytics YOLOv5
Link to this sectionDAMO-YOLO#
Créé par des chercheurs du groupe Alibaba, DAMO-YOLO se concentre fortement sur la recherche d'architecture neuronale (NAS) et les techniques de distillation avancées. Il repousse les limites théoriques des performances spécifiques au matériel, répondant ainsi fortement aux environnements de recherche et en périphérie (edge) qui nécessitent un réglage extrême.
- Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
- Organisation : Alibaba Group
- Date : 2022-11-23
- Arxiv : https://arxiv.org/abs/2211.15444v2
- GitHub : https://github.com/tinyvision/DAMO-YOLO
Link to this sectionInnovations architecturales#
Les deux modèles exploitent des concepts structurels uniques pour atteindre leurs performances en temps réel, bien que leurs approches diffèrent considérablement.
Link to this sectionYOLOv5 : Stabilité et polyvalence#
YOLOv5 utilise une épine dorsale (backbone) CSP (Cross Stage Partial) modifiée couplée à un cou (neck) PANet (Path Aggregation Network). Cette structure est très efficace, minimisant l'utilisation de la mémoire CUDA pendant l'entraînement et l'inférence.
L'une des plus grandes forces de YOLOv5 est sa polyvalence selon les tâches. Au-delà des prédictions de boîtes englobantes, il propose des architectures dédiées pour la segmentation d'image et la classification d'image, permettant aux développeurs de standardiser leurs pipelines de vision autour d'un framework unique et cohérent.
Link to this sectionDAMO-YOLO : Recherche d'architecture automatisée#
L'innovation principale de DAMO-YOLO est son backbone MAE-NAS. En utilisant une recherche évolutive multi-objectifs, l'équipe d'Alibaba a découvert des backbones qui équilibrent dynamiquement la précision de la détection et la vitesse d'inférence.
De plus, il dispose du cou Efficient RepGFPN pour une fusion de caractéristiques améliorée, très bénéfique pour les variations d'échelle complexes souvent observées dans l' analyse d'imagerie satellite. Sa conception ZeroHead simplifie les couches de prédiction finales pour réduire la latence, bien que cette génération structurelle complexe puisse rendre l'architecture rigide et plus difficile à modifier pour des applications personnalisées.
Les architectures basées sur les Transformer luttent souvent avec une consommation élevée de VRAM. YOLOv5 et DAMO-YOLO utilisent tous deux des conceptions convolutionnelles efficaces pour maintenir une faible empreinte mémoire, mais les modèles Ultralytics sont notoirement optimisés pour les GPU grand public, ce qui les rend beaucoup plus accessibles pour les chercheurs indépendants et les startups.
Link to this sectionPerformances et mesures#
L'évaluation des détecteurs d'objets en temps réel nécessite d'examiner une matrice composée du mAP (mean Average Precision), de la vitesse d'inférence et des paramètres de taille du modèle.
| Modèle | taille (pixels) | mAPval 50-95 | Vitesse CPU ONNX (ms) | Vitesse T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97,3 |
Bien que DAMO-YOLO atteigne des scores de mAP très compétitifs pour un certain nombre de paramètres, YOLOv5 démontre systématiquement des vitesses TensorRT exceptionnelles et des nombres de paramètres incroyablement bas pour ses configurations nano et small. Cet équilibre de performance garantit que YOLOv5 fonctionne efficacement dans divers scénarios de déploiement en périphérie.
Link to this sectionEfficacité de l'entraînement et écosystème#
La précision théorique d'un modèle n'est valable que si son implémentation pratique est possible. C'est là que les modèles divergent considérablement.
Link to this sectionLa complexité de la distillation#
DAMO-YOLO repose fortement sur une méthodologie d'entraînement en plusieurs étapes. Il implémente une technique de distillation des connaissances enseignant-élève connue sous le nom d'AlignedOTA. Bien que cela extraie une performance maximale du modèle étudiant, cela nécessite d'entraîner initialement un modèle enseignant massif. Cela augmente considérablement le temps de calcul, les coûts énergétiques et le matériel requis, créant un goulot d'étranglement pour les équipes ML agiles.
Link to this sectionL'avantage Ultralytics : Facilité d'utilisation#
À l'inverse, l' écosystème Ultralytics est mondialement reconnu pour ses API intuitives et son efficacité d'entraînement. Soutenus par un développement actif et une immense communauté open-source, les développeurs peuvent entraîner, valider et déployer des modèles de manière transparente.
from ultralytics import YOLO
# Load a pretrained YOLOv5 model
model = YOLO("yolov5s.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX format for deployment
model.export(format="onnx")Ultralytics fournit également un support intégré pour le suivi d'expérimentation via des outils comme Weights & Biases et Comet ML, créant un flux de travail fluide.
Link to this sectionCas d'utilisation réels#
- YOLOv5 excelle dans les environnements de production au rythme soutenu. Son exportabilité simple en fait le choix privilégié pour l' analyse de vente au détail intelligente, la détection de défauts de fabrication à grande vitesse et l'intégration dans des applications mobiles via CoreML.
- DAMO-YOLO est très adapté à l'analyse comparative académique stricte et aux scénarios où de vastes ressources informatiques sont disponibles pour exécuter de longs entraînements distillés visant à obtenir des améliorations fractionnaires du mAP pour des cibles matérielles spécifiques et fixes.
Link to this sectionCas d'utilisation et recommandations#
Choisir entre YOLOv5 et DAMO-YOLO dépend des exigences spécifiques de ton projet, des contraintes de déploiement et de tes préférences en matière d'écosystème.
Link to this sectionQuand choisir YOLOv5#
YOLOv5 est un choix solide pour :
- Systèmes de production éprouvés : Déploiements existants où la longue expérience de stabilité de YOLOv5, sa documentation étendue et le soutien massif de la communauté sont valorisés.
- Entraînement aux ressources limitées : Environnements avec des ressources GPU limitées où le pipeline d'entraînement efficace et les exigences mémoire inférieures de YOLOv5 sont avantageux.
- Prise en charge étendue des formats d'exportation : Projets nécessitant un déploiement sur de nombreux formats, dont ONNX, TensorRT, CoreML et TFLite.
Link to this sectionQuand choisir DAMO-YOLO#
DAMO-YOLO est recommandé pour :
- Analytique vidéo à haut débit : Traitement de flux vidéo FPS élevés sur une infrastructure GPU NVIDIA fixe où le débit par lot est la mesure principale.
- Lignes de fabrication industrielle : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, comme l'inspection qualité en temps réel sur les lignes d'assemblage.
- Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.
Link to this sectionQuand choisir Ultralytics (YOLO26)#
Pour la plupart des nouveaux projets, Ultralytics YOLO26 offre la meilleure combinaison de performance et d'expérience développeur :
- Déploiement en périphérie sans NMS : Applications nécessitant une inférence cohérente et à faible latence sans la complexité du post-traitement par Non-Maximum Suppression.
- Environnements CPU uniquement : Appareils sans accélération GPU dédiée, où l'inférence CPU jusqu'à 43 % plus rapide de YOLO26 offre un avantage décisif.
- Détection de petits objets : Scénarios difficiles comme l'imagerie par drone aérien ou l'analyse de capteurs IoT où ProgLoss et STAL améliorent considérablement la précision sur les objets minuscules.
Link to this sectionLa prochaine évolution : YOLO26#
Si tu démarres un nouveau projet, il est fortement recommandé de te tourner vers l'avenir. Ultralytics YOLO26 s'appuie sur l'incroyable base de YOLOv5, intégrant des avancées révolutionnaires qui redéfinissent l'état de l'art de la vision IA.
Sorti sous des acclamations universelles, YOLO26 est nativement de bout en bout (end-to-end). Il présente une conception sans NMS de bout en bout, éliminant complètement le post-traitement Non-Maximum Suppression pour un déploiement nettement plus rapide et plus simple.
Les innovations clés dans YOLO26 incluent :
- Optimiseur MuSGD : Inspiré par les innovations d'entraînement LLM, cet hybride de SGD et Muon garantit un entraînement très stable et une convergence rapide.
- Jusqu'à 43 % d'inférence CPU plus rapide : Fortement optimisé pour l'informatique en périphérie, ce qui le rend parfait pour les appareils IoT fonctionnant sans GPU dédiés.
- ProgLoss + STAL : Des fonctions de perte avancées qui améliorent considérablement la reconnaissance des petits objets, ce qui est critique pour l' imagerie par drone aérien et la robotique.
- Améliorations spécifiques aux tâches : D'une perte d'angle spécialisée pour les boîtes englobantes orientées (OBB) à l'estimation de log-vraisemblance résiduelle (RLE) pour une estimation de pose précise, YOLO26 gère facilement des domaines complexes.
Link to this sectionConclusion#
YOLOv5 et DAMO-YOLO ont tous deux cimenté leur place dans l'histoire de la détection d'objets. DAMO-YOLO reste une étude fascinante sur la recherche d'architecture neuronale et la distillation. Cependant, pour les organisations qui privilégient un écosystème bien entretenu, une facilité d'utilisation et un chemin rapide vers la production, les modèles Ultralytics restent inégalés.
Nous recommandons vivement d'utiliser la plateforme Ultralytics pour annoter, entraîner et déployer la prochaine génération de modèles, comme YOLO26, garantissant que ton pipeline de vision par ordinateur est à l'épreuve du temps, rapide et remarquablement précis.