DAMO-YOLO vs. YOLOv5 : Une analyse approfondie de la détection d'objets en temps réel.

L'évolution de la vision par ordinateur a été marquée par une innovation continue dans la détection d'objets en temps réel. Aujourd'hui, les développeurs et les chercheurs sont confrontés à une multitude de choix architecturaux lors de la conception de pipelines de vision. Cette comparaison technique complète explore les nuances entre YOLO et Ultralytics YOLOv5, en mettant en évidence leurs architectures respectives, leurs méthodologies de formation, leurs mesures de performance et leurs scénarios de déploiement idéaux.

Introduction àYOLO

Publié par le groupe Alibaba,YOLO plusieurs techniques novatrices visant à repousser les limites de la vitesse et de la précision de détection.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Arxiv :2211.15444v2
GitHub :tinyvision/DAMO-YOLO
Documentation :README.md

En savoir plus sur DAMO-YOLO

Innovations architecturales

DAMO-YOLO est construit sur une base de recherche d'architecture neuronale (NAS). Les auteurs ont utilisé MAE-NAS pour concevoir automatiquement des backbones qui équilibrent latence et précision. Le modèle introduit un RepGFPN efficace (Reparameterized Generalized Feature Pyramid Network) qui améliore la fusion des caractéristiques à travers différentes échelles. De plus, DAMO-YOLO intègre une conception "ZeroHead", éliminant les têtes de prédiction multi-branches complexes au profit d'une structure plus simple et plus efficace qui s'appuie fortement sur la re-paramétrisation pendant l'inférence.

Pour améliorer la formation, le modèle utilise AlignedOTA pour l'attribution des étiquettes et un processus d'amélioration par distillation intensive, dans lequel un modèle « enseignant » plus grand guide le modèle « élève » plus petit afin d'obtenir une plus grande précision.

Introduction à Ultralytics YOLOv5

Ultralytics YOLOv5 l'une des architectures de vision les plus largement adoptées au monde, réputée pour sa stabilité, sa facilité d'utilisation et son écosystème de déploiement étendu.

Auteurs : Glenn Jocher
Organisation :Ultralytics
Date : 26 juin 2020
GitHub :ultralytics/yolov5
Docs :Documentation YOLOv5

En savoir plus sur YOLOv5

La norme relative à l'écosystème

YOLOv5 la norme industrielle en matière de convivialité. Construit nativement dans PyTorch, il utilise une dorsale CSPNet hautement optimisée et un cou PANet pour une agrégation robuste des fonctionnalités. Bien qu'il ait précédé la tendance sans ancrage observée dans les modèles ultérieurs, son approche hautement raffinée basée sur l'ancrage, associée à l'apprentissage automatique de l'ancrage, garantit d'excellentes performances dès sa sortie de l'emballage.

La véritable force de YOLOv5 dans son écosystème bien entretenu. Il s'intègre parfaitement à des outils de suivi tels que Comet et Weights & Biases, et prend en charge l'exportation en un clic vers des formats tels que ONNX, TensorRTet CoreML.

Premiers pas avec YOLOv5

YOLOv5 incroyablement facile à entraîner sur des ensembles de données personnalisés. L'API simplifiée réduit les frictions entre le prototype et la production, ce qui en fait un outil très apprécié des équipes d'ingénieurs agiles.

Comparaison des performances et des indicateurs

Lorsque l'on compare ces modèles, il est essentiel d'examiner l'équilibre entre la précision moyenne (mAP), la vitesse d'inférence et le nombre de paramètres.

Modèle	Taille ^(pixels)	mAP^val 50-95	Vitesse ^{CPU ONNX (ms)}	Vitesse ^{T4 TensorRT10 (ms)}	paramètres ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

Analyse des compromis

DAMO-YOLO atteint des scores de mAP impressionnants pour ses tailles de paramètres, bénéficiant grandement de sa phase d'entraînement par distillation. Cependant, cela se fait au détriment de l'efficacité de l'entraînement. Le processus de distillation multi-étapes nécessite d'abord l'entraînement d'un modèle enseignant lourd, ce qui augmente considérablement le temps de calcul GPU et la VRAM nécessaires.

Inversement, YOLOv5 offre une excellente faible consommation de mémoire. Les modèles Ultralytics YOLO sont reconnus pour leur faible consommation de mémoire pendant l'entraînement et l'inférence, comparés aux pipelines de distillation complexes ou aux modèles basés sur des transformeurs comme RT-DETR. Cela permet d'entraîner YOLOv5 efficacement sur du matériel grand public ou des environnements cloud accessibles comme Google Colab.

Applications concrètes et polyvalence

Le choix de la bonne architecture dépend souvent de l'environnement de déploiement.

Où DAMO-YOLO excelle

DAMO-YOLO est strictement un modèle de détection d'objets. C'est un excellent choix pour la recherche académique, en particulier pour les équipes étudiant la recherche d'architecture neuronale ou celles visant à reproduire les techniques de re-paramétrisation détaillées dans l'article. Si un projet dispose de ressources de calcul étendues pour exécuter la phase d'entraînement par distillation et se concentre uniquement sur l'extraction de la dernière fraction de précision pour les boîtes englobantes 2D, DAMO-YOLO est un sérieux concurrent.

L'avantage Ultralytics

Pour la production en conditions réelles, la facilité d'utilisation et la polyvalence des Ultralytics en font le choix privilégié. Si YOLOv5 un incontournable pour la détection et la classification d'images, Ultralytics , plus large, permet aux développeurs de passer sans effort d'une tâche à l'autre.

Par exemple, les nouvelles versions de la Ultralytics prennent en charge de manière native la segmentation d'instances, l'estimation de pose et la détection OBB (Oriented Bounding Box). Cette capacité multitâche permet aux équipes d'utiliser une Python unique et unifiée pour des pipelines complexes, tels que la combinaison de la reconnaissance automatique des plaques d'immatriculation et de la segmentation des véhicules.

Cas d'utilisation et recommandations

Le choix entre DAMO-YOLO et YOLOv5 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir DAMO-YOLO

DAMO-YOLO est un excellent choix pour :

Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir YOLOv5

YOLOv5 recommandé pour :

Systèmes de Production Éprouvés : Déploiements existants où la longue expérience de YOLOv5 en matière de stabilité, sa documentation exhaustive et son support communautaire massif sont appréciés.
Entraînement à ressources limitées : Environnements avec des ressources GPU limitées où le pipeline d'entraînement efficace de YOLOv5 et les exigences de mémoire inférieures sont avantageux.
Prise en charge étendue des formats d'exportation : Projets nécessitant un déploiement sur de nombreux formats, y compris ONNX, TensorRT, CoreML et TFLite.

Quand choisir Ultralytics YOLO26)

Pour la plupart des nouveaux projets, Ultralytics offre la meilleure combinaison entre performances et expérience développeur :

Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

L'avenir : passage à YOLO26

Si YOLOv5 légendaire etYOLO des perspectives académiques intéressantes, les technologies de pointe ont évolué. Lancé en janvier 2026, Ultralytics représente une avancée considérable pour la communauté de la vision.

En savoir plus sur YOLO26

YOLO26 résout les problèmes traditionnels liés au déploiement en périphérie et à l'instabilité de la formation :

Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement par Non-Maximum Suppression. Cette avancée simplifie la logique de déploiement et réduit drastiquement la variabilité de la latence, ce qui le rend idéal pour la robotique à haute vitesse et les systèmes autonomes.
Optimiseur MuSGD : Inspiré par les innovations en matière d'entraînement des LLM (comme Kimi K2 de Moonshot AI), YOLO26 utilise l'optimiseur MuSGD (un hybride de SGD et de Muon). Cela garantit des exécutions d'entraînement très stables et une convergence remarquablement plus rapide.
Inférence CPU jusqu'à 43 % plus rapide : En supprimant stratégiquement la Distribution Focal Loss (DFL), YOLO26 atteint des vitesses largement supérieures sur les CPU et les appareils edge comparé à ses prédécesseurs comme YOLO11 et YOLOv8.
ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, ce qui est essentiel pour l'analyse de l'imagerie par drone aérien et des flux de capteurs IoT.

Exemple de code : La simplicité en action

Ultralytics vous permet de former et de déployer des modèles en quelques lignes de code seulement. Que vous utilisiez YOLOv5 que vous passiez à la version recommandée YOLO26, l'interface reste cohérente et intuitive.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image and display results
predictions = model("https://ultralytics.com/images/bus.jpg")
predictions[0].show()

# Export the model for edge deployment
model.export(format="onnx")

Conclusion

DAMO-YOLO et YOLOv5 ont tous deux contribué de manière significative au domaine de la vision par ordinateur. DAMO-YOLO met en évidence la puissance de la recherche d'architecture neuronale et de la distillation, ce qui en fait un sujet d'étude intéressant pour les chercheurs. Cependant, YOLOv5 demeure une solution performante et pratique grâce à son équilibre des performances, ses faibles exigences en mémoire et sa facilité d'utilisation inégalée.

Pour les développeurs qui lancent aujourd'hui de nouveaux projets, il est recommandé d'utiliser la Ultralytics et d'adopter YOLO26. Ce modèle combine l'écosystème convivial très apprécié de YOLOv5 des avancées architecturales révolutionnaires, garantissant une précision de premier ordre et une inférence ultra-rapide pour les applications d'IA dans le cloud et en périphérie. Les développeurs peuvent également explorer d'autres modèles efficaces tels que YOLOv6 ou YOLOX, en fonction des contraintes matérielles spécifiques existantes.