Passer au contenu

DAMO-YOLO vs. YOLO26 : Une comparaison technique des détecteurs d'objets en temps réel

L'évolution de la détection d'objets en temps réel a connu des avancées rapides, motivée par le besoin de modèles qui équilibrent vitesse, précision et efficacité de déploiement. Cet article propose une comparaison technique complète entre DAMO-YOLO, développé par Alibaba Group, et YOLO26, la dernière itération d'Ultralytics. Nous analyserons leurs architectures, leurs métriques de performance et leurs cas d'utilisation idéaux pour aider les développeurs et les chercheurs à choisir le bon outil pour leurs projets de vision par ordinateur.

Présentation de DAMO-YOLO

DAMO-YOLO est une méthode de détection d'objets rapide et précise introduite fin 2022 par des chercheurs du groupe Alibaba. Elle a été conçue pour repousser les limites de la performance en intégrant plusieurs technologies de pointe dans le framework YOLO. La philosophie centrale de DAMO-YOLO repose sur l'utilisation de la recherche d'architecture neuronale (NAS) pour découvrir automatiquement des backbones efficaces, combinée à un "neck" de re-paramétrisation lourd.

Les principales caractéristiques architecturales sont les suivantes :

  • Backbone MAE-NAS : Utilise une approche d'autoencodeur masqué (MAE) pour rechercher des structures de backbone optimales sous différentes contraintes de latence.
  • RepGFPN efficace : Un réseau de pyramide de caractéristiques généralisé (GFPN) fortement optimisé par re-paramétrisation pour améliorer l'efficacité de la fusion des caractéristiques sans sacrifier la vitesse lors de l'inférence.
  • ZeroHead : Une conception de tête légère qui réduit la surcharge computationnelle.
  • AlignedOTA : Une stratégie d'attribution d'étiquettes améliorée qui résout les problèmes de désalignement entre les tâches de classification et de régression.
  • Amélioration par distillation : Un pipeline de distillation robuste est utilisé pour améliorer la précision des modèles plus petits en utilisant des modèles enseignants plus grands.

Auteurs : Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun
Organisation :Alibaba Group
Date : 23 novembre 2022
Liens :Arxiv, GitHub

En savoir plus sur DAMO-YOLO

Présentation de YOLO26

Lancé en janvier 2026 par Ultralytics, YOLO26 représente un bond significatif dans la vision par ordinateur optimisée pour l'edge. Conçu spécifiquement pour les appareils edge et à faible consommation, il se concentre sur la rationalisation du pipeline de déploiement tout en améliorant la précision sur des tâches difficiles comme la détection de petits objets.

YOLO26 se distingue par plusieurs innovations majeures :

  • Conception de bout en bout sans NMS : En éliminant le besoin de post-traitement de suppression non maximale (NMS), YOLO26 simplifie la logique de déploiement et réduit la variabilité de la latence, un concept d'abord mis au point dans YOLOv10.
  • Suppression du DFL : La suppression de la Distribution Focal Loss (DFL) simplifie la structure de sortie du modèle, rendant l'exportation vers des formats comme ONNX et TensorRT plus simple et compatible avec une gamme plus large de matériel.
  • Optimiseur MuSGD : Un nouvel optimiseur hybride combinant SGD et Muon, inspiré par les techniques d'entraînement de LLM de Kimi K2 de Moonshot AI. Cela conduit à des dynamiques d'entraînement plus stables et à une convergence plus rapide.
  • ProgLoss + STAL: La combinaison de l'équilibrage progressif des pertes (Progressive Loss Balancing) et de l'assignation d'étiquettes sensible aux petites cibles (STAL) améliore considérablement les performances sur les petits objets, comblant ainsi une faiblesse courante des détecteurs en temps réel.

Auteurs: Glenn Jocher et Jing Qiu
Organisation:Ultralytics
Date: 14 janvier 2026
Liens:Documentation Ultralytics, GitHub

En savoir plus sur YOLO26

Analyse comparative

Architecture et philosophie de conception

La différence la plus frappante réside dans le pipeline d'inférence. DAMO-YOLO suit un flux de travail de détecteur traditionnel qui nécessite NMS pour filtrer les boîtes englobantes qui se chevauchent. Bien qu'efficace, NMS peut constituer un goulot d'étranglement dans les applications à haut débit et complique le déploiement sur certains accélérateurs.

En revanche, YOLO26 est nativement de bout en bout. Le modèle prédit directement l'ensemble final des boîtes englobantes. Cette conception sans NMS réduit non seulement la latence d'inférence — en particulier sur les appareils périphériques limités par le CPU où NMS est coûteux — mais simplifie également le code d'intégration nécessaire pour exécuter le modèle dans des environnements de production.

Simplicité de déploiement

L'architecture sans NMS de YOLO26 signifie que vous n'avez pas besoin d'implémenter une logique de post-traitement complexe en C++ ou CUDA lors du déploiement sur des appareils périphériques. La sortie du modèle est le résultat de détection final.

Méthodologies d'entraînement

DAMO-YOLO s'appuie fortement sur la distillation de connaissances pour atteindre ses hautes performances, en particulier pour ses variantes plus petites. Cela ajoute de la complexité au pipeline d'entraînement, car un modèle enseignant puissant doit être entraîné en premier.

YOLO26 introduit l'optimiseur MuSGD, comblant le fossé entre l'optimisation des grands modèles linguistiques (LLM) et la vision par ordinateur. Cela permet à YOLO26 d'atteindre une convergence de pointe sans nécessairement dépendre de configurations de distillation complexes, bien que les modes d'entraînement Ultralytics prennent en charge diverses configurations avancées. De plus, ProgLoss de YOLO26 ajuste dynamiquement les poids de perte pendant l'entraînement pour stabiliser le processus d'apprentissage.

Mesures de performance

Lors de la comparaison des performances sur le jeu de données COCO, les deux modèles affichent des résultats impressionnants, mais des compromis distincts apparaissent concernant la vitesse et l'efficacité.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Analyse :

  • Efficacité des paramètres : YOLO26 démontre une efficacité paramétrique nettement supérieure. Par exemple, YOLO26s atteint 48,6 mAP avec seulement 9,5 millions de paramètres, tandis que DAMO-YOLOs atteint 46,0 mAP avec 16,3 millions de paramètres. Cela rend les modèles YOLO26 plus légers à stocker et plus rapides à charger.
  • Vitesse d'inférence: YOLO26n est extrêmement rapide, avec un temps d'exécution de 1,7 ms sur un GPU T4 avec TensorRT, comparé à environ 2,32 ms pour la variante Tiny DAMO. La vitesse CPU de YOLO26 est également un atout majeur, optimisée spécifiquement pour les appareils comme le Raspberry Pi ou les téléphones mobiles où les GPU ne sont pas disponibles.
  • Précision: À des échelles similaires (par exemple, moyenne/grande), YOLO26 surpasse constamment DAMO-YOLO en termes de mAP, probablement grâce à la stratégie d'assignation STAL avancée et à l'architecture raffinée.

Polyvalence et prise en charge des tâches

Alors que DAMO-YOLO est principalement axé sur la détection d'objets, l'écosystème Ultralytics garantit que YOLO26 est une puissance multitâche.

Cette polyvalence permet aux développeurs d'utiliser une API unifiée unique pour divers problèmes de vision par ordinateur, réduisant ainsi la courbe d'apprentissage et la dette technique.

Facilité d'utilisation et écosystème

L'un des plus grands avantages de YOLO26 est l'écosystème Ultralytics qui l'entoure.

DAMO-YOLO fournit une base de code que les chercheurs peuvent utiliser pour reproduire des résultats, mais il peut manquer de la documentation étendue, de la maintenance et du support communautaire que l'on trouve dans les bibliothèques plus axées sur les produits.

YOLO26 bénéficie de :

  • API simple : Une API Python cohérente et interface CLI (yolo predict ...) qui rend l'entraînement et le déploiement accessibles aussi bien aux débutants qu'aux experts.
  • Documentation : Des guides complets couvrant tous les aspects, de l'entraînement sur des jeux de données personnalisés à l'exportation de modèles pour iOS et Android.
  • Intégrations : Connectivité transparente avec des outils tels que Comet, Weights & Biases et Roboflow pour les MLOps.
  • Maintenance : Des mises à jour fréquentes corrigeant les bugs et introduisant de nouvelles fonctionnalités, garantissant la pertinence du modèle.

Exemple de Code : Exécuter YOLO26

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Cas d'utilisation

Quand choisir DAMO-YOLO

  • Applications de recherche : Si votre travail implique l'étude de la recherche d'architecture neuronale (NAS) ou l'exploration de nouvelles techniques de re-paramétrisation, DAMO-YOLO offre un terrain fertile pour la recherche universitaire.
  • Contraintes héritées spécifiques : Si un pipeline existant est strictement construit autour du format de sortie spécifique ou des stratégies d'affectation d'ancres de DAMO-YOLO et que le refactoring n'est pas réalisable.

Quand choisir YOLO26

  • Déploiement en périphérie : Pour les applications sur Raspberry Pi, les appareils mobiles ou les systèmes embarqués où la vitesse d'inférence CPU et l'empreinte mémoire réduite sont critiques.
  • Systèmes en temps réel : La nature sans NMS de YOLO26 le rend idéal pour les exigences de latence ultra-faible en robotique ou en conduite autonome.
  • Projets multi-tâches : Si votre projet nécessite de detect des objets, de segment des masques et d'estimer des poses simultanément, YOLO26 couvre toutes les bases avec un seul framework.
  • Développement commercial : La stabilité, le support et la facilité d'exportation vers des formats comme CoreML et OpenVINO en font le choix supérieur pour les logiciels de production.

Conclusion

Les deux modèles représentent des avancées significatives en vision par ordinateur. DAMO-YOLO a introduit des concepts impressionnants en NAS et en fusion de caractéristiques efficace. Cependant, YOLO26 affine l'état de l'art en se concentrant sur la praticité du déploiement, la stabilité de l'entraînement et l'efficacité computationnelle. Avec sa conception de bout en bout sans NMS, son efficacité paramétrique supérieure et le soutien de l'écosystème robuste d'Ultralytics, YOLO26 s'impose comme le choix recommandé pour les applications modernes de vision par ordinateur en temps réel.

Pour ceux qui souhaitent explorer d'autres options au sein de la famille Ultralytics, des modèles comme YOLO11 et YOLOv8 restent des alternatives puissantes pour les tâches de détection à usage général.


Commentaires