Passer au contenu

DAMO-YOLO vs. YOLO26 : Analyse des architectures de détection d'objets en temps réel de nouvelle génération.

Le paysage de la vision par ordinateur est en constante évolution, poussé par le besoin d'architectures qui équilibrent une grande précision et une inférence à faible latence. Cette comparaison explore les subtilités techniques de YOLO et Ultralytics , en examinant leurs innovations architecturales, leurs méthodologies d'entraînement et leurs cas d'utilisation idéaux.

Que vous déployiez des modèles de vision sur des appareils périphériques ou que vous construisiez des pipelines cloud à haut débit, il est essentiel de comprendre les nuances entre ces modèles afin de prendre des décisions architecturales éclairées dans le cadre du développement moderne de l'IA.

YOLO: recherche d'architecture neuronale à grande échelle

DAMO-YOLO, développé par le groupe Alibaba, a été publié le 23 novembre 2022. Conçu par Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang et Xiuyu Sun, le modèle se concentre fortement sur la découverte automatisée d'architectures efficaces à l'aide de la recherche d'architecture neuronale (NAS).

Vous pouvez consulter les recherches originales dans leur article ArXiv ou explorer le code source sur le dépôtYOLO .

Principales caractéristiques architecturales

DAMO-YOLO introduit plusieurs innovations techniques conçues pour repousser les limites de la détection d'objets en temps réel :

  • Backbones MAE-NAS : DAMO-YOLO utilise une recherche évolutionnaire multi-objectif pour trouver des backbones optimaux. Cette approche NAS découvre des architectures qui équilibrent rigoureusement la précision de détection et la vitesse d'inférence sur du matériel spécifique.
  • RepGFPN Efficace : Une conception de type "heavy-neck" qui améliore considérablement la fusion des caractéristiques, ce qui est très bénéfique lors de l'analyse de scènes complexes comme celles trouvées dans l'imagerie aérienne.
  • Conception ZeroHead: Une tête de détection fortement simplifiée qui minimise la complexité computationnelle des couches de prédiction finales.
  • AlignedOTA et distillation : DAMO-YOLO utilise l'attribution de transport optimal aligné (AlignedOTA) pour résoudre les ambiguïtés d'attribution d'étiquettes, associée à une stratégie robuste d'amélioration par distillation de connaissances pour augmenter la précision des modèles étudiants plus petits en utilisant des réseaux enseignants plus grands.

En savoir plus sur DAMO-YOLO

Ultralytics : YOLO26

Publié le 14 janvier 2026 par Glenn Jocher et Jing Qiu chez Ultralytics, YOLO26 représente le summum de l'IA visuelle accessible et hautement performante. S'appuyant sur l'héritage de YOLO11 et YOLOv10, YOLO26 a été entièrement conçu pour un déploiement en périphérie, une polyvalence multimodale et une facilité d'utilisation inégalée.

Innovations de YOLO26

Ultralytics introduit plusieurs fonctionnalités révolutionnaires qui en font le choix incontournable pour les applications modernes de vision par ordinateur :

  • Conception de bout en bout sans NMS : YOLO26 élimine nativement le post-traitement par Non-Maximum Suppression (NMS). Initiée par YOLOv10, cette approche de bout en bout simplifie drastiquement les pipelines de déploiement et garantit une inférence déterministe à faible latence.
  • Inférence CPU jusqu'à 43 % plus rapide : Optimisé architecturalement pour l'edge computing, YOLO26 offre une vitesse exceptionnelle sur les appareils edge et les CPU standards, ce qui le rend parfait pour les appareils IoT alimentés par batterie.
  • Optimiseur MuSGD : Inspiré par l'entraînement des LLM (comme Kimi K2 de Moonshot AI), YOLO26 intègre un hybride de SGD et de Muon. Cela apporte la stabilité d'entraînement des grands modèles linguistiques à la vision par ordinateur, ce qui se traduit par une convergence plus rapide et plus fiable.
  • Suppression de la DFL : En supprimant la Distribution Focal Loss, le graphe du modèle est simplifié, permettant une exportation fluide vers des formats comme ONNX et TensorRT.
  • ProgLoss + STAL: Ces fonctions de perte avancées apportent des améliorations notables à la reconnaissance des petits objets, une caractéristique essentielle pour les opérations de drones et l'agriculture.

Améliorations spécifiques à certaines tâches

YOLO26 comprend des améliorations spécialisées dans plusieurs modalités : un proto multi-échelle pour la segmentation d'instances, l'estimation de la vraisemblance résiduelle (RLE) pour l'estimation de la pose et une perte angulaire avancée pour atténuer les problèmes de limites dans la détection des boîtes englobantes orientées (OBB).

En savoir plus sur YOLO26

Comparaison des performances

Lors de l'évaluation de ces modèles, l'équilibre entre la précision (mAP) et l'efficacité computationnelle (vitesse/FLOP) est primordial. Le tableau ci-dessous met en évidence la comparaison de ces modèles à l'aide de COCO , norme industrielle.

ModèleTaille
(pixels)
mAPval
50-95
Vitesse
CPU ONNX
(ms)
Vitesse
T4 TensorRT10
(ms)
paramètres
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Comme vu ci-dessus, YOLO26 offre constamment une précision supérieure avec significativement moins de paramètres et de FLOPs, ce qui se traduit par une architecture beaucoup plus efficace pour l'entraînement et l'inférence.

Efficacité et facilité d'utilisation de la formation

Les complexités deYOLO

SiYOLO une précision compétitive, sa méthodologie d'entraînement est toutefois très complexe. Le recours à la recherche d'architecture neuronale (NAS) et à une distillation intensive des connaissances signifie que l'entraînement d'un modèle personnalisé nécessite souvent d'importantes GPU et des connaissances spécialisées. Ce processus en plusieurs étapes, qui consiste à entraîner un modèle enseignant massif pour le distiller dans un modèle élève plus petit, peut constituer un goulot d'étranglement pour les équipes d'ingénieurs agiles qui tentent d'itérer rapidement sur des ensembles de données personnalisés.

Ultralytics simplifiée

Inversement, Ultralytics YOLO26 est conçu pour une convivialité "du débutant à l'expert". L'ensemble du cycle de vie d'entraînement, de validation et de déploiement est abstrait derrière une API Python et une CLI propres et unifiées. De plus, YOLO26 nécessite significativement moins de mémoire CUDA pendant l'entraînement par rapport aux modèles basés sur des transformeurs comme RT-DETR, permettant aux chercheurs d'entraîner des modèles de pointe sur du matériel grand public.

Voici un exemple illustrant la simplicité avec laquelle il est possible de former, d'évaluer et d'exporter un modèle YOLO26 à l'aide du Ultralytics :

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

Pour les équipes qui préfèrent un environnement sans code, Ultralytics offre une interface intuitive pour l'annotation des ensembles de données, la formation dans le cloud et le déploiement transparent.

Applications concrètes

Le choix de la bonne architecture dépend fortement de l'environnement de déploiement cible et des contraintes matérielles.

Contrôle qualité industriel

Pour l'automatisation de la fabrication à grande vitesse, YOLO peut fonctionner efficacement sur GPU dédié. Cependant, YOLO26 est le choix privilégié pour les chaînes de montage modernes. Sa conception de bout en bout NMS garantit une latence déterministe et sans gigue, ce qui est essentiel pour synchroniser les données visuelles avec les actionneurs robotiques en temps réel.

IA en périphérie et appareils mobiles

Le déploiement de la vision par ordinateur sur des appareils alimentés par batterie exige une efficacité extrême. Alors que DAMO-YOLO s'appuie sur des têtes RepGFPN spécifiques, YOLO26n (Nano) est spécifiquement optimisé pour l'informatique en périphérie. Sa suppression du DFL et une inférence CPU 43% plus rapide en font la solution ultime pour les caméras intelligentes, les applications mobiles et les systèmes d'alarme de sécurité.

Exigences relatives aux projets multimodaux

Si un projet exige plus que la simple détection d'objets, comme l'analyse des mouvements des joueurs dans le sport à l'aide de l'estimation de la pose ou l'extraction des limites exactes des pixels à l'aide de la segmentation d'instance,YOLO26 offre une prise en charge native de toutes ces tâches dans une base de code unique et unifiée.YOLO strictement limité à la détection des cadres de sélection.

Cas d'utilisation et recommandations

Le choix entre DAMO-YOLO et YOLO26 dépend de vos exigences spécifiques de projet, de vos contraintes de déploiement et de vos préférences d'écosystème.

Quand choisir DAMO-YOLO

DAMO-YOLO est un excellent choix pour :

  • Analyse vidéo à haut débit : Traitement de flux vidéo à haut FPS sur une infrastructure GPU NVIDIA fixe où le débit par lot de 1 est la métrique principale.
  • Lignes de Fabrication Industrielles : Scénarios avec des contraintes strictes de latence GPU sur du matériel dédié, telles que l'inspection qualité en temps réel sur les lignes d'assemblage.
  • Recherche sur la recherche d'architecture neuronale : Étude des effets de la recherche d'architecture automatisée (MAE-NAS) et des backbones reparamétrés efficaces sur les performances de détection.

Quand choisir YOLO26

YOLO26 est recommandé pour :

  • Déploiement Edge sans NMS : Applications nécessitant une inférence cohérente et à faible latence, sans la complexité du post-traitement de la Non-Maximum Suppression.
  • Environnements uniquement CPU : Les appareils sans accélération GPU dédiée, où l'inférence CPU de YOLO26, jusqu'à 43 % plus rapide, offre un avantage décisif.
  • Détection de petits objets: Scénarios difficiles comme l'imagerie aérienne par drone ou l'analyse de capteurs IoT où ProgLoss et STAL augmentent significativement la précision sur les objets minuscules.

Conclusion

Les deux architectures représentent des avancées significatives dans le domaine de l'apprentissage profond. DAMO-YOLO offre un aperçu fascinant de la puissance de la recherche d'architecture neuronale et des techniques de distillation adaptées à des benchmarks matériels spécifiques.

Cependant, pour les développeurs, les chercheurs et les entreprises à la recherche d'une solution prête à l'emploi, Ultralytics s'impose comme le choix idéal. Sa conception de bout en bout NMS, ses gains considérables CPU , sa polyvalence multimodale et son intégration dans Ultralytics bien entretenu en font l'outil le plus robuste et le plus pratique pour résoudre les défis actuels de la vision par ordinateur dans le monde réel.

Pour les utilisateurs souhaitant découvrir d'autres modèles au sein de Ultralytics , une documentation complète est disponible pour YOLO11, YOLOv8et le modèle basé sur un transformateur RT-DETR.


Commentaires