Vai al contenuto

DAMO-YOLO vs. YOLO26: Un Confronto Tecnico di Object Detector in Tempo Reale

L'evoluzione della rilevazione di oggetti in tempo reale ha visto rapidi progressi, spinta dalla necessità di modelli che bilancino velocità, accuratezza ed efficienza di deployment. Questo articolo fornisce un confronto tecnico completo tra DAMO-YOLO, sviluppato da Alibaba Group, e YOLO26, l'ultima iterazione di Ultralytics. Analizzeremo le loro architetture, le metriche di performance e i casi d'uso ideali per aiutare sviluppatori e ricercatori a scegliere lo strumento giusto per i loro progetti di visione artificiale.

Panoramica su DAMO-YOLO

DAMO-YOLO è un metodo di object detection veloce e accurato introdotto alla fine del 2022 dai ricercatori di Alibaba Group. È stato progettato per spingere i limiti delle prestazioni integrando diverse tecnologie all'avanguardia nel framework YOLO. La filosofia centrale dietro DAMO-YOLO è l'uso della Neural Architecture Search (NAS) per scoprire automaticamente backbone efficienti, combinato con un neck di ri-parametrizzazione pesante.

Le caratteristiche architettoniche principali includono:

  • Backbone MAE-NAS: Utilizzo di un approccio di autoencoder mascherato (MAE) per la ricerca di strutture backbone ottimali sotto diversi vincoli di latenza.
  • RepGFPN Efficiente: Una Generalized Feature Pyramid Network (GFPN) fortemente ottimizzata con ri-parametrizzazione per migliorare l'efficienza della fusione delle feature senza sacrificare la velocità durante l'inferenza.
  • ZeroHead: Un design della head leggero che riduce l'overhead computazionale.
  • AlignedOTA: Una strategia migliorata di assegnazione delle etichette che risolve i problemi di disallineamento tra compiti di classificazione e regressione.
  • Miglioramento della Distillazione: Viene utilizzata una robusta pipeline di distillazione per aumentare l'accuratezza dei modelli più piccoli utilizzando modelli teacher più grandi.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione:Alibaba Group
Data: 23 novembre 2022
Link:Arxiv, GitHub

Scopri di più su DAMO-YOLO

Panoramica di YOLO26

Rilasciato a gennaio 2026 da Ultralytics, YOLO26 rappresenta un significativo passo avanti nella visione artificiale ottimizzata per l'edge. Progettato specificamente per dispositivi edge e a basso consumo, si concentra sulla semplificazione della pipeline di deployment e sul miglioramento dell'accuratezza in compiti impegnativi come il rilevamento di piccoli oggetti.

YOLO26 si distingue per diverse importanti innovazioni:

  • Design End-to-End senza NMS: Eliminando la necessità di post-elaborazione Non-Maximum Suppression (NMS), YOLO26 semplifica la logica di deployment e riduce la variabilità della latenza, un concetto introdotto per la prima volta in YOLOv10.
  • Rimozione di DFL: La rimozione della Distribution Focal Loss (DFL) semplifica la struttura di output del modello, rendendo l'esportazione in formati come ONNX e TensorRT più semplice e compatibile con una più ampia gamma di hardware.
  • Ottimizzatore MuSGD: Un nuovo ottimizzatore ibrido che combina SGD e Muon, ispirato alle tecniche di addestramento LLM di Kimi K2 di Moonshot AI. Ciò porta a dinamiche di addestramento più stabili e a una convergenza più rapida.
  • ProgLoss + STAL: La combinazione di Progressive Loss Balancing e Small-Target-Aware Label Assignment (STAL) migliora significativamente le prestazioni sugli oggetti di piccole dimensioni, affrontando una debolezza comune nei rilevatori in tempo reale.

Autori: Glenn Jocher e Jing Qiu
Organizzazione:Ultralytics
Data: 14 gennaio 2026
Link:Documentazione Ultralytics, GitHub

Scopri di più su YOLO26

Analisi comparativa

Architettura e filosofia di progettazione

La differenza più evidente risiede nella pipeline di inferenza. DAMO-YOLO segue un flusso di lavoro tradizionale per i rilevatori che richiede NMS per filtrare le bounding box sovrapposte. Sebbene efficace, NMS può rappresentare un collo di bottiglia nelle applicazioni ad alta produttività e complica il deployment su alcuni acceleratori.

Al contrario, YOLO26 è nativamente end-to-end. Il modello predice direttamente il set finale di bounding box. Questo design senza NMS non solo riduce la latenza di inferenza—in particolare sui dispositivi edge limitati dalla CPU dove NMS è costoso—ma semplifica anche il codice di integrazione necessario per eseguire il modello in ambienti di produzione.

Semplicità di Deployment

L'architettura senza NMS di YOLO26 significa che non è necessario implementare una logica di post-elaborazione complessa in C++ o CUDA quando si effettua il deployment su dispositivi edge. L'output del modello è il risultato finale del rilevamento.

Metodologie di addestramento

DAMO-YOLO si affida fortemente alla Knowledge Distillation per raggiungere le sue elevate prestazioni, in particolare per le sue varianti più piccole. Ciò aggiunge complessità alla pipeline di addestramento, poiché un potente modello "insegnante" deve essere addestrato per primo.

YOLO26 introduce l'ottimizzatore MuSGD, collegando il divario tra l'ottimizzazione dei Large Language Model (LLM) e la visione artificiale. Ciò consente a YOLO26 di raggiungere una convergenza all'avanguardia senza necessariamente affidarsi a complesse configurazioni di distillazione, sebbene le modalità di addestramento Ultralytics supportino varie configurazioni avanzate. Inoltre, ProgLoss di YOLO26 regola dinamicamente i pesi della loss durante l'addestramento per stabilizzare il processo di apprendimento.

Metriche di performance

Confrontando le prestazioni sul dataset COCO, entrambi i modelli mostrano risultati impressionanti, ma emergono compromessi distinti riguardo a velocità ed efficienza.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Analisi:

  • Efficienza dei parametri: YOLO26 dimostra un'efficienza dei parametri significativamente migliore. Ad esempio, YOLO26s raggiunge 48.6 mAP con soli 9.5M parametri, mentre DAMO-YOLOs raggiunge 46.0 mAP con 16.3M parametri. Questo rende i modelli YOLO26 più leggeri da archiviare e più veloci da caricare.
  • Velocità di Inferenza: YOLO26n è estremamente veloce, registrando 1.7 ms su una GPU T4 con TensorRT, rispetto a circa 2.32 ms per la variante Tiny DAMO. La velocità della CPU di YOLO26 è anche un punto di forza importante, ottimizzata specificamente per dispositivi come Raspberry Pi o telefoni cellulari dove le GPU non sono disponibili.
  • Accuratezza: A scale simili (ad esempio, Media/Grande), YOLO26 supera costantemente DAMO-YOLO in mAP, probabilmente grazie all'avanzata strategia di assegnazione STAL e all'architettura raffinata.

Versatilità e supporto per i task

Mentre DAMO-YOLO è principalmente focalizzato sul rilevamento di oggetti, l'ecosistema Ultralytics assicura che YOLO26 sia una potenza multi-task.

Questa versatilità consente agli sviluppatori di utilizzare un'unica API unificata per diversi problemi di visione artificiale, riducendo la curva di apprendimento e il debito tecnico.

Facilità d'uso ed ecosistema

Uno dei maggiori vantaggi di YOLO26 è l'ecosistema Ultralytics che lo circonda.

DAMO-YOLO fornisce una codebase che i ricercatori possono utilizzare per riprodurre i risultati, ma potrebbe mancare dell'ampia documentazione, della manutenzione e del supporto della community che si trovano in librerie più orientate al prodotto.

YOLO26 beneficia di:

  • API semplice: Un'API python coerente e interfaccia CLI (yolo predict ...) che rende l'addestramento e il deployment accessibili sia ai principianti che agli esperti.
  • Documentazione: Guide complete su tutto, dall'addestramento su dataset personalizzati all'esportazione di modelli per iOS e Android.
  • Integrazioni: Connettività senza interruzioni con strumenti come Comet, Weights & Biases e Roboflow per le operazioni MLOps.
  • Manutenzione: Aggiornamenti frequenti che risolvono bug e introducono nuove funzionalità, garantendo che il modello rimanga rilevante.

Esempio di Codice: Esecuzione di YOLO26

from ultralytics import YOLO

# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

Casi d'uso

Quando scegliere DAMO-YOLO

  • Applicazioni di Ricerca: Se il tuo lavoro implica lo studio della Neural Architecture Search (NAS) o l'esplorazione di nuove tecniche di riparametrizzazione, DAMO-YOLO offre un terreno fertile per la ricerca accademica.
  • Vincoli di Compatibilità Specifici: Se una pipeline esistente è strettamente costruita attorno allo specifico formato di output o alle strategie di assegnazione degli anchor di DAMO-YOLO e il refactoring non è fattibile.

Quando scegliere YOLO26

  • Deployment su Edge: Per applicazioni su Raspberry Pi, dispositivi mobili o sistemi embedded dove la velocità di inferenza della CPU e un basso consumo di memoria sono critici.
  • Sistemi in Tempo Reale: La natura NMS-free rende YOLO26 ideale per requisiti di latenza ultra-bassa nella robotica o nella guida autonoma.
  • Progetti Multi-Task: Se il tuo progetto richiede di detect oggetti, segment maschere e stimare pose simultaneamente, YOLO26 copre tutte le basi con un unico framework.
  • Sviluppo Commerciale: La stabilità, il supporto e la facilità di esportazione in formati come CoreML e OpenVINO lo rendono la scelta superiore per il software di produzione.

Conclusione

Entrambi i modelli rappresentano notevoli risultati nella visione artificiale. DAMO-YOLO ha introdotto concetti impressionanti nella NAS e nella fusione efficiente delle feature. Tuttavia, YOLO26 affina lo stato dell'arte concentrandosi su praticità di deployment, stabilità dell'addestramento e efficienza computazionale. Con il suo design end-to-end NMS-free, l'efficienza dei parametri superiore e il supporto del robusto ecosistema Ultralytics, YOLO26 si distingue come la scelta raccomandata per le moderne applicazioni di visione artificiale in tempo reale.

Per coloro interessati a esplorare altre opzioni all'interno della famiglia Ultralytics, modelli come YOLO11 e YOLOv8 rimangono potenti alternative per compiti di detect generici.


Commenti