YOLO26 vs. DAMO-YOLO: L'avanzamento del rilevamento di oggetti in tempo reale
Nel panorama in rapida evoluzione della visione artificiale, la selezione del modello di rilevamento oggetti più adatto è fondamentale per bilanciare accuratezza, velocità e fattibilità di implementazione. Questo confronto esplora YOLO26, l'ultima offerta ottimizzata per l'edge di Ultralytics, e DAMO-YOLO, un rilevatore ad alte prestazioni sviluppato da Alibaba Group. Entrambi i modelli introducono significative innovazioni architettoniche, ma mirano a priorità leggermente diverse nella pipeline di implementazione.
Panoramica del modello
Ultralytics YOLO26
YOLO26 rappresenta un cambio di paradigma verso la semplicità e l'efficienza edge. Rilasciato a gennaio 2026, è progettato per eliminare le complessità della post-elaborazione tradizionale, offrendo al contempo prestazioni all'avanguardia su dispositivi con limitazioni di CPU. Supporta nativamente un'ampia gamma di attività, tra cui object detection, instance segmentation, pose estimation, classification e oriented bounding box (OBB) detection.
- Autori: Glenn Jocher e Jing Qiu
- Organizzazione:Ultralytics
- Data: 14 gennaio 2026
- GitHub:Repository di Ultralytics
DAMO-YOLO
DAMO-YOLO si concentra sull'ottimizzazione del compromesso tra velocità e accuratezza attraverso una ricerca avanzata dell'architettura neurale (NAS) e una pesante ri-parametrizzazione. Sviluppato dal team TinyVision di Alibaba, introduce componenti innovativi come RepGFPN e ZeroHead per massimizzare l'efficienza dell'estrazione delle feature, mirando principalmente a scenari GPU di uso generale.
- Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
- Organizzazione: Alibaba Group
- Data: 23 novembre 2022
- Arxiv:DAMO-YOLO Paper
- GitHub:Repository DAMO-YOLO
Confronto dell'Architettura Tecnica
End-to-End vs. NMS Tradizionale
La differenza operativa più significativa risiede nel modo in cui le predizioni vengono finalizzate.
YOLO26 utilizza un design nativamente end-to-end NMS-free. Generando le predizioni finali direttamente dalla rete, elimina la necessità della Non-Maximum Suppression (NMS). Questa rimozione della post-elaborazione riduce la variabilità della latenza e semplifica le pipeline di implementazione, specialmente su hardware edge come Raspberry Pi o dispositivi mobili dove le operazioni NMS possono rappresentare un collo di bottiglia. Questo approccio è stato introdotto con successo in YOLOv10 e qui perfezionato.
DAMO-YOLO si basa su una testa di predizione densa più tradizionale (ZeroHead) che richiede NMS per filtrare le box sovrapposte. Sebbene efficace, ciò aggiunge un passaggio computazionale durante l'inferenza che scala con il numero di oggetti detect, introducendo potenzialmente jitter di latenza in scene affollate.
Innovazione nell'addestramento: MuSGD vs. NAS
YOLO26 introduce l'Ottimizzatore MuSGD, un ibrido di SGD e Muon. Ispirato alle scoperte nell'addestramento LLM come Kimi K2 di Moonshot AI, questo ottimizzatore fornisce dinamiche di addestramento più stabili e una convergenza più rapida, consentendo agli utenti di raggiungere prestazioni ottimali con meno epoche.
DAMO-YOLO sfrutta la Neural Architecture Search (NAS) tramite il suo metodo MAE-NAS per scoprire automaticamente strutture backbone efficienti. Impiega anche l'Efficient RepGFPN, un collo di ri-parametrizzazione pesante che fonde le feature a scale multiple. Sebbene potenti, queste architetture derivate da NAS possono talvolta essere meno intuitive da modificare o ottimizzare rispetto ai blocchi snelli e realizzati manualmente nei modelli Ultralytics.
Funzioni di Loss
YOLO26 rimuove la Distribution Focal Loss (DFL) per semplificare l'esportabilità a formati come CoreML e TensorRT. Invece, utilizza ProgLoss e Small-Target-Aware Label Assignment (STAL), che aumentano significativamente le prestazioni sugli oggetti piccoli—un punto dolente comune in settori come l'imaging aereo e l'analisi medica.
DAMO-YOLO utilizza AlignedOTA, una strategia di assegnazione delle etichette che risolve il disallineamento tra i compiti di classificazione e regressione. Si concentra sull'assicurare che gli anchor di alta qualità siano assegnati alle ground truth più rilevanti durante l'addestramento.
Ottimizzazione Edge in YOLO26
Rimuovendo DFL e NMS, YOLO26 raggiunge un'inferenza CPU fino al 43% più veloce rispetto alle generazioni precedenti. Questo lo rende particolarmente adatto per applicazioni di "Edge AI" dove le risorse GPU non sono disponibili, come la gestione intelligente dei parcheggi su dispositivo.
Metriche di performance
La tabella seguente evidenzia le differenze di prestazioni. YOLO26 dimostra un'efficienza superiore, in particolare nel numero di parametri e FLOPs, pur mantenendo un'accuratezza competitiva o superiore.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
Punti chiave
- Efficienza: YOLO26n (Nano) è circa 3.5 volte più piccolo in termini di parametri e 3.3 volte inferiore in FLOPs rispetto a DAMO-YOLOt, pur raggiungendo un'accuratezza comparabile. Questa drastica riduzione del peso computazionale rende YOLO26 significativamente migliore per il deployment su dispositivi mobili e IoT.
- Scalabilità dell'Accuratezza: Man mano che i modelli si espandono, YOLO26m supera DAMO-YOLOm di quasi 4.0 mAP utilizzando meno parametri (20.4M vs 28.2M).
- Velocità: YOLO26 offre costantemente tempi di inferenza più rapidi su GPU T4 a tutte le scale, un aspetto cruciale per applicazioni ad alta produttività come l'analisi video.
Usabilità ed ecosistema
Semplicità e Documentazione
Una delle caratteristiche distintive dei Ultralytics modelli è la facilità d'uso. YOLO26 è integrato nel ultralytics pacchetto python, consentendo agli utenti di addestrare, validare e deployare modelli con poche righe di codice.
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
Al contrario, DAMO-YOLO è un repository orientato alla ricerca. Sebbene fornisca script per l'addestramento e l'inferenza, manca dell'API unificata, delle guide estese e dell'ampio supporto OS (Windows, Linux, macOS) che l'ecosistema Ultralytics offre.
Deployment ed Esportazione
YOLO26 supporta l'esportazione con un clic in oltre 10 formati, inclusi ONNX, OpenVINO, CoreML e TFLite. Questa flessibilità è vitale per gli ingegneri che passano dalla ricerca alla produzione. La rimozione di moduli complessi come DFL assicura che queste esportazioni siano robuste e compatibili con una più ampia gamma di acceleratori hardware.
DAMO-YOLO si basa su specifici passaggi di riparametrizzazione che devono essere gestiti con attenzione durante l'esportazione. Se non "commutato" correttamente dalla modalità di addestramento alla modalità di deployment, le prestazioni del modello possono degradare o non funzionare, aggiungendo un livello di complessità per l'utente.
Casi d'uso reali
Scenari Ideali per YOLO26
- Dispositivi Edge e IoT: Grazie al suo ingombro minimo di memoria (a partire da 2.4M parametri), YOLO26 è perfetto per telecamere di sicurezza e droni dove potenza e RAM sono limitate.
- Analisi Sportiva in Tempo Reale: Il design NMS-free garantisce una latenza consistente, il che è fondamentale per il track di oggetti in rapido movimento in applicazioni sportive.
- Sistemi Multitasking: Poiché YOLO26 supporta nativamente segmentation, pose e obb, è la scelta ideale per pipeline complesse come la manipolazione robotica che richiedono orientamento e punti di presa.
Scenari ideali per DAMO-YOLO
- Ricerca Accademica: Il suo utilizzo di NAS e tecniche avanzate di distillazione lo rende un forte candidato per i ricercatori che studiano metodologie di ricerca di architetture.
- Server GPU di Fascia Alta: Negli scenari in cui i vincoli hardware sono inesistenti e ogni frazione di accuratezza conta su benchmark specifici, il backbone pesante di DAMO-YOLO può essere sfruttato efficacemente.
Conclusione
Mentre DAMO-YOLO ha introdotto concetti impressionanti nella ricerca di architetture e nella riparametrizzazione già nel 2022, YOLO26 rappresenta lo stato dell'arte per il 2026. Concentrandosi sulla semplicità end-to-end, rimuovendo colli di bottiglia come NMS e DFL, e riducendo drasticamente il numero di parametri, YOLO26 offre una soluzione più pratica, veloce e user-friendly per gli sviluppatori AI moderni.
Per gli utenti che cercano di deployare soluzioni di visione artificiale robuste oggi, l'integrazione senza soluzione di continuità con la Piattaforma Ultralytics e l'enorme efficienza performance-per-watt rendono YOLO26 la chiara raccomandazione.
Letture aggiuntive
Per coloro interessati ad altri approcci architetturali, esplorate questi modelli correlati nella documentazione:
- YOLO11 - Lo standard della generazione precedente per versatilità e accuratezza.
- RT-DETR - Un detector in tempo reale basato su transformer che offre anche inferenza NMS-free.
- YOLOv10 - Il pioniere dell'approccio di addestramento end-to-end NMS-free utilizzato in YOLO26.