YOLOX vs DAMO-YOLO: confronto tra rilevatori di oggetti anchor-free e basati su NAS

L'evoluzione del rilevamento di oggetti in tempo reale ha visto numerosi cambiamenti di paradigma, dalle architetture anchor-based a quelle anchor-free, e dai backbone progettati manualmente alla ricerca automatizzata dell'architettura neurale (NAS). In questo confronto tecnico completo, analizzeremo due traguardi significativi in questo percorso: YOLOX e DAMO-YOLO. Esploreremo le loro innovazioni architettoniche, le metodologie di addestramento e i compromessi sulle prestazioni, evidenziando al contempo come il moderno Ultralytics YOLO26 offra un'alternativa impareggiabile per gli sviluppatori moderni.

YOLOX: pioniere del paradigma senza ancoraggi

Pubblicato il 18 luglio 2021 da Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun presso Megvii, YOLOX ha segnato un punto di svolta critico integrando con successo un design anchor-free nella famiglia YOLO. Descritto nel loro dettagliato rapporto tecnico su ArXiv, YOLOX mirava a colmare il divario tra la ricerca accademica e l'implementazione industriale.

Principali innovazioni architettoniche

YOLOX ha introdotto diversi cambiamenti strutturali fondamentali che hanno notevolmente migliorato i suoi predecessori:

  • Meccanismo Anchor-Free: Predicendo direttamente il centro di un oggetto e le dimensioni del suo riquadro di delimitazione, YOLOX ha ridotto il numero di euristiche di progettazione e semplificato i complessi processi di clustering degli anchor. Ciò lo rende altamente adattabile a svariati scenari di computer vision.
  • Decoupled Head (Head disaccoppiata): I modelli YOLO tradizionali utilizzavano una singola head accoppiata sia per la classificazione che per la regressione. YOLOX ha implementato una head disaccoppiata, elaborando classificazione e localizzazione separatamente, il che ha permesso una convergenza molto più rapida e una maggiore precisione.
  • Assegnazione delle etichette SimOTA: Una versione semplificata dell'Optimal Transport Assignment (OTA) è stata utilizzata per assegnare dinamicamente i campioni positivi, riducendo i tempi di addestramento e superando le ambiguità delle assegnazioni basate sul punto centrale.
L'eredità di YOLOX

Il design della head disaccoppiata di YOLOX ha influenzato pesantemente le generazioni successive di rilevatori di oggetti, diventando una caratteristica standard in molti modelli moderni.

Scopri di più su YOLOX

DAMO-YOLO: Ricerca dell'architettura automatizzata su larga scala

Sviluppato da Xianzhe Xu e da un team di ricercatori presso Alibaba Group, DAMO-YOLO è stato introdotto il 23 novembre 2022. Come dettagliato nella loro pubblicazione su ArXiv, il modello ha utilizzato intensamente la Neural Architecture Search (NAS) per spingere la frontiera di Pareto di velocità e precisione.

Principali innovazioni architettoniche

La strategia di DAMO-YOLO si basa sull'automazione della progettazione di strutture efficienti:

  • Backbone MAE-NAS: Utilizzando un algoritmo evolutivo multi-obiettivo, DAMO-YOLO ha scoperto backbone altamente efficienti personalizzati per specifici budget di latenza, in particolare quando esportati in framework come TensorRT.
  • Efficient RepGFPN: Un design heavy-neck che migliora significativamente la fusione delle feature tra diverse risoluzioni spaziali, il che è estremamente vantaggioso per l'analisi di immagini aeree e per il rilevamento di oggetti a varie scale.
  • ZeroHead: Una head di predizione semplificata che riduce la ridondanza computazionale senza sacrificare la mean Average Precision (mAP) complessiva del modello.
  • AlignedOTA e Distillazione: Incorpora un'assegnazione avanzata delle etichette e una distillazione della conoscenza teacher-student per ottenere le massime prestazioni da modelli student più piccoli.

Scopri di più su DAMO-YOLO

Confronto tra prestazioni e metriche

Nel confrontare questi due modelli, dobbiamo considerare il conteggio dei parametri, i FLOP richiesti e i profili di latenza. Di seguito sono riportati i dati di benchmark che confrontano YOLOX e DAMO-YOLO su più scale.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Sebbene entrambi i modelli raggiungano risultati impressionanti, presentano delle limitazioni. YOLOX richiede un'attenta calibrazione della sua head disaccoppiata, mentre l'eccessivo affidamento di DAMO-YOLO sulla distillazione rende il riaddestramento su dataset personalizzati altamente intensivo in termini di risorse, richiedendo enormi quantità di memoria GPU.

Casi d'uso e raccomandazioni

La scelta tra YOLOX e DAMO-YOLO dipende dai requisiti specifici del tuo progetto, dai vincoli di distribuzione e dalle preferenze di ecosistema.

Quando scegliere YOLOX

YOLOX è una scelta solida per:

  • Ricerca sul rilevamento anchor-free: Ricerca accademica che utilizza l'architettura pulita e anchor-free di YOLOX come base per sperimentare nuove teste di rilevamento o funzioni di perdita.
  • Dispositivi edge ultraleggeri: Distribuzione su microcontrollori o hardware mobile legacy dove l'impronta estremamente piccola della variante YOLOX-Nano (0.91M parametri) è critica.
  • Studi sull'assegnazione delle etichette SimOTA: Progetti di ricerca che studiano strategie di assegnazione delle etichette basate sul trasporto ottimale e il loro impatto sulla convergenza dell'addestramento.

Quando scegliere DAMO-YOLO

DAMO-YOLO è consigliato per:

  • Analisi video ad alto throughput: elaborazione di flussi video ad alto FPS su infrastrutture GPU NVIDIA fisse dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione della qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: studio degli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e dei backbone riparametrizzati efficienti sulle prestazioni di rilevamento.

Quando scegliere Ultralytics (YOLO26)

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza di sviluppo:

  • Deployment Edge senza NMS: Applicazioni che richiedono un'inferenza coerente e a bassa latenza senza la complessità della post-elaborazione con Non-Maximum Suppression.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza su CPU di YOLO26, fino al 43% più veloce, offre un vantaggio decisivo.
  • Rilevamento di piccoli oggetti: Scenari complessi come immagini di droni aerei o analisi tramite sensori IoT dove ProgLoss e STAL migliorano significativamente l'accuratezza su oggetti minuscoli.

Il vantaggio di Ultralytics: ti presentiamo YOLO26

Mentre YOLOX e DAMO-YOLO rappresentano importanti traguardi storici, gli sviluppatori moderni necessitano di una soluzione che unisca precisione all'avanguardia e una facilità d'uso impareggiabile. È qui che Ultralytics YOLO26 trasforma il panorama. Rilasciato nel gennaio 2026, YOLO26 si basa sull'eredità dei modelli NMS-free per offrire l'equilibrio definitivo tra velocità, precisione ed esperienza di sviluppo.

Perché scegliere YOLO26?

L'ecosistema integrato di Ultralytics supera i repository accademici frammentati offrendo:

  • Design End-to-End NMS-Free: YOLO26 elimina nativamente la Non-Maximum Suppression (NMS) durante l'inferenza. Ciò si traduce in una latenza incredibilmente veloce e prevedibile, fondamentale per le distribuzioni edge e i veicoli autonomi.
  • Rimozione della DFL: Rimuovendo la Distribution Focal Loss, YOLO26 semplifica i processi di esportazione verso i dispositivi edge, riducendo drasticamente i requisiti di memoria per le applicazioni leggere.
  • Ottimizzatore MuSGD: YOLO26 prende in prestito le innovazioni nell'addestramento dei LLM con il suo ottimizzatore ibrido SGD e Muon, garantendo una stabilità di addestramento solida e una convergenza ultra-veloce.
  • Inferenza su CPU fino al 43% più veloce: Grazie a profonde ottimizzazioni strutturali, YOLO26 viene eseguito in modo fulmineo sulle CPU senza la necessità di costosi hardware GPU.
  • Funzioni di Loss avanzate: L'integrazione di ProgLoss + STAL offre miglioramenti massicci nel riconoscimento di oggetti piccoli, rendendolo ideale per attività come ispezioni con droni e monitoraggio IoT.
  • Versatilità: A differenza di DAMO-YOLO, che è strettamente un rilevatore, YOLO26 supporta nativamente Instance Segmentation, Pose Estimation, Image Classification e Oriented Bounding Box (OBB) in un unico framework unificato.
Inizia subito a costruire

Con l'Ultralytics Python API, non hai bisogno di configurare manualmente complessi pipeline di distillazione o scrivere centinaia di righe di codice C++ per distribuire il tuo modello.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Scopri di più su YOLO26

Altri modelli da considerare

L'ecosistema della computer vision è vasto. A seconda dei tuoi vincoli specifici, potresti anche voler esplorare altre architetture pienamente supportate dall'ecosistema Ultralytics:

  • YOLO11: Il predecessore altamente capace di YOLO26, noto per la sua robustezza nell'analisi della vendita al dettaglio e nel controllo qualità manifatturiero.
  • YOLOv8: Un modello leggendario, altamente stabile e anchor-free che ha reso popolare la distribuzione edge su larga scala.
  • RT-DETR: Un Real-Time DEtection TRansformer sviluppato da Baidu, che offre un'eccellente alternativa per le attività che beneficiano notevolmente dei meccanismi di attenzione globale, sebbene a costo di requisiti di memoria di addestramento più elevati.

Conclusione

Sia YOLOX che DAMO-YOLO hanno contribuito con concetti vitali al progresso del deep learning: YOLOX ha convalidato l'approccio disaccoppiato e anchor-free, mentre DAMO-YOLO ha dimostrato la potenza della ricerca automatizzata dell'architettura. Tuttavia, per la produzione nel mondo reale, la complessità delle loro codebase di ricerca originale può rallentare i team agili.

Sfruttando la completa piattaforma Ultralytics, gli sviluppatori possono superare questi ostacoli. Con il design end-to-end di YOLO26, le velocità superiori della CPU e l'ampia documentazione, ottenere un'IA di visione all'avanguardia è più accessibile che mai. Che tu stia costruendo infrastrutture per città intelligenti, diagnostica sanitaria o robotica avanzata, Ultralytics fornisce il percorso più efficiente dai dati grezzi alla distribuzione reale e robusta.

Commenti