Meet YOLO26: next-gen vision AI.

Link to this sectionYOLOX vs DAMO-YOLO#

L'evoluzione del rilevamento oggetti in tempo reale ha visto numerosi cambiamenti di paradigma, da architetture basate su anchor ad altre anchor-free, e da backbone progettati manualmente alla ricerca automatica dell'architettura neurale (NAS). In questo confronto tecnico completo, analizzeremo due traguardi significativi di questo percorso: YOLOX e DAMO-YOLO. Esploreremo le loro innovazioni architettoniche, le metodologie di addestramento e i compromessi nelle prestazioni, evidenziando al contempo come il moderno Ultralytics YOLO26 offra un'alternativa senza pari per gli sviluppatori di oggi.

Link to this sectionYOLOX: Pioniere del paradigma senza anchor#

Rilasciato il 18 luglio 2021 da Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun presso Megvii, YOLOX ha segnato un punto di svolta critico integrando con successo un design anchor-free nella famiglia YOLO. Descritto nel loro dettagliato rapporto tecnico su ArXiv, YOLOX mirava a colmare il divario tra la ricerca accademica e l'implementazione industriale.

Link to this sectionInnovazioni architettoniche chiave#

YOLOX ha introdotto diversi cambiamenti strutturali fondamentali che hanno notevolmente migliorato i suoi predecessori:

  • Meccanismo Anchor-Free: Prevedendo direttamente il centro di un oggetto e le dimensioni del suo riquadro di delimitazione, YOLOX ha ridotto il numero di euristiche di progettazione e semplificato i complessi processi di raggruppamento delle anchor. Questo lo rende altamente adattabile a vari scenari di computer vision.
  • Head disaccoppiata: I modelli YOLO tradizionali utilizzavano una head accoppiata singola sia per la classificazione che per la regressione. YOLOX ha implementato una head disaccoppiata, elaborando classificazione e localizzazione separatamente, il che ha permesso una convergenza molto più rapida e una maggiore precisione.
  • Assegnazione delle etichette SimOTA: Una versione semplificata di Optimal Transport Assignment (OTA) è stata utilizzata per assegnare dinamicamente i campioni positivi, riducendo i tempi di addestramento e superando le ambiguità delle assegnazioni al punto centrale.
L'eredità di YOLOX

Il design della head disaccoppiata di YOLOX ha influenzato pesantemente le generazioni successive di rilevatori di oggetti, diventando una caratteristica standard in molti modelli moderni.

Scopri di più su YOLOX

Link to this sectionDAMO-YOLO: Ricerca automatizzata dell'architettura su larga scala#

Sviluppato da Xianzhe Xu e da un team di ricercatori presso Alibaba Group, DAMO-YOLO è stato introdotto il 23 novembre 2022. Come dettagliato nella loro pubblicazione su ArXiv, il modello ha fatto ampio uso della Neural Architecture Search (NAS) per spingere la frontiera di Pareto tra velocità e precisione.

Link to this sectionInnovazioni architettoniche chiave#

La strategia di DAMO-YOLO si basava sull'automatizzazione della progettazione di strutture efficienti:

  • Backbone MAE-NAS: Utilizzando un algoritmo evolutivo multi-obiettivo, DAMO-YOLO ha scoperto backbone altamente efficienti personalizzati per specifici budget di latenza, in particolare quando esportati su framework come TensorRT.
  • RepGFPN efficiente: Un design a collo pesante che migliora significativamente la fusione delle feature tra diverse risoluzioni spaziali, il che è altamente vantaggioso per l'analisi di immagini aeree e per il rilevamento di oggetti a scale variabili.
  • ZeroHead: Una head di previsione semplificata che riduce la ridondanza computazionale senza sacrificare la mean Average Precision (mAP) complessiva del modello.
  • AlignedOTA e Distillazione: Incorpora un'assegnazione delle etichette avanzata e la distillazione della conoscenza insegnante-studente per ottenere il massimo delle prestazioni da modelli studenti più piccoli.

Scopri di più su DAMO-YOLO

Link to this sectionConfronto tra prestazioni e metriche#

Quando confrontiamo questi due modelli, dobbiamo esaminare i loro conteggi di parametri, i FLOP richiesti e i profili di latenza. Di seguito sono riportati i dati di benchmark che confrontano YOLOX e DAMO-YOLO su più scale.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
params
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Sebbene entrambi i modelli ottengano risultati impressionanti, presentano delle limitazioni. YOLOX richiede un'attenta regolazione della sua head disaccoppiata, mentre la forte dipendenza di DAMO-YOLO dalla distillazione rende il riaddestramento su dataset personalizzati altamente dispendioso in termini di risorse, richiedendo enormi quantità di memoria GPU.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra YOLOX e DAMO-YOLO dipende dai requisiti specifici del tuo progetto, dai vincoli di distribuzione e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere YOLOX#

YOLOX è una scelta solida per:

  • Ricerca sul rilevamento senza anchor: Ricerca accademica che utilizza l'architettura pulita e senza anchor di YOLOX come base per sperimentare nuove head di rilevamento o funzioni di perdita.
  • Dispositivi edge ultraleggeri: Implementazione su microcontrollori o hardware mobile legacy dove l'impronta estremamente ridotta della variante YOLOX-Nano (0.91M di parametri) è critica.
  • Studi sull'assegnazione delle label SimOTA: Progetti di ricerca che studiano le strategie di assegnazione delle label basate sul trasporto ottimale e il loro impatto sulla convergenza dell'addestramento.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è raccomandato per:

  • Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
  • Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
  • Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

  • Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
  • Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionIl vantaggio di Ultralytics: introduzione a YOLO26#

Mentre YOLOX e DAMO-YOLO rappresentano importanti traguardi storici, gli sviluppatori moderni richiedono una soluzione che unisca precisione all'avanguardia e una facilità d'uso senza pari. È qui che Ultralytics YOLO26 trasforma il panorama. Rilasciato nel gennaio 2026, YOLO26 si basa sull'eredità dei modelli NMS-free per offrire il massimo equilibrio tra velocità, precisione ed esperienza per gli sviluppatori.

Link to this sectionPerché scegliere YOLO26?#

L'ecosistema integrato Ultralytics supera i repository accademici frammentati offrendo:

  • Design end-to-end NMS-free: YOLO26 elimina nativamente la Non-Maximum Suppression (NMS) durante l'inferenza. Ciò si traduce in una latenza incredibilmente veloce e prevedibile, fondamentale per le distribuzioni edge e i veicoli autonomi.
  • Rimozione DFL: Rimuovendo la Distribution Focal Loss, YOLO26 semplifica i processi di esportazione verso dispositivi edge, riducendo drasticamente i requisiti di memoria per le applicazioni leggere.
  • Ottimizzatore MuSGD: YOLO26 prende in prestito le innovazioni dell'addestramento LLM con il suo ottimizzatore ibrido SGD e Muon, garantendo una stabilità di addestramento solida come la roccia e una convergenza ultra-veloce.
  • Inferenza CPU fino al 43% più veloce: Grazie a profonde ottimizzazioni strutturali, YOLO26 funziona in modo incredibilmente veloce sulle CPU senza bisogno di costoso hardware GPU.
  • Funzioni di perdita avanzate: L'integrazione di ProgLoss + STAL fornisce miglioramenti massicci nel riconoscimento di oggetti piccoli, rendendolo ideale per attività come ispezioni con droni e monitoraggio IoT.
  • Versatilità: A differenza di DAMO-YOLO, che è strettamente un rilevatore, YOLO26 supporta nativamente attività di Segmentazione di istanze, Stima della posa, Classificazione di immagini e Oriented Bounding Box (OBB) in un framework unico e unificato.
Inizia a costruire istantaneamente

Con l'API Python Ultralytics, non è necessario configurare manualmente complessi pipeline di distillazione o scrivere centinaia di righe di codice C++ per distribuire il tuo modello.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

Scopri di più su YOLO26

Link to this sectionAltri modelli da considerare#

L'ecosistema della computer vision è vasto. A seconda dei tuoi vincoli specifici, potresti anche voler esplorare altre architetture pienamente supportate dall'ecosistema Ultralytics:

  • YOLO11: Il predecessore altamente capace di YOLO26, noto per la sua robustezza nell'analisi della vendita al dettaglio e nel controllo qualità manifatturiero.
  • YOLOv8: Un modello leggendario, altamente stabile e anchor-free che ha reso popolare la distribuzione edge diffusa.
  • RT-DETR: Un Real-Time DEtection TRansformer sviluppato da Baidu, che offre un'eccellente alternativa per le attività che beneficiano pesantemente dei meccanismi di attenzione globale, sebbene a costo di requisiti di memoria di addestramento più elevati.

Link to this sectionConclusione#

Sia YOLOX che DAMO-YOLO hanno contribuito con concetti vitali al progresso del deep learning: YOLOX ha convalidato l'approccio disaccoppiato e anchor-free, e DAMO-YOLO ha dimostrato la potenza della ricerca automatizzata dell'architettura. Tuttavia, per la produzione nel mondo reale, le complessità dei loro codebase di ricerca originali possono rallentare i team agili.

Sfruttando la completa piattaforma Ultralytics, gli sviluppatori possono aggirare questi ostacoli. Con il design end-to-end di YOLO26, velocità CPU superiori e un'ampia documentazione, ottenere un'intelligenza artificiale visiva all'avanguardia è più accessibile che mai. Che tu stia costruendo infrastrutture per città intelligenti, diagnostica sanitaria o robotica avanzata, Ultralytics fornisce il percorso più efficiente dai dati grezzi alla distribuzione robusta nel mondo reale.

Commenti