Vai al contenuto

YOLOX vs. YOLO26: l'evoluzione dal rilevamento di oggetti senza ancoraggio al rilevamento end-to-end

Il campo della visione artificiale ha subito una rapida trasformazione nell'ultimo quinquennio, passando da architetture complesse basate su anchor a progetti semplificati senza anchor, per arrivare infine a sistemi nativamente end-to-end. Questo confronto approfondisce le differenze tecniche tra YOLOX, un modello fondamentale senza anchor rilasciato nel 2021, e YOLO26, il rilevatore end-to-end all'avanguardia (SOTA) lanciato da Ultralytics 2026.

Mentre YOLOX ha fissato standard elevati in termini di ricerca e prestazioni nel suo tempo, YOLO26 introduce ottimizzazioni rivoluzionarie come l'inferenzaNMS e l'ottimizzatore MuSGD, rendendolo la scelta ideale per i moderni ambienti di produzione che richiedono bassa latenza e alta precisione.

YOLOX: Il Pioniere Anchor-Free

Rilasciato nel luglio 2021 dai ricercatori di Megvii, YOLOX ha segnato un significativo allontanamento dalla logica basata sugli anchor che dominava YOLO precedenti YOLO (come YOLOv4 e YOLOv5). Eliminando gli anchor box, gli autori hanno mirato a semplificare il processo di progettazione e a ridurre il carico di ottimizzazione degli iperparametri associato al clustering degli anchor.

Caratteristiche tecniche principali:

  • Meccanismo senza ancoraggi: elimina la necessità di caselle di ancoraggio predefinite, trattando il rilevamento degli oggetti come un problema di regressione puntuale.
  • Testa disaccoppiata: separa le attività di classificazione e localizzazione in diversi rami della testa della rete, contribuendo a migliorare la velocità e la precisione di convergenza.
  • SimOTA: una strategia avanzata di assegnazione delle etichette denominata Simplified Optimal Transport Assignment (Assegnazione ottimale semplificata del trasporto) che assegna dinamicamente campioni positivi alle verità di base.

Sebbene innovativo, YOLOX si basa sulla tradizionale soppressione non massima (NMS) per la post-elaborazione. Questo passaggio rimuove i riquadri di delimitazione duplicati, ma introduce variabilità di latenza e sovraccarico computazionale, che possono rappresentare un collo di bottiglia nelle applicazioni rigorosamente in tempo reale.

Dettagli del modello:

  • Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
  • Organizzazione: Megvii
  • Data: 2021-07-18
  • Link:YOLOX Arxiv | YOLOX GitHub

Scopri di più su YOLOX

YOLO26: lo standard end-to-end

Lanciato nel gennaio 2026 da Ultralytics, YOLO26 rappresenta il massimo dell'efficienza nella visione artificiale. Abbandona completamente la tradizionale pipeline NMS , adottando un design nativo end-to-end NMS. Questa architettura consente al modello di produrre direttamente l'insieme finale di oggetti rilevati, riducendo significativamente la latenza e semplificando la logica di implementazione.

Caratteristiche tecniche principali:

  • ArchitetturaNMS: elimina il costo computazionale dell'ordinamento e del filtraggio di migliaia di riquadri candidati, garantendo tempi di inferenza stabili e prevedibili.
  • MuSGD Optimizer: un ottimizzatore ibrido che combina SGD Muon (ispirato alle innovazioni nella formazione dei modelli linguistici di grandi dimensioni come Kimi K2 di Moonshot AI). Ciò garantisce dinamiche di formazione più stabili e una convergenza più rapida.
  • Rimozione DFL: la rimozione della perdita focale di distribuzione (DFL) semplifica la testa del modello, rendendola più compatibile con i dispositivi edge e gli strumenti di quantizzazione.
  • ProgLoss + STAL: funzioni di perdita avanzate (Programmatic Loss e Scale-Theoretic Alignment Loss) che migliorano notevolmente il riconoscimento di oggetti di piccole dimensioni, una capacità fondamentale per le immagini riprese dai droni e le ispezioni industriali.

Dettagli del modello:

Scopri di più su YOLO26

Perché l'approccio End-to-End è Importante

I modelli legacy come YOLOX generano migliaia di riquadri ridondanti che devono essere filtrati utilizzando la soppressione non massima (NMS). Questo processo richiede CPU ed è difficile da ottimizzare su acceleratori hardware come TPU o NPU. Il design end-to-end di YOLO26 elimina questo passaggio, consentendo alla rete neurale di fornire direttamente la risposta finale. Ciò consente un'inferenza fino al 43% più veloce sulle CPU rispetto alle generazioni precedenti.

Confronto delle prestazioni

La tabella seguente evidenzia il divario prestazionale tra le due architetture. YOLO26 dimostra una precisione (mAP) e un'efficienza superiori, in particolare nelle varianti Nano e Small utilizzate per le applicazioni di IA edge.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

Nota: le velocità di YOLOX sono generalmente più lente su hardware moderni a causa NMS , mentre le metriche YOLO26 includono tutto il tempo di post-elaborazione.

Analisi Approfondita dell'Architettura

Colonna vertebrale e testa

YOLOX utilizza una struttura CSPDarknet modificata con particolare attenzione al disaccoppiamento della testa di rilevamento. Sebbene efficace, questo disaccoppiamento aumenta significativamente il numero di parametri rispetto ai modelli precedenti con testa condivisa.

Al contrario, YOLO26 utilizza una struttura di base altamente ottimizzata progettata tramite concetti di Neural Architecture Search (NAS). La sua struttura principale è stata semplificata rimuovendo il DFL, il che non solo riduce le dimensioni del modello, ma si allinea perfettamente con gli acceleratori hardware che faticano con livelli di output complessi. Ciò rende l'esportazione in TensorRT o ONNX .

Funzioni di Loss e Addestramento

YOLOX ha introdotto SimOTA per risolvere dinamicamente il problema dell'assegnazione delle etichette. Tuttavia, si basa ancora su funzioni di perdita standard. YOLO26 migliora questo aspetto incorporando ProgLoss (Programmatic Loss) e STAL (Scale-Theoretic Alignment Loss). Queste perdite regolano dinamicamente la penalità per gli errori del bounding box in base alle dimensioni dell'oggetto e alla fase di addestramento, affrontando la storica debolezza dei YOLO nel rilevare oggetti piccoli come pedoni distanti o difetti di fabbricazione.

Inoltre, l'ottimizzatore MuSGD in YOLO26 introduce tecniche di stabilità dal mondo LLM nella visione. Normalizzando gli aggiornamenti tra i livelli in modo più efficace rispetto SGD standard, YOLO26 raggiunge una maggiore precisione con un minor numero di epoche di addestramento.

Casi d'uso ideali

Quando utilizzare YOLOX

YOLOX rimane un prezioso punto di riferimento nel mondo accademico.

  • Linee guida per la ricerca: la sua struttura chiara e priva di elementi di riferimento lo rende un ottimo punto di partenza per i ricercatori che studiano le strategie di assegnazione delle etichette.
  • Progetti legacy: i sistemi già fortemente integrati con MegEngine o fork specifici di YOLOX potrebbero trovare costosa una migrazione immediata.

Quando usare YOLO26

YOLO26 è la scelta consigliata per praticamente tutte le nuove applicazioni commerciali e industriali.

  • Edge Computing: con CPU fino al 43% più veloce, YOLO26 è ideale per Raspberry Pi, Jetson Nano e dispositivi mobili in cui le GPU non sono disponibili.
  • Robotica e sistemi autonomi: il designNMS elimina i picchi di latenza causati da scene disordinate (ad esempio, un robot che naviga in un magazzino affollato), garantendo tempi di risposta deterministici.
  • Ispezione ad alta precisione: la combinazione ProgLoss + STAL rende YOLO26 superiore per le attività di controllo qualità che coinvolgono difetti minimi.
  • Applicazioni multi-task: a differenza di YOLOX, che è principalmente un rilevatore, Ultralytics supporta YOLO26 per la segmentazione delle istanze, la stima della posa e i riquadri di delimitazione orientati (OBB).

Il vantaggio di Ultralytics

Scegliere YOLO26 significa anche avere accesso alla completa Ultralytics . Mentre YOLOX fornisce un repository autonomo, Ultralytics un framework unificato che semplifica l'intero ciclo di vita dell'IA.

  1. Facilità d'uso: Python coerente consente di passare da un'attività (detect, segment, posa) all'altra e da un modello (YOLO26, YOLO11, RT-DETR) modificando una sola riga di codice.
  2. Efficienza dell'addestramento: Ultralytics sono ottimizzati per l'efficienza della memoria durante l'addestramento. È possibile addestrare batch più grandi su GPU consumer rispetto alle architetture precedenti o ai trasformatori pesanti.
  3. Ultralytics : la Ultralytics offre un'interfaccia web per la gestione dei set di dati, l'annotazione automatica e l'addestramento dei modelli con un solo clic, semplificando la collaborazione tra i team.
  4. Ecosistema ben curato: grazie agli aggiornamenti frequenti, alla documentazione completa e al supporto attivo della community, gli sviluppatori non sono mai lasciati soli nel debug.

Esempio di codice

L'esecuzione di YOLO26 è semplice utilizzando il ultralytics pacchetto. L'esempio seguente mostra come caricare un modello pre-addestrato ed eseguire l'inferenza su un'immagine.

from ultralytics import YOLO

# Load the YOLO26 Nano model (highly efficient for CPU)
model = YOLO("yolo26n.pt")

# Perform object detection on an image
# The model handles preprocessing and post-processing internally
results = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

# Display the results
for result in results:
    result.show()  # Show image in a window

    # Print boxes to console
    for box in result.boxes:
        print(f"Class: {box.cls}, Confidence: {box.conf}, Coordinates: {box.xywh}")

Conclusione

Sia YOLOX che YOLO26 rappresentano pietre miliari significative nella storia del rilevamento degli oggetti. YOLOX ha sfidato con successo il paradigma basato sull'ancoraggio nel 2021, dimostrando che i modelli senza ancoraggio potevano raggiungere prestazioni di alto livello. Tuttavia, YOLO26 ridefinisce lo standard per il 2026 risolvendo il problema dell'"ultimo miglio" dell'inferenza: il NMS .

Con la sua architettura end-to-end, l'ottimizzatore MuSGD e le funzioni di perdita specializzate, YOLO26 offre un equilibrio senza pari tra velocità, precisione e facilità d'uso. Per gli sviluppatori che desiderano implementare soluzioni di visione artificiale robuste, sia su potenti server cloud che su dispositivi edge con risorse limitate,YOLO26 è la scelta definitiva.

Per chi fosse interessato ad approfondire altre architetture moderne, consigliamo di consultare YOLO11 per il rilevamento generico o RT-DETR per applicazioni basate su trasformatori.


Commenti