YOLO26 vs. YOLOX: Evoluzione del rilevamento di oggetti in tempo reale

Il panorama della visione artificiale ha subito una rapida evoluzione negli ultimi cinque anni, passando da architetture complesse basate su anchor a modelli semplificati e ad alte prestazioni. Questo confronto esamina due modelli fondamentali in questa linea temporale: YOLOX, un innovativo rilevatore senza ancoraggio rilasciato nel 2021, e YOLO26, il modello di visione all'avanguardia rilasciato da Ultralytics gennaio 2026. Mentre YOLOX ha aperto la strada a molte decisioni architetturali moderne, YOLO26 rappresenta il culmine di questi progressi, offrendo velocità, precisione e facilità di implementazione superiori.

Panoramica del modello

Ultralytics YOLO26

Rilasciato nel gennaio 2026, YOLO26 è progettato per la prossima generazione di Edge AI. Introduce un'architettura nativa end-to-end (NMS), eliminando la necessità di fasi di post-elaborazione che spesso rallentano l'implementazione. Eliminando la Distribution Focal Loss (DFL) e introducendo l'ottimizzatore MuSGD, ispirato all'addestramento di modelli linguistici di grandi dimensioni, YOLO26 raggiunge velocità CPU fino al 43% più veloci rispetto alle generazioni precedenti, rendendolo la scelta ideale per le applicazioni IoT e la robotica.

Glenn Jocher e Jing Qiu
Ultralytics
14 gennaio 2026
GitHub | Docs

Scopri di più su YOLO26

YOLOX

YOLOX, rilasciato da Megvii nel 2021, è stato uno dei primi rilevatori "senza ancoraggio" ad alte prestazioni a passare a una testa disaccoppiata e all'assegnazione di etichette SimOTA. Ha colmato con successo il divario tra ricerca accademica e applicazione industriale dell'epoca, offrendo un design più pulito rispetto ai suoi predecessori (come YOLOv4 e YOLOv5) grazie alla rimozione delle caselle di ancoraggio e NMS per la stabilità dell'addestramento, sebbene richiedesse ancora NMS l'inferenza.

Zheng Ge, Songtao Liu, et al.
Megvii
18 luglio 2021
ArXiv | GitHub

Confronto tecnico delle prestazioni

La tabella seguente evidenzia le differenze di prestazioni tra i due modelli. YOLO26 mostra miglioramenti significativi sia in termini di accuratezza (mAP) che di efficienza, in particolare in CPU dove la sua architettura è ottimizzata per l'esecuzione a bassa latenza.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Contesto delle prestazioni

Sebbene YOLOXnano abbia parametri e FLOP inferiori, opera a una risoluzione (416px) e una precisione (25,8 mAP) significativamente inferiori rispetto a YOLO26n (40,9 mAP 640px). Se normalizzato per la precisione effettiva, YOLO26 offre una latenza di inferenza di gran lunga superiore.

Innovazioni Architetturali

End-to-End vs. Post-Elaborazione

La differenza più significativa risiede nella pipeline di implementazione. YOLOX è privo di anchor, ma si affida comunque alla Non-Maximum Suppression (NMS) per filtrare i bounding box duplicati. NMS computazionalmente oneroso e difficile da ottimizzare su hardware edge (come FPGA o NPU) perché comporta operazioni di ordinamento e sequenziali.

YOLO26 adotta un design nativamente end-to-end, un concetto introdotto per la prima volta in YOLOv10. Questo design produce il rilevamento finale direttamente dalla rete senza NMS. Ciò si traduce in:

Latenza inferiore: nessun sovraccarico di post-elaborazione.
Latenza deterministica: il tempo di inferenza è costante indipendentemente dalla densità degli oggetti.
Implementazione semplificata: esportazione in ONNX o TensorRT è semplice, poiché non sono necessari NMS personalizzati.

Stabilità dell'addestramento: MuSGD vs. SGD

YOLOX utilizza il metodo standard Stochastic Gradient Descent (SGD) con teste disaccoppiate, che è stato perfezionato per il 2021. Tuttavia, YOLO26 introduce l'ottimizzatore MuSGD, un ibrido tra SGD l'ottimizzatore Muon (ispirato al Kimi K2 di Moonshot AI). Questa innovazione porta le caratteristiche di stabilità dell'addestramento dei modelli linguistici di grandi dimensioni (LLM) nella visione artificiale, consentendo una convergenza più rapida e un'estrazione delle caratteristiche più robusta durante il processo di addestramento.

Funzioni di Loss

YOLOX utilizza IoU e una strategia head disaccoppiata. YOLO26 migliora ulteriormente questo approccio con ProgLoss + STAL (Soft Target Assignment Loss). Questa combinazione affronta in modo specifico la sfida del rilevamento di oggetti di piccole dimensioni, un punto debole tradizionale dei rilevatori a stadio singolo. ProgLoss regola dinamicamente il peso della perdita durante l'addestramento, consentendo al modello di concentrarsi su esempi più difficili (spesso oggetti piccoli o occlusi) man mano che l'addestramento procede.

Ecosistema e facilità d'uso

Una delle differenze fondamentali tra i due framework è l'ecosistema che li circonda.

Il vantaggio di Ultralytics

L'utilizzo di YOLO26 consente di accedere alla Ultralytics , una suite completa di strumenti per la gestione dei dati, l'annotazione e l'addestramento dei modelli.

API unificata: che si tratti di rilevamento di oggetti, segmentazione di istanze, stima della posa o rilevamento di Oriented Bounding Box (OBB), l'API rimane coerente.
Da zero a eroe: puoi passare dall'installazione alla formazione su un set di dati personalizzato in meno di 5 righe di python .
Flessibilità di esportazione: esporta i modelli senza problemi in CoreML, OpenVINO, TFLite e molti altri con un solo comando.

from ultralytics import YOLO

# Load the model
model = YOLO("yolo26n.pt")

# Train on custom data
model.train(data="coco8.yaml", epochs=100)

# Export for deployment
model.export(format="onnx")

Complessità YOLOX

YOLOX è principalmente un repository di ricerca. Sebbene potente, richiede una configurazione manuale più complessa per i set di dati e le pipeline di addestramento. Non supporta nativamente attività al di fuori del rilevamento standard (come la posa o la segmentazione) all'interno dello stesso repository e l'esportazione in formati edge richiede spesso script esterni o strumenti di terze parti (come onnx-simplifier).

Applicazioni nel mondo reale

Retail e Inventario Intelligenti

Per gli ambienti di vendita al dettaglio che richiedono la gestione dell'inventario, YOLO26 è la scelta migliore. L'eliminazione del DFL (Distribution Focal Loss) e l'architettura end-to-end consentono un funzionamento efficiente su CPU ARM a bassa potenza presenti nelle telecamere degli scaffali intelligenti. La maggiore precisione di YOLO26s (48,6 mAP) rispetto a YOLOX-s (40,5 mAP) garantisce una migliore accuratezza delle scorte con un minor numero di falsi negativi.

I droni richiedono l'elaborazione di immagini ad alta risoluzione con una latenza minima. YOLO26 eccelle in questo campo grazie a ProgLoss, che migliora il rilevamento di piccoli oggetti come veicoli lontani o linee elettriche dalle vedute aeree. L'output NMS garantisce che il circuito di controllo del drone riceva dati a una velocità costante, fondamentale per i sistemi anticollisione. Al contrario, l'affidamento di YOLOX NMS causare picchi di latenza in ambienti affollati (ad esempio, sorvolando una foresta o una folla), mettendo potenzialmente a rischio la stabilità del volo.

Robotica industriale

Nella produzione industriale, i bracci robotici utilizzano spesso la visione artificiale per le operazioni di prelievo e posizionamento. L'ecosistema YOLO26 supporta OBB (Oriented Bounding Boxes), che fornisce l'angolo degli oggetti, fondamentale per afferrare oggetti non allineati all'asse. YOLOX richiede modifiche significative per supportare OBB, mentre YOLO26 lo supporta immediatamente.

Conclusione

Mentre YOLOX ha rappresentato una pietra miliare significativa che ha reso popolare il rilevamento senza ancoraggio, YOLO26 rappresenta il futuro della visione artificiale efficiente. Con il suo design end-to-end, il rapporto precisione-latenza superiore e il solido supporto Ultralytics , YOLO26 è la scelta consigliata sia per la ricerca accademica che per l'implementazione commerciale nel 2026.

Per gli sviluppatori che necessitano di compromessi architettonici diversi, YOLO11 offre un'alternativa collaudata, mentre modelli basati su trasformatori come RT-DETR garantiscono un'elevata precisione per gli ambienti GPU.