Vai al contenuto

YOLOX vs. YOLOv5: Confronto approfondito di architettura e prestazioni

La selezione del modello di rilevamento di oggetti corretto è una decisione critica che determina il successo di qualsiasi progetto di computer vision. Questa guida fornisce un confronto tecnico completo tra due modelli cardine nel panorama dell'IA: YOLOX di Megvii e Ultralytics YOLOv5. Analizzando le loro architetture, le metriche di performance e gli ecosistemi di training, miriamo ad aiutare sviluppatori e ricercatori a fare una scelta informata per i loro specifici ambienti di deployment.

Introduzione ai Modelli

Entrambi i modelli sono emersi durante un periodo di rapido avanzamento nel rilevamento di oggetti in tempo reale, eppure hanno adottato filosofie architettoniche diverse per raggiungere le loro prestazioni.

YOLOX: Un approccio anchor-free

Rilasciato dai ricercatori Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun presso Megvii il 18 luglio 2021, YOLOX ha introdotto un cambiamento significativo allontanandosi dalle tradizionali anchor box. Documentato nel loro rapporto tecnico Arxiv, YOLOX ha integrato un design anchor-free con una decoupled head e la strategia di assegnazione delle etichette SimOTA. Questo design mirava a colmare il divario tra ricerca accademica e applicazione industriale, offrendo prestazioni elevate su dataset standard.

Scopri di più su YOLOX

YOLOv5: Lo standard per l'AI di visione di produzione

Sviluppato da Glenn Jocher e rilasciato da Ultralytics il 26 giugno 2020, YOLOv5 è diventato rapidamente lo standard industriale per la visione artificiale implementata. Costruito nativamente sul framework PyTorch, ha democratizzato l'IA all'avanguardia offrendo una facilità d'uso senza pari, un addestramento eccezionalmente veloce e un repository altamente rifinito. L'architettura di YOLOv5 si è concentrata su un equilibrio perfetto tra velocità, precisione e facilità di deployment, rendendolo un preferito per tutto, dai dispositivi edge ai massicci deployment su cloud.

Scopri di più su YOLOv5

Differenze Architetturali

Comprendere le differenze meccaniche fondamentali tra queste reti chiarisce perché si comportano in modo diverso in vari compiti.

Anchor-Free vs. Anchor-Based

Il contrasto più significativo è il meccanismo anchor-free di YOLOX. Modelli tradizionali come YOLOv5 si basano su anchor box predefinite per prevedere i bounding box, il che richiede un'analisi di clustering sul dataset di addestramento per determinare le dimensioni ottimali degli anchor. YOLOX elimina questo, prevedendo le coordinate del bounding box direttamente in ogni posizione spaziale. Mentre l'approccio anchor-free riduce il numero di parametri di progettazione e la sintonizzazione euristica, l'approccio anchor-based raffinato di YOLOv5, aiutato dalla sua funzionalità di auto-anchor, assicura una convergenza di addestramento incredibilmente stabile e prevedibile fin da subito.

Testa disaccoppiata vs. Testa accoppiata

YOLOX impiega una testina disaccoppiata, il che significa che i compiti di classificazione e regressione sono separati in rami distinti della rete neurale. Gli autori hanno sostenuto che ciò risolve i conflitti tra l'apprendimento delle caratteristiche spaziali e semantiche. Al contrario, YOLOv5 ha utilizzato una testina accoppiata altamente ottimizzata (nelle sue versioni precedenti) che ha massimizzato l'efficienza computazionale e ridotto la latenza di inferenza, il che è cruciale per l'edge computing in tempo reale.

Evoluzione Architetturale

Sebbene YOLOX abbia sostenuto l'head disaccoppiato nel 2021, Ultralytics ha successivamente adottato e perfezionato architetture disaccoppiate in modelli successivi come YOLOv8 e l'avanguardistico YOLO26, combinando il meglio di entrambi i mondi.

Strategia di assegnazione delle etichette

YOLOX impiega SimOTA per l'assegnazione delle etichette, che formula l'accoppiamento degli oggetti ground truth alle predizioni come un problema di trasporto ottimale. Questa assegnazione dinamica migliora la gestione delle scene affollate. YOLOv5 utilizza un'assegnazione robusta basata su regole di forma, garantendo che campioni positivi di alta qualità siano costantemente forniti alla funzione di perdita, contribuendo alla sua leggendaria stabilità di addestramento.

Prestazioni e benchmark

Il compromesso tra velocità e accuratezza è la prova definitiva per queste architetture. La tabella seguente illustra le performance di varie dimensioni di modelli su benchmark standard.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Sebbene YOLOX raggiunga punteggi mAP competitivi, specialmente nelle sue varianti più grandi, YOLOv5 mantiene un notevole vantaggio nella velocità di inferenza TensorRT su tutta la linea. Il modello YOLOv5s, ad esempio, offre eccezionali rapporti velocità-precisione, rendendolo altamente desiderabile per applicazioni in tempo reale dove ogni millisecondo conta.

Il Vantaggio Ultralytics: Addestramento e Usabilità

Nel passaggio dalla ricerca alla produzione, l'ecosistema che circonda un modello è spesso altrettanto importante quanto il modello stesso. Qui, i vantaggi dell'ecosistema Ultralytics diventano palesemente evidenti.

Esperienza utente semplificata

YOLOv5 è universalmente elogiato per la sua esperienza di sviluppo "zero-to-hero". L'API Python Ultralytics e la CLI consentono di caricare, addestrare e implementare modelli con singole righe di codice. Al contrario, l'esecuzione di YOLOX dal repository GitHub di Megvii richiede una configurazione più manuale delle variabili d'ambiente, complesse configurazioni del percorso Python e una curva di apprendimento più ripida tipica delle codebase di ricerca accademica.

Efficienza di Addestramento e Requisiti di Memoria

I modelli Ultralytics sono meticolosamente progettati per minimizzare l'utilizzo della memoria durante l'addestramento. YOLOv5 richiede molta meno memoria CUDA rispetto ai modelli transformer pesantemente parametrizzati come RT-DETR o ai modelli di ricerca non ottimizzati. Ciò consente agli sviluppatori di addestrare batch di dimensioni maggiori su hardware di fascia consumer, accelerando il ciclo di sviluppo iterativo.

Versatilità tra le attività

Sebbene YOLOX sia strettamente un framework di object detection, l'ecosistema Ultralytics ha evoluto YOLOv5 per supportare molteplici task di visione. Out of the box, è possibile eseguire classificazione di immagini, segmentazione di istanze e object detection utilizzando esattamente la stessa sintassi API.

Innovazione Continua

Se hai bisogno di attività ancora più avanzate come la stima della posa o il rilevamento di Bounding Box Orientate (OBB), raccomandiamo vivamente di aggiornare all'ultima architettura Ultralytics YOLO26, che supporta tutte queste funzionalità nativamente con un'accuratezza all'avanguardia.

Confronto tra codici

La differenza nell'usabilità è meglio dimostrata tramite codice.

Addestramento con YOLOv5:

from ultralytics import YOLO

# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")

# Display results
results[0].show()

Addestramento con YOLOX:(Richiede la clonazione manuale del repository, l'installazione tramite setup.py e argomenti CLI complessi)

# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -o

L'approccio Ultralytics elimina gli attriti, permettendoti di concentrarti sul tuo dataset e sulla logica dell'applicazione anziché sul debug dei file di configurazione. Inoltre, il tracciamento dei tuoi esperimenti è agevole grazie alle integrazioni native per Weights & Biases e Comet ML.

Casi d'Uso e Applicazioni nel Mondo Reale Ideali

La scelta tra questi modelli dipende dall'ambiente operativo del tuo progetto.

Dove YOLOX eccelle

YOLOX rimane un forte candidato in contesti accademici dove i ricercatori studiano esplicitamente paradigmi anchor-free o strategie di assegnazione delle etichette. È utile anche in scenari in cui il detect di scene affollate è la metrica primaria assoluta e le velocità di deployment su edge sono secondarie.

Dove YOLOv5 eccelle

YOLOv5 è il campione indiscusso dell'implementazione pratica.

  • Produzione ad Alta Velocità: Per la rilevazione di difetti su linee di assemblaggio, la latenza di inferenza minima di YOLOv5 su GPU edge assicura che i prodotti siano ispezionati senza rallentare il nastro.
  • Immagini da Drone e Aeree: Il suo ingombro di memoria efficiente gli consente di funzionare su computer companion leggeri sui droni per attività come il monitoraggio agricolo e il track della fauna selvatica.
  • Smart Retail: Dalla cassa automatica alla gestione dell'inventario, YOLOv5 si esporta facilmente in TensorRT e ONNX per il deployment di massa su migliaia di telecamere dei negozi.

Prospettive future: Il vantaggio di YOLO26

Mentre YOLOv5 è un modello leggendario, il campo dell'AI avanza rapidamente. Se stai avviando un nuovo progetto oggi, ti consigliamo vivamente di considerare l'ultima generazione di modelli Ultralytics.

Rilasciato nel 2026, Ultralytics YOLO26 rappresenta un enorme balzo in avanti. Presenta un design End-to-End NMS-Free, eliminando completamente la necessità di post-elaborazione Non-Maximum Suppression, il che semplifica drasticamente la logica di deployment. Rimuovendo la Distribution Focal Loss (DFL) e utilizzando l'innovativo MuSGD Optimizer, YOLO26 raggiunge fino a un'inferenza CPU più veloce del 43% rispetto alle generazioni precedenti, mantenendo una maggiore precisione, specialmente su oggetti piccoli grazie alle nuove funzioni di perdita ProgLoss + STAL.

Sia che si scelga l'affidabilità collaudata di YOLOv5 o le prestazioni all'avanguardia di YOLO26, la Piattaforma Ultralytics garantisce di avere i migliori strumenti disponibili per portare le proprie soluzioni di computer vision dal concetto alla produzione senza soluzione di continuità. Assicurarsi di esplorare la documentazione Ultralytics completa per sbloccare il pieno potenziale della propria pipeline AI.


Commenti