YOLOv5 vs YOLOX: Un confronto tecnico completo

L'evoluzione della visione artificiale in tempo reale ha visto numerosi traguardi, con diverse architetture che spingono i limiti di velocità e precisione. Due modelli di grande influenza in questo ambito sono YOLOv5 e YOLOX. Sebbene entrambi siano rinomati per le loro elevate prestazioni nel rilevamento di oggetti, adottano approcci architetturali fondamentalmente diversi.

Questa guida fornisce un'analisi tecnica approfondita di questi due modelli, confrontando le loro architetture, le metriche di prestazioni, le metodologie di addestramento e gli scenari di distribuzione ideali per aiutare sviluppatori e ricercatori a scegliere lo strumento giusto per i propri progetti di visione artificiale.

Panoramica dei modelli e differenze architetturali

Ultralytics YOLOv5

Introdotto da Ultralytics, YOLOv5 è diventato rapidamente uno standard del settore grazie al suo eccezionale equilibrio tra prestazioni, facilità d'uso ed efficienza della memoria. Costruito nativamente sul framework PyTorch, YOLOv5 utilizza un'architettura basata su anchor. Si affida a forme di bounding box predefinite per prevedere la posizione degli oggetti, il che lo rende estremamente efficace per le attività di rilevamento oggetti standard.

Uno dei maggiori punti di forza di YOLOv5 è il suo ecosistema ben curato. Vanta una documentazione estesa, un'API Python incredibilmente semplice e l'integrazione nativa con la Piattaforma Ultralytics. Ciò consente agli sviluppatori di passare senza problemi dall'etichettatura del dataset all'addestramento e all'esportazione verso formati come ONNX e TensorRT.

Scopri di più su YOLOv5

Vantaggio dell'ecosistema

I modelli YOLO di Ultralytics richiedono solitamente molta meno memoria GPU durante l'addestramento rispetto alle complesse alternative basate su Transformer. Questo basso consumo di memoria rende YOLOv5 altamente accessibile per i ricercatori che lavorano con hardware di livello consumer.

Megvii YOLOX

Sviluppato dai ricercatori di Megvii, YOLOX ha intrapreso una strada diversa introducendo un design anchor-free nella famiglia YOLO. Eliminando le anchor box, YOLOX semplifica la head di rilevamento e riduce significativamente il numero di parametri euristici che richiedono una regolazione manuale durante l'addestramento.

YOLOX incorpora inoltre una head disaccoppiata (decoupled head), che separa le attività di classificazione e regressione in rami di rete distinti, e utilizza la strategia di assegnazione delle etichette SimOTA. Queste innovazioni colmano il divario tra la ricerca accademica e le applicazioni industriali, rendendo YOLOX particolarmente efficace in ambienti con scale di oggetti molto variabili.

Scopri di più su YOLOX

Prestazioni e metriche

Nel valutare i modelli di visione artificiale, il compromesso tra la precisione media (mAP) e la velocità di inferenza è fondamentale. Entrambi i modelli offrono una gamma di dimensioni (da Nano a Extra-Large) per adattarsi a diversi vincoli hardware.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOP
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Sebbene YOLOXx raggiunga una precisione di picco leggermente superiore (51.1 mAP), YOLOv5 fornisce una pipeline di distribuzione molto più robusta e testata a fondo su hardware CPU e GPU. Le velocità TensorRT per YOLOv5 evidenziano la sua profonda ottimizzazione per i dispositivi edge computing, rendendolo una scelta estremamente affidabile per l'analisi video in tempo reale.

Metodologie di addestramento e usabilità

L'esperienza di sviluppo varia significativamente tra queste due architetture.

L'approccio YOLOX

L'addestramento di YOLOX richiede solitamente la clonazione del repository originale, la gestione di dipendenze specifiche e l'esecuzione di complessi script da riga di comando. Sebbene supporti funzionalità avanzate come l'addestramento a precisione mista e configurazioni multi-nodo tramite MegEngine, la curva di apprendimento può essere ripida per gli sviluppatori che necessitano di una prototipazione rapida.

Il vantaggio di Ultralytics

Al contrario, Ultralytics dà priorità a un'esperienza utente eccezionalmente snella. Con il pacchetto Python ultralytics, puoi caricare, addestrare e convalidare un modello con una minima quantità di codice boilerplate. Ultralytics gestisce automaticamente complesse aumentazioni dei dati, evoluzione degli iperparametri e pianificazione del tasso di apprendimento (learning rate).

from ultralytics import YOLO

# Load a pretrained YOLOv5 small model
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

Inoltre, la versatilità di YOLOv5 si estende oltre il rilevamento oggetti standard, offrendo un solido supporto per la classificazione delle immagini e la segmentazione di istanze all'interno della stessa identica API coerente.

Implementazione semplificata

Quando l'addestramento è completato, esportare un modello YOLOv5 in CoreML, TFLite o OpenVINO è semplice come eseguire model.export(format="onnx"). Questo elimina la necessità di script di conversione di terze parti comunemente richiesti dai repository orientati alla ricerca.

Applicazioni nel mondo reale

La scelta tra questi modelli dipende dal tuo ambiente di distribuzione e dai requisiti tecnici:

  • Vendita al dettaglio e gestione dell'inventario: Per le applicazioni che richiedono il riconoscimento dei prodotti in tempo reale su dispositivi edge come NVIDIA Jetson, YOLOv5 è eccezionalmente adatto. Il suo ingombro minimo di memoria e le veloci velocità di inferenza TensorRT consentono il tracciamento multi-camera senza perdere fotogrammi.
  • Ricerca accademica e architetture personalizzate: YOLOX è molto apprezzato nella comunità di ricerca. La sua head disaccoppiata e la natura anchor-free lo rendono un ottimo punto di partenza per gli ingegneri che desiderano sperimentare con nuove strategie di assegnazione delle etichette o per coloro che lavorano su dataset in cui le tradizionali anchor box non riescono a generalizzare.
  • Intelligenza artificiale in agricoltura: Per attività di agricoltura di precisione come il rilevamento dei frutti o l'identificazione delle erbe infestanti tramite droni, la facilità di addestramento e distribuzione dei modelli YOLOv5 utilizzando la Piattaforma Ultralytics consente agli esperti del settore di implementare soluzioni di intelligenza artificiale senza dover possedere profonde competenze in ingegneria di machine learning.

Casi d'uso e raccomandazioni

La scelta tra YOLOv5 e YOLOX dipende dai requisiti specifici del tuo progetto, dai vincoli di distribuzione e dalle preferenze dell'ecosistema.

Quando scegliere YOLOv5

YOLOv5 è una scelta solida per:

  • Sistemi di produzione comprovati: Implementazioni esistenti in cui sono apprezzati il lungo storico di stabilità, l'ampia documentazione e il massiccio supporto della community di YOLOv5.
  • Addestramento con risorse limitate: Ambienti con risorse GPU limitate in cui la pipeline di addestramento efficiente e i minori requisiti di memoria di YOLOv5 risultano vantaggiosi.
  • Ampio supporto per formati di esportazione: Progetti che richiedono l'implementazione su molti formati, inclusi ONNX, TensorRT, CoreML e TFLite.

Quando scegliere YOLOX

YOLOX è consigliato per:

  • Ricerca sul rilevamento anchor-free: Ricerca accademica che utilizza l'architettura pulita e anchor-free di YOLOX come base per sperimentare nuove teste di rilevamento o funzioni di perdita.
  • Dispositivi edge ultraleggeri: Distribuzione su microcontrollori o hardware mobile legacy dove l'impronta estremamente piccola della variante YOLOX-Nano (0.91M parametri) è critica.
  • Studi sull'assegnazione delle etichette SimOTA: Progetti di ricerca che studiano strategie di assegnazione delle etichette basate sul trasporto ottimale e il loro impatto sulla convergenza dell'addestramento.

Quando scegliere Ultralytics (YOLO26)

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza di sviluppo:

  • Deployment Edge senza NMS: Applicazioni che richiedono un'inferenza coerente e a bassa latenza senza la complessità della post-elaborazione con Non-Maximum Suppression.
  • Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza su CPU di YOLO26, fino al 43% più veloce, offre un vantaggio decisivo.
  • Rilevamento di piccoli oggetti: Scenari complessi come immagini di droni aerei o analisi tramite sensori IoT dove ProgLoss e STAL migliorano significativamente l'accuratezza su oggetti minuscoli.

Il futuro della visione artificiale: arriva YOLO26

Sebbene sia YOLOv5 che YOLOX abbiano consolidato il loro posto nella storia della visione artificiale, il campo sta avanzando rapidamente. Per gli sviluppatori che iniziano oggi nuovi progetti, Ultralytics consiglia vivamente di esplorare il suo ultimo modello di punta, YOLO26.

Rilasciato a gennaio 2026, YOLO26 rappresenta un enorme salto in avanti sia nelle prestazioni che nell'usabilità. Introduce un innovativo design end-to-end NMS-free, eliminando completamente il post-processing della soppressione dei non massimi (Non-Maximum Suppression). Ciò riduce significativamente la variabilità della latenza e semplifica la logica di distribuzione sui dispositivi a basso consumo energetico.

Inoltre, YOLO26 utilizza il nuovo ottimizzatore MuSGD—un ibrido di SGD e Muon ispirato alle innovazioni nell'addestramento di LLM—per una convergenza incredibilmente stabile e veloce. Con la rimozione di DFL (Distribution Focal Loss rimossa per un'esportazione semplificata e una migliore compatibilità con dispositivi edge/a basso consumo), YOLO26 ottiene un'inferenza su CPU fino al 43% più veloce, consolidando la sua posizione come il modello definitivo per il moderno edge computing, la robotica e le applicazioni IoT. Inoltre, ProgLoss + STAL offre funzioni di loss migliorate con notevoli miglioramenti nel riconoscimento di piccoli oggetti, fondamentale per IoT, robotica e immagini aeree. Gli utenti interessati alle generazioni precedenti possono anche guardare a YOLO11, sebbene YOLO26 sia la scelta indiscussa allo stato dell'arte.

Conclusione

YOLOv5 e YOLOX offrono entrambi incredibili capacità di rilevamento oggetti. YOLOX ha spinto i confini architetturali dimostrando che i design anchor-free potevano competere con e superare i metodi tradizionali nel 2021. Tuttavia, YOLOv5 rimane una forza dominante grazie alla sua facilità d'uso senza pari, all'ecosistema esteso e ai minori requisiti di memoria durante l'addestramento.

Per la stragrande maggioranza delle applicazioni commerciali, l'ecosistema Ultralytics fornisce il percorso più rapido da un dataset grezzo a un modello distribuito in produzione. Che tu stia utilizzando il collaudato YOLOv5 o passando al rivoluzionario YOLO26, gli sviluppatori beneficiano di un framework progettato per rendere la visione artificiale accessibile, efficiente e altamente performante.

Commenti