Vai al contenuto

YOLOX vs. YOLOv5: esplorazione dell'innovazione senza ancoraggio e dell'efficienza comprovata

Nel panorama in rapida evoluzione del rilevamento degli oggetti, la scelta della giusta architettura è fondamentale per il successo del progetto. Questo confronto esplora due modelli influenti: YOLOX, un centro di potere accademico noto per il suo design privo di ancoraggi, e YOLOv5, lo standard del settore per velocità e facilità di implementazione. Entrambi i modelli hanno plasmato il campo della computer vision, ma rispondono a esigenze diverse, a seconda che la priorità sia la precisione della ricerca o l'efficienza della produzione.

Analisi delle prestazioni: Velocità, precisione ed efficienza

Quando si valutano YOLOX e YOLOv5, la distinzione si riduce spesso al compromesso tra precisione grezza ed efficienza operativa. YOLOX ha introdotto cambiamenti architettonici significativi, come la testa disaccoppiata e un meccanismo privo di ancore, che gli hanno permesso di raggiungere punteggi mAP (mean Average Precision) all'avanguardia al momento del rilascio. Eccelle in scenari in cui ogni punto percentuale di precisione conta, in particolare su benchmark difficili come COCO.

Al contrario, Ultralytics YOLOv5 è stato progettato con un'attenzione particolare alle prestazioni del "mondo reale". Privilegia la velocità di inferenza e la bassa latenza, rendendolo particolarmente adatto alle applicazioni mobili, ai sistemi embedded e ai dispositivi AI edge. Sebbene YOLOX possa avere un leggero vantaggio in termini di mAP per specifici modelli di grandi dimensioni, YOLOv5 lo supera costantemente in termini di throughput (fotogrammi al secondo) e flessibilità di implementazione, sfruttando l'ecosistema completo di Ultralytics .

La tabella seguente fornisce un confronto dettagliato tra i modelli di varie dimensioni. Si noti come YOLOv5 mantenga un'accuratezza competitiva, pur offrendo tempi di inferenza significativamente più rapidi, soprattutto quando ottimizzato con TensorRT.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

YOLOX: il concorrente senza ancore

YOLOX è stato sviluppato dai ricercatori di Megvii per colmare il divario tra la serie YOLO e i progressi accademici nel rilevamento senza ancore. Eliminando il vincolo delle caselle di ancoraggio predefinite, YOLOX semplifica il processo di addestramento e riduce la necessità di una messa a punto euristica.

Architettura e Innovazioni

YOLOX incorpora una testa disaccoppiata, che separa i compiti di classificazione e regressione in rami diversi. Questo design contrasta con le teste accoppiate delle versioni precedenti di YOLO e, secondo quanto riferito, migliora la velocità di convergenza e l'accuratezza. Inoltre, utilizza SimOTA, una strategia avanzata di assegnazione delle etichette che assegna dinamicamente i campioni positivi, migliorando la robustezza del modello nelle scene dense.

Punti di forza e debolezze

Il punto di forza principale di YOLOX è l'elevata precisione massima, in particolare nelle varianti più grandi (YOLOX-x), e il design pulito e privo di ancore, che attira i ricercatori. Tuttavia, questi vantaggi comportano dei compromessi. La testa disaccoppiata aggiunge complessità computazionale, che spesso si traduce in un'inferenza più lenta rispetto a YOLOv5. Inoltre, essendo un modello incentrato sulla ricerca, non dispone degli strumenti coesi e di facile utilizzo presenti nell'ecosistema Ultralytics , complicando potenzialmente l'integrazione nelle pipeline commerciali.

Casi d'uso ideali

  • Ricerca accademica: Sperimentazione di nuove architetture di rilevamento e strategie di assegnazione delle etichette.
  • Attività di alta precisione: Scenari in cui un guadagno dell'1-2% in mAP supera il costo di un'inferenza più lenta, come l'analisi video offline.
  • Rilevamento di oggetti densi: Ambienti con oggetti molto ingombrati in cui SimOTA ottiene buoni risultati.

Scopri di più su YOLOX

YOLOv5: lo standard di produzione

Dal suo rilascio nel 2020, Ultralytics YOLOv5 è diventato il modello di riferimento per gli sviluppatori di tutto il mondo. Il suo equilibrio tra prestazioni e praticità è eccezionale, supportato da una piattaforma progettata per semplificare l'intero ciclo di vita delle operazioni di machine learning (MLOps).

Architettura ed ecosistema

YOLOv5 utilizza una spina dorsale CSPNet e un collo di rete di aggregazione di percorsi (PANet), ottimizzati per un'estrazione efficiente delle caratteristiche. Sebbene abbia originariamente reso popolare l'approccio basato sulle ancore in PyTorch, la sua più grande risorsa è l'ecosistema circostante. Gli utenti beneficiano dell'esportazione automatica in formati come ONNX, CoreML e TFLite, nonché della perfetta integrazione con Ultralytics HUB per la formazione e la gestione dei modelli.

Lo sapevate?

YOLOv5 non si limita ai rettangoli di selezione. Supporta molteplici compiti, tra cui la segmentazione delle istanze e la classificazione delle immagini, rendendolo uno strumento versatile per le pipeline di visione complesse.

Punti di forza e debolezze

La facilità d'uso è il tratto distintivo di YOLOv5. Grazie a una semplice API Python , gli sviluppatori possono caricare i pesi pre-addestrati ed eseguire l'inferenza con poche righe di codice. Il modello è altamente ottimizzato per la velocità e offre costantemente una latenza inferiore sia su CPU che su GPU rispetto a YOLOX. Inoltre, vanta requisiti di memoria ridotti durante l'addestramento, rendendolo accessibile su hardware standard. Sebbene il suo design basato sulle ancore richieda l'evoluzione delle stesse per i set di dati personalizzati (gestiti automaticamente da YOLOv5), la sua affidabilità e il suo ecosistema ben curato lo rendono superiore per la produzione.

Casi d'uso ideali

  • Applicazioni in tempo reale: Videosorveglianza, guida autonoma e robotica, dove la bassa latenza è fondamentale.
  • Implementazione su dispositivi edge: Esecuzione su Raspberry Pi, NVIDIA Jetson o dispositivi mobili grazie alla sua efficiente architettura.
  • Prodotti commerciali: Prototipazione e implementazione rapida, dove sono richiesti supporto a lungo termine e facilità di integrazione.
  • Visione multi-task: Progetti che richiedono rilevamento, segmentazione e classificazione in un'unica struttura.

Scopri di più su YOLOv5

Esempio di codice: Esecuzione di YOLOv5 con Ultralytics

Il pacchetto Ultralytics Python rende incredibilmente semplice l'utilizzo dei modelli YOLOv5 . Di seguito è riportato un esempio di come eseguire l'inferenza utilizzando un modello pre-addestrato.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model (Nano version for speed)
model = YOLO("yolov5nu.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

Conclusione: Fare la scelta giusta

Entrambi i modelli rappresentano risultati significativi nella computer vision, ma si rivolgono a pubblici diversi. YOLOX è una scelta formidabile per i ricercatori che si spingono oltre i confini del rilevamento senza ancore e che si trovano a proprio agio nel navigare in un set di strumenti più frammentati.

Tuttavia, per la stragrande maggioranza degli sviluppatori, degli ingegneri e delle aziende, Ultralytics YOLOv5 rimane l'opzione migliore. La sua combinazione vincente di velocità impareggiabile, versatilità e un ecosistema solido e attivo garantisce il passaggio dall'ideazione all'implementazione con un attrito minimo. Inoltre, l'adozione del framework Ultralytics offre un chiaro percorso di aggiornamento ai modelli di nuova generazione come YOLO11che combina il meglio del design senza ancoraggi con l'efficienza tipica di Ultralytics.

Altri confronti tra modelli

Esplorate il confronto tra questi modelli e altre architetture per trovare quello più adatto alle vostre esigenze specifiche:


Commenti