Link to this sectionYOLOX vs YOLOv5#
La selezione del giusto modello di rilevamento oggetti è una decisione critica che determina il successo di qualsiasi progetto di computer vision. Questa guida fornisce un confronto tecnico completo tra due modelli fondamentali nel panorama dell'IA: YOLOX di Megvii e Ultralytics YOLOv5. Analizzando le loro architetture, le metriche di prestazione e gli ecosistemi di addestramento, miriamo ad aiutare sviluppatori e ricercatori a compiere una scelta informata per i loro specifici ambienti di distribuzione.
Link to this sectionIntroduzione ai modelli#
Entrambi i modelli sono emersi durante un periodo di rapido avanzamento nel rilevamento di oggetti in tempo reale, tuttavia hanno adottato filosofie architettoniche diverse per raggiungere le loro prestazioni.
Link to this sectionYOLOX: Un approccio senza anchor#
Rilasciato dai ricercatori Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun presso Megvii il 18 luglio 2021, YOLOX ha introdotto un cambiamento significativo allontanandosi dai tradizionali anchor box. Documentato nel loro report tecnico Arxiv, YOLOX ha integrato un design senza anchor con una head disaccoppiata e la strategia di assegnazione delle etichette SimOTA. Questo design mirava a colmare il divario tra ricerca accademica e applicazione industriale, offrendo prestazioni solide su dataset standard.
Link to this sectionYOLOv5: Lo standard per la Vision AI di produzione#
Creato da Glenn Jocher e rilasciato da Ultralytics il 26 giugno 2020, YOLOv5 è diventato rapidamente lo standard industriale per la computer vision distribuita. Costruito nativamente sul framework PyTorch, ha democratizzato l'IA all'avanguardia offrendo una facilità d'uso senza pari, un addestramento eccezionalmente veloce e un repository altamente curato. L'architettura di YOLOv5 si è concentrata su un perfetto equilibrio tra velocità, precisione e facilità di distribuzione, rendendolo uno dei preferiti per tutto, dai dispositivi edge alle massicce implementazioni cloud.
Link to this sectionDifferenze architettoniche#
Comprendere le differenze meccaniche fondamentali tra queste reti chiarisce perché si comportano in modo diverso in varie attività.
Link to this sectionSenza anchor vs. Con anchor#
Il contrasto più definitorio è il meccanismo senza anchor di YOLOX. I modelli tradizionali come YOLOv5 si basano su anchor box predefiniti per prevedere i bounding box, il che richiede un'analisi di clustering sul dataset di addestramento per determinare le dimensioni ottimali degli anchor. YOLOX elimina questo aspetto, prevedendo le coordinate del bounding box direttamente in ogni posizione spaziale. Mentre l'approccio senza anchor riduce il numero di parametri di progettazione e la messa a punto euristica, l'approccio basato su anchor raffinato di YOLOv5, aiutato dalla sua funzionalità auto-anchor, garantisce una convergenza di addestramento incredibilmente stabile e prevedibile fin da subito.
Link to this sectionHead disaccoppiata vs. Head accoppiata#
YOLOX impiega una head disaccoppiata, il che significa che le attività di classificazione e regressione sono separate in distinti rami della rete neurale. Gli autori hanno sostenuto che questo risolve i conflitti tra l'apprendimento delle caratteristiche spaziali e semantiche. Al contrario, YOLOv5 ha utilizzato una head accoppiata altamente ottimizzata (nelle sue versioni precedenti) che massimizzava l'efficienza computazionale e riduceva la latenza di inferenza, fondamentale per l'edge computing in tempo reale.
Link to this sectionStrategia di assegnazione delle etichette#
YOLOX utilizza SimOTA per l'assegnazione delle etichette, che formula l'accoppiamento degli oggetti di ground truth alle previsioni come un problema di trasporto ottimale. Questa assegnazione dinamica migliora la gestione di scene affollate. YOLOv5 impiega una solida assegnazione basata su regole di forma, garantendo che campioni positivi di alta qualità vengano costantemente forniti alla funzione di perdita, il che contribuisce alla sua leggendaria stabilità di addestramento.
Link to this sectionPrestazioni e benchmark#
Il compromesso tra velocità e precisione è il test finale per queste architetture. La tabella seguente illustra le prestazioni di varie dimensioni di modello su benchmark standard.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | params (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
Mentre YOLOX raggiunge punteggi mAP competitivi, specialmente nelle sue varianti più grandi, YOLOv5 mantiene un vantaggio notevole nella velocità di inferenza TensorRT in tutti gli ambiti. Il modello YOLOv5s, ad esempio, fornisce rapporti velocità-precisione eccezionali, rendendolo altamente desiderabile per applicazioni in tempo reale dove ogni millisecondo conta.
Link to this sectionIl vantaggio di Ultralytics: Addestramento e usabilità#
Quando si passa dalla ricerca alla produzione, l'ecosistema che circonda un modello è spesso importante quanto il modello stesso. Qui, i vantaggi dell'ecosistema Ultralytics diventano chiaramente evidenti.
Link to this sectionEsperienza utente ottimizzata#
YOLOv5 è universalmente lodato per la sua esperienza sviluppatore "da zero a eroe". L'API Python di Ultralytics e la CLI ti permettono di caricare, addestrare e distribuire modelli con singole righe di codice. Al contrario, eseguire YOLOX dal repository GitHub di Megvii richiede più configurazioni manuali delle variabili d'ambiente, complessi setup dei percorsi Python e una curva di apprendimento più ripida, tipica delle codebase di ricerca accademica.
Link to this sectionEfficienza di addestramento e requisiti di memoria#
I modelli Ultralytics sono progettati meticolosamente per ridurre al minimo l'uso della memoria durante l'addestramento. YOLOv5 richiede significativamente meno memoria CUDA rispetto a modelli transformer altamente parametrizzati come RT-DETR o modelli di ricerca non ottimizzati. Ciò consente agli sviluppatori di addestrare batch size più grandi su hardware di consumo, accelerando il ciclo di sviluppo iterativo.
Link to this sectionVersatilità tra i compiti#
Mentre YOLOX è strettamente un framework di rilevamento oggetti, l'ecosistema Ultralytics ha fatto evolvere YOLOv5 per supportare molteplici attività di visione. Fin da subito, puoi eseguire Classificazione di immagini, Segmentazione di istanze e rilevamento oggetti utilizzando esattamente la stessa sintassi API.
Se hai bisogno di attività ancora più avanzate come Stima della posa o rilevamento Oriented Bounding Box (OBB), ti consigliamo vivamente di passare all'ultima architettura Ultralytics YOLO26, che supporta nativamente tutte queste funzioni con una precisione all'avanguardia.
Link to this sectionConfronto del codice#
La differenza di usabilità è dimostrata al meglio attraverso il codice.
Addestramento con YOLOv5:
from ultralytics import YOLO
# Load a pretrained YOLOv5s model
model = YOLO("yolov5su.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/zidane.jpg")
# Display results
results[0].show()Addestramento con YOLOX: (Richiede clonazione manuale del repository, installazione setup.py e complessi argomenti CLI)
# Example YOLOX training command
python tools/train.py -f exps/default/yolox_s.py -d 1 -b 64 --fp16 -oL'approccio Ultralytics rimuove gli ostacoli, permettendoti di concentrarti sul tuo dataset e sulla logica dell'applicazione piuttosto che sul debug dei file di configurazione. Inoltre, tracciare i tuoi esperimenti è fluido grazie alle integrazioni integrate per Weights & Biases e Comet ML.
Link to this sectionCasi d'uso ideali e applicazioni nel mondo reale#
Scegliere tra questi modelli dipende dall'ambiente operativo del tuo progetto.
Link to this sectionDove eccelle YOLOX#
YOLOX rimane un forte candidato in contesti accademici dove i ricercatori studiano esplicitamente paradigmi senza anchor o strategie di assegnazione delle etichette. È anche utile in scenari in cui il rilevamento di scene affollate è la metrica principale assoluta e le velocità di distribuzione edge sono secondarie.
Link to this sectionDove eccelle YOLOv5#
YOLOv5 è il campione indiscusso della distribuzione pratica.
- Produzione ad alta velocità: Per il rilevamento dei difetti sulle catene di montaggio, la latenza di inferenza minima di YOLOv5 su GPU edge garantisce che i prodotti vengano ispezionati senza rallentare il nastro.
- Droni e immagini aeree: Il suo ingombro di memoria efficiente gli consente di funzionare su computer di bordo leggeri sui droni per attività come il monitoraggio agricolo e il tracciamento della fauna selvatica.
- Retail intelligente: Dal checkout automatizzato alla gestione dell'inventario, YOLOv5 si esporta facilmente in TensorRT e ONNX per una distribuzione di massa su migliaia di telecamere nei negozi.
Link to this sectionGuardando al futuro: Il vantaggio di YOLO26#
Sebbene YOLOv5 sia un modello leggendario, il campo dell'IA avanza rapidamente. Se stai iniziando un nuovo progetto oggi, ti consigliamo vivamente di guardare l'ultima generazione di modelli Ultralytics.
Rilasciato nel 2026, Ultralytics YOLO26 rappresenta un enorme salto in avanti. È caratterizzato da un design End-to-End senza NMS, eliminando completamente la necessità di post-elaborazione Non-Maximum Suppression, il che semplifica drasticamente la logica di distribuzione. Rimuovendo la Distribution Focal Loss (DFL) e utilizzando l'innovativo ottimizzatore MuSGD, YOLO26 raggiunge fino al 43% di velocità di inferenza CPU superiore rispetto alle generazioni precedenti, mantenendo una maggiore precisione, specialmente sugli oggetti piccoli grazie alle nuove funzioni di perdita ProgLoss + STAL.
Che tu scelga l'affidabilità comprovata di YOLOv5 o le prestazioni all'avanguardia di YOLO26, la Piattaforma Ultralytics ti assicura di avere i migliori strumenti disponibili per portare le tue soluzioni di computer vision dal concetto alla produzione senza intoppi. Assicurati di esplorare la completa documentazione di Ultralytics per sbloccare tutto il potenziale della tua pipeline di IA.