Vai al contenuto

YOLOX vs. YOLO11: un approfondimento tecnico sull'evoluzione del rilevamento degli oggetti

La scelta dell'architettura ottimale per il rilevamento degli oggetti è fondamentale per gli sviluppatori che vogliono bilanciare precisione, latenza ed efficienza computazionale. Questa analisi completa mette a confronto YOLOX, un modello pionieristico privo di ancore di Megvii, e Ultralytics YOLO11, l'ultima iterazione all'avanguardia di Ultralytics. Mentre YOLOX ha introdotto innovazioni significative nel 2021, YOLO11 rappresenta l'avanguardia della computer vision nel 2024, offrendo un framework unificato per compiti diversi che vanno dal rilevamento alla segmentazione delle istanze.

YOLOX: un ponte tra ricerca e industria

Rilasciato nel 2021, YOLOX ha segnato un cambiamento significativo nella famiglia YOLO , adottando un meccanismo senza ancoraggio e disaccoppiando la testa di previsione. È stato progettato per colmare il divario tra la ricerca accademica e l'applicazione industriale.

Architettura e Innovazioni

YOLOX si è discostato dalle precedenti iterazioni come YOLOv5 eliminando le caselle di ancoraggio, riducendo così la complessità del progetto e il numero di iperparametri euristici. La sua architettura è caratterizzata da una testa disaccoppiata, che separa i compiti di classificazione e regressione in rami diversi, migliorando la velocità di convergenza e l'accuratezza. Inoltre, ha introdotto SimOTA, una strategia avanzata di assegnazione delle etichette che assegna dinamicamente i campioni positivi, migliorando ulteriormente le prestazioni.

Punti di forza e debolezze

Punti di forza:

  • Design senza ancore: Elimina la necessità di clusterizzare manualmente le caselle di ancoraggio, semplificando la pipeline di formazione.
  • Testa disaccoppiata: migliora l'accuratezza della localizzazione ottimizzando in modo indipendente la classificazione e la regressione.
  • Linea di base della ricerca: Serve come solido punto di riferimento per lo studio dei rivelatori privi di ancoraggio.

Punti deboli:

  • Supporto limitato ai compiti: Si concentra principalmente sul rilevamento degli oggetti, mancando il supporto nativo per la segmentazione, la stima della posa o le bounding box orientate (OBB).
  • Ecosistema frammentato: Manca un set di strumenti unificato e mantenuto attivamente per la distribuzione, il monitoraggio e l'MLOps rispetto ai framework moderni.
  • Efficienza inferiore: In genere richiede un maggior numero di parametri e FLOP per ottenere una precisione paragonabile a quella dei modelli più recenti, come YOLO11.

Scopri di più su YOLOX

Ultralytics YOLO11: il nuovo standard per l'IA di visione

Ultralytics YOLO11 perfeziona l'eredità del rilevamento degli oggetti in tempo reale, concentrandosi su efficienza, flessibilità e facilità d'uso. È stato progettato per essere la soluzione ideale sia per la prototipazione rapida che per le implementazioni di produzione su larga scala.

Architettura e vantaggi dell'ecosistema

YOLO11 impiega un'architettura altamente ottimizzata e priva di ancore che migliora l'estrazione delle caratteristiche riducendo al minimo i costi di calcolo. A differenza di YOLOX, YOLO11 non è solo un modello ma fa parte di un ecosistema completo. Supporta un'ampia gamma di attività di visione computerizzata, tra cui laclassificazione, la segmentazione, la stima della posa e il tracciamento, con un'unica API di facile utilizzo.

MLO integrati

YOLO11 si integra perfettamente con Ultralytics HUB e con strumenti di terze parti come Weights & Biases e Cometconsentendo di visualizzare gli esperimenti e di gestire gli insiemi di dati senza alcuno sforzo.

Perché scegliere YOLO11?

  • Versatilità: Un unico framework per il rilevamento degli oggetti, la segmentazione delle istanze, la stima della posa e la classificazione delle immagini.
  • Facilità d'uso: l'API e la CLI Python semplificate consentono agli sviluppatori di addestrare e distribuire i modelli con poche righe di codice.
  • Equilibrio delle prestazioni: Raggiunge un livello superiore di mAP con velocità di inferenza più elevate sia su CPU che su GPU rispetto ai predecessori e ai concorrenti.
  • Efficienza della memoria: Progettato con requisiti di memoria ridotti durante l'addestramento e l'inferenza, rendendolo più accessibile rispetto ai modelli basati su trasformatori come RT-DETR.
  • Pronto per la distribuzione: Supporto nativo per l'esportazione in formati come ONNX, TensorRT, CoreML e TFLite garantisce la compatibilità con diversi hardware, da NVIDIA Jetson ai dispositivi mobili.

Scopri di più su YOLO11

Analisi delle prestazioni

La tabella seguente evidenzia le differenze di prestazioni tra YOLOX e YOLO11. YOLO11 dimostra costantemente una maggiore accuratezzamAP) con un minor numero di parametri e FLOP, che si traduce in una maggiore velocità di inferenza.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

Punti chiave

  1. Dominio dell'efficienza: I modelli YOLO11 offrono un compromesso significativamente migliore tra velocità e precisione. Ad esempio, YOLO11m raggiunge 51,5 mAP con solo 20,1M di parametri, superando il massiccio YOLOX-x (51,1 mAP, 99,1M di parametri) pur essendo circa 5 volte più piccolo.
  2. Velocità di inferenza: Su una GPU T4 utilizzando TensorRTYOLO11n raggiunge 1,5 ms, il che lo rende una scelta eccezionale per le applicazioni di inferenza in tempo reale in cui la latenza è fondamentale.
  3. PrestazioniCPU : Ultralytics fornisce benchmark trasparenti CPU , dimostrando la fattibilità di YOLO11 per l'implementazione su dispositivi senza acceleratori dedicati.
  4. Efficienza della formazione: L'architettura di YOLO11 consente una convergenza più rapida durante l'addestramento, risparmiando tempo e risorse di calcolo preziosi.

Applicazioni nel mondo reale

Dove YOLO11 eccelle

  • Città intelligenti: Grazie all'elevata velocità e precisione, YOLO11 è ideale per i sistemi di gestione del traffico e il monitoraggio della sicurezza dei pedoni.
  • Produzione: La capacità di eseguire la segmentazione e il rilevamento di OBB lo rende perfetto per il controllo qualità e il rilevamento dei difetti nei pezzi orientati sulle linee di assemblaggio.
  • Sanità: L'elevata precisione e l'uso efficiente delle risorse consentono l'analisi delle immagini mediche sui dispositivi edge in ambito clinico.

Dove viene utilizzato YOLOX

  • Sistemi legacy: Progetti avviati intorno al 2021-2022 che non sono ancora migrati a nuove architetture.
  • Ricerca accademica: Studi che analizzano in modo specifico gli effetti delle teste disaccoppiate o dei meccanismi senza ancoraggio in isolamento.

Esperienza utente e confronto del codice

Ultralytics dà priorità a un'esperienza utente semplificata. Mentre YOLOX richiede spesso file di configurazione complessi e un'impostazione manuale, YOLO11 può essere utilizzato con un codice minimo.

Utilizzo di Ultralytics YOLO11

Gli sviluppatori possono caricare un modello pre-addestrato, eseguire l'inferenza e persino addestrarsi su dati personalizzati con poche righe di Python:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
results[0].show()

Facilità di formazione

L'addestramento di un modello YOLO11 su un set di dati personalizzato è altrettanto semplice. La libreria gestisce automaticamente l'aumento dei dati, la regolazione degli iperparametri e la registrazione.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Conclusione

Se YOLOX ha svolto un ruolo fondamentale nella diffusione del rilevamento di oggetti senza ancoraggio, Ultralytics YOLO11 rappresenta la scelta migliore per lo sviluppo dell'IA moderna.

YOLO11 supera YOLOX in termini di precisione, velocità ed efficienza e offre un ecosistema robusto e ben curato. La sua versatilità in molteplici attività di visione, che elimina la necessità di destreggiarsi tra librerie diverse per il rilevamento, la segmentazione e la stima della posa, riduce significativamente la complessità dello sviluppo. Per gli sviluppatori che cercano una soluzione a prova di futuro e ad alte prestazioni, supportata dal supporto attivo della comunità e da una documentazione completa, YOLO11 è il percorso consigliato.

Scoprire altri modelli

Esplorate il confronto tra YOLO11 e altre architetture leader per trovare la soluzione migliore per le vostre esigenze specifiche:


Commenti