Vai al contenuto

YOLO11 . YOLOX: Evoluzione architettonica e analisi delle prestazioni

Nel panorama in rapida evoluzione della visione artificiale, la scelta del modello di rilevamento degli oggetti più adeguato è fondamentale per il successo del progetto. Due tappe significative in questo percorso sono YOLO11 e YOLOX. Mentre YOLOX ha introdotto concetti innovativi senza ancoraggi nel 2021, YOLO11 rilasciato alla fine del 2024) perfeziona queste idee con miglioramenti architettonici moderni, efficienza superiore e il solido supporto Ultralytics .

Questa guida fornisce un confronto tecnico approfondito per aiutare sviluppatori, ricercatori e ingegneri a selezionare il modello ottimale per le loro esigenze specifiche, che vanno dall'implementazione edge in tempo reale all'analisi lato server ad alta precisione.

Riepilogo

YOLO11 rappresenta il culmine di anni di perfezionamento iterativo da parte di Ultralytics. Eccelle in versatilità, offrendo supporto nativo per il rilevamento, la segmentazione, la stima della posa e i bounding box orientati (OBB). La sua architettura è ottimizzata per l'hardware moderno, offrendo una maggiore precisione per FLOP rispetto ai modelli precedenti.

YOLOX, sviluppato da Megvii nel 2021, è stato un rilascio fondamentale che ha reso popolare il paradigma del rilevamento senza anchor. Ha semplificato il processo di addestramento rimuovendo gli anchor box e ha introdotto tecniche di augmentazione avanzate come MixUp Mosaic. Pur essendo un rilevatore efficiente, manca delle capacità multi-task e della pipeline di implementazione senza soluzione di continuità che caratterizzano Ultralytics più recenti.

Per gli sviluppatori che oggi intraprendono nuovi progetti, YOLO11 o l'innovativo YOLO26 sono generalmente consigliati per il loro rapporto prestazioni/efficienza superiore e la facilità d'uso.

Metriche di confronto tecnico

La tabella seguente evidenzia le differenze di prestazioni tra le due architetture su modelli di varie dimensioni.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Analisi delle prestazioni

YOLO11m raggiunge un mAP 51,5%) superiore rispetto al più grande YOLOXx (51,1%), utilizzando circa 5 volte meno parametri (20,1 milioni contro 99,1 milioni) e funzionando a una velocità quasi 3 volte superiore sulle GPU T4. Questo notevole aumento di efficienza rende YOLO11 più economico da implementare su larga scala.

Analisi Approfondita dell'Architettura

YOLO11: Efficienza e Versatilità Raffinate

Autori: Glenn Jocher, Jing Qiu (Ultralytics)
Data: settembre 2024

YOLO11 sui moduli C2f (CSP Bottleneck con 2 convoluzioni) introdotti nelle versioni precedenti, ma li migliora per un flusso di gradiente e un'estrazione delle caratteristiche migliori.

  • Backbone: backbone ottimizzato basato su CSP che bilancia profondità e ampiezza per ridurre al minimo il carico computazionale massimizzando al contempo i campi recettivi.
  • Testa: una testa di rilevamento unificata che supporta più attività (rilevamento di oggetti, segmentazione di istanze e stima della posa) senza richiedere modifiche architetturali significative.
  • Senza ancoraggi: come YOLOX, YOLO11 un approccio senza ancoraggi, che riduce il numero di parametri di progettazione (come le dimensioni e i rapporti degli ancoraggi) e semplifica la complessità del modello.
  • Dinamiche di addestramento: incorpora strategie avanzate di aumento dei dati nella pipeline Ultralytics , garantendo robustezza in condizioni di illuminazione e occlusione variabili.

Scopri di più su YOLO11

YOLOX: Il Pioniere Anchor-Free

Autori: Zheng Ge, et al. (Megvii)
Data: luglio 2021

YOLOX è stato progettato per colmare il divario tra la comunità di ricerca e le applicazioni industriali.

  • Testa disaccoppiata: YOLOX ha introdotto una struttura della testa disaccoppiata in cui le attività di classificazione e regressione sono gestite da rami separati. Ciò ha consentito di migliorare la velocità di convergenza e la precisione.
  • SimOTA: un'innovazione fondamentale è stata la "Simplified Optimal Transport Assignment" (SimOTA) per l'assegnazione delle etichette. Questa strategia dinamica assegna gli oggetti ground truth alle previsioni in modo più efficace rispetto IoU fisse.
  • Meccanismo senza ancoraggio: eliminando gli anchor box, YOLOX ha eliminato la necessità di regolare manualmente gli anchor, un punto dolente comune nelle YOLO precedenti YOLO (v2-v5).
  • Potente potenziamento: l'uso intensivo dei MixUp Mosaic e MixUp ha consentito a YOLOX di addestrarsi efficacemente partendo da zero.

Scopri di più su YOLOX

Ecosistema e facilità d'uso

Uno dei fattori più critici per gli sviluppatori è l'ecosistema software che circonda un modello. Questo determina la facilità con cui un modello può essere addestrato, convalidato e implementato.

Il vantaggio di Ultralytics

YOLO11 Ultralytics , maturo e attivamente mantenuto. Questa integrazione offre diversi vantaggi distintivi:

  1. API unificata: passare da un'attività all'altra è semplicissimo. È possibile passare dal rilevamento delle automobili alla segmentazione dei tumori modificando un unico parametro Python o CLI.
  2. Flessibilità di implementazione: il framework include funzionalità di esportazione integrate in formati quali ONNX, TensorRT, CoreML e OpenVINO. Ciò consente agli sviluppatori di implementare modelli in ambienti di produzione con una sola riga di codice.
  3. Supporto della piattaforma: la Ultralytics semplifica l'intero ciclo di vita, dall'annotazione dei set di dati alla formazione cloud e alla gestione dei modelli.
from ultralytics import YOLO

# Load a model (YOLO11n)
model = YOLO("yolo11n.pt")

# Train on a custom dataset
# The system automatically handles data downloading and preparation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for deployment
path = model.export(format="onnx")

Ecosistema YOLOX

YOLOX è ospitato principalmente come repository di ricerca. Sebbene il codice sia open source e di alta qualità, spesso richiede una configurazione manuale più complessa. Gli utenti devono in genere gestire i propri caricatori di dati, scrivere script di esportazione personalizzati per hardware specifici e navigare in un codice base che viene aggiornato meno frequentemente rispetto al Ultralytics .

Applicazioni nel mondo reale

La scelta tra questi modelli dipende spesso dai vincoli specifici dell'ambiente di applicazione.

Casi d'Uso Ideali per YOLO11

  • Analisi video in tempo reale: con velocità di inferenza T4 pari a soli 1,5 ms, YOLO11n è perfetto per l'elaborazione di flussi video ad alto FPS per la gestione del traffico o l'analisi sportiva.
  • Sistemi multitasking: se un'applicazione richiede il tracciamento simultaneo di oggetti e la stima della posa (ad esempio, l'analisi dell'allenamento in palestra), l'architettura versatile YOLO11 riduce la necessità di utilizzare più modelli pesanti.
  • Implementazione commerciale all'avanguardia: l'esportazione senza interruzioni su NVIDIA o Raspberry Pi rende YOLO11 standard per i prodotti IoT commerciali.

Casi d'Uso Ideali per YOLOX

  • Benchmarking accademico: YOLOX rimane un solido punto di riferimento per i ricercatori che confrontano i metodi di rilevamento senza ancoraggio del periodo 2021-2022.
  • Sistemi legacy: i progetti che hanno già investito molto nel codice base YOLOX e nelle pipeline di integrazione personalizzate potrebbero trovare più conveniente mantenerli piuttosto che migrarli.
  • Limiti specifici dei dispositivi mobili: il modello YOLOX-Nano è estremamente leggero (0,91 M di parametri), il che lo rende utile per hardware mobili molto limitati, anche se i modelli più recenti come YOLO26n offrono ora dimensioni competitive con una precisione nettamente superiore.

Il futuro: entra in YOLO26

Per gli sviluppatori alla ricerca della tecnologia più all'avanguardia, Ultralytics ha Ultralytics rilasciato YOLO26 (gennaio 2026). Questo modello rappresenta un significativo passo avanti, sostituendo efficacemente sia YOLO11 YOLOX nella maggior parte dei casi d'uso.

YOLO26 introduce diverse innovazioni chiave:

  • End-to-end nativo: elimina la soppressione non massima (NMS), una fase di post-elaborazione che spesso rallenta la velocità di inferenza. Ciò si traduce in output più rapidi e deterministici.
  • MuSGD Optimizer: ispirato alle tecniche di addestramento LLM, questo ottimizzatore garantisce una convergenza stabile e riduce i tempi di addestramento.
  • Efficienza: YOLO26 offre CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo un vero e proprio concentrato di potenza perGPU .

Se state avviando un nuovo progetto, vi consigliamo vivamente di valutare YOLO26 insieme a YOLO11.

Scopri di più su YOLO26

Conclusione

Sia YOLO11 YOLOX si sono guadagnati un posto nella storia della visione artificiale. YOLOX è stato un pioniere che ha dimostrato la fattibilità del rilevamento senza ancoraggi. Tuttavia, YOLO11 offre un pacchetto più interessante per gli sviluppatori di oggi: è più veloce, più preciso, supporta una gamma più ampia di attività ed è supportato da un ecosistema che riduce drasticamente i tempi di sviluppo.

Altri modelli da esplorare

  • YOLO26: l'ultimo modello all'avanguardia di Ultralytics, dotato di rilevamento end-to-end NMS.
  • RT-DETR: un rilevatore basato su trasformatore che offre un'elevata precisione, ideale per scenari in cui GPU è abbondante.
  • YOLOv9: noto per le sue informazioni sul gradiente programmabile (PGI) e l'architettura GELAN.
  • YOLOv8: Un classico affidabile e ampiamente adottato nella famiglia YOLO.

Commenti