YOLOv10 vs. YOLOX: Un confronto tecnico

Nel panorama in rapida evoluzione della computer vision, la selezione del modello di object detection giusto è fondamentale per bilanciare prestazioni, efficienza e facilità di implementazione. Questo confronto tecnico esplora le differenze tra YOLOv10, l'ultimo detector end-to-end in tempo reale della Tsinghua University, e YOLOX, un modello anchor-free molto apprezzato di Megvii.

Sebbene YOLOX abbia introdotto innovazioni significative nel 2021 per quanto riguarda i meccanismi di detection anchor-free, YOLOv10 rappresenta l'avanguardia del 2024, offrendo inferenza NMS-free e un'integrazione più stretta con l'ecosistema Ultralytics.

YOLOv10: Rilevamento end-to-end in tempo reale

YOLOv10 mira a colmare il divario tra l'efficienza della post-elaborazione e l'architettura del modello. Introducendo una strategia di assegnazione duale coerente per l'addestramento senza NMS, elimina la necessità di Non-Maximum Suppression (NMS) durante l'inferenza, riducendo significativamente la latenza.

Dettagli tecnici:

Autori: Ao Wang, Hui Chen, Lihao Liu, et al.
Organizzazione:Tsinghua University
Data: 2024-05-23
Arxiv:arXiv:2405.14458
GitHub:THU-MIG/yolov10

Architettura e punti di forza

YOLOv10 si basa sui punti di forza delle precedenti generazioni YOLO, ma ottimizza l'architettura sia per l'efficienza che per l'accuratezza. Impiega un design del modello olistico che include head di classificazione leggeri e downsampling spaziale-canale disaccoppiato.

Inferenza senza NMS: La rimozione di NMS è un punto di svolta per le applicazioni di inferenza in tempo reale, garantendo una latenza prevedibile e un minore sovraccarico di CPU sui dispositivi edge.
Bilanciamento Efficienza-Precisione: YOLOv10 raggiunge prestazioni all'avanguardia con un numero inferiore di parametri e FLOP rispetto ai suoi predecessori e concorrenti.
Integrazione Ultralytics: Essendo pienamente supportato da ultralytics package significa che gli utenti beneficiano di un unico API Python, esportazione semplificata in formati come TensorRT e OpenVINO, e documentazione esaustiva.

Vantaggio dell'ecosistema

L'integrazione di YOLOv10 nell'ecosistema Ultralytics fornisce accesso immediato a funzionalità avanzate come la annotazione automatica, il cloud training e una solida community per il supporto.

Punti deboli

Architettura più recente: Essendo una release del 2024, l'ecosistema di tutorial di terze parti sta crescendo rapidamente, ma potrebbe non corrispondere ancora al volume dei modelli legacy più datati.

Scopri di più su YOLOv10

YOLOX: Il Pioniere Anchor-Free

Rilasciato nel 2021, YOLOX è passato a un meccanismo anchor-free e a head disaccoppiate, discostandosi dagli approcci basati su anchor di YOLOv4 e YOLOv5. Utilizza SimOTA (Simplified Optimal Transport Assignment) per l'assegnazione delle etichette, che è stato un passo avanti significativo nelle strategie di assegnazione dinamica delle etichette.

Dettagli tecnici:

Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organizzazione:Megvii
Data: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX

Architettura e punti di forza

YOLOX rimane una solida baseline nella comunità di ricerca grazie al suo design pulito e anchor-free.

Meccanismo senza anchor: Rimuovendo gli anchor box predefiniti, YOLOX riduce la complessità del design e il numero di iperparametri che richiedono ottimizzazione.
Decoupled Head: La separazione dei compiti di classificazione e localizzazione ha migliorato la velocità di convergenza e l'accuratezza rispetto ai precedenti design con head accoppiati.
Forte baseline: Serve come un benchmark affidabile per la ricerca accademica sulle detection head e sulle strategie di assegnazione.

Punti deboli

Velocità di inferenza: Pur essendo efficiente per il suo tempo, YOLOX generalmente è inferiore ai modelli più recenti come YOLOv10 e YOLO11 in termini di velocità di inferenza pura, specialmente quando si considera il tempo NMS.
Workflow frammentato: A differenza dei modelli Ultralytics, YOLOX richiede spesso una propria codebase specifica e una configurazione dell'ambiente, mancando l'interfaccia unificata per il training, la convalida e l'implementazione presente nei framework moderni.
Intensità di risorse: Numero maggiore di FLOPs e di parametri per livelli di accuratezza simili rispetto alle moderne architetture efficienti.

Scopri di più su YOLOX

Analisi delle prestazioni

Il confronto seguente evidenzia i significativi progressi compiuti in termini di efficienza e precisione nei tre anni che separano questi modelli. Le metriche si concentrano sulle dimensioni del modello (parametri), sul costo computazionale (FLOPs) e sulla precisione (mAP) sul dataset COCO.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

Osservazioni Critiche

Precisione contro dimensioni: YOLOv10 offre costantemente una mAP più elevata con un minor numero di parametri. Ad esempio, YOLOv10s raggiunge 46,7 mAP con soli 7,2M parametri, mentre YOLOXs raggiunge 40,5 mAP con 9,0M parametri. Questo dimostra la superiore efficienza architettonica di YOLOv10.
Efficienza di calcolo: Il conteggio dei FLOP per i modelli YOLOv10 è significativamente inferiore. YOLOv10x opera a 160.4B FLOP rispetto agli enormi 281.9B FLOP di YOLOXx, pur superandolo in accuratezza (54.4 vs 51.1 mAP).
Velocità di inferenza: La rimozione di NMS e l'architettura ottimizzata consentono a YOLOv10 di ottenere una latenza inferiore. I benchmark T4 TensorRT mostrano YOLOv10x in esecuzione a 12,2 ms, significativamente più veloce di YOLOXx a 16,1 ms.

Casi d'uso ideali

YOLOv10: Lo standard moderno

YOLOv10 è la scelta preferita per la maggior parte dei nuovi progetti di sviluppo, in particolare quelli che richiedono:

Deployment Edge AI: Il suo basso footprint di memoria e l'elevata efficienza lo rendono perfetto per dispositivi come Raspberry Pi o NVIDIA Jetson.
Applicazioni in tempo reale: I sistemi che richiedono un feedback immediato, come la guida autonoma, la robotica e la video analytics, beneficiano della bassa latenza senza NMS.
Sviluppo rapido: L'ecosistema Ultralytics consente una rapida gestione del dataset, addestramento e implementazione tramite l' ultralytics package.

YOLOX: Eredità e Ricerca

YOLOX rimane rilevante per:

Ricerca accademica: I ricercatori che studiano l'evoluzione dei rilevatori privi di ancore o di specifiche strategie di assegnazione delle etichette, come SimOTA, utilizzano spesso YOLOX come base di riferimento.
Sistemi legacy: Le pipeline di produzione esistenti già ottimizzate per YOLOX possono continuare a utilizzarlo laddove i costi di aggiornamento superano i guadagni di prestazioni.

Utilizzo di YOLOv10 con Ultralytics

Uno dei vantaggi più significativi di YOLOv10 è la sua facilità d'uso. L'API Python di Ultralytics semplifica l'intero flusso di lavoro, dal caricamento dei pesi pre-addestrati all'addestramento su dati personalizzati.

Di seguito è riportato un esempio di come eseguire previsioni e addestrare un modello YOLOv10:

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

# Train the model on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

Efficienza dell'addestramento

I modelli Ultralytics YOLO sono noti per la loro efficienza di addestramento, spesso richiedendo meno memoria CUDA rispetto alle architetture più datate o ai modelli basati su transformer. Ciò consente di addestrare batch più grandi su GPU standard per utenti privati.

Conclusione

Mentre YOLOX ha svolto un ruolo fondamentale nella divulgazione della detection anchor-free, YOLOv10 rappresenta il prossimo balzo in avanti nella tecnologia di computer vision. Con la sua architettura NMS-free, il rapporto accuratezza/calcolo superiore e la perfetta integrazione nel robusto ecosistema Ultralytics, YOLOv10 offre un pacchetto interessante per sviluppatori e ricercatori.

Per chi desidera implementare la object detection all'avanguardia, YOLOv10 fornisce la velocità e la precisione necessarie. Gli sviluppatori interessati a funzionalità ancora più ampie, come la stima della posa o gli oriented bounding box, potrebbero anche prendere in considerazione l'esplorazione del versatile YOLO11 o dell'ampiamente adottato YOLOv8.

YOLOv10 vs. YOLOX: Un confronto tecnico

YOLOv10: Rilevamento end-to-end in tempo reale

Architettura e punti di forza

Punti deboli

YOLOX: Il Pioniere Anchor-Free

Architettura e punti di forza

Punti deboli

Analisi delle prestazioni

Osservazioni Critiche

Casi d'uso ideali

YOLOv10: Lo standard moderno

YOLOX: Eredità e Ricerca

Utilizzo di YOLOv10 con Ultralytics

Conclusione

Commenti