YOLOv9 vs. RTDETRv2: Un confronto tecnico per il rilevamento di oggetti

La scelta della giusta architettura di rilevamento degli oggetti è una decisione cruciale nello sviluppo della computer vision, che spesso richiede agli sviluppatori di soppesare i compromessi tra precisione, latenza di inferenza e overhead computazionale. Questa analisi fornisce un confronto tecnico completo tra YOLOv9, un'architettura basata su CNN ottimizzata per l'efficienza, e RTDETRv2, un modello basato su trasformatori progettato per il rilevamento ad alta fedeltà.

YOLOv9: ridefinire l'efficienza della CNN

YOLOv9 rappresenta un'evoluzione significativa nella serie You Only Look OnceYOLO), concentrandosi sulla soluzione del problema del collo di bottiglia dell'informazione insito nelle reti neurali profonde. Grazie all'introduzione di nuovi concetti architettonici, raggiunge prestazioni all'avanguardia pur mantenendo l'ingombro ridotto caratteristico della famiglia YOLO .

Autori: Chien-Yao Wang, Hong-Yuan Mark Liao
Organizzazione:Istituto di Scienze dell'Informazione, Academia Sinica, Taiwan
Data: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
Documenti:Documentazione diUltralytics YOLOv9

Architettura di base

YOLOv9 introduce due innovazioni principali: Programmable Gradient Information (PGI) e Generalized Efficient Layer Aggregation Network (GELAN). PGI affronta il problema della perdita di informazioni sui dati quando si propagano attraverso gli strati profondi, garantendo la conservazione di informazioni affidabili sul gradiente per gli aggiornamenti del modello. GELAN ottimizza l'utilizzo dei parametri, consentendo al modello di raggiungere una maggiore precisione con un minor numero di operazioni in virgola mobile (FLOP) rispetto alle architetture convoluzionali tradizionali.

Integrazione dell'ecosistema Ultralytics

YOLOv9 è completamente integrato nell'ecosistema Ultralytics , offrendo agli sviluppatori un accesso continuo agli strumenti di formazione, convalida e distribuzione. Questa integrazione garantisce che gli utenti possano sfruttare la stessa semplice API utilizzata per YOLO11 e YOLOv8riducendo in modo significativo la barriera all'ingresso per le attività di computer vision avanzate.

Per saperne di più su YOLOv9

RTDETRv2: Il Transformer Challenger

RTDETRv2 si basa sul successo del Real-Time Detection TransformerRT-DETR), perfezionando la linea di base per migliorare la gestione della scala dinamica e la stabilità della formazione. Come modello basato su trasformatori, sfrutta i meccanismi di autoattenzione per catturare il contesto globale, che può essere vantaggioso per distinguere gli oggetti in scene complesse.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione:Baidu
Data: 2024-07-24
Arxiv:arXiv:2407.17140
GitHub:RepositoryRT-DETR su GitHub

Architettura di base

A differenza delle CNN che elaborano le immagini in patch locali, RTDETRv2 utilizza una spina dorsale di trasformatori per elaborare le caratteristiche dell'immagine. Questo approccio consente al modello di comprendere le relazioni tra parti distanti di un'immagine, migliorando potenzialmente l'accuratezza in ambienti disordinati. Tuttavia, questo meccanismo di attenzione globale comporta costi di memoria e di calcolo più elevati, soprattutto durante l'addestramento.

Scopri di più su RT-DETR

Confronto delle prestazioni

I dati seguenti evidenziano le metriche delle prestazioni di modelli di varie dimensioni sul set di datiCOCO . Il confronto si concentra sulla precisione mediamAP), sulla velocità di inferenza e sulla complessità computazionale.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

Analisi delle metriche

Precisione di picco: Il modello YOLOv9e raggiunge un notevole 55,6% mAP, superando il più grande modello RTDETRv2-x (54,3% mAP). Ciò dimostra che le innovazioni architettoniche di YOLOv9 colmano efficacemente il divario tra le CNN e i Transformer, superandoli persino in termini di precisione di alto livello.
Efficienza: YOLOv9 offre costantemente prestazioni più elevate per parametro. Ad esempio, YOLOv9c raggiunge il 53,0% mAP con soli 25,3M parametri e 102,1B FLOP, mentre l'analogo RTDETRv2-l richiede 42M parametri e 136B FLOP per raggiungere il 53,4% mAP. Questa efficienza rende YOLOv9 significativamente più leggero da memorizzare e più veloce da eseguire.
Velocità di inferenza: nelle applicazioni in tempo reale, la velocità è fondamentale. Le varianti più piccole di YOLOv9 , come YOLOv9t, offrono una latenza estremamente bassa (2,3 ms su TensorRT), rendendole ideali per le implementazioni di intelligenza artificiale in ambito edge, dove i modelli RTDETRv2 potrebbero essere troppo pesanti.

Efficienza formativa ed ecosistema

Uno dei fattori più critici per gli sviluppatori è la facilità di addestramento e le risorse necessarie per perfezionare i modelli su set di dati personalizzati.

Requisiti di memoria

I modelli basati su trasformatori come RTDETRv2 sono noti per il loro elevato consumo di memoria durante l'addestramento, dovuto alla complessità quadratica dei meccanismi di autoattenzione. Questo spesso richiede GPU aziendali di fascia alta con una VRAM massiccia. Al contrario, YOLOv9 mantiene l'efficienza di memoria delle CNN, consentendo l'addestramento su hardware di livello consumer. Questa minore barriera all'ingresso democratizza l'accesso al rilevamento di oggetti all'avanguardia.

Il vantaggio di Ultralytics

La scelta di un modello all'interno dell'ecosistemaUltralytics offre vantaggi distinti che vanno al di là delle metriche di performance grezze:

Facilità d'uso: l'APIPython di Ultralytics astrae i complessi cicli di formazione in poche righe di codice.
Ecosistema ben curato: Aggiornamenti frequenti garantiscono la compatibilità con le ultime versioni di PyTorch , i formati di esportazioneONNX, TensorRT, CoreML) e i driver hardware.
Versatilità: Sebbene RTDETRv2 sia principalmente un rilevatore di oggetti, il framework Ultralytics supporta un'ampia gamma di attività, tra cui la segmentazione delle istanze, la stima della posa e il rilevamento di bounding box orientati (OBB) attraverso le sue famiglie di modelli.

Esempio di codice

L'addestramento di YOLOv9 è semplice utilizzando il pacchetto Ultralytics . Il seguente frammento di codice mostra come caricare un modello pre-addestrato e addestrarlo su un set di dati personalizzato:

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

Capacità di esportazione

I modelli Ultralytics possono essere facilmente esportati in vari formati per la distribuzione. Ad esempio, l'esportazione in ONNX per una maggiore compatibilità:

model.export(format="onnx")

Casi d'uso ideali

Quando scegliere YOLOv9

YOLOv9 è la scelta consigliata per la maggior parte delle applicazioni di computer vision, in particolare quando è richiesto un equilibrio tra velocità, precisione ed efficienza delle risorse.

Implementazione sui bordi: Dispositivi come NVIDIA Jetson o Raspberry Pi traggono vantaggio dalla riduzione dei FLOP e del numero di parametri di YOLOv9.
Analisi video in tempo reale: I feed di sicurezza e i sistemi di monitoraggio del traffico richiedono l'elevata frequenza di fotogrammi offerta da YOLOv9 .
Formazione con risorse limitate: I team che non hanno accesso a cluster di GPU di grandi dimensioni possono comunque mettere a punto modelli all'avanguardia.

Quando considerare RTDETRv2

RTDETRv2 è adatto a scenari di nicchia in cui:

Il contesto globale è fondamentale: Scene con elevata occlusione o in cui il contesto di pixel distanti è strettamente necessario per la classificazione.
L'hardware è illimitato: Implementazioni su GPU di livello server in cui i vincoli di memoria e di calcolo sono trascurabili.
Preferenza per l'assenza di ancoraggi: Ricercatori che desiderano sperimentare architetture pure basate su trasformatori e prive di ancoraggi.

Conclusione

Mentre RTDETRv2 dimostra il potenziale dei trasformatori nel rilevamento degli oggetti, YOLOv9 emerge come la scelta pratica superiore per la maggior parte degli sviluppatori e dei ricercatori. Offre un'accuratezza di picco superiore (55,6% mAP) con un'efficienza significativamente migliore, un minore utilizzo di memoria e una maggiore velocità di inferenza. In combinazione con il solido supporto, l'ampia documentazione e la facilità d'uso forniti dall'ecosistema Ultralytics , YOLOv9 offre un percorso più snello dal prototipo alla produzione.

Per chi desidera esplorare le ultime novità in fatto di tecnologia di visione computerizzata, consigliamo anche di dare un'occhiata a YOLO11che spinge ancora più in là i confini della velocità e della precisione.

Esplora altri modelli

YOLO11: L'ultima evoluzione della serie YOLO , ottimizzata per diversi compiti, tra cui la segmentazione e la stima della posa.
YOLOv8: Un modello molto popolare e versatile, noto per la sua affidabilità e per l'ampio supporto della comunità.
RT-DETR: Esplora l'implementazione originale del Real-Time Detection Transformer all'interno del framework Ultralytics .

YOLOv9 vs. RTDETRv2: Un confronto tecnico per il rilevamento di oggetti

YOLOv9: ridefinire l'efficienza della CNN

Architettura di base

RTDETRv2: Il Transformer Challenger

Architettura di base

Confronto delle prestazioni

Analisi delle metriche

Efficienza formativa ed ecosistema

Requisiti di memoria

Il vantaggio di Ultralytics

Esempio di codice

Casi d'uso ideali

Quando scegliere YOLOv9

Quando considerare RTDETRv2

Conclusione

Esplora altri modelli

Commenti