YOLOv7 contro EfficientDet: Un confronto tecnico delle architetture di object detection in tempo reale

Il rilevamento di oggetti rimane una pietra angolare della visione artificiale, guidando le innovazioni in settori che vanno dalla guida autonoma all'imaging medicale. La scelta dell'architettura giusta è fondamentale per bilanciare accuratezza, velocità e risorse computazionali. Questa analisi fornisce un approfondimento su YOLOv7 ed EfficientDet, due modelli influenti che hanno plasmato il panorama del rilevamento in tempo reale.

Progettazione e Filosofia Architetturale

La differenza fondamentale tra queste due architetture risiede nei loro obiettivi di ottimizzazione. EfficientDet, sviluppato dal team di Google Brain, dà priorità all'efficienza dei parametri e alle operazioni in virgola mobile (FLOPs). Sfrutta un'architettura scalabile che consente agli utenti di scambiare linearmente risorse con accuratezza. Al contrario, YOLOv7, creato dagli autori di YOLOv4 (Chien-Yao Wang et al.), si concentra sulla massimizzazione della velocità di inferenza sull'hardware GPU, mantenendo al contempo un'accuratezza all'avanguardia.

EfficientDet: Scaling Composto e BiFPN

EfficientDet si basa sul backbone EfficientNet, che utilizza un metodo di ridimensionamento composto per scalare uniformemente la risoluzione, la profondità e l'ampiezza della rete. Un'innovazione chiave in EfficientDet è la Bi-directional Feature Pyramid Network (BiFPN). A differenza delle FPN tradizionali, BiFPN consente una fusione di feature multiscala facile e veloce introducendo pesi apprendibili per apprendere l'importanza delle diverse feature di input. Questo design rende EfficientDet altamente efficace per le applicazioni di edge computing in cui la memoria e i FLOP sono strettamente limitati.

Scopri di più su EfficientDet

YOLOv7: E-ELAN e riparametrizzazione del modello

YOLOv7 introduce la Extended Efficient Layer Aggregation Network (E-ELAN). Questa architettura controlla i percorsi del gradiente più brevi e più lunghi per migliorare la capacità di apprendimento della rete senza distruggere il percorso del gradiente originale. Inoltre, YOLOv7 impiega la riparametrizzazione del modello, una tecnica in cui una struttura di addestramento complessa viene semplificata in una struttura di inferenza semplificata. Ciò si traduce in un modello robusto durante l'addestramento ma estremamente veloce durante la distribuzione su GPU.

Scopri di più su YOLOv7

Analisi delle prestazioni: Metriche e benchmark

Quando si confrontano le prestazioni, la scelta dipende spesso dall'hardware di implementazione. EfficientDet eccelle in ambienti a bassa potenza (CPU), mentre YOLOv7 è progettato per l'inferenza GPU ad alta velocità.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	parametri ^(M)	FLOPs ^(B)
YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Punti chiave

Latenza vs. Efficienza: Mentre EfficientDet-d0 utilizza un numero significativamente inferiore di parametri (3.9M), YOLOv7l offre un mAP molto più alto (51.4%) con una latenza estremamente bassa sulle GPU (6.84ms). Ciò dimostra l'utilizzo superiore della potenza di elaborazione parallela di YOLOv7.
Scalabilità: EfficientDet fornisce un percorso di scalabilità granulare da d0 a d7, consentendo agli sviluppatori di mettere a punto le dimensioni del modello per vincoli specifici della CPU.
Accuratezza di fascia alta: Nella fascia alta, EfficientDet-d7 raggiunge un'eccellente accuratezza (53,7% mAP), ma a costo di un'elevata latenza (~128 ms). YOLOv7x raggiunge un'accuratezza comparabile (53,1% mAP) a meno di un decimo del tempo di inferenza (11,57 ms) su una GPU T4.

Considerazioni sull'hardware

Se il tuo obiettivo di distribuzione è una CPU generica o un processore mobile, i FLOP inferiori dei modelli EfficientDet (in particolare d0-d2) spesso si traducono in una migliore durata della batteria e gestione termica. Per le GPU edge (come NVIDIA Jetson) o i server di inferenza cloud, YOLOv7 offre frame rate significativamente più elevati per l'analisi video in tempo reale.

Metodologie e ottimizzazione dell'addestramento

Le strategie di addestramento per questi modelli riflettono i loro obiettivi architetturali.

YOLOv7 utilizza un approccio "Bag-of-Freebies", incorporando metodi che aumentano il costo di addestramento ma migliorano l'accuratezza senza influire sulla velocità di inferenza. Le tecniche chiave includono:

Supervisione profonda da grossolana a fine: Una head ausiliaria viene utilizzata per supervisionare gli strati intermedi della rete, con strategie di assegnazione delle etichette che guidano la head ausiliaria in modo diverso dalla head principale.
Assegnazione dinamica delle etichette: Il modello adatta l'assegnazione degli oggetti ground truth agli anchor durante il training, migliorando la convergenza.

EfficientDet si basa fortemente su AutoML per trovare l'architettura ottimale del backbone e della rete di caratteristiche. Il suo addestramento in genere prevede:

Profondità stocastica: Eliminazione casuale di livelli durante il training per migliorare la generalizzazione.
Attivazione Swish: Una funzione liscia e non monotona che supera costantemente ReLU nelle reti più profonde.

Il vantaggio di Ultralytics

Sebbene sia YOLOv7 che EfficientDet siano potenti, il panorama della computer vision si evolve rapidamente. L'ecosistema Ultralytics offre alternative moderne come YOLO11 che sintetizzano i migliori tratti delle architetture precedenti, migliorando al contempo l'esperienza dello sviluppatore.

Facilità d'uso ed ecosistema

Una delle principali sfide dei repository orientati alla ricerca (come la codebase EfficientDet originale) è la complessità dell'integrazione. Ultralytics risolve questo problema con un pacchetto python unificato. Gli sviluppatori possono eseguire il training, la convalida e il deployment dei modelli con poche righe di codice, supportati da una documentazione completa e dal supporto attivo della community.

Versatilità ed equilibrio delle prestazioni

I modelli Ultralytics non sono limitati alle bounding box. Supportano nativamente la segmentation istanza, la stima della posa, la classificazione e la Oriented Object Detection (OBB). In termini di prestazioni, le versioni moderne di YOLO (come YOLOv8 e YOLO11) spesso raggiungono una maggiore accuratezza per parametro rispetto a EfficientDet e un'inferenza più veloce rispetto a YOLOv7, raggiungendo un equilibrio ideale per l'implementazione nel mondo reale.

Memoria ed Efficienza di Addestramento

I modelli Ultralytics YOLO sono rinomati per la loro efficienza di memoria. In genere, richiedono meno memoria CUDA durante l'addestramento rispetto ai rivelatori basati su Transformer o alle architetture scalabili più datate. Ciò consente ai ricercatori di addestrare modelli all'avanguardia su hardware di livello consumer. Inoltre, il transfer learning è semplificato grazie a pesi pre-addestrati di alta qualità disponibili per il download immediato.

from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with high speed
predictions = model("https://ultralytics.com/images/bus.jpg")

Specifiche del modello

YOLOv7

Autori: Chien-Yao Wang, Alexey Bochkovskiy e Hong-Yuan Mark Liao
Organizzazione: Institute of Information Science, Academia Sinica, Taiwan
Data di rilascio: 6 luglio 2022
Articolo:YOLOv7: Il pacchetto di 'omaggi' addestrabile stabilisce un nuovo stato dell'arte per i detector di oggetti in tempo reale
Fonte:Repository GitHub

EfficientDet

Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organizzazione: Google Research, Brain Team
Data di rilascio: 20 novembre 2019
Articolo:EfficientDet: Object Detection scalabile ed efficiente
Fonte:Repository GitHub

Casi d'uso reali

Quando scegliere EfficientDet

EfficientDet rimane un forte candidato per i sistemi embedded dove l'accelerazione GPU non è disponibile.

App Mobile: Applicazioni Android/iOS che eseguono il detect di oggetti sulla CPU.
Sensori IoT remoti: Dispositivi alimentati a batteria che monitorano i cambiamenti ambientali dove ogni milliwatt di calcolo conta.

Quando scegliere YOLOv7

YOLOv7 eccelle in contesti industriali ad alte prestazioni.

Guida autonoma: Detect di pedoni e veicoli ad alta frequenza di fotogrammi per garantire la sicurezza.
Città intelligenti: Analisi simultanea di più flussi video per la gestione del traffico su server edge.

Conclusione

Entrambe le architetture rappresentano pietre miliari significative nella computer vision. EfficientDet ha dimostrato la potenza dello scaling composto per l'efficienza dei parametri, mentre YOLOv7 ha spinto i confini di ciò che è possibile con l'ottimizzazione della latenza della GPU.

Tuttavia, per gli sviluppatori che cercano la soluzione più moderna, manutenibile e versatile, si consiglia la famiglia di modelli Ultralytics YOLO11. Offre un compromesso superiore tra accuratezza e velocità, un flusso di lavoro più semplice e un ecosistema robusto che semplifica il percorso dalla cura del set di dati all'implementazione.

Esplora altri modelli

Se sei interessato a confrontare altre architetture di object detection, considera queste risorse: