YOLOv5 . EfficientDet: un confronto tecnico tra i principali modelli di visione artificiale
Nel mondo della visione artificiale, la scelta dell'architettura ottimale per il rilevamento degli oggetti è una decisione fondamentale che influisce su tutto, dall'accuratezza del modello ai costi di implementazione. Questa guida fornisce un confronto tecnico completo tra Ultralytics YOLOv5 ed EfficientDet, due modelli influenti che hanno plasmato il panorama dell'IA moderna.
Mentre EfficientDet ha introdotto il concetto di efficienza scalabile attraverso il compound scaling, YOLOv5 il settore combinando prestazioni all'avanguardia con un'esperienza utente senza pari. Questa analisi approfondisce le differenze architetturali, le metriche delle prestazioni e l'applicabilità nel mondo reale per aiutare sviluppatori e ricercatori a compiere scelte basate sui dati.
Panoramica del modello
Ultralytics YOLOv5
YOLOv5 (You Only Look Once versione 5) è un modello fondamentale nella storia del rilevamento degli oggetti. Rilasciato a metà del 2020 da Ultralytics, è diventato rapidamente lo standard del settore per il suo equilibrio tra velocità, precisione e facilità d'uso. A differenza dei suoi predecessori, YOLOv5 il primo YOLO ad essere implementato in modo nativo in PyTorch, rendendolo eccezionalmente accessibile sia alla comunità di ricerca che agli sviluppatori aziendali.
- Autore: Glenn Jocher
- Organizzazione:Ultralytics
- Data: 2020-06-26
- GitHub:YOLOv5 Ultralytics YOLOv5
EfficientDet
EfficientDet è una famiglia di modelli di rilevamento oggetti sviluppata da Google . Si basa sulla struttura EfficientNet e introduce una rete piramidale bidirezionale ponderata (BiFPN) e un metodo di ridimensionamento composto che ridimensiona uniformemente la risoluzione, la profondità e la larghezza per tutte le reti backbone, le reti di caratteristiche e le reti di previsione box/classe.
- Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
- Organizzazione:Google Research
- Data: 2019-11-20
- Arxiv:EfficientDet: Scalable and Efficient Object Detection
- GitHub:RepositoryGoogle
Benchmark interattivi delle prestazioni
Per comprendere i compromessi tra queste architetture, è essenziale visualizzarne le prestazioni su benchmark standard. Il grafico sottostante mette a confronto le metriche chiave sul COCO , evidenziando il rapporto tra velocità e precisione.
Metriche dettagliate sulle prestazioni
La tabella seguente fornisce una panoramica dettagliata delle prestazioni delle varie scale dei modelli. Ultralytics dimostrano costantemente velocità di inferenza superiori, in particolare quando sono ottimizzati per applicazioni in tempo reale.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Architettura e Design
La differenza fondamentale tra questi due modelli risiede nella loro filosofia di progettazione: YOLOv5 all'inferenza in tempo reale e alla facilità di ingegnerizzazione, mentre EfficientDet si concentra sull'efficienza dei parametri attraverso la fusione di caratteristiche complesse.
YOLOv5: progettato per garantire velocità e facilità d'uso
YOLOv5 una struttura CSPDarknet (Cross Stage Partial Network), che migliora il flusso di gradiente e riduce i colli di bottiglia computazionali. Il suo collo utilizza una PANet (Path Aggregation Network) per aggregare caratteristiche su scale diverse, garantendo che sia gli oggetti grandi che quelli piccoli vengano rilevati con elevata precisione.
Il vantaggio di Ultralytics
Uno dei maggiori punti di forza YOLOv5 è il suo design modulare. L'attenzione rivolta alle tecniche di ottimizzazione "Bag of Freebies" e "Bag of Specials", che migliorano la precisione senza aumentare i costi di inferenza, lo rende incredibilmente robusto per diversi scenari di implementazione.
EfficientDet: Scaling Composto e BiFPN
EfficientDet è basato sul backbone EfficientNet e introduce il BiFPN (Bi-directional Feature Pyramid Network). Mentre le FPN standard sommano le caratteristiche provenienti da livelli diversi, la BiFPN applica pesi apprendibili a queste caratteristiche, consentendo alla rete di apprendere quali caratteristiche di input sono più importanti. Sebbene teoricamente efficiente in termini di FLOP, i complessi modelli di accesso alla memoria irregolari della BiFPN possono spesso portare a un'inferenza più lenta nel mondo reale sulle GPU rispetto all'architettura CSPNet semplificata di YOLOv5.
Addestramento e facilità d'uso
Per gli sviluppatori, le metriche "soft" di un modello, ovvero la facilità di addestramento, implementazione e debug, sono spesso importanti quanto la precisione pura e semplice.
Esperienza utente semplificata
Ultralytics sono famosi per la loro esperienza "zero-to-hero". YOLOv5 un'interfaccia a riga di comando (CLI) e Python che consentono agli utenti di avviare l'addestramento su dati personalizzati in pochi minuti. Al contrario, le implementazioni EfficientDet richiedono spesso file di configurazione più complessi e una conoscenza più approfondita di TensorFlow PyTorch specifici PyTorch per funzionare in modo efficace.
Efficienza e Risorse di Addestramento
YOLOv5 altamente ottimizzato per l'efficienza dell'addestramento. Include funzionalità quali il calcolo automatico dell'ancoraggio, l'aumento dei dati mosaico e l'evoluzione degli iperparametri. Inoltre, Ultralytics presentano in genere requisiti di memoria significativamente inferiori durante l'addestramento rispetto alle architetture EfficientDet e basate su trasformatori. Ciò consente ai ricercatori di addestrare batch di dimensioni maggiori su GPU di livello consumer, democratizzando l'accesso all'addestramento di modelli di fascia alta.
from ultralytics import YOLO
# Load a pre-trained YOLO model (recommended over YOLOv5 for new projects)
model = YOLO("yolo26n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
Versatilità e applicazioni nel mondo reale
Sebbene EfficientDet sia principalmente un rilevatore di oggetti, Ultralytics ha ampliato le capacità di YOLO oltre i semplici riquadri di delimitazione.
- YOLOv5 : supporta il rilevamento di oggetti, la segmentazione di istanze e la classificazione di immagini.
- Funzionalità EfficientDet: incentrate principalmente sul rilevamento di oggetti, con alcuni adattamenti per la segmentazione che sono meno integrati in un flusso di lavoro unificato.
Casi d'uso ideali
Scegli Ultralytics YOLOv5 o versioni successive) se:
- Le prestazioni in tempo reale sono fondamentali: applicazioni come la guida autonoma, l'analisi video e la robotica richiedono la bassa latenza offerta YOLO .
- Distribuzione Edge: stai effettuando la distribuzione su dispositivi mobili, Raspberry Pi o NVIDIA dove la memoria e la potenza di calcolo sono limitate.
- Sviluppo rapido: è necessario iterare rapidamente con un'API stabile e ben documentata e il supporto attivo della community.
Scegli EfficientDet se:
- I vincoli FLOP sono fondamentali: in scenari teorici molto specifici in cui i FLOP sono l'unico vincolo (anziché la latenza), il ridimensionamento di EfficientDet potrebbe offrire dei vantaggi.
- Basi di ricerca: stai effettuando un confronto specifico con gli estrattori di caratteristiche basati su EfficientNet in un contesto accademico.
Il Futuro: YOLO26
Sebbene YOLOv5 uno strumento potente, il settore ha fatto passi avanti. Ultralytics ha Ultralytics rilasciato YOLO26, un modello di nuova generazione che ridefinisce gli standard fissati dai suoi predecessori.
YOLO26 introduce un design end-to-end NMS, eliminando la necessità della post-elaborazione Non-Maximum Suppression. Ciò si traduce in pipeline di implementazione più semplici e inferenze più veloci. Inoltre, YOLO26 rimuove la Distribution Focal Loss (DFL) per una migliore compatibilità dei bordi e utilizza il nuovo ottimizzatore MuSGD, ispirato alle innovazioni nella formazione LLM, per garantire una convergenza stabile.
Per gli sviluppatori alla ricerca delle migliori prestazioni in assoluto, è altamente consigliabile migrare a YOLO26. Offre CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo la scelta migliore per le moderne applicazioni di IA edge.
Conclusione
Sia YOLOv5 EfficientDet si sono guadagnati un posto nella hall of fame della visione artificiale. EfficientDet ha dimostrato la potenza del ridimensionamento composto, mentre YOLOv5 che le prestazioni elevate possono essere accessibili e intuitive.
Tuttavia, per le applicazioni pratiche nel 2026, Ultralytics offre un vantaggio distintivo. La combinazione di manutenzione attiva, una piattaforma unificata per l'annotazione e l'addestramento dei dati e l'innovazione architettonica continua rende modelli come YOLOv5e l'avanguardistico YOLO26la scelta preferita dai professionisti.
Per chi fosse interessato a esplorare altre architetture moderne, consigliamo di consultare i confronti con YOLO11 o RT-DETR per comprendere appieno la gamma di strumenti disponibili.