Vai al contenuto

EfficientDet vs YOLO11: valutazione dell'evoluzione del rilevamento degli oggetti

La scelta dell'architettura ottimale per le applicazioni di visione artificiale spesso comporta un compromesso tra efficienza computazionale e accuratezza di rilevamento. Questo confronto completo esplora le differenze tecniche tra EfficientDet, l'architettura di rilevamento scalabile Google del 2019, e YOLO11, una versione del 2024 di Ultralytics che ha ridefinito le prestazioni in tempo reale.

Mentre EfficientDet ha introdotto concetti rivoluzionari nel ridimensionamento dei modelli, YOLO11 un significativo passo avanti in termini di usabilità, velocità di inferenza e versatilità multitasking. Agli sviluppatori che iniziano nuovi progetti nel 2026, consigliamo anche di esplorare l'ultimo YOLO26, che si basa sulle innovazioni discusse qui con elaborazione end-to-end nativa.

Analisi comparativa delle prestazioni

Il panorama del rilevamento degli oggetti è cambiato radicalmente, passando dall'ottimizzazione dei FLOP teorici all'ottimizzazione della latenza nel mondo reale. La tabella sottostante evidenzia il netto contrasto nelle velocità di inferenza. Mentre EfficientDet-d0 richiede circa 10 ms per CPU , le architetture moderne come YOLO11n eseguono attività simili in modo significativamente più veloce, spesso in meno di 2 ms su hardware comparabile, mantenendo al contempo una precisione media competitiva (mAP).

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLO11n64039.51.52.62.66.5
YOLO11s64047.02.59.49.421.5
YOLO11m64051.54.720.120.168.0
YOLO11l64053.46.225.325.386.9
YOLO11x64054.711.356.956.9194.9

EfficientDet: il pioniere del compound scaling

EfficientDet, sviluppato dal team Google , è emerso come approccio sistematico alla modellazione scalabile. È stato costruito sulla base di EfficientNet e ha introdotto il Weighted Bi-directional Feature Pyramid Network (BiFPN), che consente una fusione multi-scala delle caratteristiche facile e veloce.

L'innovazione principale è stata il compound scaling, un metodo che scala in modo uniforme la risoluzione, la profondità e la larghezza della dorsale di rete, della rete di caratteristiche e delle reti di previsione box/class. Ciò ha consentito alla famiglia EfficientDet (da D0 a D7) di rivolgersi a un'ampia gamma di vincoli di risorse, dai dispositivi mobili ai GPU ad alta potenza.

Nonostante il suo successo accademico e l'elevata efficienza in termini di FLOP, EfficientDet spesso fatica a gestire la latenza sull'hardware reale a causa dei costi di accesso alla memoria delle sue complesse connessioni BiFPN e delle convoluzioni separabili in profondità, che non sempre sono ottimizzate da acceleratori come TensorRT.

Metadati EfficientDet:

Scopri di più su EfficientDet

Ultralytics YOLO11: ridefinire lo stato dell'arte in tempo reale

Pubblicato nel settembre 2024, YOLO11 è progettato per il rilevamento pratico e ad alta velocità degli oggetti e l'implementazione immediata. A differenza di EfficientDet, che si concentra principalmente sull'efficienza dei parametri, YOLO11 l'utilizzo dell'hardware, garantendo che il modello funzioni in modo eccezionalmente veloce sia sulle CPU edge che sulle GPU aziendali.

YOLO11 miglioramenti architetturali quali il blocco C3k2 e un modulo SPPF (Spatial Pyramid Pooling - Fast) ottimizzato. Queste modifiche migliorano la capacità del modello di estrarre caratteristiche su varie scale senza la penalizzazione in termini di latenza riscontrata nei precedenti modelli di piramide delle caratteristiche. Inoltre, YOLO11 un framework unificato per molteplici attività di visione, tra cui la segmentazione delle istanze, la stima della posa e il rilevamento di Oriented Bounding Box (OBB), funzionalità che richiedono complesse implementazioni personalizzate con EfficientDet.

Vantaggio dell'ecosistema

Ultralytics sono completamente integrati con la Ultralytics , consentendo una gestione fluida dei set di dati, l'annotazione automatica e l'addestramento dei modelli con un solo clic nel cloud.

YOLO11 :

Scopri di più su YOLO11

Differenze Tecniche Chiave

Architettura e fusione delle caratteristiche

EfficientDet si basa su BiFPN, un complesso livello di fusione delle caratteristiche ponderate che collega ripetutamente le mappe delle caratteristiche dall'alto verso il basso e dal basso verso l'alto. Sebbene teoricamente efficiente, i modelli di accesso alla memoria irregolari possono rallentare l'inferenza sulle GPU.

Al contrario, YOLO11 un'architettura semplificata ispirata al PANet (Path Aggregation Network) con blocchi C3k2. Questo design favorisce modelli di accesso alla memoria densi e regolari che si allineano bene con CUDA e le moderne architetture NPU, con conseguenti enormi aumenti di velocità osservabili nella tabella dei benchmark (ad esempio, YOLO11x è notevolmente più veloce di EfficientDet-d7 pur mantenendo una maggiore precisione).

Efficienza dell'addestramento e facilità d'uso

L'addestramento di un modello EfficientDet comporta in genere l'uso dell'API TensorFlow Detection o della libreria AutoML, che possono avere una curva di apprendimento ripida e file di configurazione complessi.

Ultralytics all'esperienza degli sviluppatori. L'addestramento YOLO11 accessibile tramite una semplice Python o un'interfaccia a riga di comando (CLI). La libreria gestisce automaticamente la regolazione degli iperparametri, l'aumento dei dati e la formattazione dei set di dati.

from ultralytics import YOLO

# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Versatilità e implementazione

EfficientDet è principalmente un'architettura di rilevamento oggetti. Adattarla per attività come la segmentazione o la stima della posa richiede modifiche architetturali significative.

YOLO11 nativamente multimodale. La stessa struttura portante e la stessa pipeline di addestramento supportano:

  • Detection: Bounding box standard.
  • Segmentazione: maschere a livello di pixel per contorni precisi degli oggetti.
  • Classificazione: Categorizzazione dell'intera immagine.
  • Pose: rilevamento dei punti chiave per il tracciamento scheletrico.
  • OBB: Scatole ruotate per immagini aeree e rilevamento di testo.

Questa versatilità rende YOLO11 vero e proprio "coltellino svizzero" per gli ingegneri di IA, consentendo a un unico repository di alimentare diverse applicazioni, dall'imaging sanitario alla robotica autonoma.

Perché scegliere i modelli Ultralytics?

Quando si confrontano queste due architetture per i moderni sistemi di produzione, Ultralytics offrono vantaggi distintivi:

  1. Minore impatto sulla memoria: YOLO sono ottimizzati per l'addestramento su hardware di livello consumer. A differenza dei modelli basati su trasformatori o delle architetture più datate che richiedono CUDA massiccia, YOLO efficienti YOLO democratizzano l'accesso all'addestramento AI di fascia alta.
  2. Implementazione semplificata: esportazione in ONNX, TensorRT, CoreML o TFLite un comando di una sola riga nella Ultralytics .
  3. Supporto attivo: la Ultralytics è vivace e attiva. Grazie a frequenti aggiornamenti, il framework garantisce la compatibilità con le ultime versioni di PyTorch CUDA.

Conclusione: la scelta moderna

Sebbene EfficientDet rimanga una pietra miliare importante nella storia della ricerca sulla visione artificiale, dimostrando la potenza del ridimensionamento composto, YOLO11 e il più recente YOLO26 rappresentano oggi le scelte migliori per un impiego pratico. Offrono un miglior equilibrio tra velocità e precisione, un'esperienza utente notevolmente più semplice e la flessibilità necessaria per gestire più attività di visione artificiale all'interno di un unico framework.

Agli sviluppatori che desiderano rimanere all'avanguardia, consigliamo di approfondire YOLO26, che introduce un design end-to-end NMS per una latenza ancora più bassa e pipeline di implementazione più semplici.

Per esplorare altre opzioni ad alte prestazioni, ti invitiamo a leggere i nostri confronti su YOLOv10 o RT-DETR.


Commenti