YOLO11 EfficientDet: un confronto tecnico tra architetture di visione
Nel panorama in rapida evoluzione della visione artificiale, la scelta del modello di rilevamento degli oggetti più adeguato è fondamentale per il successo di un progetto. Questo confronto esplora le differenze tecniche tra Ultralytics YOLO11, un rilevatore in tempo reale all'avanguardia rilasciato alla fine del 2024, e Google , un'architettura molto influente del 2019 che ha introdotto il ridimensionamento composto nel settore.
Mentre EfficientDet ha stabilito nuovi standard di riferimento in termini di efficienza dei parametri al momento del suo lancio, YOLO11 anni di innovazione continua, incentrata sulla massimizzazione della velocità di inferenza, dell'accuratezza e dell'usabilità per le moderne applicazioni edge AI e cloud.
Modello più recente disponibile
Sebbene YOLO11 un modello potente, Ultralytics (rilasciato nel gennaio 2026) è ora la scelta all'avanguardia consigliata per i nuovi progetti. YOLO26 offre un design end-to-end NMS, inferenze più veloci e una maggiore precisione.
Metriche di performance e analisi
La tabella seguente presenta un confronto diretto delle metriche di prestazione sul COCO . Le metriche chiave includono la precisione media (mAP) per l'accuratezza, la velocità di inferenza (latenza) su hardware diversi, la dimensione del modello (parametri) e la complessità computazionale (FLOP).
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
Punti chiave
- Latenza di inferenza: Ultralytics YOLO11 superaYOLO11 EfficientDet in termini di latenza. Ad esempio, YOLO11x raggiunge una precisione maggiore (54,7 mAP) rispetto a EfficientDet-d7 (53,7 mAP) pur funzionando a una velocità oltre 10 volte superiore su una GPU T4 GPU 11,3 ms contro 128,07 ms).
- Efficienza dell'architettura: mentre EfficientDet ottimizza i FLOP (operazioni in virgola mobile), YOLO11 ottimizzato per l'utilizzo dell'hardware. Ciò evidenzia una differenza fondamentale nelle metriche delle prestazioni dell'IA: FLOP inferiori non sempre si traducono in un'inferenza più rapida nel mondo reale a causa dei costi di accesso alla memoria e dei vincoli di parallelismo.
- Scalabilità del modello: YOLO11 una curva di scalabilità più pratica. Il modello "nano" (YOLO11n) fornisce un mAP utilizzabile di 39,5 mAP velocità incredibili, mentre il più piccolo EfficientDet-d0 resta indietro con mAP di 34,6.
Ultralytics YOLO11: Architettura e caratteristiche
Ultralytics YOLO11 sull'eredità della famiglia YOLO You Only Look Once), perfezionando l'architettura per l'era moderna della visione artificiale. Introduce cambiamenti significativi alla struttura portante e al collo per migliorare l'estrazione delle caratteristiche e la velocità di elaborazione.
Tra i miglioramenti architettonici degni di nota figurano il blocco C3k2, una versione perfezionata del collo di bottiglia Cross Stage Partial (CSP) utilizzato nelle versioni precedenti, e il modulo C2PSA (Cross Stage Partial Spatial Attention). Questi componenti consentono al modello di catturare modelli complessi e contesti nelle immagini con un numero inferiore di parametri.
- Autori: Glenn Jocher e Jing Qiu
- Organizzazione:Ultralytics
- Data: 2024-09-27
- GitHub:ultralytics/ultralytics
- Documentazione:Documentazione YOLO11
Punti di forza di YOLO11
- Ecosistema unificato: YOLO11 non YOLO11 solo un modello di rilevamento, ma supporta anche la segmentazione delle istanze, la stima della posa, OBB e la classificazione immediatamente.
- Prontezza all'implementazione: grazie alla modalità di esportazione integrata, gli utenti possono convertire i modelli in ONNX, TensorRT, CoreML e TFLite un unico comando, garantendo un'implementazione senza soluzione di continuità su dispositivi mobili e periferici.
- Efficienza di addestramento: YOLO11 in modo significativamente più veloce rispetto alle architetture precedenti come EfficientDet, utilizzando moderne pipeline di potenziamento e funzioni di perdita ottimizzate.
Google : architettura e eredità
EfficientDet, sviluppato dal team Google , ha introdotto il concetto di Compound Scaling nel rilevamento degli oggetti. Anziché progettare manualmente modelli più grandi, gli autori hanno proposto un metodo per scalare contemporaneamente la risoluzione, la profondità e la larghezza della rete.
Il cuore di EfficientDet è il BiFPN (Bi-directional Feature Pyramid Network), che consente una facile fusione di caratteristiche multiscala. Utilizza un backbone EfficientNet, anch'esso progettato utilizzando Neural Architecture Search (NAS).
- Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
- Organizzazione: Google
- Data: 2019-11-20
- Arxiv:1911.09070
- GitHub:google/automl
Punti di forza e limitazioni
- Efficienza dei parametri: EfficientDet è storicamente noto per la sua elevata precisione con un numero molto ridotto di parametri.
- Efficienza teorica: sebbene abbia FLOP bassi, le connessioni complesse nel livello BiFPN possono richiedere molta memoria ed essere più lente da eseguire sulle GPU rispetto ai percorsi convoluzionali semplici di YOLO.
- Versatilità limitata: il repository originale si concentra principalmente sul rilevamento, mancando della flessibilità nativa e multitasking (segmentazione, posa, OBB) presente nel Ultralytics .
Analisi comparativa: perché scegliere Ultralytics?
Confrontando questi due modelli per gli ambienti di produzione nel 2025 e nel 2026, i vantaggi Ultralytics diventano evidenti.
Facilità d'uso ed esperienza degli sviluppatori
Ultralytics un'esperienza utente semplificata. L'implementazione YOLO11 solo poche righe di Python , mentre l'utilizzo di EfficientDet spesso comporta la navigazione in complessi codici legacy o TensorFlow .
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
Ecosistema ben mantenuto
Ultralytics è gestito in modo attivo con aggiornamenti frequenti. I problemi segnalati su GitHub vengono risolti rapidamente e il supporto della community è ampio. Al contrario, i repository di ricerca più vecchi come l'originale EfficientDet spesso vengono aggiornati di rado, rendendoli più difficili da gestire nei progetti commerciali a lungo termine.
Equilibrio delle Prestazioni e Memoria
YOLO11 un equilibrio superiore tra velocità e precisione. Le scelte architetturali in YOLO11 GPU , con conseguente riduzione dei tempi di inferenza wall-clock anche se il conteggio FLOP teorico è superiore a quello di EfficientDet. Inoltre, Ultralytics sono ottimizzati per un minore utilizzo di memoria durante l'addestramento, consentendo agli utenti di addestrare modelli efficaci su GPU di livello consumer, a differenza di molte alternative basate su Transformer che richiedono una VRAM massiccia.
Versatilità tra le attività
Mentre EfficientDet è principalmente un rilevatore di oggetti, YOLO11 da base per una varietà di attività. Questa versatilità riduce la necessità di apprendere diversi framework per problemi diversi.
Un unico framework, molteplici attività
- Rilevamento: identificare gli oggetti e la loro posizione.
- Segmentazione: comprensione degli oggetti a livello di pixel.
- Stima della posa: rileva i punti chiave sul corpo umano.
- Riquadri orientati (OBB): rilevano oggetti ruotati come navi nelle immagini aeree.
- Classificazione: classificare in modo efficiente immagini intere.
Conclusione
Entrambe le architetture rappresentano pietre miliari significative nella storia della visione artificiale. EfficientDet ha dimostrato la potenza della ricerca dell'architettura neurale e del ridimensionamento composto. Tuttavia, per le applicazioni pratiche odierne, Ultralytics YOLO11 è la scelta migliore. Offre velocità di inferenza più elevate, maggiore precisione e un ecosistema intuitivo per gli sviluppatori che riduce drasticamente il time-to-market.
Agli sviluppatori che cercano il massimo in termini di prestazioni, consigliamo di provare YOLO26, che si basa sul successo di YOLO11 un'efficienza ancora maggiore e un design NMS. Chi è interessato agli approcci basati sui trasformatori potrebbe anche prendere in considerazione RT-DETR per la consapevolezza del contesto globale.
Scopri tutto il potenziale dell'intelligenza artificiale visiva visitando la Ultralytics per addestrare, implementare e gestire i tuoi modelli nel cloud.