Link to this sectionDAMO-YOLO contro EfficientDet#

L'evoluzione della computer vision ha prodotto una serie di potenti architetture pensate per diverse esigenze del mondo reale. Mentre alcuni framework danno priorità alla scalabilità massiva, altri si concentrano pesantemente sulla velocità di inferenza in tempo reale. In questo confronto tecnico, esploriamo DAMO-YOLO ed EfficientDet, due modelli di grande influenza che mostrano approcci distinti alla risoluzione del problema dell'object detection. Analizzeremo le loro architetture, confronteremo le loro prestazioni di benchmark e, infine, esploreremo perché il nuovo Ultralytics YOLO26 rappresenti la scelta ottimale per i moderni deployment in produzione.

Link to this sectionPanoramica architettonica#

Entrambi i modelli sono stati progettati per affrontare il compromesso tra efficienza e precisione, ma si basano su meccanismi fondamentalmente diversi per raggiungere i loro obiettivi.

Link to this sectionDAMO-YOLO: velocità attraverso la Neural Architecture Search#

Sviluppato per superare i limiti del rilevamento in tempo reale, DAMO-YOLO sfrutta tecniche di ricerca automatizzate per costruire reti altamente efficienti su misura per ambienti a bassa latenza.

Dettagli DAMO-YOLO:
Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione: Alibaba Group
Data: 23-11-2022
Arxiv: https://arxiv.org/abs/2211.15444v2
GitHub: https://github.com/tinyvision/DAMO-YOLO

DAMO-YOLO è costruito attorno a una backbone di Neural Architecture Search (NAS) che ottimizza sia la velocità che la precisione. Introduce la RepGFPN (Reparameterized Generalized Feature Pyramid Network), che migliora la fusione delle feature mantenendo velocità di inferenza elevate. Inoltre, il suo design ZeroHead minimizza il carico computazionale tipicamente associato alle detection head. Il modello beneficia anche di AlignedOTA (Aligned Optimal Transport Assignment) e di un miglioramento tramite distillazione, garantendo che anche le varianti più piccole apprendano rappresentazioni ricche da modelli più grandi.

Scopri di più su DAMO-YOLO

Link to this sectionEfficientDet: scalabilità attraverso il compound scaling#

In contrasto con l'approccio orientato alla velocità, EfficientDet si concentra su una scalabilità sistematica attraverso vari budget di calcolo.

Dettagli EfficientDet:
Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organizzazione: Google Brain
Data: 20-11-2019
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet

EfficientDet introduce la BiFPN (Bidirectional Feature Pyramid Network), che consente una fusione delle feature multi-scala facile e veloce. A differenza dei metodi tradizionali che scalano le architetture aggiungendo arbitrariamente layer o canali, EfficientDet utilizza un metodo di compound scaling che scala uniformemente la risoluzione, la profondità e la larghezza della backbone, della feature network e delle reti di previsione di box/classe simultaneamente. Ciò gli consente di ottenere una precisione all'avanguardia su hardware di fascia alta, offrendo al contempo varianti più piccole per ambienti vincolati.

Scopri di più su EfficientDet

Link to this sectionConfronto tra prestazioni e metriche#

Quando si confrontano questi modelli fianco a fianco, il compromesso tra pura precisione e velocità di inferenza diventa chiaro. La tabella seguente delinea le metriche di prestazione chiave, evidenziando come le capacità di inferenza di DAMO-YOLO si confrontino con la famiglia di modelli EfficientDet.

Modello	dimensione ^(pixel)	mAP^val 50-95	Velocità ^{CPU ONNX (ms)}	Velocità ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

Come si può vedere sopra, EfficientDet-d7 raggiunge la massima precisione complessiva, rendendolo adatto a rigorose applicazioni basate su cloud. Al contrario, la serie DAMO-YOLO fornisce una precisione altamente competitiva con una latenza significativamente inferiore su hardware GPU, rendendolo un candidato più forte per il deployment edge in tempo reale.

Link to this sectionCasi d'uso e raccomandazioni#

La scelta tra DAMO-YOLO ed EfficientDet dipende dai requisiti specifici del tuo progetto, dai vincoli di deployment e dalle preferenze dell'ecosistema.

Link to this sectionQuando scegliere DAMO-YOLO#

DAMO-YOLO è una scelta valida per:

Video Analytics ad alto throughput: Elaborazione di flussi video ad alto FPS su infrastruttura GPU NVIDIA fissa dove il throughput batch-1 è la metrica principale.
Linee di produzione industriale: Scenari con rigorosi vincoli di latenza GPU su hardware dedicato, come l'ispezione di qualità in tempo reale sulle linee di assemblaggio.
Ricerca sulla Neural Architecture Search: Studiare gli effetti della ricerca automatizzata dell'architettura (MAE-NAS) e delle efficienti backbone riparametrizzate sulle prestazioni di rilevamento.

Link to this sectionQuando scegliere EfficientDet#

EfficientDet è consigliato per:

Pipeline Google Cloud e TPU: Sistemi profondamente integrati con le API di Google Cloud Vision o l'infrastruttura TPU, dove EfficientDet offre un'ottimizzazione nativa.
Ricerca sul Compound Scaling: Benchmarking accademico focalizzato sullo studio degli effetti della profondità della rete, della larghezza e del ridimensionamento della risoluzione.
Deployment mobile tramite TFLite: Progetti che richiedono specificamente l'esportazione verso TensorFlow Lite per dispositivi Android o Linux embedded.

Link to this sectionQuando scegliere Ultralytics (YOLO26)#

Per la maggior parte dei nuovi progetti, Ultralytics YOLO26 offre la migliore combinazione di prestazioni ed esperienza per gli sviluppatori:

Implementazione Edge senza NMS: Applicazioni che richiedono un'inferenza costante e a bassa latenza senza la complessità della post-elaborazione della soppressione dei non massimi.
Ambienti solo CPU: Dispositivi senza accelerazione GPU dedicata, dove l'inferenza CPU fino al 43% più veloce di YOLO26 fornisce un vantaggio decisivo.
Rilevamento di oggetti piccoli: Scenari impegnativi come immagini di droni aerei o analisi di sensori IoT in cui ProgLoss e STAL aumentano significativamente la precisione su oggetti minuscoli.

Link to this sectionL'alternativa moderna: Ultralytics YOLO26#

Sebbene sia DAMO-YOLO che EfficientDet rappresentino pietre miliari accademiche significative, il deployment nel mondo reale richiede spesso un approccio più equilibrato, ricco di funzionalità e orientato agli sviluppatori. È qui che Ultralytics YOLO26 stabilisce un nuovo standard industriale.

Rilasciato a gennaio 2026, YOLO26 si basa sull'eredità dei suoi predecessori, tra cui Ultralytics YOLO11 e YOLOv8, offrendo un cambio di paradigma nel modo in cui approcciamo l'object detection.

Semplicità end-to-end

YOLO26 presenta un design nativo end-to-end NMS-Free. Eliminando la Non-Maximum Suppression (NMS) durante il post-processing — un collo di bottiglia che affligge i rilevatori di oggetti da anni — YOLO26 offre una pipeline di deployment più semplice e decisamente più veloce, specialmente su hardware edge.

Link to this sectionPrestazioni e versatilità senza pari#

YOLO26 non migliora solo la velocità; ridefinisce la stabilità e la precisione dell'addestramento. Introduce l'ottimizzatore MuSGD, un ibrido di SGD e Muon ispirato alle innovazioni nell'addestramento degli LLM, che porta a tassi di convergenza drasticamente più rapidi e a un'efficienza di addestramento superiore. A differenza delle pesanti alternative basate su transformer come RT-DETR, YOLO26 mantiene requisiti di memoria incredibilmente bassi, garantendo che possa essere addestrato su hardware di livello consumer.

Inoltre, YOLO26 incorpora ProgLoss + STAL, migliorando notevolmente il riconoscimento di piccoli oggetti, fondamentale per casi d'uso come immagini aeree da drone e robotica. Per ottimizzare i dispositivi a basso consumo, YOLO26 ha rimosso la Distribution Focal Loss (DFL), risultando in un'inferenza CPU fino al 43% più veloce rispetto alle generazioni precedenti.

Link to this sectionEcosistema e facilità d'uso#

Uno dei maggiori ostacoli con modelli come EfficientDet è il complesso processo di integrazione. Al contrario, la piattaforma Ultralytics offre un ecosistema end-to-end ben mantenuto. Con un'API unificata, puoi passare facilmente tra detection, instance segmentation, pose estimation, image classification e oriented bounding boxes (OBB).

Ecco quanto è semplice addestrare ed eseguire l'inferenza con YOLO26 utilizzando il pacchetto Python di Ultralytics:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run ultra-fast NMS-free inference
predictions = model.predict("image.jpg")

Scopri di più su YOLO26

Link to this sectionConclusione#

Sebbene esplorare DAMO-YOLO vs EfficientDet fornisca eccellenti spunti sui compromessi tra Neural Architecture Search e compound scaling, i moderni sviluppatori richiedono strumenti che colmino il divario tra ricerca accademica e realtà produttiva.

Per gli sviluppatori che danno priorità alla facilità d'uso, a una comunità open-source attiva e a un equilibrio senza compromessi tra velocità e precisione, Ultralytics YOLO26 è la scelta definitiva. La sua architettura senza NMS, il basso overhead di addestramento e l'integrazione senza soluzione di continuità con il completo ecosistema Ultralytics lo rendono il framework definitivo per il tuo prossimo progetto di computer vision.

Collaboratori

GLglenn-jocher¹⁵

Creato 27 gen 2025Aggiornato 4 settimane fa