Vai al contenuto

EfficientDet vs. RTDETRv2: un confronto tecnico per il rilevamento di oggetti moderni

La selezione dell'architettura ottimale per il rilevamento degli oggetti richiede un compromesso tra complessità architettonica, latenza di inferenza e accuratezza di rilevamento. Questo confronto tecnico analizza due approcci distinti: EfficientDet, un'architettura CNN a scalabilità composta di Google, e RTDETRv2, un modello basato su trasformatori in tempo reale di Baidu.

Mentre EfficientDet ha stabilito i benchmark per la scalabilità nel 2019, RTDETRv2 rappresenta il passaggio alle architetture transformer che eliminano la soppressione non massima (NMS). Per gli sviluppatori che cercano il massimo delle prestazioni nel 2026, esploriamo anche come Ultralytics sintetizzi il meglio di questi mondi con il suo design nativamente end-to-end.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet: L'eredità del compound scaling

Rilasciato alla fine del 2019, EfficientDet ha introdotto un metodo sistematico per scalare le reti neurali convoluzionali (CNN). È stato progettato per ottimizzare l'efficienza in un ampio spettro di vincoli di risorse, dai dispositivi mobili ai data center.

Architettura e caratteristiche principali

EfficientDet utilizza una struttura EfficientNet abbinata a una rete piramidale bidirezionale ponderata (BiFPN). La BiFPN consente una fusione multi-scala delle caratteristiche facile e veloce, permettendo al modello di apprendere in modo efficace l'importanza delle diverse caratteristiche di input. L'innovazione principale è stata il Compound Scaling, che scala in modo uniforme la risoluzione, la profondità e la larghezza della struttura di rete, della rete delle caratteristiche e delle reti di previsione box/classe.

Nonostante il suo successo accademico, EfficientDet si basa su anchor box e complesse fasi di post-elaborazione come la soppressione non massima (NMS), che possono introdurre variabilità di latenza e complicare l'implementazione su hardware edge.

RTDETRv2: Trasformatori in tempo reale

RTDETRv2 (Real-Time Detection Transformer v2) si basa sul successo dell'originale RT-DETR, con l'obiettivo di risolvere l'elevato costo computazionale associato ai modelli basati su DETR, mantenendo al contempo la loro precisione superiore e la consapevolezza del contesto globale.

Architettura e caratteristiche principali

RTDETRv2 utilizza un codificatore ibrido che elabora le caratteristiche multiscala in modo più efficiente rispetto ai Vision Transformer (ViT) standard. La sua caratteristica distintiva è il designNMS. Prevedendo gli oggetti direttamente come un insieme, elimina la necessità di una post-elaborazione euristica, stabilizzando teoricamente la velocità di inferenza.

Tuttavia, i modelli basati su trasformatori sono notoriamente affamati di memoria. L'addestramento di RTDETRv2 richiede in genere una notevole quantità GPU , che spesso necessita di hardware di fascia alta come NVIDIA per una convergenza efficiente, a differenza YOLO basati su CNN che sono più tolleranti sull'hardware consumer.

Scopri di più su RT-DETR

Il Vantaggio Ultralytics: Entra in YOLO26

Mentre EfficientDet e RTDETRv2 rappresentano traguardi significativi, Ultralytics (rilasciato nel gennaio 2026) stabilisce un nuovo standard integrando i punti di forza di entrambe le architetture in un framework unificato e ad alte prestazioni.

YOLO26 è progettato per gli sviluppatori che necessitano della precisione di un trasformatore e della velocità di una CNN leggera.

  • Progettazione end-to-end NMS: come RTDETRv2, YOLO26 è nativamente end-to-end. Elimina NMS , garantendo una latenza deterministica fondamentale per applicazioni critiche per la sicurezza come i veicoli autonomi.
  • Ottimizzatore MuSGD: ispirato alle innovazioni nella formazione dei modelli linguistici di grandi dimensioni (LLM) di Moonshot AI, YOLO26 utilizza l'ottimizzatore MuSGD. Questo ibrido di SGD Muon garantisce dinamiche di formazione stabili e una convergenza più rapida, riducendo la "prova ed errore" spesso necessaria durante la regolazione degli iperparametri per i trasformatori.
  • Rimozione DFL: rimuovendo la perdita focale di distribuzione, YOLO26 semplifica il grafico del modello. Questa ottimizzazione è fondamentale per esportare modelli in formati come ONNX CoreML, dove livelli di perdita complessi possono causare problemi di compatibilità sui dispositivi edge.
  • Equilibrio delle prestazioni: YOLO26 offre CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo molto più adatto all'implementazione edge rispetto all'EfficientDet-d7, che richiede un elevato carico di calcolo, o all'RTDETRv2, che richiede un uso intensivo della VRAM.

Scopri di più su YOLO26

Analisi tecnica approfondita

Efficienza dell'addestramento e memoria

Un fattore di differenziazione fondamentale tra questi modelli è il loro consumo di risorse durante l'addestramento.

  • EfficientDet: sebbene efficiente in termini di parametri, il metodo di ridimensionamento composto può comportare reti profonde che richiedono molto tempo per l'addestramento. Le complesse connessioni BiFPN aumentano anche il costo di accesso alla memoria (MAC), rallentando la velocità effettiva.
  • RTDETRv2: i trasformatori richiedono il calcolo delle mappe di attenzione, che varia in modo quadratico con la lunghezza della sequenza. Ciò comporta un elevato utilizzo della VRAM, rendendo difficile l'addestramento con batch di grandi dimensioni su GPU standard (ad esempio, RTX 3060/4070).
  • YOLO Ultralytics : modelli come YOLO11 e YOLO26 sono ottimizzati per l'efficienza della memoria. Consentono batch di dimensioni maggiori su hardware consumer, democratizzando l'accesso all'IA ad alte prestazioni. Inoltre, la Ultralytics (precedentemente HUB) semplifica ulteriormente questo processo, offrendo una formazione cloud gestita che gestisce automaticamente le complessità dell'infrastruttura.

Versatilità ed ecosistema

EfficientDet è principalmente un'architettura di sola rilevazione. Al contrario, Ultralytics supporta una vasta gamma di attività all'interno di un unico codice base.

Capacità multitasking

Ultralytics non si limitano ai riquadri di delimitazione. La stessa API consente di addestrare modelli per la segmentazione delle istanze, stima della posae rilevamento di oggetti orientati (OBB), fornendo un kit di strumenti flessibile per diverse sfide di visione artificiale.

YOLO26 include specificamente miglioramenti specifici per determinate attività, come ProgLoss e STAL (Soft Target Assignment Loss), che forniscono notevoli miglioramenti nel riconoscimento di oggetti di piccole dimensioni, un punto debole tradizionale delle precedenti CNN e dei trasformatori.

Casi d'uso reali

Quando usare RTDETRv2

RTDETRv2 eccelle in ambienti in cui le risorse hardware sono abbondanti e il contesto globale è fondamentale.

  • Comprensione complessa delle scene: nelle scene con elevata occlusione o disordine, il meccanismo di attenzione globale è in grado di track tra oggetti distanti meglio delle convoluzioni locali.
  • GPU di fascia alta: se l'implementazione avviene esclusivamente su GPU di classe server (ad esempio T4, A10), RTDETRv2 offre una precisione competitiva.

Quando usare EfficientDet

EfficientDet è generalmente considerato un'architettura obsoleta, ma rimane rilevante in nicchie specifiche.

  • Google legacy: per i team profondamente integrati nelle pipeline TensorFlow più datate, mantenere EfficientDet potrebbe essere meno invasivo rispetto alla migrazione dei framework.
  • Linee guida di ricerca: rimane una linea guida standard per confrontare l'efficienza delle reti di fusione delle caratteristiche.

La scelta superiore: YOLO26

Per la stragrande maggioranza delle applicazioni moderne, YOLO26 è la scelta consigliata grazie alla sua versatilità e facilità di implementazione.

  • Edge Computing: grazie alla rimozione del DFL e CPU , YOLO26 è ideale per dispositivi IoT e applicazioni mobili in cui la durata della batteria e i vincoli termici sono fattori importanti.
  • Robotica: il design NMS garantisce che i circuiti di controllo dei robot ricevano dati di percezione a una velocità costante e prevedibile.
  • Immagini aeree: la funzione ProgLoss migliora il rilevamento di piccoli oggetti come veicoli o bestiame nelle riprese effettuate con i droni, superando le prestazioni delle linee di base standard EfficientDet.

Conclusione

Mentre EfficientDet ha aperto la strada a un ridimensionamento efficiente e RTDETRv2 ha dimostrato la potenza dei trasformatori in tempo reale, il panorama si è evoluto. YOLO26 racchiude in sé la visione artificiale di nuova generazione: nativamente end-to-end, altamente ottimizzata per hardware diversi e supportata dal robusto Ultralytics .

Per gli sviluppatori che desiderano ottimizzare le loro pipeline ML, il passaggio ai Ultralytics offre non solo un aumento delle prestazioni, ma anche un flusso di lavoro semplificato, dall'annotazione sulla Ultralytics alla distribuzione sull'edge.

Letture aggiuntive


Commenti