Vai al contenuto

YOLO . EfficientDet: un'analisi approfondita delle architetture di rilevamento degli oggetti

La scelta dell'architettura ottimale per la visione artificiale è una decisione fondamentale che influisce su tutto, dalla latenza di inferenza ai costi hardware. In questo confronto tecnico, analizziamo due modelli influenti: YOLO di Alibaba ed EfficientDet Google. Mentre EfficientDet ha introdotto il concetto di efficienza scalabile,YOLO i limiti delle prestazioni in tempo reale con tecniche di distillazione innovative.

Questa guida fornisce un'analisi rigorosa delle loro architetture, delle metriche di prestazione e dell'idoneità per l'implementazione moderna, esplorando al contempo come le soluzioni di nuova generazione come Ultralytics stiano definendo nuovi standard in termini di facilità d'uso ed efficienza edge.

Panoramica su DAMO-YOLO

YOLO un framework ad alte prestazioni per il rilevamento di oggetti sviluppato da Alibaba Group. Dà priorità al compromesso tra velocità e precisione, sfruttando tecnologie come Neural Architecture Search (NAS) e una pesante riparametrizzazione. Progettato principalmente per applicazioni industriali, mira a ridurre la latenza senza compromettere la qualità del rilevamento.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione:Alibaba Group
Data: 23 novembre 2022
Arxiv:YOLO
GitHub:YOLO
Documentazione:YOLO

Caratteristiche architettoniche chiave

  • MAE-NAS Backbone: utilizza una ricerca dell'architettura neurale basata su un autoencoder mascherato (MAE) per individuare strutture backbone efficienti.
  • RepGFPN efficiente: un design pesante che utilizza la riparametrizzazione (simile a YOLOv6) per fondere efficacemente le caratteristiche mantenendo veloce l'inferenza.
  • ZeroHead: una testa di rilevamento leggera che riduce al minimo il sovraccarico computazionale durante la fase finale di previsione.
  • AlignedOTA: una strategia migliorata di assegnazione delle etichette che risolve i problemi di disallineamento tra le attività di classificazione e regressione durante l'addestramento.

Panoramica di EfficientDet

EfficientDet, sviluppato dal team Google , ha introdotto un approccio sistematico al ridimensionamento dei modelli. Ridimensionando congiuntamente backbone, risoluzione e profondità, EfficientDet raggiunge un'efficienza notevole. Si basa sul backbone EfficientNet e introduce il BiFPN (Bidirectional Feature Pyramid Network) per la fusione di caratteristiche complesse.

Autori: Mingxing Tan, Ruoming Pang e Quoc V. Le
Organizzazione:Google
Data: 20 novembre 2019
Arxiv:EfficientDet Paper
GitHub:google
Documentazione:EfficientDet README

Caratteristiche architettoniche chiave

  • Ridimensionamento composto: un metodo per ridimensionare in modo uniforme la larghezza, la profondità e la risoluzione della rete con un semplice coefficiente composto (phi).
  • BiFPN: una rete piramidale bidirezionale ponderata che consente una fusione delle caratteristiche multiscala facile e veloce.
  • EfficientNet Backbone: sfrutta la potente architettura EfficientNet per l'estrazione delle caratteristiche.

Confronto delle prestazioni

La tabella seguente mette a confronto le prestazioni delle variantiYOLO EfficientDet.YOLO offreYOLO rapporti velocità-precisione superiori, in particolare su GPU dove i suoi blocchi riparametrizzati danno il meglio di sé. EfficientDet, pur essendo accurato, spesso soffre di una maggiore latenza a causa delle complesse connessioni BiFPN e delle funzioni di attivazione più lente.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

Analisi dei risultati

  • Latenza:YOLO superaYOLO EfficientDet in termini di TensorRT . Ad esempio, DAMO-YOLOl raggiunge 50,8 mAP ~7 ms, mentre EfficientDet-d4 richiede ~33 ms per ottenere una precisione simile.
  • Efficienza dell'architettura: il basso numero di parametri di EfficientDet (ad esempio, d0 ha solo 3,9 milioni di parametri) lo rende facile da archiviare, ma la sua complessa struttura grafica (BiFPN) spesso comporta velocità di inferenza effettive più lente rispetto alle strutture semplificate dei modelli YOLO.
  • Utilizzo delle risorse:YOLO il "Distillation Enhancement" durante l'addestramento, che consente ai modelli student più piccoli di imparare dai modelli teacher più grandi, migliorando le prestazioni senza aumentare i costi di inferenza.

Spiegazione della riparametrizzazione

YOLO tecniche di riparametrizzazione simili a RepVGG. Durante l'addestramento, il modello utilizza blocchi multi-ramificati complessi per apprendere caratteristiche ricche. Prima dell'inferenza, queste ramificazioni vengono matematicamente unite in un'unica convoluzione, aumentando drasticamente la velocità senza perdere precisione.

Casi d'uso e applicazioni

Capire in cosa eccelle ciascun modello aiuta a scegliere lo strumento giusto per il lavoro da svolgere.

Quando usare DAMO-YOLO

  • Ispezione industriale: ideale per linee di produzione in cui una latenza di millisecondi è fondamentale per rilevare difetti su nastri trasportatori in rapido movimento.
  • Sorveglianza delle città intelligenti: l'elevata velocità di elaborazione consente di gestire più flussi video su una singola GPU.
  • Robotica: adatta alla navigazione autonoma dove sono necessari tempi di reazione rapidi per evitare gli ostacoli.

Quando usare EfficientDet

  • Ricerca accademica: le sue regole di scalabilità sistematiche lo rendono un ottimo punto di riferimento per lo studio delle teorie sull'efficienza dei modelli.
  • Ambienti con limitazioni di archiviazione: il numero estremamente basso di parametri delle varianti d0/d1 è vantaggioso se lo spazio su disco è il principale collo di bottiglia, anche se l'utilizzo della RAM e CPU potrebbero comunque essere superiori rispetto a YOLO comparabili.
  • Applicazioni mobili (legacy): le prime implementazioni mobili utilizzavano versioni di EfficientDet TFLite, mentre le architetture moderne come YOLO11 lo hanno in gran parte sostituito.

Il Vantaggio Ultralytics: Entra in YOLO26

SebbeneYOLO EfficientDet abbiano rappresentato traguardi significativi, il settore ha continuato a evolversi. Ultralytics rappresenta lo stato dell'arte attuale, superando i limiti delle architetture precedenti grazie a un design end-to-end e a un'ottimizzazione superiore.

Scopri di più su YOLO26

Perché gli sviluppatori preferiscono Ultralytics

  1. Facilità d'uso ed ecosistema: Ultralytics un'esperienza "zero-to-hero" senza soluzione di continuità. A differenza dei complessi file di configurazione spesso richiesti dai repository di ricerca, Ultralytics di avviare l'addestramento con poche righe di Python. L'ecosistema include la Ultralytics per una facile gestione dei set di dati e l'addestramento nel cloud.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset
    results = model.train(data="coco8.yaml", epochs=100)
    
  2. Equilibrio delle prestazioni: YOLO26 è progettato per dominare la frontiera di Pareto. Offre CPU fino al 43% più veloce rispetto alle generazioni precedenti, rendendolo un concentrato di potenza per le applicazioni di IA edge in cui le GPU non sono disponibili.

  3. End-to-End NMS: uno dei maggiori punti deboli nell'implementazione dei rilevatori di oggetti è la soppressione non massima (NMS).YOLO EfficientDet si basano NMS, che complica la post-elaborazione e introduce variabilità nella latenza. YOLO26 è nativamente end-to-end, eliminando NMS per un'inferenza deterministica e più veloce.

  4. Efficienza di addestramento e MuSGD: YOLO26 integra l'ottimizzatore MuSGD, un ibrido di SGD Muon. Questa innovazione, ispirata all'addestramento LLM, garantisce una convergenza stabile e riduce la necessità di un'ampia regolazione degli iperparametri. In combinazione con requisiti di memoria inferiori durante l'addestramento, consente agli utenti di addestrare batch di dimensioni maggiori su hardware consumer rispetto agli ibridi transformer che richiedono molta memoria come RT-DETR.

  5. Versatilità: mentre EfficientDet eYOLO principalmente sui bounding box, Ultralytics supportano nativamente un'ampia gamma di attività, tra cui segmentazione delle istanze, stima della posa, OBB e classificazione, il tutto all'interno di un'unica API unificata.

Riepilogo del confronto

FunzionalitàEfficientDetDAMO-YOLOUltralytics YOLO26
ArchitetturaBasato su ancoraggio, BiFPNSenza ancoraggio, RepGFPNEnd-to-End, NMS
Velocità di inferenzaLento (grafico complesso)Veloce (GPU )SOTA (CPU GPU)
DistribuzioneComplesso (NMS )Moderato (NMS )Semplice (NMS)
Memoria di allenamentoAltaModerataBasso (ottimizzato)
Supporto TaskRilevamentoRilevamentoRileva, Seg, Pose, OBB

Conclusione

SiaYOLO EfficientDet hanno contribuito in modo significativo alla storia della visione artificiale. EfficientDet ha dimostrato la potenza del compound scaling, mentreYOLO l'efficacia della riparametrizzazione e della distillazione. Tuttavia, per gli sviluppatori che iniziano nuovi progetti nel 2026, Ultralytics offre un vantaggio convincente.

La rimozione di NMS le pipeline di implementazione, l'ottimizzatore MuSGD accelera l'addestramento e la sua architettura ottimizzata offre una velocità superiore sia sulle CPU edge che sulle potenti GPU. Che tu stia realizzando un sistema di telecamere intelligenti o una piattaforma di analisi video basata su cloud, il solido ecosistema e le prestazioni di Ultralytics lo Ultralytics la scelta consigliata.

Per approfondire ulteriormente l'argomento, potresti anche essere interessato a confrontare YOLO26 con YOLOv10 o a comprendere i vantaggi di YOLO11 per il supporto legacy.


Commenti