Vai al contenuto

YOLO . RTDETRv2: architetture per il rilevamento in tempo reale

La scelta dell'architettura ottimale per il rilevamento degli oggetti è una decisione fondamentale che influisce su tutto, dalla latenza dell'inferenza ai costi di implementazione. Due modelli innovativi che hanno sfidato lo status quo sono YOLO di Alibaba e RTDETRv2 di Baidu. MentreYOLO sulla ricerca dell'architettura neurale (NAS) e sulla riparametrizzazione efficiente, RTDETRv2 amplia i confini dei trasformatori in tempo reale perfezionando il paradigma DETR.

Questa guida fornisce un'analisi tecnica approfondita delle loro architetture, metriche di prestazione e metodologie di addestramento per aiutarti a determinare quale modello si adatta alle tue specifiche esigenze di visione artificiale. Esploriamo anche come la prossima generazione Ultralytics sintetizza il meglio di questi approcci in un framework unificato e facile da usare.

Panoramica su DAMO-YOLO

YOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) è stato sviluppato dal Gruppo Alibaba per rispondere alle esigenze specifiche delle applicazioni industriali in cui la bassa latenza e l'elevata precisione sono requisiti imprescindibili. Introduce una suite di tecnologie progettate per comprimere il modello senza sacrificare le prestazioni.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione: Alibaba Group
Data: 23 novembre 2022
Arxiv:YOLO
GitHub:YOLO

Scopri di più su YOLO26

Innovazioni Architetturali Chiave

YOLO siYOLO per una serie di "omaggi" pensati per garantire la massima efficienza:

  • Ricerca dell'architettura neurale (NAS): a differenza dei modelli con backbone progettati manualmente,YOLO NAS per individuare automaticamente la struttura più efficiente per il backbone (MAE-NAS), ottimizzando il compromesso tra operazioni in virgola mobile (FLOP) e precisione.
  • RepGFPN efficiente: utilizza una rete piramidale di caratteristiche generalizzata (RepGFPN) che sfrutta la riparametrizzazione. Ciò consente di fondere strutture complesse utilizzate durante l'addestramento in convoluzioni più semplici e veloci durante l'inferenza.
  • ZeroHead: una testa di rilevamento leggera che riduce al minimo il carico computazionale tipicamente associato agli strati di previsione finali.
  • AlignedOTA: una strategia ottimizzata di assegnazione delle etichette che risolve i problemi di disallineamento tra le attività di classificazione e regressione durante l'addestramento.

Panoramica di RTDETRv2

RTDETRv2 (Real-Time Detection Transformer v2) si basa sul successo dell'originale RT-DETR, il primo rilevatore basato su trasformatore in grado di competere realmente con YOLO in termini di velocità. Sviluppato da Baidu, mira a eliminare la necessità della post-elaborazione Non-Maximum Suppression (NMS), migliorando al contempo la velocità di convergenza e la flessibilità.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione: Baidu
Data: 17 aprile 2023 (v1), luglio 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR

Scopri di più su RT-DETR

Innovazioni Architetturali Chiave

RTDETRv2 perfeziona l'architettura del trasformatore per compiti pratici di visione:

  • Codificatore ibrido: combina una struttura CNN con un efficiente codificatore ibrido che disaccoppia l'interazione intra-scala e la fusione cross-scala, affrontando l'elevato costo computazionale dei meccanismi standard di auto-attenzione.
  • Selezione delle queryIoU: questo meccanismo seleziona query iniziali di alta qualità in base ai punteggiIoU(Intersection over Union), consentendo una convergenza più rapida dell'addestramento.
  • Implementazione flessibile: a differenza del modello precedente, RTDETRv2 supporta forme di input flessibili e un'ottimizzazione migliorata per TensorRT, rendendolo più adatto a diversi backend hardware.
  • NMS: prevedendo direttamente una serie di oggetti, elimina la varianza di latenza causata NMS, un vantaggio fondamentale per l'analisi video in tempo reale.

Confronto delle prestazioni

Quando si confrontano queste architetture, è fondamentale considerare l'equilibrio tra la precisione media (mAP) e la velocità di inferenza nelle diverse configurazioni hardware.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

Analisi

  • Precisione: RTDETRv2 ottiene generalmente mAP più elevati, in particolare nelle varianti medie e grandi. Il modello "X" raggiunge un impressionante 54,3% mAP, superando laYOLO più grande. Ciò lo rende adatto per applicazioni che richiedono un rilevamento ad alta fedeltà, come l'imaging medico o il rilevamento di difetti.
  • Velocità:YOLO in termini di throughput grezzo su TensorRT . La sua architettura CNN riparametrizzata è intrinsecamente più compatibile con l'hardware rispetto ai blocchi trasformatori in RTDETRv2, con conseguente latenza inferiore per le varianti "Tiny" e "Small".
  • Efficienza dei parametri:YOLO ad avere meno parametri per livelli di prestazioni simili, il che può essere vantaggioso per i dispositivi edge con limitazioni di archiviazione.

Il Vantaggio Ultralytics: Perché Scegliere YOLO26?

SebbeneYOLO RTDETRv2 offrano punti di forza specifici, gli sviluppatori spesso devono affrontare sfide legate a pipeline di formazione complesse, supporto limitato delle piattaforme e documentazione frammentata. Ultralytics risolve questi punti critici integrando innovazioni all'avanguardia in un ecosistema fluido e incentrato sull'utente.

Eccellenza integrata

YOLO26 unifica la velocità delle CNN con la semplicità end-to-end dei trasformatori, offrendo un design NMS che semplifica l'implementazione e supera le prestazioni dei modelli precedenti sia in GPU CPU GPU .

1. Esperienza utente ed ecosistema superiori

Il tratto distintivo dei Ultralytics è facilità d'usoMentre gli archivi di ricerca richiedono spesso configurazioni ambientali complesse, YOLO26 può essere installato e avviato in pochi secondi tramite il ultralytics pacchetto. Il Ultralytics Platform migliora ulteriormente questo aspetto fornendo la gestione dei set di dati basata sul web, la formazione con un solo clic e l'implementazione automatizzata.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)

2. Architettura end-to-end NMS

YOLO26 adotta un design nativo end-to-end NMS, una caratteristica che condivide con RTDETRv2 ma che implementa all'interno di un framework CNN altamente ottimizzato. Questa innovazione elimina la necessità della soppressione non massima (NMS), un collo di bottiglia comune nelle pipeline di implementazione. Rimuovendo NMS, YOLO26 garantisce tempi di inferenza costanti e semplifica l'integrazione con strumenti come OpenVINO e CoreML.

3. Efficienza e stabilità dell'allenamento

YOLO26 introduce MuSGD Optimizer, un ibrido tra SGD Muon (ispirato all'addestramento LLM), che garantisce una stabilità senza precedenti alle attività di visione. Ciò consente una convergenza più rapida e una riduzione della regolazione degli iperparametri rispetto alle complesse programmazioni spesso richieste dai modelli basati su trasformatori come RTDETRv2.

4. Ottimizzazione Edge-First

Per gli sviluppatori che effettuano il deployment su dispositivi edge come Raspberry Pi o NVIDIA , YOLO26 offre CPU fino al 43% più veloce. La rimozione della Distribution Focal Loss (DFL) semplifica ulteriormente il grafico del modello per l'esportazione, garantendo una migliore compatibilità con gli acceleratori a bassa potenza rispetto ai meccanismi di attenzione ad alta intensità di calcolo nei trasformatori.

5. Versatilità in tutte le attività

A differenza di molti rilevatori specializzati, YOLO26 è un vero e proprio sistema di apprendimento multi-task. Supporta il rilevamento di oggetti, la segmentazione di istanze, la stima della posa, la classificazione e le attività di Oriented Bounding Box (OBB) all'interno di un unico codice base.

Raccomandazioni sui casi d'uso

  • ScegliYOLO : stai lavorando esclusivamente su attività di ispezione industriale in cui TensorRT su NVIDIA specifico è l'unico obiettivo di implementazione e hai bisogno della latenza più bassa possibile per semplici attività di rilevamento.
  • Scegli RTDETRv2 se: hai bisogno di un rilevamento ad alta precisione per scene complesse con occlusione e hai accesso a GPU potenti in cui il costo computazionale dei trasformatori è accettabile. È anche un ottimo candidato se l'inferenza NMS è un requisito imprescindibile, ma preferisci un'architettura a trasformatori.
  • Scegli Ultralytics se: desideri le migliori prestazioni complessive con precisione all'avanguardia, velocità NMS e la possibilità di implementarlo facilmente su CPU, GPU e dispositivi mobili. La sua documentazione completa, il supporto attivo della community e l'integrazione con la Ultralytics lo rendono la scelta più adeguata per i sistemi di produzione.

Conclusione

Il panorama del rilevamento degli oggetti è ricco di opzioni. YOLO dimostra la potenza della ricerca dell'architettura neurale in termini di efficienza, mentre RTDETRv2 mette in mostra il potenziale dei trasformatori in tempo reale. Tuttavia, Ultralytics si distingue per la sintesi di questi progressi, offrendo inferenza NMS, velocità ottimizzata per l'edge e stabilità di formazione ispirata all'LLM, il tutto racchiuso nell'ecosistema più intuitivo del settore per gli sviluppatori.

Per chi è pronto a iniziare il proprio prossimo progetto, consultare la documentazione di YOLO26 è il primo passo consigliato per ottenere risultati SOTA con il minimo sforzo.

Letture aggiuntive


Commenti