Vai al contenuto

RTDETRv2 controYOLO: la battaglia per la precisione in tempo reale

La ricerca dell'architettura ottimale per il rilevamento degli oggetti spesso comporta un compromesso tra la modellazione del contesto globale dei trasformatori e la velocità delle reti neurali convoluzionali (CNN). Due dei principali contendenti in questo campo sono RTDETRv2 e YOLO. RTDETRv2, la seconda iterazione del Real-Time Detection Transformer di Baidu, sfrutta meccanismi di attenzione per eliminare la necessità della soppressione non massima (NMS). Al contrario,YOLO Alibaba Group si concentra sulla ricerca dell'architettura neurale (NAS) e sulla riparametrizzazione efficiente per ottenere le massime prestazioni dalle strutture CNN tradizionali.

Questa guida offre un'analisi approfondita delle loro architetture, dei benchmark e degli scenari di implementazione ideali, fornendo agli sviluppatori le informazioni necessarie per selezionare lo strumento giusto per i loro progetti di visione artificiale.

Riepilogo

RTDETRv2 è una scelta eccellente per applicazioni che richiedono un'elevata precisione in ambienti complessi in cui gli oggetti possono sovrapporsi in modo significativo. Il suo design basato su trasformatori gestisce in modo naturale il contesto globale, rendendolo robusto contro le occlusioni. Tuttavia, ciò comporta requisiti computazionali più elevati, in particolare sui dispositivi edge.

YOLO eccelle in scenari industriali che privilegiano la bassa latenza su hardware standard. Il suo utilizzo di NAS e l'efficiente progettazione della dorsale lo rendono altamente efficace per le attività di produzione e ispezione in tempo reale. Sebbene veloce, si basa su metodologie tradizionali basate su anchor che possono essere sensibili alla regolazione degli iperparametri rispetto alla natura end-to-end dei trasformatori.

Per chi cerca il meglio di entrambi i mondi – velocità all'avanguardia, inferenza end-to-end NMS e facilità d'uso – il modello Ultralytics offre un'alternativa superiore, combinando le ultime ottimizzazioni nelle funzioni di perdita e CPU migliorate.

RTDETRv2: Perfezionamento del Transformer in Tempo Reale

RTDETRv2 (Real-Time Detection Transformer v2) si basa sul successo dell'originale RT-DETR, perfezionando ulteriormente il codificatore ibrido e la selezione delle query sensibile all'incertezza. Il suo obiettivo è risolvere il collo di bottiglia della latenza tipico dei modelli di trasformatori, mantenendo la loro precisione superiore.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione:Baidu
Data: 17 aprile 2023
Arxiv:RTDETRv2 Documento
GitHub:RT-DETR

Scopri di più su RT-DETR

Innovazioni Architetturali Chiave

  • Codificatore ibrido: elabora in modo efficiente le caratteristiche multiscala separando l'interazione intra-scala e la fusione cross-scala, riducendo significativamente il costo computazionale rispetto ai codificatori DETR deformabili standard.
  • Selezione delle query con incertezza minima: migliora l'inizializzazione delle query sugli oggetti selezionando le caratteristiche con i punteggi di classificazione più elevati, consentendo una convergenza più rapida e rilevamenti iniziali migliori.
  • InferenzaNMS: essendo un modello basato su trasformatori, RTDETRv2 prevede direttamente un insieme fisso di oggetti, eliminando la necessità della soppressione non massima (NMS). Ciò semplifica le pipeline di implementazione ed elimina la variabilità della latenza associata alla post-elaborazione delle previsioni dense.
  • Supporto backbone flessibile: l'architettura supporta vari backbone, tra cui ResNet e HGNetv2, consentendo agli utenti di scalare il modello in base alle risorse di calcolo disponibili.

Vantaggi dei Transformer

A differenza delle CNN che elaborano i vicinati locali dei pixel, il meccanismo di auto-attenzione in RTDETRv2 consente a ogni parte dell'immagine di prestare attenzione a tutte le altre parti. Questo "campo ricettivo globale" è particolarmente utile per rilevare oggetti di grandi dimensioni o comprendere le relazioni tra parti distanti di una scena.

YOLO: efficienza di livello industriale

YOLO a massimizzare l'efficienza del paradigma "You Only Look Once" attraverso una rigorosa ricerca dell'architettura neurale (NAS) e nuove tecniche di fusione delle caratteristiche. È progettato per essere un rilevatore robusto e versatile che bilancia velocità e precisione per applicazioni industriali.

Autori: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang e Xiuyu Sun
Organizzazione:Alibaba Group
Data: 23 novembre 2022
Arxiv:YOLO
GitHub:YOLO

Caratteristiche architettoniche chiave

  • MAE-NAS Backbone: utilizza il metodo degli autovalori ausiliari per la ricerca dell'architettura neurale (Neural Architecture Search) per individuare backbone specificamente ottimizzati per attività di rilevamento, piuttosto che proxy di classificazione.
  • RepGFPN efficiente: una rete piramidale generalizzata delle caratteristiche (GFPN) ottimizzata con tecniche di riparametrizzazione (Rep). Ciò consente una fusione complessa delle caratteristiche durante l'addestramento che si riduce a una struttura semplice e veloce durante l'inferenza.
  • ZeroHead: una testa di rilevamento leggera che riduce significativamente il numero di parametri e FLOP senza sacrificare la precisione media (mAP).
  • AlignedOTA: una strategia migliorata di assegnazione delle etichette che risolve il disallineamento tra le attività di classificazione e regressione, garantendo la selezione di ancore di alta qualità durante l'addestramento.

Confronto tecnico delle prestazioni

Quando si confrontano queste architetture, è fondamentale considerare il compromesso tra la velocità di inferenza pura e l'accuratezza di rilevamento (mAP). La tabella sottostante evidenzia che, mentre RTDETRv2 raggiunge generalmente un'accuratezza maggiore, specialmente sul difficile COCO ,YOLO prestazioni competitive con una latenza potenzialmente inferiore su specifiche configurazioni hardware.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Deployment e Casi d'Uso

Scenari ideali per RTDETRv2

  • Scene urbane complesse: il meccanismo di attenzione globale eccelle nella gestione dell'occlusione nelle strade affollate, rendendolo ideale per la guida autonoma o il monitoraggio del traffico.
  • Imaging medico: nei casi in cui la precisione è fondamentale e i falsi negativi sono costosi, come nel rilevamento dei tumori, l'elevata accuratezza di RTDETRv2 è vantaggiosa.
  • Conteggio della folla: la capacità di distinguere individui sovrapposti senza NMS lo rende superiore per le applicazioni di gestione della folla.

Scenari ideali per DAMO-YOLO

  • Produzione ad alta velocità: nelle linee di assemblaggio che richiedono una latenza di millisecondi per il rilevamento dei difetti, la bassa latenzaYOLO garantisce che la produttività non subisca rallentamenti.
  • IoT integrato: per i dispositivi con capacità di elaborazione limitata in cui le operazioni di trasformazione sono troppo pesanti, l'efficienza basata su CNN diYOLO vantaggiosa.
  • Analisi dei dati di vendita al dettaglio: per il monitoraggio degli articoli sugli scaffali o la gestione dell'inventario, dove è accettabile una precisione moderata a fronte di un'elaborazione significativamente più veloce.

Il Vantaggio Ultralytics: YOLO26

Sebbene sia RTDETRv2 cheYOLO caratteristiche interessanti, il modello Ultralytics rappresenta il massimo in termini di efficienza e usabilità. Rilasciato nel gennaio 2026, YOLO26 colma il divario tra queste due filosofie integrando il design NMS dei trasformatori in un'architettura altamente ottimizzata e edge-friendly.

Scopri di più su YOLO26

Perché gli Sviluppatori Scelgono Ultralytics

  1. Piattaforma unificata: a differenza degli archivi di ricerca che spesso non vengono aggiornati, Ultralytics una piattaforma completa per la formazione, l'implementazione e la gestione dei modelli. Che tu abbia bisogno di stima della posa, segmentazione o OBB, tutto è disponibile in un'unica libreria.
  2. Facilità d'uso: l'addestramento di un modello all'avanguardia richiede una quantità minima di codice. Questa accessibilità consente ai ricercatori di concentrarsi sui dati piuttosto che sul debug di complessi cicli di addestramento.

    from ultralytics import YOLO
    
    # Load the latest YOLO26 model (NMS-free by design)
    model = YOLO("yolo26n.pt")
    
    # Train on a custom dataset with MuSGD optimizer
    results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
    
  3. Efficienza end-to-end: YOLO26 introduce un design end-to-end NMS, sperimentato per la prima volta in YOLOv10 perfezionato per la produzione. Ciò elimina il sovraccarico di post-elaborazione presente inYOLO evitandoYOLO l'elevato costo computazionale dei livelli di attenzione completa di RTDETRv2.

  4. Ottimizzazione edge: grazie alla rimozione della Distribution Focal Loss (DFL) e a ottimizzazioni specifiche per CPU , YOLO26 è fino al 43% più veloce sui dispositivi edge rispetto alle generazioni precedenti, rendendolo una scelta superiore per l'implementazione mobile.
  5. Formazione avanzata: funzionalità come MuSGD Optimizer (ispirato alla formazione LLM) e ProgLoss garantiscono una formazione stabile e una convergenza più rapida, riducendo i tempi e i costi associati allo sviluppo del modello.

Conclusione

Per la ricerca pura o gli scenari che richiedono la massima accuratezza teorica su GPU di fascia alta, RTDETRv2 è un valido concorrente. Per i sistemi legacy rigorosamente vincolati che richiedono il minimo ingombro assoluto della CNN, YOLO rimane rilevante. Tuttavia, per la stragrande maggioranza delle applicazioni reali che richiedono un equilibrio tra velocità, accuratezza, versatilità e facilità di implementazione, Ultralytics è la soluzione consigliata.

Esplora altri confronti per vedere come Ultralytics si posizionano rispetto a YOLOv8 ed EfficientDet.


Commenti