Vai al contenuto

RTDETRv2 contro YOLOv5: un confronto tecnico

La scelta dell'architettura giusta per il rilevamento degli oggetti è una decisione fondamentale che influisce su tutto, dai costi di implementazione all'esperienza utente. In questo confronto dettagliato, esploriamo i compromessi tra RTDETRv2, un trasformatore in tempo reale all'avanguardia di Baidu, e Ultralytics YOLOv5, il leggendario modello basato su CNN che ha definito lo standard in termini di facilità d'uso e affidabilità nella visione artificiale.

Sebbene RTDETRv2 introduca interessanti innovazioni basate sui trasformatori, YOLOv5 i suoi successori (come l'avanzatissimo YOLO26) rimangono i punti di riferimento del settore in termini di versatilità, velocità di implementazione ed esperienza degli sviluppatori.

Riepilogo

RTDETRv2 (Real-Time Detection Transformer v2) è un'evoluzione dell'architettura DETR, progettata per eliminare la soppressione non massima (NMS) ottenendo al contempo un'elevata precisione GPU . È ideale per ambienti di ricerca e implementazioni di server di fascia alta in cui la VRAM è abbondante.

YOLOv5 (You Only Look Once v5) è un'architettura CNN matura e pronta per la produzione. Nota per la sua semplicità "installa e avvia", eccelle nell'edge computing, nell'addestramento rapido e nell'ampia compatibilità hardware. Per gli sviluppatori che cercano il massimo in termini di velocità e precisione, Ultralytics consiglia YOLO26, che combina i vantaggi dei trasformatori NMS con la velocità di YOLO.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

Architettura e Design

La differenza fondamentale risiede nel modo in cui questi modelli elaborano le informazioni visive: trasformatori contro reti neurali convoluzionali (CNN).

RTDETRv2: l'approccio Transformer

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione:Baidu
Data: 17 aprile 2023 ( RT-DETR originale), 2024 (v2)
Link:ArXiv | GitHub

RTDETRv2 utilizza un'architettura ibrida encoder-decoder. Utilizza una backbone CNN (spesso ResNet o HGNetv2) per estrarre le caratteristiche, che vengono poi elaborate da un efficiente encoder transformer. L'innovazione chiave è l'Hybrid Encoder, che disaccoppia l'interazione intra-scala e la fusione cross-scala per ridurre i costi di calcolo.

La caratteristica più notevole è la sua previsioneNMS. Utilizzando l'abbinamento bipartito durante l'addestramento, il modello impara a produrre esattamente un riquadro per ogni oggetto, eliminando la necessità di fasi di post-elaborazione come la soppressione non massima (NMS). Tuttavia, ciò comporta un maggiore consumo di memoria e una convergenza di addestramento più lenta rispetto alle CNN pure.

YOLOv5: lo standard CNN

Autore: Glenn Jocher
Organizzazione:Ultralytics
Data: 26/06/2020
Link:Documentazione | GitHub

YOLOv5 un'architettura CNN altamente ottimizzata basata sul backbone CSPNet e un neck PANet. Questo design dà priorità al flusso di gradiente e al riutilizzo delle caratteristiche, ottenendo un modello eccezionalmente leggero e veloce. A differenza dei trasformatori, che richiedono enormi set di dati per apprendere il contesto globale, il bias induttivo YOLOv5 gli consente di apprendere in modo efficace da set di dati più piccoli con una potenza di calcolo significativamente inferiore.

Scopri di più su YOLOv5

L'evoluzione: YOLO26

Mentre YOLOv5 su NMS, il nuovo Ultralytics adotta un design End-to-End NMS simile a RTDETRv2, ma mantiene la velocità e l'efficienza di addestramento della YOLO . Introduce inoltre l'ottimizzatore MuSGD, che accelera significativamente la convergenza.

Analisi delle prestazioni

Velocità di inferenza e latenza

Quando si passa alla produzione, la latenza è spesso il collo di bottiglia. YOLOv5 negli ambienti CPU e nei dispositivi edge. La semplicità architettonica delle CNN si adatta in modo efficiente ai processori standard e alle NPU mobili.

RTDETRv2 eccelle sulle GPU moderne (come NVIDIA o A100), dove le operazioni di moltiplicazione delle matrici sono parallelizzate in modo efficace. Tuttavia, su dispositivi edge come Raspberry Pi, le operazioni del trasformatore possono essere eccessivamente pesanti, portando a un FPS inferiore rispetto a YOLOv5n o YOLOv5s.

Accuratezza (mAP)

RTDETRv2 raggiunge generalmente una precisione media (mAP) più elevata sul COCO rispetto a YOLOv5, in particolare per oggetti di grandi dimensioni e scene complesse in cui il contesto globale è fondamentale. Ad esempio, RTDETRv2-L raggiunge un mAP 53,4%, superando YOLOv5x (50,7%) pur utilizzando un numero inferiore di parametri.

Tuttavia, l'accuratezza non è l'unico parametro. In scenari reali che coinvolgono oggetti di piccole dimensioni o feed video con sfocatura dovuta al movimento, la differenza si riduce. Inoltre, Ultralytics più recenti come YOLO11 e YOLO26, hanno colmato questo divario, offrendo una precisione comparabile o superiore con una maggiore efficienza.

Efficienza dell'addestramento ed ecosistema

È qui che Ultralytics offre un vantaggio distintivo.

Ultralytics YOLOv5 YOLO26:

  • Convergenza rapida: le CNN convergono in genere più rapidamente dei trasformatori. È possibile addestrare un YOLOv5 utilizzabile in poche ore su una singola GPU.
  • Basso impatto sulla memoria: l'addestramento YOLO una quantità significativamente inferiore di VRAM, rendendolo accessibile ai ricercatori che utilizzano schede di livello consumer (ad esempio, RTX 3060).
  • Aumento dei dati: la Ultralytics include strategie di aumento all'avanguardia (Mosaic, MixUp) abilitate di default.
  • Integrazione della piattaforma: connettiti senza soluzione di continuità alla Ultralytics per la gestione dei set di dati, la formazione sul cloud e l'implementazione con un solo clic.

RTDETRv2:

  • Intensivo in termini di risorse: i trasformatori sono notoriamente affamati di dati e richiedono un'elevata potenza di calcolo durante l'addestramento. La stabilizzazione del meccanismo di attenzione richiede spesso programmi di addestramento più lunghi (spesso più di 72 epoche per eguagliare ciò che YOLO in meno tempo).
  • Configurazione complessa: essendo un repository incentrato sulla ricerca, l'impostazione di RTDETRv2 per set di dati personalizzati spesso comporta la modifica dei file di configurazione e l'adattamento manuale dei caricatori di dati.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

Casi d'uso reali

Scenari ideali per YOLOv5 YOLO26

Ultralytics è il "coltellino svizzero" della visione artificiale, adatto al 90% delle applicazioni commerciali.

Scenari ideali per RTDETRv2

  • Sorveglianza di alto livello: telecamere di sicurezza fisse collegate a server potenti dove la massima precisione è preferibile alla latenza periferica.
  • Ricerca accademica: studio dei meccanismi dell'attenzione e dei trasformatori della visione.
  • Scene affollate: il meccanismo di attenzione globale a volte è in grado di gestire meglio le occlusioni pesanti rispetto alle CNN pure, a condizione che l'hardware sia in grado di supportare il carico computazionale.

Conclusione

Sia RTDETRv2 che YOLOv5 pietre miliari significative nella storia del rilevamento degli oggetti. RTDETRv2 dimostra che i trasformatori possono funzionare in tempo reale su GPU di fascia alta, offrendo un'elevata precisione e un'elegante architettura NMS.

Tuttavia, per la stragrande maggioranza degli sviluppatori e delle applicazioni commerciali, Ultralytics rimangono la scelta migliore. La combinazione della maturità di YOLOv5 e le innovazioni all'avanguardia di YOLO26 garantiscono di avere lo strumento giusto per qualsiasi esigenza.

Perché passare a YOLO26? Se state valutando questi modelli per un nuovo progetto nel 2026, vi consigliamo vivamente YOLO26. Questo modello racchiude il meglio di entrambi i mondi:

  1. End-to-End nativo: come RTDETRv2, elimina NMS una distribuzione più semplice.
  2. CPU fino al 43% più veloce: ottimizzata specificamente per l'edge, a differenza dei trasformatori pesanti.
  3. Versatilità delle attività: supporta rilevamento, segmentazione, posa e OBB in un unico framework.

Scopri di più su YOLO26

Per ulteriori informazioni su altre architetture, consulta i nostri confronti tra RT-DETR YOLO11 e YOLOv8 EfficientDet.


Commenti