Vai al contenuto

RTDETRv2 vs. YOLOX: un'analisi approfondita dell'evoluzione del rilevamento di oggetti in tempo reale

Il panorama del rilevamento degli oggetti si è evoluto rapidamente negli ultimi anni, passando da architetture basate su anchor a progetti senza anchor e, più recentemente, a modelli ibridi basati su trasformatori. Due pietre miliari significative in questo percorso sono RTDETRv2 e YOLOX. Mentre YOLOX ha ridefinito le capacità della YOLO nel 2021 rimuovendo gli anchor e NMS , RTDETRv2 (rilasciato nel 2024) ha ampliato ulteriormente i confini integrando Vision Transformers (ViT) per una precisione superiore in scene complesse.

Questa guida offre un confronto tecnico completo tra questi due modelli influenti, analizzandone l'architettura, le metriche di prestazione e i casi d'uso ideali per aiutarti a scegliere lo strumento giusto per i tuoi progetti di visione artificiale.

RTDETRv2: Il concorrente basato su Transformer

RTDETRv2 (Real-Time Detection Transformer versione 2) rappresenta un significativo passo avanti nell'applicazione delle architetture transformer a scenari in tempo reale. Mentre i transformer tradizionali erano potenti ma lenti, RTDETRv2 ottimizza questo compromesso per offrire una precisione all'avanguardia a velocità competitive.

Caratteristiche architettoniche chiave

RTDETRv2 si basa sull'originale RT-DETR, utilizzando una struttura ibrida encoder-decoder. Impiega una struttura CNN (tipicamente ResNet o HGNetv2) per estrarre le caratteristiche in modo efficiente, seguita da un encoder trasformatore per catturare le dipendenze a lungo raggio nell'immagine.

  • Integrazione di Vision Transformer: a differenza dei modelli basati esclusivamente su CNN, RTDETRv2 utilizza meccanismi di auto-attenzione per comprendere la relazione tra parti distanti di un'immagine, rendendolo eccezionalmente efficace nella gestione dell'occlusione e delle scene affollate.
  • Previsione end-to-end: mira a semplificare il processo di rilevamento, anche se alcune implementazioni possono ancora beneficiare di ulteriori ottimizzazioni.
  • Ridimensionamento dinamico della scala: l'architettura è progettata per gestire le funzionalità multiscala in modo più efficace rispetto ai modelli precedenti.

Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione:Baidu
Data: 17 aprile 2023 (v1), luglio 2024 (v2)
Link:Arxiv | GitHub

Scopri di più su RT-DETR

YOLOX: Il Pioniere Anchor-Free

Rilasciato nel 2021, YOLOX ha rivoluzionato il settore, discostandosi dal tradizionale YOLO (YOLOv3, v4, v5) grazie all'adozione di un meccanismo senza ancoraggio e di una testa disaccoppiata.

Caratteristiche architettoniche chiave

YOLOX ha semplificato il processo di rilevamento eliminando la necessità di riquadri di ancoraggio predefiniti, che spesso richiedevano una regolazione euristica per set di dati specifici.

  • Meccanismo senza ancoraggio: prevedendo direttamente i centri e le dimensioni degli oggetti, YOLOX ha ridotto la complessità del design e migliorato la generalizzazione su diversi set di dati.
  • Testa disaccoppiata: la separazione delle attività di classificazione e regressione in diversi rami della testa della rete ha consentito una migliore convergenza e accuratezza.
  • Assegnazione delle etichette SimOTA: questa strategia avanzata di assegnazione delle etichette ha trattato il processo di addestramento come un problema di trasporto ottimale, portando a una convergenza più rapida e a una migliore assegnazione dinamica delle etichette.

Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organizzazione:Megvii
Data: 18 luglio 2021
Link:Arxiv | GitHub

Confronto tecnico delle prestazioni

Quando si seleziona un modello per la produzione, le metriche grezze sono fondamentali. Di seguito è riportato un confronto dettagliato delle prestazioni sul COCO .

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

Analisi delle metriche

I dati rivelano un evidente divario generazionale. RTDETRv2 supera costantemente YOLOX in termini di accuratezza (mAP) per modelli di dimensioni simili. Ad esempio, RTDETRv2-l raggiunge mAP del 53,4%, significativamente superiore al 49,7% di YOLOX-l, mantenendo velocità di inferenza comparabili su GPU .

Tuttavia, YOLOX mantiene un vantaggio nella categoria degli ultra-leggeri. Le varianti YOLOX-Nano e Tiny sono estremamente piccole (a partire da 0,91 M di parametri), il che le rende adatte all'hardware di edge computing legacy, dove ogni kilobyte di memoria è importante.

Utilizzo della memoria dei Transformer

Sebbene RTDETRv2 offra una maggiore precisione, i modelli basati su trasformatori consumano in genere una quantità significativamente maggiore di VRAM durante l'addestramento e l'inferenza rispetto alle architetture CNN pure come YOLOX. Questo elevato requisito di memoria può rappresentare un collo di bottiglia durante l'addestramento su GPU di fascia consumer con CUDA limitata.

Il vantaggio di Ultralytics

Sebbene l'analisi di modelli storici come YOLOX e RTDETRv2 sia preziosa per la ricerca, lo sviluppo moderno richiede strumenti che offrano facilità d'uso, un ecosistema ben mantenuto e un'efficienza superiore.

Ultralytics , tra cui YOLOv8 e il modello all'avanguardia YOLO26, sono progettati per colmare il divario tra prestazioni elevate ed esperienza degli sviluppatori.

  1. API semplificata: per passare da un modello all'altro è sufficiente una sola riga di codice.
  2. Versatilità: a differenza di YOLOX, che si concentra esclusivamente sul rilevamento, Ultralytics in modo nativo la segmentazione, la stima della posa e il rilevamento dei bounding box orientati (OBB).
  3. Efficienza dell'addestramento: Ultralytics sono ottimizzati per un addestramento più rapido con un minor carico di memoria, rendendo accessibile l'intelligenza artificiale di fascia alta senza hardware di livello industriale.

Prestazioni di Nuova Generazione: YOLO26

Agli sviluppatori che cercano le migliori prestazioni in assoluto nel 2026, consigliamo YOLO26. Questo modello incorpora le migliori caratteristiche sia delle CNN che dei Transformer, eliminandone al contempo i punti deboli.

  • End-to-End NMS: YOLO26 è nativamente end-to-end, eliminando la necessità della soppressione non massima (NMS). Ciò semplifica notevolmente le pipeline di implementazione rispetto a YOLOX.
  • Ottimizzatore MuSGD: sfruttando le innovazioni della formazione LLM (ispirata da Moonshot AI), YOLO26 utilizza l'ottimizzatore MuSGD per una convergenza stabile e rapida.
  • Ottimizzazione edge: con la rimozione della Distribution Focal Loss (DFL), YOLO26 è fino al 43% più veloce CPU , rendendolo di gran lunga superiore a RTDETRv2 per i dispositivi edge che non dispongono di GPU potenti.

Scopri di più su YOLO26

Casi d'uso reali

La scelta tra queste architetture dipende in larga misura dal vostro specifico ambiente di implementazione.

Ideale per RTDETRv2

  • Sorveglianza affollata: il meccanismo di attenzione del trasformatore eccelle negli scenari di gestione della folla in cui gli oggetti (persone) si sovrappongono in modo significativo.
  • Comprensione complessa delle scene: le applicazioni che richiedono la consapevolezza del contesto, come la navigazione autonoma dei veicoli, traggono vantaggio dal campo ricettivo globale del trasformatore.

Ideale per YOLOX

  • Dispositivi legacy edge: per dispositivi estremamente limitati come i vecchi Raspberry Pi o i microcontrollori, YOLOX-Nano è un'opzione leggera che si adatta dove i trasformatori non possono.
  • Linee guida accademiche: grazie al suo design con testa disaccoppiata e senza ancoraggio, YOLOX rimane una linea guida popolare per lo studio dei meccanismi fondamentali di rilevamento degli oggetti nella ricerca.

Esempio di codice: Ultralytics

Uno dei motivi principali per usare Ultralytics è l'interfaccia unificata. Che tu stia usando un modello basato su trasformatori come RT-DETR uno basato su CNN YOLO, il codice rimane lo stesso.

Ecco come caricare ed eseguire l'inferenza utilizzando ilPython Ultralytics :

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display results
results_yolo[0].show()

Monitoraggio degli esperimenti

Ultralytics perfettamente con strumenti come MLflow e Weights & Biases, consentendo di track di diversi modelli parallelamente senza modificare gli script di formazione.

Conclusione

Sia RTDETRv2 che YOLOX hanno contribuito in modo significativo al campo della visione artificiale. YOLOX ha dimostrato che i progetti senza ancoraggi possono essere molto efficaci, mentre RTDETRv2 ha dimostrato che i trasformatori possono funzionare in tempo reale.

Tuttavia, per la maggior parte delle applicazioni pratiche nel 2026, il modello Ultralytics offre la soluzione più equilibrata. Il suo designNMS, le funzioni ProgLoss per oggetti di piccole dimensioni e CPU offrono il meglio di entrambi i mondi: elevata precisione senza i costi computazionali elevati dei trasformatori. Che si tratti di smart manufacturing o monitoraggio agricolo, Ultralytics , ben mantenuto, garantisce che il vostro progetto rimanga a prova di futuro.

Per approfondire ulteriormente l'argomento, potresti anche essere interessato a confrontare RT-DETR YOLO11 o ad approfondire i vantaggi specifici di YOLO26 rispetto a YOLOv10.


Commenti