RTDETRv2 vs. YOLOX: un'analisi approfondita dell'evoluzione del rilevamento di oggetti in tempo reale
Il panorama del rilevamento degli oggetti si è evoluto rapidamente negli ultimi anni, passando da architetture basate su anchor a progetti senza anchor e, più recentemente, a modelli ibridi basati su trasformatori. Due pietre miliari significative in questo percorso sono RTDETRv2 e YOLOX. Mentre YOLOX ha ridefinito le capacità della YOLO nel 2021 rimuovendo gli anchor e NMS , RTDETRv2 (rilasciato nel 2024) ha ampliato ulteriormente i confini integrando Vision Transformers (ViT) per una precisione superiore in scene complesse.
Questa guida offre un confronto tecnico completo tra questi due modelli influenti, analizzandone l'architettura, le metriche di prestazione e i casi d'uso ideali per aiutarti a scegliere lo strumento giusto per i tuoi progetti di visione artificiale.
RTDETRv2: Il concorrente basato su Transformer
RTDETRv2 (Real-Time Detection Transformer versione 2) rappresenta un significativo passo avanti nell'applicazione delle architetture transformer a scenari in tempo reale. Mentre i transformer tradizionali erano potenti ma lenti, RTDETRv2 ottimizza questo compromesso per offrire una precisione all'avanguardia a velocità competitive.
Caratteristiche architettoniche chiave
RTDETRv2 si basa sull'originale RT-DETR, utilizzando una struttura ibrida encoder-decoder. Impiega una struttura CNN (tipicamente ResNet o HGNetv2) per estrarre le caratteristiche in modo efficiente, seguita da un encoder trasformatore per catturare le dipendenze a lungo raggio nell'immagine.
- Integrazione di Vision Transformer: a differenza dei modelli basati esclusivamente su CNN, RTDETRv2 utilizza meccanismi di auto-attenzione per comprendere la relazione tra parti distanti di un'immagine, rendendolo eccezionalmente efficace nella gestione dell'occlusione e delle scene affollate.
- Previsione end-to-end: mira a semplificare il processo di rilevamento, anche se alcune implementazioni possono ancora beneficiare di ulteriori ottimizzazioni.
- Ridimensionamento dinamico della scala: l'architettura è progettata per gestire le funzionalità multiscala in modo più efficace rispetto ai modelli precedenti.
Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang e Yi Liu
Organizzazione:Baidu
Data: 17 aprile 2023 (v1), luglio 2024 (v2)
Link:Arxiv | GitHub
YOLOX: Il Pioniere Anchor-Free
Rilasciato nel 2021, YOLOX ha rivoluzionato il settore, discostandosi dal tradizionale YOLO (YOLOv3, v4, v5) grazie all'adozione di un meccanismo senza ancoraggio e di una testa disaccoppiata.
Caratteristiche architettoniche chiave
YOLOX ha semplificato il processo di rilevamento eliminando la necessità di riquadri di ancoraggio predefiniti, che spesso richiedevano una regolazione euristica per set di dati specifici.
- Meccanismo senza ancoraggio: prevedendo direttamente i centri e le dimensioni degli oggetti, YOLOX ha ridotto la complessità del design e migliorato la generalizzazione su diversi set di dati.
- Testa disaccoppiata: la separazione delle attività di classificazione e regressione in diversi rami della testa della rete ha consentito una migliore convergenza e accuratezza.
- Assegnazione delle etichette SimOTA: questa strategia avanzata di assegnazione delle etichette ha trattato il processo di addestramento come un problema di trasporto ottimale, portando a una convergenza più rapida e a una migliore assegnazione dinamica delle etichette.
Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
Organizzazione:Megvii
Data: 18 luglio 2021
Link:Arxiv | GitHub
Confronto tecnico delle prestazioni
Quando si seleziona un modello per la produzione, le metriche grezze sono fondamentali. Di seguito è riportato un confronto dettagliato delle prestazioni sul COCO .
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Analisi delle metriche
I dati rivelano un evidente divario generazionale. RTDETRv2 supera costantemente YOLOX in termini di accuratezza (mAP) per modelli di dimensioni simili. Ad esempio, RTDETRv2-l raggiunge mAP del 53,4%, significativamente superiore al 49,7% di YOLOX-l, mantenendo velocità di inferenza comparabili su GPU .
Tuttavia, YOLOX mantiene un vantaggio nella categoria degli ultra-leggeri. Le varianti YOLOX-Nano e Tiny sono estremamente piccole (a partire da 0,91 M di parametri), il che le rende adatte all'hardware di edge computing legacy, dove ogni kilobyte di memoria è importante.
Utilizzo della memoria dei Transformer
Sebbene RTDETRv2 offra una maggiore precisione, i modelli basati su trasformatori consumano in genere una quantità significativamente maggiore di VRAM durante l'addestramento e l'inferenza rispetto alle architetture CNN pure come YOLOX. Questo elevato requisito di memoria può rappresentare un collo di bottiglia durante l'addestramento su GPU di fascia consumer con CUDA limitata.
Il vantaggio di Ultralytics
Sebbene l'analisi di modelli storici come YOLOX e RTDETRv2 sia preziosa per la ricerca, lo sviluppo moderno richiede strumenti che offrano facilità d'uso, un ecosistema ben mantenuto e un'efficienza superiore.
Ultralytics , tra cui YOLOv8 e il modello all'avanguardia YOLO26, sono progettati per colmare il divario tra prestazioni elevate ed esperienza degli sviluppatori.
- API semplificata: per passare da un modello all'altro è sufficiente una sola riga di codice.
- Versatilità: a differenza di YOLOX, che si concentra esclusivamente sul rilevamento, Ultralytics in modo nativo la segmentazione, la stima della posa e il rilevamento dei bounding box orientati (OBB).
- Efficienza dell'addestramento: Ultralytics sono ottimizzati per un addestramento più rapido con un minor carico di memoria, rendendo accessibile l'intelligenza artificiale di fascia alta senza hardware di livello industriale.
Prestazioni di Nuova Generazione: YOLO26
Agli sviluppatori che cercano le migliori prestazioni in assoluto nel 2026, consigliamo YOLO26. Questo modello incorpora le migliori caratteristiche sia delle CNN che dei Transformer, eliminandone al contempo i punti deboli.
- End-to-End NMS: YOLO26 è nativamente end-to-end, eliminando la necessità della soppressione non massima (NMS). Ciò semplifica notevolmente le pipeline di implementazione rispetto a YOLOX.
- Ottimizzatore MuSGD: sfruttando le innovazioni della formazione LLM (ispirata da Moonshot AI), YOLO26 utilizza l'ottimizzatore MuSGD per una convergenza stabile e rapida.
- Ottimizzazione edge: con la rimozione della Distribution Focal Loss (DFL), YOLO26 è fino al 43% più veloce CPU , rendendolo di gran lunga superiore a RTDETRv2 per i dispositivi edge che non dispongono di GPU potenti.
Casi d'uso reali
La scelta tra queste architetture dipende in larga misura dal vostro specifico ambiente di implementazione.
Ideale per RTDETRv2
- Sorveglianza affollata: il meccanismo di attenzione del trasformatore eccelle negli scenari di gestione della folla in cui gli oggetti (persone) si sovrappongono in modo significativo.
- Comprensione complessa delle scene: le applicazioni che richiedono la consapevolezza del contesto, come la navigazione autonoma dei veicoli, traggono vantaggio dal campo ricettivo globale del trasformatore.
Ideale per YOLOX
- Dispositivi legacy edge: per dispositivi estremamente limitati come i vecchi Raspberry Pi o i microcontrollori, YOLOX-Nano è un'opzione leggera che si adatta dove i trasformatori non possono.
- Linee guida accademiche: grazie al suo design con testa disaccoppiata e senza ancoraggio, YOLOX rimane una linea guida popolare per lo studio dei meccanismi fondamentali di rilevamento degli oggetti nella ricerca.
Esempio di codice: Ultralytics
Uno dei motivi principali per usare Ultralytics è l'interfaccia unificata. Che tu stia usando un modello basato su trasformatori come RT-DETR uno basato su CNN YOLO, il codice rimane lo stesso.
Ecco come caricare ed eseguire l'inferenza utilizzando ilPython Ultralytics :
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display results
results_yolo[0].show()
Monitoraggio degli esperimenti
Ultralytics perfettamente con strumenti come MLflow e Weights & Biases, consentendo di track di diversi modelli parallelamente senza modificare gli script di formazione.
Conclusione
Sia RTDETRv2 che YOLOX hanno contribuito in modo significativo al campo della visione artificiale. YOLOX ha dimostrato che i progetti senza ancoraggi possono essere molto efficaci, mentre RTDETRv2 ha dimostrato che i trasformatori possono funzionare in tempo reale.
Tuttavia, per la maggior parte delle applicazioni pratiche nel 2026, il modello Ultralytics offre la soluzione più equilibrata. Il suo designNMS, le funzioni ProgLoss per oggetti di piccole dimensioni e CPU offrono il meglio di entrambi i mondi: elevata precisione senza i costi computazionali elevati dei trasformatori. Che si tratti di smart manufacturing o monitoraggio agricolo, Ultralytics , ben mantenuto, garantisce che il vostro progetto rimanga a prova di futuro.
Per approfondire ulteriormente l'argomento, potresti anche essere interessato a confrontare RT-DETR YOLO11 o ad approfondire i vantaggi specifici di YOLO26 rispetto a YOLOv10.