Vai al contenuto

YOLOX vs. RT-DETRv2: equilibrio tra architetture legacy e innovazione dei trasformatori

La scelta dell'architettura ottimale per il rilevamento degli oggetti è una decisione fondamentale che influisce sulla latenza, l'accuratezza e la scalabilità dei progetti di visione artificiale. Questa analisi tecnica mette a confronto YOLOX, una solida baseline CNN senza anchor del 2021, con RT-DETRv2, un modello all'avanguardia basato su trasformatori ottimizzato per applicazioni in tempo reale.

Sebbene entrambi i modelli abbiano rappresentato un significativo passo avanti al momento del loro lancio, i flussi di lavoro moderni richiedono sempre più soluzioni che uniscano prestazioni elevate e facilità di implementazione. Nel corso di questo confronto, esploreremo anche come l'avanzatissimo Ultralytics sintetizzi le migliori caratteristiche di queste architetture, come l'inferenza NMS, in un unico framework efficiente.

Benchmark delle prestazioni

La tabella seguente presenta un confronto diretto delle metriche chiave. Si noti che, sebbene RT-DETRv2 offra RT-DETRv2 una precisione media (mAP) più elevata, richiede risorse computazionali significativamente maggiori, come evidenziato dal conteggio dei FLOP.

Modellodimensione
(pixel)
mAPval
50-95
Velocità
CPU ONNX
(ms)
Velocità
T4 TensorRT10
(ms)
parametri
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOX: Il Pioniere Anchor-Free

YOLOX è stato introdotto nel 2021 dai ricercatori di Megvii, segnando un allontanamento dai meccanismi basati su anchor che dominavano YOLO precedenti YOLO (come YOLOv4 e YOLOv5). Ha semplificato il design rimuovendo gli anchor box e introducendo una testa disaccoppiata, che separa i compiti di classificazione e localizzazione per una migliore convergenza.

Architettura e punti di forza

YOLOX utilizza una strategia di assegnazione delle etichette SimOTA (Simplified Optimal Transport Assignment), che assegna dinamicamente campioni positivi agli oggetti di riferimento. Ciò consente al modello di gestire le occlusioni e le diverse scale degli oggetti in modo più efficace rispetto alle rigide soglie IoU.

La semplicità dell'architettura la rende una base di riferimento privilegiata nella ricerca accademica. Il suo design "decoupled head" (testa disaccoppiata), che elabora le caratteristiche di classificazione e regressione in rami separati, migliora la stabilità e l'accuratezza dell'addestramento.

Compatibilità con i Sistemi Legacy

YOLOX rimane una scelta valida per i sistemi legacy basati su codici risalenti al 2021 o per i ricercatori che necessitano di una baseline CNN pulita e senza ancore per testare nuovi componenti teorici.

Tuttavia, rispetto alle iterazioni moderne, YOLOX si affida alla soppressione non massima (NMS) per la post-elaborazione. Questo passaggio introduce una variabilità della latenza, rendendolo meno prevedibile per le applicazioni industriali strettamente in tempo reale rispetto ai modelli end-to-end più recenti.

Scopri di più su YOLOX

RT-DETRv2: Trasformatori in tempo reale

RT-DETRv2 (Real-Time Detection Transformer v2) è l'evoluzione dell'originale RT-DETR, sviluppato da Baidu. Risolve il problema dell'elevato costo computazionale tipicamente associato ai Vision Transformer (ViT) utilizzando un efficiente codificatore ibrido che elabora rapidamente caratteristiche multiscala.

Architettura e Innovazioni

La caratteristica distintiva di RT-DETRv2 la sua inferenzaNMS. Utilizzando un decodificatore trasformatore con query di oggetti, il modello prevede direttamente un insieme fisso di riquadri di delimitazione. Ciò elimina la necessità di NMS, semplificando le pipeline di implementazione e garantendo tempi di inferenza costanti indipendentemente dal numero di oggetti presenti in una scena.

RT-DETRv2 il suo predecessore con un codificatore ibrido flessibile e una quantificazione dell'incertezza ottimizzata, consentendo di ottenere una maggiore precisione (fino al 54,3% mAP) sul COCO .

Intensità delle risorse

Sebbene accurati, i blocchi trasformatori RT-DETRv2 richiedono molta memoria. L'addestramento richiede in genere CUDA significativamente maggiore rispetto ai modelli basati su CNN, e le velocità di inferenza suGPU (come le CPU standard) possono essere lente a causa della complessità dei meccanismi di attenzione.

Scopri di più su RT-DETR

Il Vantaggio Ultralytics: Perché Scegliere YOLO26?

Mentre YOLOX funge da base di ricerca affidabile e RT-DETRv2 i confini della precisione dei trasformatori, Ultralytics offre una soluzione che bilancia il meglio dei due mondi. Ultralytics è progettato per gli sviluppatori che richiedono prestazioni all'avanguardia senza la complessità dei repository sperimentali.

Nativamente End-to-End e Senza NMS

YOLO26 adotta la filosofia di progettazione End-to-End NMS introdotta da YOLOv10 e RT-DETR la implementa all'interno di un'architettura CNN altamente efficiente. Ciò significa che si ottiene l'implementazione semplificata di RT-DETRv2, senza complesse logiche di post-elaborazione, combinata con la velocità pura di una CNN.

Efficienza senza pari per l'edge computing

A differenza dei pesanti blocchi di trasformatori presenti in RT-DETRv2, YOLO26 è ottimizzato per diversi tipi di hardware.

  • Rimozione DFL: rimuovendo la perdita focale di distribuzione, la struttura del modello viene semplificata, migliorando la compatibilità con gli acceleratori edge e i dispositivi a basso consumo energetico.
  • CPU : YOLO26 offre un'inferenza fino al 43% più veloce sulle CPU rispetto alle generazioni precedenti, rendendolo la scelta ideale per le implementazioni Edge AI in cui le GPU non sono disponibili.

Dinamiche di formazione avanzata

YOLO26 integra MuSGD Optimizer, un ibrido tra SGD Muon Optimizer ispirato all'addestramento LLM. Questa innovazione porta la stabilità dell'addestramento dei modelli linguistici di grandi dimensioni alla visione artificiale, con conseguente convergenza più rapida e pesi più robusti. Inoltre, funzioni di perdita migliorate come ProgLoss e STAL aumentano significativamente le prestazioni su oggetti di piccole dimensioni, un punto debole comune nei modelli più vecchi come YOLOX.

Flusso di lavoro senza interruzioni con Ultralytics

Forse il vantaggio più grande è la Ultralytics . Mentre YOLOX e RT-DETRv2 richiedono la navigazione in codici GitHub frammentati, Ultralytics un'interfaccia unificata. È possibile passare da un'attività all'altra (rilevamento, segmentazione, stima della posa, classificazione e OBB) semplicemente cambiando il nome del modello.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

Scopri di più su YOLO26

Conclusione

Per la ricerca accademica che richiede una baseline CNN pura, YOLOX rimane un'opzione valida. Per scenari con ampia GPU in cui l'unica metrica è la massima precisione, RT-DETRv2 è un forte concorrente. Tuttavia, per i sistemi di produzione reali che richiedono un equilibrio tra velocità, accuratezza e facilità di manutenzione, Ultralytics rappresenta la scelta migliore, offrendo funzionalità end-to-end di nuova generazione con l'efficienza richiesta per le moderne implementazioni.

Letture aggiuntive

Per scoprire altri modelli ad alte prestazioni della Ultralytics , dai un'occhiata a:

  • YOLO11: un modello robusto per uso generico che supporta un'ampia gamma di attività di visione.
  • YOLOv10: la prima YOLO a introdurre il rilevamento di oggetti end-to-end in tempo reale.
  • RT-DETR: La nostra implementazione del Real-Time Detection Transformer per chi preferisce architetture basate su trasformatori.

Commenti