YOLOX vs. RT-DETRv2: equilibrio tra architetture legacy e innovazione dei trasformatori
La scelta dell'architettura ottimale per il rilevamento degli oggetti è una decisione fondamentale che influisce sulla latenza, l'accuratezza e la scalabilità dei progetti di visione artificiale. Questa analisi tecnica mette a confronto YOLOX, una solida baseline CNN senza anchor del 2021, con RT-DETRv2, un modello all'avanguardia basato su trasformatori ottimizzato per applicazioni in tempo reale.
Sebbene entrambi i modelli abbiano rappresentato un significativo passo avanti al momento del loro lancio, i flussi di lavoro moderni richiedono sempre più soluzioni che uniscano prestazioni elevate e facilità di implementazione. Nel corso di questo confronto, esploreremo anche come l'avanzatissimo Ultralytics sintetizzi le migliori caratteristiche di queste architetture, come l'inferenza NMS, in un unico framework efficiente.
Benchmark delle prestazioni
La tabella seguente presenta un confronto diretto delle metriche chiave. Si noti che, sebbene RT-DETRv2 offra RT-DETRv2 una precisione media (mAP) più elevata, richiede risorse computazionali significativamente maggiori, come evidenziato dal conteggio dei FLOP.
| Modello | dimensione (pixel) | mAPval 50-95 | Velocità CPU ONNX (ms) | Velocità T4 TensorRT10 (ms) | parametri (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: Il Pioniere Anchor-Free
YOLOX è stato introdotto nel 2021 dai ricercatori di Megvii, segnando un allontanamento dai meccanismi basati su anchor che dominavano YOLO precedenti YOLO (come YOLOv4 e YOLOv5). Ha semplificato il design rimuovendo gli anchor box e introducendo una testa disaccoppiata, che separa i compiti di classificazione e localizzazione per una migliore convergenza.
- Autori: Zheng Ge, Songtao Liu, Feng Wang, Zeming Li e Jian Sun
- Organizzazione: Megvii
- Data: 18 luglio 2021
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
Architettura e punti di forza
YOLOX utilizza una strategia di assegnazione delle etichette SimOTA (Simplified Optimal Transport Assignment), che assegna dinamicamente campioni positivi agli oggetti di riferimento. Ciò consente al modello di gestire le occlusioni e le diverse scale degli oggetti in modo più efficace rispetto alle rigide soglie IoU.
La semplicità dell'architettura la rende una base di riferimento privilegiata nella ricerca accademica. Il suo design "decoupled head" (testa disaccoppiata), che elabora le caratteristiche di classificazione e regressione in rami separati, migliora la stabilità e l'accuratezza dell'addestramento.
Compatibilità con i Sistemi Legacy
YOLOX rimane una scelta valida per i sistemi legacy basati su codici risalenti al 2021 o per i ricercatori che necessitano di una baseline CNN pulita e senza ancore per testare nuovi componenti teorici.
Tuttavia, rispetto alle iterazioni moderne, YOLOX si affida alla soppressione non massima (NMS) per la post-elaborazione. Questo passaggio introduce una variabilità della latenza, rendendolo meno prevedibile per le applicazioni industriali strettamente in tempo reale rispetto ai modelli end-to-end più recenti.
RT-DETRv2: Trasformatori in tempo reale
RT-DETRv2 (Real-Time Detection Transformer v2) è l'evoluzione dell'originale RT-DETR, sviluppato da Baidu. Risolve il problema dell'elevato costo computazionale tipicamente associato ai Vision Transformer (ViT) utilizzando un efficiente codificatore ibrido che elabora rapidamente caratteristiche multiscala.
- Autori: Wenyu Lv, Yian Zhao, Qinyao Chang, et al.
- Organizzazione: Baidu
- Data: 17 aprile 2023 (v1), 24 luglio 2024 (v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:lyuwenyu/RT-DETR
Architettura e Innovazioni
La caratteristica distintiva di RT-DETRv2 la sua inferenzaNMS. Utilizzando un decodificatore trasformatore con query di oggetti, il modello prevede direttamente un insieme fisso di riquadri di delimitazione. Ciò elimina la necessità di NMS, semplificando le pipeline di implementazione e garantendo tempi di inferenza costanti indipendentemente dal numero di oggetti presenti in una scena.
RT-DETRv2 il suo predecessore con un codificatore ibrido flessibile e una quantificazione dell'incertezza ottimizzata, consentendo di ottenere una maggiore precisione (fino al 54,3% mAP) sul COCO .
Intensità delle risorse
Sebbene accurati, i blocchi trasformatori RT-DETRv2 richiedono molta memoria. L'addestramento richiede in genere CUDA significativamente maggiore rispetto ai modelli basati su CNN, e le velocità di inferenza suGPU (come le CPU standard) possono essere lente a causa della complessità dei meccanismi di attenzione.
Il Vantaggio Ultralytics: Perché Scegliere YOLO26?
Mentre YOLOX funge da base di ricerca affidabile e RT-DETRv2 i confini della precisione dei trasformatori, Ultralytics offre una soluzione che bilancia il meglio dei due mondi. Ultralytics è progettato per gli sviluppatori che richiedono prestazioni all'avanguardia senza la complessità dei repository sperimentali.
Nativamente End-to-End e Senza NMS
YOLO26 adotta la filosofia di progettazione End-to-End NMS introdotta da YOLOv10 e RT-DETR la implementa all'interno di un'architettura CNN altamente efficiente. Ciò significa che si ottiene l'implementazione semplificata di RT-DETRv2, senza complesse logiche di post-elaborazione, combinata con la velocità pura di una CNN.
Efficienza senza pari per l'edge computing
A differenza dei pesanti blocchi di trasformatori presenti in RT-DETRv2, YOLO26 è ottimizzato per diversi tipi di hardware.
- Rimozione DFL: rimuovendo la perdita focale di distribuzione, la struttura del modello viene semplificata, migliorando la compatibilità con gli acceleratori edge e i dispositivi a basso consumo energetico.
- CPU : YOLO26 offre un'inferenza fino al 43% più veloce sulle CPU rispetto alle generazioni precedenti, rendendolo la scelta ideale per le implementazioni Edge AI in cui le GPU non sono disponibili.
Dinamiche di formazione avanzata
YOLO26 integra MuSGD Optimizer, un ibrido tra SGD Muon Optimizer ispirato all'addestramento LLM. Questa innovazione porta la stabilità dell'addestramento dei modelli linguistici di grandi dimensioni alla visione artificiale, con conseguente convergenza più rapida e pesi più robusti. Inoltre, funzioni di perdita migliorate come ProgLoss e STAL aumentano significativamente le prestazioni su oggetti di piccole dimensioni, un punto debole comune nei modelli più vecchi come YOLOX.
Flusso di lavoro senza interruzioni con Ultralytics
Forse il vantaggio più grande è la Ultralytics . Mentre YOLOX e RT-DETRv2 richiedono la navigazione in codici GitHub frammentati, Ultralytics un'interfaccia unificata. È possibile passare da un'attività all'altra (rilevamento, segmentazione, stima della posa, classificazione e OBB) semplicemente cambiando il nome del modello.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
Conclusione
Per la ricerca accademica che richiede una baseline CNN pura, YOLOX rimane un'opzione valida. Per scenari con ampia GPU in cui l'unica metrica è la massima precisione, RT-DETRv2 è un forte concorrente. Tuttavia, per i sistemi di produzione reali che richiedono un equilibrio tra velocità, accuratezza e facilità di manutenzione, Ultralytics rappresenta la scelta migliore, offrendo funzionalità end-to-end di nuova generazione con l'efficienza richiesta per le moderne implementazioni.
Letture aggiuntive
Per scoprire altri modelli ad alte prestazioni della Ultralytics , dai un'occhiata a:
- YOLO11: un modello robusto per uso generico che supporta un'ampia gamma di attività di visione.
- YOLOv10: la prima YOLO a introdurre il rilevamento di oggetti end-to-end in tempo reale.
- RT-DETR: La nostra implementazione del Real-Time Detection Transformer per chi preferisce architetture basate su trasformatori.