RTDETRv2 vs YOLOX: un confronto tecnico per il rilevamento di oggetti
La scelta del giusto modello di rilevamento degli oggetti è fondamentale per i progetti di computer vision. Ultralytics offre una vasta gamma di modelli, tra cui la serie YOLO e la serie RT-DETR , ciascuno con punti di forza unici. Questa pagina fornisce un confronto tecnico dettagliato tra RTDETRv2 e YOLOX, due modelli all'avanguardia per il rilevamento degli oggetti, per aiutarvi a prendere una decisione informata in base ai requisiti del vostro progetto.
RTDETRv2: Rilevamento in tempo reale ad alta precisione
RTDETRv2(Real-Time Detection Transformer v2) è un modello avanzato di rilevamento degli oggetti sviluppato da Baidu, noto per l'elevata precisione e le prestazioni in tempo reale. Presentato il 2023-04-17 e descritto nel documento Arxiv, RTDETRv2 utilizza un'architettura Vision Transformer (ViT) per ottenere risultati all'avanguardia. L'implementazione ufficiale è disponibile su GitHub.
Architettura e caratteristiche principali
L'architettura di RTDETRv2 si basa sui trasformatori di visione, che consentono di catturare il contesto globale all'interno delle immagini attraverso meccanismi di autoattenzione. Questo approccio basato sui trasformatori consente un'estrazione robusta delle caratteristiche e una localizzazione precisa degli oggetti, in particolare nelle scene complesse. A differenza dei modelli tradizionali basati su CNN, RTDETRv2 eccelle nella comprensione delle relazioni tra le diverse parti di un'immagine, migliorando la precisione del rilevamento.
Metriche di prestazione
I modelli RTDETRv2 dimostrano punteggi mAP impressionanti, con varianti più grandi come RTDETRv2-x che raggiungono un mAPval50-95 di 54,3. Sebbene nella tabella sottostante non siano fornite metriche dettagliate sulla velocità diONNX della CPU , le velocità di TensorRT sono competitive e lo rendono adatto ad applicazioni in tempo reale su hardware capace come le GPU NVIDIA T4. Per le metriche dettagliate delle prestazioni, fare riferimento alla tabella di confronto dei modelli riportata di seguito.
Punti di forza e di debolezza
Punti di forza:
- Precisione superiore: L'architettura del trasformatore garantisce un'eccellente precisione nel rilevamento degli oggetti.
- Capacità in tempo reale: Raggiunge velocità di inferenza competitive con l'accelerazione hardware, adatta ai sistemi in tempo reale.
- Estrazione efficace delle caratteristiche: I trasformatori di visione catturano efficacemente il contesto globale e i dettagli più complessi.
Punti deboli:
- Dimensioni maggiori del modello: I modelli RTDETRv2, in particolare le versioni più grandi, hanno un numero di parametri e FLOP più elevato e richiedono maggiori risorse di calcolo.
- Limitazioni della velocità di inferenza: Pur essendo in tempo reale, potrebbe non essere veloce come i modelli altamente ottimizzati come YOLOX su dispositivi meno potenti.
Casi d'uso ideali
RTDETRv2 è ideale per le applicazioni in cui la precisione è fondamentale e sono disponibili risorse computazionali sufficienti. I casi d'uso ideali includono:
- Veicoli autonomi: Per una percezione ambientale affidabile e precisa nei sistemi di guida autonoma. L'intelligenza artificiale nelle auto a guida autonoma
- Robotica: Consentire ai robot di percepire e interagire accuratamente con gli oggetti in ambienti complessi. Dagli algoritmi all'automazione: Il ruolo dell'intelligenza artificiale nella robotica
- Imaging medico: Per il rilevamento di alta precisione delle anomalie nelle immagini mediche, a supporto della diagnostica. L'intelligenza artificiale nell'assistenza sanitaria
- Analisi di immagini ad alta risoluzione: Applicazioni che richiedono l'analisi dettagliata di immagini di grandi dimensioni, come quelle satellitari o aeree. Uso della visione artificiale per analizzare le immagini satellitari
Per saperne di più su RTDETRv2
YOLOX: rilevamento di oggetti efficiente e versatile
YOLOX(You Only Look Once X) è un modello di rilevamento di oggetti senza ancoraggio sviluppato da Megvii, noto per le sue elevate prestazioni ed efficienza. Introdotto il 2021-07-18 e descritto nel documento Arxiv, YOLOX si basa sulla serie YOLO , offrendo un design semplificato con risultati all'avanguardia. La documentazione ufficiale fornisce dettagli completi.
Architettura e caratteristiche principali
YOLOX adotta un approccio privo di ancore, eliminando la necessità di scatole di ancoraggio predefinite, semplificando il modello e riducendo gli iperparametri. Presenta una testa disaccoppiata per la classificazione e la localizzazione, migliorando l'efficienza e l'accuratezza della formazione. Per migliorare la robustezza vengono utilizzate tecniche avanzate di aumento dei dati, come MixUp e Mosaic. YOLOX è stato progettato per garantire un'elevata velocità ed efficienza, rendendolo adatto ad applicazioni in tempo reale e all'implementazione su diverse piattaforme hardware.
Metriche di prestazione
YOLOX offre una gamma di modelli di diverse dimensioni, da Nano a XLarge, per soddisfare le diverse esigenze di budget computazionale e di precisione. I modelli YOLOX raggiungono un buon equilibrio tra velocità e accuratezza. Ad esempio, YOLOX-s raggiunge un mAPval50-95 di 40,5 con una velocità di inferenza elevata su TensorRT. La tabella di confronto dei modelli riportata di seguito mostra le metriche dettagliate delle prestazioni delle diverse varianti di YOLOX.
Punti di forza e di debolezza
Punti di forza:
- Alta efficienza e velocità: Ottimizzato per una rapida inferenza, è ideale per le applicazioni in tempo reale.
- Design senza ancore: Semplifica l'architettura e il processo di formazione, migliorando la generalizzazione.
- Dimensioni versatili dei modelli: Offre una gamma di dimensioni del modello per soddisfare i diversi vincoli computazionali.
- Prestazioni forti: Raggiunge un buon equilibrio tra velocità e precisione.
Punti deboli:
- Trade-off di accuratezza: sebbene sia efficiente, la sua accuratezza può essere leggermente inferiore a quella dei modelli basati su trasformatori come RTDETRv2 in scenari complessi.
- Prestazioni in scene complesse: Essendo un rilevatore a fase singola, potrebbe essere meno robusto in scene estremamente affollate rispetto ad alcuni rilevatori a due fasi, anche se YOLOX attenua notevolmente questo divario rispetto alle versioni precedenti di YOLO .
Casi d'uso ideali
YOLOX è ideale per le applicazioni che richiedono il rilevamento di oggetti in tempo reale con particolare attenzione alla velocità e all'efficienza. Queste includono:
- Robotica: Percezione in tempo reale per la navigazione e l'interazione dei robot in ambienti dinamici. L'intelligenza artificiale nella robotica
- Sistemi di sorveglianza: Rilevamento efficiente di oggetti in flussi video per applicazioni di sicurezza e monitoraggio. Computer Vision per la prevenzione dei furti: Migliorare la sicurezza
- Ispezione industriale: Ispezione visiva automatizzata sulle linee di produzione per il rilevamento dei difetti e il controllo della qualità. Migliorare la produzione con la visione artificiale
- Dispositivi edge: Distribuzione su dispositivi con risorse limitate in cui l'efficienza di calcolo è fondamentale. Potenziamento dell'intelligenza artificiale in ambito edge con Sony IMX500 e Aitrios
Tabella di confronto dei modelli
Modello | dimensione(pixel) | mAPval 50-95 |
CPU ONNX (ms) |
VelocitàT4TensorRT10 (ms) |
params(M) | FLOP(B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
Conclusione
Sia RTDETRv2 che YOLOX sono potenti modelli di rilevamento degli oggetti, ma rispondono a priorità diverse. RTDETRv2 è la scelta migliore quando è richiesta la massima precisione e le risorse computazionali non sono un fattore limitante. YOLOX, invece, eccelle negli scenari in cui le prestazioni in tempo reale, l'efficienza e la distribuzione su hardware meno potente sono fondamentali.
Per gli utenti che stanno esplorando altre opzioni, Ultralytics offre un'ampia gamma di modelli, tra cui:
- YOLOv8 e YOLOv9: successori della serie YOLO , offrono uno spettro di compromessi tra velocità e precisione. Ultralytics YOLOv8 compie un anno: un anno di scoperte e innovazioni, documentazione YOLOv9
- YOLO: modelli progettati utilizzando l'architettura neurale di ricerca per ottenere prestazioni ottimali. YOLO di Deci AI - un modello di rilevamento degli oggetti all'avanguardia
- FastSAM e MobileSAM: per attività di segmentazione delle istanze in tempo reale. DocumentazioneFastSAM , DocumentazioneMobileSAM
La scelta tra RTDETRv2, YOLOX e altri modelli Ultralytics deve essere guidata dalle esigenze specifiche del progetto di computer vision, bilanciando attentamente precisione, velocità e risorse disponibili. Per ulteriori informazioni e dettagli sull'implementazione, consultare la documentazione di Ultralytics e il repository GitHub.