Link to this sectionRT-DETR di Baidu: un rilevatore di oggetti in tempo reale basato su Transformer di visione#

Q: Può max_det far sì che RT-DETR restituisca più di 300 rilevamenti?

No. Per RT-DETR, max_det limita il numero di predizioni restituite dopo l'inferenza, ma non aumenta il numero di query sugli oggetti prodotte dal decoder. I checkpoint preaddestrati di Ultralytics RT-DETR utilizzano 300 query sugli oggetti, quindi non possono restituire più di 300 rilevamenti per immagine anche se imposti max_det su un valore superiore. Usa max_det per ridurre i rilevamenti restituiti, ad esempio max_det=100, quando ti servono solo poche predizioni ad alta confidenza. Se il tuo dataset può contenere più di 300 oggetti per immagine, addestra un modello RT-DETR personalizzato con un numero di query del decoder (nq) più elevato nel file YAML del modello; modificare questo valore su un checkpoint preaddestrato dopo l'addestramento non è equivalente e richiede un nuovo addestramento per apprendere le query aggiuntive.

Link to this sectionPanoramica#

Il Real-Time Detection Transformer (RT-DETR), sviluppato da Baidu, è un rilevatore di oggetti end-to-end all'avanguardia che offre prestazioni in tempo reale mantenendo un'elevata precisione. Si basa sull'idea di DETR (il framework senza NMS), introducendo contemporaneamente un backbone basato su convoluzione e un efficiente encoder ibrido per ottenere velocità in tempo reale. RT-DETR elabora in modo efficiente le caratteristiche multiscala disaccoppiando l'interazione intra-scala e la fusione cross-scala. Il modello è altamente adattabile e supporta una regolazione flessibile della velocità di inferenza utilizzando diversi strati del decoder senza dover procedere a riaddestramento. RT-DETR eccelle su backend accelerati come CUDA con TensorRT, superando molti altri rilevatori di oggetti in tempo reale.

Watch: How to Use Baidu's RT-DETR for Object Detection | Inference and Benchmarking with Ultralytics 🚀

Panoramica dell'architettura del modello Baidu RT-DETR Panoramica del RT-DETR di Baidu. Il diagramma dell'architettura del modello RT-DETR mostra gli ultimi tre stadi del backbone {S3, S4, S5} come input per l'encoder. L'efficiente encoder ibrido trasforma le caratteristiche multiscala in una sequenza di caratteristiche dell'immagine attraverso l'interazione tra caratteristiche intra-scala (AIFI) e il modulo di fusione delle caratteristiche cross-scala (CCFM). La selezione delle query basata su IoU viene impiegata per selezionare un numero fisso di caratteristiche dell'immagine da utilizzare come query iniziali dell'oggetto per il decoder. Infine, il decoder con teste di predizione ausiliarie ottimizza iterativamente le query dell'oggetto per generare box e punteggi di confidenza (fonte).

Link to this sectionCaratteristiche principali#

Encoder ibrido efficiente: L'RT-DETR di Baidu utilizza un encoder ibrido efficiente che elabora caratteristiche multiscala disaccoppiando l'interazione intra-scala e la fusione cross-scala. Questo design unico basato su Vision Transformer riduce i costi computazionali e consente il rilevamento di oggetti in tempo reale.
Selezione della query basata su IoU: L'RT-DETR di Baidu migliora l'inizializzazione della query dell'oggetto utilizzando la selezione della query basata su IoU. Ciò consente al modello di concentrarsi sugli oggetti più rilevanti nella scena, migliorando la precisione del rilevamento.
Velocità di inferenza adattabile: L'RT-DETR di Baidu supporta regolazioni flessibili della velocità di inferenza utilizzando diversi strati del decoder senza la necessità di riaddestramento. Questa adattabilità facilita l'applicazione pratica in vari scenari di rilevamento di oggetti in tempo reale.
Framework senza NMS: Basato su DETR, RT-DETR elimina la necessità di post-elaborazione tramite non-maximum suppression, semplificando la pipeline di rilevamento e migliorando potenzialmente l'efficienza.
Rilevamento senza ancora (Anchor-Free): In quanto rilevatore senza ancora, RT-DETR semplifica il processo di rilevamento e può migliorare la generalizzazione su diversi set di dati.

Link to this sectionModelli pre-addestrati#

L'API Python di Ultralytics fornisce modelli RT-DETR PaddlePaddle preaddestrati con diverse scale:

RT-DETR-L: 53,0% AP su COCO val2017, 114 FPS su GPU T4
RT-DETR-X: 54,8% AP su COCO val2017, 74 FPS su GPU T4

Inoltre, Baidu ha rilasciato RTDETRv2 nel luglio 2024, che migliora ulteriormente l'architettura originale con metriche di prestazione potenziate.

Link to this sectionEsempi di Utilizzo#

Questo esempio fornisce semplici esempi di addestramento e inferenza per RT-DETR. Per la documentazione completa su queste e altre modalità, consulta le pagine di documentazione Predict, Train, Val ed Export. I modelli possono anche essere addestrati su GPU cloud tramite Ultralytics Platform.

Esempio

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Compromessi per una inferenza più veloce

I pesi preaddestrati di RT-DETR supportano due impostazioni durante l'inferenza per ridurre la latenza senza riaddestramento:

eval_idx: Interrompi la decodifica in anticipo. Per il decoder predefinito a 6 strati, utilizza un indice basato su zero (0–5). eval_idx=5 utilizza tutti gli strati; eval_idx=3 utilizza 4 strati. Su una GPU T4 con TensorRT v10.11, RT-DETR-L migliora da 8,0 ms / 52,7 mAP a 7,4 ms / 52,5 mAP con 4 strati.
num_queries: Riduci le query degli oggetti (predefinito: 300). Abbassarlo a 100 può raggiungere 7,4 ms / 51,7 mAP su COCO nella stessa configurazione. Sui set di dati con meno oggetti per immagine, il calo di mAP è solitamente minore, ma mantieni il valore al di sopra del numero massimo di oggetti previsti per immagine.

Entrambe le impostazioni possono ridurre l'mAP: convalida il compromesso sul tuo set di dati prima della distribuzione.

from ultralytics import RTDETR

rtdetr = RTDETR("rtdetr-l.pt")
head = rtdetr.model.model[-1]

# Choose one or both settings after validating the speed/accuracy trade-off.
head.decoder.eval_idx = 3  # Use 4 of 6 decoder layers.
head.num_queries = 100  # Use fewer object queries.

results = rtdetr("path/to/image.jpg")

# Export uses the same decoder and query settings, including TensorRT exports.
rtdetr.export(format="engine", device=0, quantize=16)

Link to this sectionCompiti e modalità supportati#

Questa tabella presenta i tipi di modello, gli specifici pesi preaddestrati, le attività supportate da ciascun modello e le varie modalità (Train, Val, Predict, Export) supportate, indicate dalle emoji ✅.

Tipo di modello	Pesi pre-addestrati	Attività supportate	Inferenza	Validazione	Addestramento	Esportazione
RT-DETR Large	rtdetr-l.pt	Object Detection	✅	✅	✅	✅
RT-DETR Extra-Large	rtdetr-x.pt	Object Detection	✅	✅	✅	✅

Varianti solo architettura

rtdetr-resnet50.yaml e rtdetr-resnet101.yaml vengono forniti solo come architetture YAML. Ultralytics rilascia pesi preaddestrati solo per rtdetr-l e rtdetr-x. Istanzia le varianti ResNet da YAML (ad esempio, RTDETR("rtdetr-resnet50.yaml")) e addestrale o ottimizzale secondo necessità.

Link to this sectionCasi d'uso ideali#

RT-DETR è particolarmente adatto per applicazioni che richiedono sia un'elevata precisione che prestazioni in tempo reale:

Guida autonoma: Per un'affidabile percezione ambientale nei sistemi a guida autonoma dove sia la velocità che la precisione sono fondamentali. Scopri di più sull'IA nelle auto a guida autonoma.
Robotica avanzata: Consente ai robot di eseguire attività complesse che richiedono un riconoscimento accurato degli oggetti e un'interazione in ambienti dinamici. Esplora il ruolo dell'IA nella robotica.
Imaging medico: Per applicazioni nel settore sanitario dove la precisione nel rilevamento degli oggetti può essere cruciale per la diagnostica. Scopri l'IA nel settore sanitario.
Sistemi di sorveglianza: per applicazioni di sicurezza che richiedono un monitoraggio in tempo reale con un'elevata precisione di rilevamento. Scopri di più sui sistemi di allarme di sicurezza.
Analisi delle immagini satellitari: Per un'analisi dettagliata di immagini ad alta risoluzione dove è importante la comprensione del contesto globale. Leggi di più sulla visione artificiale nelle immagini satellitari.

Link to this sectionCitazioni e riconoscimenti#

Se utilizzi RT-DETR di Baidu nel tuo lavoro di ricerca o sviluppo, ti preghiamo di citare l'articolo originale:

Citazione

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Per RTDETRv2, puoi citare l'articolo del 2024:

Citazione

@misc{lv2024rtdetrv2,
      title={RTDETRv2: All-in-One Detection Transformer Beats YOLO and DINO},
      author={Wenyu Lv and Yian Zhao and Qinyao Chang and Kui Huang and Guanzhong Wang and Yi Liu},
      year={2024},
      eprint={2407.17140},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Desideriamo ringraziare Baidu e il team di PaddlePaddle per aver creato e mantenuto questa preziosa risorsa per la comunità della visione artificiale. Il loro contributo al campo con lo sviluppo del rilevatore di oggetti in tempo reale basato su Vision Transformer, RT-DETR, è molto apprezzato.

Link to this sectionFAQ#

Link to this sectionChe cos'è il modello RT-DETR di Baidu e come funziona?#

RT-DETR (Real-Time Detection Transformer) di Baidu è un rilevatore di oggetti in tempo reale avanzato costruito sull'architettura Vision Transformer. Elabora in modo efficiente le caratteristiche multiscala disaccoppiando l'interazione intra-scala e la fusione cross-scala attraverso il suo encoder ibrido efficiente. Impiegando la selezione della query basata su IoU, il modello si concentra sugli oggetti più rilevanti, migliorando la precisione del rilevamento. La sua velocità di inferenza adattabile, ottenuta regolando gli strati del decoder senza riaddestramento, rende RT-DETR adatto a vari scenari di rilevamento di oggetti in tempo reale. Scopri di più sulle funzionalità di RT-DETR nell'articolo Arxiv di RT-DETR.

Link to this sectionCome posso utilizzare i modelli RT-DETR preaddestrati forniti da Ultralytics?#

Puoi sfruttare l'API Python di Ultralytics per utilizzare i modelli RT-DETR PaddlePaddle preaddestrati. Ad esempio, per caricare un modello RT-DETR-l preaddestrato su COCO val2017 e ottenere FPS elevati su GPU T4, puoi utilizzare il seguente esempio:

Esempio

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

Link to this sectionPerché dovrei scegliere RT-DETR di Baidu rispetto ad altri rilevatori di oggetti in tempo reale?#

RT-DETR di Baidu si distingue per il suo encoder ibrido efficiente e la selezione della query basata su IoU, che riducono drasticamente i costi computazionali mantenendo un'elevata precisione. La sua capacità unica di regolare la velocità di inferenza utilizzando diversi strati del decoder senza riaddestramento aggiunge una notevole flessibilità. Ciò lo rende particolarmente vantaggioso per le applicazioni che richiedono prestazioni in tempo reale su backend accelerati come CUDA con TensorRT, superando molti altri rilevatori di oggetti in tempo reale. L'architettura Transformer fornisce anche una migliore comprensione del contesto globale rispetto ai tradizionali rilevatori basati su CNN.

Link to this sectionIn che modo RT-DETR supporta la velocità di inferenza adattabile per diverse applicazioni in tempo reale?#

RT-DETR di Baidu consente regolazioni flessibili della velocità di inferenza utilizzando diversi strati del decoder senza richiedere riaddestramento. Questa adattabilità è cruciale per scalare le prestazioni su varie attività di rilevamento di oggetti in tempo reale. Che tu abbia bisogno di un'elaborazione più rapida per esigenze di precisione inferiori o di rilevamenti più lenti e accurati, RT-DETR può essere personalizzato per soddisfare le tue esigenze specifiche. Questa funzionalità è particolarmente preziosa quando si distribuiscono modelli su dispositivi con diverse capacità computazionali.

Link to this sectionPuò `max_det` far sì che RT-DETR restituisca più di 300 rilevamenti?#

No. Per RT-DETR, max_det limita il numero di predizioni restituite dopo l'inferenza, ma non aumenta il numero di query sugli oggetti prodotte dal decoder. I checkpoint preaddestrati di Ultralytics RT-DETR utilizzano 300 query sugli oggetti, quindi non possono restituire più di 300 rilevamenti per immagine anche se imposti max_det su un valore superiore.

Usa max_det per ridurre i rilevamenti restituiti, ad esempio max_det=100, quando ti servono solo poche predizioni ad alta confidenza. Se il tuo dataset può contenere più di 300 oggetti per immagine, addestra un modello RT-DETR personalizzato con un numero di query del decoder (nq) più elevato nel file YAML del modello; modificare questo valore su un checkpoint preaddestrato dopo l'addestramento non è equivalente e richiede un nuovo addestramento per apprendere le query aggiuntive.

Link to this sectionPosso utilizzare i modelli RT-DETR con altre modalità Ultralytics, come addestramento, convalida ed esportazione?#

Sì, i modelli RT-DETR sono compatibili con varie modalità Ultralytics, tra cui addestramento, convalida, predizione ed esportazione. Puoi fare riferimento alla documentazione rispettiva per istruzioni dettagliate su come utilizzare queste modalità: Train, Val, Predict ed Export. Ciò garantisce un flusso di lavoro completo per lo sviluppo e la distribuzione delle tue soluzioni di rilevamento oggetti. Il framework Ultralytics fornisce un'API coerente tra diverse architetture di modello, facilitando il lavoro con i modelli RT-DETR.

Collaboratori

GLglenn-jocher²⁸ RIRizwanMunawar⁵ RAraimbekovm³ ARartest08² MImiles-deans-ultralytics¹ OAoaslananka¹ ONonuralpszr¹ PDpderrenger¹ LEleonnil¹ LALaughing-q¹ MAMatthewNoyce¹

Creato 12 nov 2023Aggiornato settimana scorsa