RT-DETR di Baidu: un rilevatore di oggetti in tempo reale basato su un trasformatore di visione
Panoramica
Real-Time Detection Transformer (RT-DETR), sviluppato da Baidu, è un rilevatore di oggetti end-to-end all'avanguardia che offre prestazioni in tempo reale mantenendo un'elevata precisione. Sfrutta la potenza dei Vision Transformers (ViT) per elaborare in modo efficiente le caratteristiche multiscala disaccoppiando l'interazione intrascala e la fusione interscala. RT-DETR è altamente adattabile, in quanto supporta una regolazione flessibile della velocità di inferenza utilizzando diversi livelli di decodifica senza riqualificarsi. Il modello eccelle su backend accelerati come CUDA con TensorRT, superando molti altri rilevatori di oggetti in tempo reale.
Guarda: Trasformatore di rilevamento in tempo reale (RT-DETR)
Panoramica di Baidu RT-DETR. Il diagramma dell'architettura del modello RT-DETR mostra gli ultimi tre stadi del backbone {S3, S4, S5} come ingresso al codificatore. L'efficiente codificatore ibrido trasforma le caratteristiche multiscala in una sequenza di caratteristiche dell'immagine attraverso l'interazione delle caratteristiche intrascala (AIFI) e il modulo di fusione delle caratteristiche interscala (CCFM). La selezione delle query IoU-aware viene impiegata per selezionare un numero fisso di caratteristiche dell'immagine da utilizzare come query iniziali dell'oggetto per il decodificatore. Infine, il decodificatore con teste di predizione ausiliarie ottimizza iterativamente le query degli oggetti per generare box e punteggi di confidenza (fonte).
Caratteristiche principali
- Encoder ibrido efficiente: Il sito RT-DETR di Baidu utilizza un efficiente codificatore ibrido che elabora caratteristiche multiscala disaccoppiando l'interazione intra-scala e la fusione interscala. Questo esclusivo design basato su Vision Transformers riduce i costi computazionali e consente di rilevare gli oggetti in tempo reale.
- Selezione delle query consapevole dell'IoU: Il sito RT-DETR di Baidu migliora l'inizializzazione delle query sugli oggetti utilizzando la selezione delle query IoU-aware. Questo permette al modello di concentrarsi sugli oggetti più rilevanti della scena, migliorando l'accuratezza del rilevamento.
- Velocità di inferenza adattabile: RT-DETR di Baidu supporta la regolazione flessibile della velocità di inferenza utilizzando diversi livelli di decodifica senza necessità di riqualificazione. Questa adattabilità facilita l'applicazione pratica in vari scenari di rilevamento di oggetti in tempo reale.
Modelli pre-addestrati
L'API Ultralytics Python fornisce modelli preaddestrati PaddlePaddle RT-DETR con diverse scale:
- RT-DETR-L: 53,0% AP su COCO val2017, 114 FPS su GPU T4
- RT-DETR-X: 54,8% AP su COCO val2017, 74 FPS su GPU T4
Esempi di utilizzo
Questo esempio fornisce dei semplici esempi di addestramento e inferenza su RT-DETR . Per una documentazione completa su queste e altre modalità , consulta le pagine dei documenti Predict, Train, Val ed Export.
Esempio
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
Attività e modalità supportate
Questa tabella presenta i tipi di modello, i pesi specifici pre-addestrati, i compiti supportati da ogni modello e le varie modalità (Train, Val, Predict, Export) supportate, indicate da ✅ emoji.
Tipo di modello | Pesi pre-addestrati | Attività supportate | Inferenza | Convalida | Formazione | Esportazione |
---|---|---|---|---|---|---|
RT-DETR Grande | rtdetr-l.pt | Rilevamento degli oggetti | ✅ | ✅ | ✅ | ✅ |
RT-DETR Extra-Large | rtdetr-x.pt | Rilevamento degli oggetti | ✅ | ✅ | ✅ | ✅ |
Citazioni e ringraziamenti
Se utilizzi il sito RT-DETR di Baidu nel tuo lavoro di ricerca o sviluppo, ti preghiamo di citare il documento originale:
Desideriamo ringraziare Baidu e il suo team per aver creato e mantenuto questa preziosa risorsa per la comunità della computer vision. PaddlePaddle per aver creato e mantenuto questa preziosa risorsa per la comunità della computer vision. Il loro contributo al campo con lo sviluppo del rilevatore di oggetti in tempo reale basato su Vision Transformers, RT-DETR, è molto apprezzato.
Parole chiave: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, rilevamento di oggetti in tempo reale, rilevamento di oggetti basato su Vision Transformers, modelli preaddestrati PaddlePaddle RT-DETR , utilizzo di RT-DETR di Baidu, Ultralytics Python API