Baidu's RT-DETR: een op Vision Transformer gebaseerde realtime objectdetector
Overzicht
Real-Time Detection Transformer (RT-DETR), ontwikkeld door Baidu, is een geavanceerde end-to-end objectdetector die realtime prestaties levert met behoud van hoge nauwkeurigheid. Het maakt gebruik van de kracht van Vision Transformers (ViT) om functies met meerdere schalen efficiënt te verwerken door intra-scale interactie en cross-scale fusie te ontkoppelen. RT-DETR is in hoge mate aanpasbaar en ondersteunt flexibele aanpassing van de inferentiesnelheid met verschillende decoderlagen zonder hertraining. Het model blinkt uit op versnelde backends zoals CUDA met TensorRT en presteert beter dan veel andere realtime objectdetectoren.
Kijken: Real-Time Opsporingstransformator (RT-DETR)
Overzicht van Baidu's RT-DETR. Het architectuurdiagram van het RT-DETR model toont de laatste drie stappen van de backbone {S3, S4, S5} als invoer voor de encoder. De efficiënte hybride encoder transformeert multischaalkenmerken in een reeks beeldkenmerken via intraschaalkenmerkinteractie (AIFI) en cross-scalekenmerkfusiemodule (CCFM). De IoU-bewuste vraagselectie wordt gebruikt om een vast aantal beeldkenmerken te selecteren die dienen als initiële objectvragen voor de decoder. Ten slotte optimaliseert de decoder met hulpvoorspellingskoppen iteratief de objectquery's om boxen en vertrouwensscores te genereren (bron).
Belangrijkste kenmerken
- Efficiënte hybride encoder: Baidu's RT-DETR gebruikt een efficiënte hybride encoder die functies met meerdere schalen verwerkt door intra-scale interactie en cross-scale fusie te ontkoppelen. Dit unieke, op Vision Transformers gebaseerde ontwerp verlaagt de computerkosten en maakt realtime objectdetectie mogelijk.
- IoU-bewuste query-selectie: Baidu's RT-DETR verbetert de initialisatie van objectquery's door gebruik te maken van IoU-bewuste query-selectie. Hierdoor kan het model zich richten op de meest relevante objecten in de scène, waardoor de detectienauwkeurigheid wordt verbeterd.
- Aanpasbare inferentiesnelheid: RT-DETR van Baidu ondersteunt flexibele aanpassingen van de inferentiesnelheid door verschillende decoderlagen te gebruiken zonder dat hertraining nodig is. Dit aanpassingsvermogen vergemakkelijkt praktische toepassing in verschillende realtime objectdetectiescenario's.
Voorgetrainde modellen
De Ultralytics Python API biedt voorgetrainde PaddlePaddle RT-DETR modellen met verschillende schalen:
- RT-DETR-L: 53,0% AP op COCO-val2017, 114 FPS op T4 GPU
- RT-DETR-X: 54,8% AP op COCO val2017, 74 FPS op T4 GPU
Voorbeelden
Dit voorbeeld geeft eenvoudige RT-DETR training en inferentie voorbeelden. Voor volledige documentatie over deze en andere modi zie de Predict, Train, Val en Export docs pagina's.
Voorbeeld
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
Ondersteunde taken en modi
Deze tabel toont de modeltypes, de specifieke voorgetrainde gewichten, de taken die door elk model worden ondersteund en de verschillende modi(Train, Val, Predict, Export) die worden ondersteund, aangegeven met ✅ emoji's.
Type model | Voorgetrainde gewichten | Ondersteunde taken | Inferentie | Validatie | Training | Exporteer |
---|---|---|---|---|---|---|
RT-DETR Groot | rtdetr-l.pt | Objectdetectie | ✅ | ✅ | ✅ | ✅ |
RT-DETR Extra groot | rtdetr-x.pt | Objectdetectie | ✅ | ✅ | ✅ | ✅ |
Citaten en Erkenningen
Als je Baidu's RT-DETR gebruikt in je onderzoek of ontwikkeling, citeer dan het originele artikel:
We willen graag Baidu en het PaddlePaddle team voor het maken en onderhouden van deze waardevolle bron voor de computer vision gemeenschap. Hun bijdrage aan het veld met de ontwikkeling van de op Vision Transformers gebaseerde realtime objectdetector, RT-DETR, wordt zeer gewaardeerd.
Trefwoorden: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, realtime objectdetectie, Vision Transformers-gebaseerde objectdetectie, voorgetrainde PaddlePaddle RT-DETR modellen, Baidu's RT-DETR gebruik, Ultralytics Python API