Zum Inhalt springen

Baidu's RT-DETR: Ein Vision-Transformer-basierter Echtzeit-Objektdetektor

√úbersicht

Der von Baidu entwickelte Real-Time Detection Transformer (RT-DETR) ist ein hochmoderner End-to-End-Objektdetektor, der Echtzeitleistung bei hoher Genauigkeit bietet. Er nutzt die Leistungsf√§higkeit von Vision Transformers (ViT), um multiskalige Merkmale effizient zu verarbeiten, indem er die skaleninterne Interaktion und die skalen√ľbergreifende Fusion entkoppelt. RT-DETR ist hochgradig anpassungsf√§hig und unterst√ľtzt die flexible Anpassung der Inferenzgeschwindigkeit mit verschiedenen Decoderschichten ohne erneutes Training. Das Modell schneidet auf beschleunigten Backends wie CUDA mit TensorRT hervorragend ab und √ľbertrifft viele andere Echtzeit-Objektdetektoren.

Modell Beispielbild √úberblick √ľber Baidu's RT-DETR. Das Architekturdiagramm des RT-DETR Modells zeigt die letzten drei Stufen des Backbones {S3, S4, S5} als Eingabe f√ľr den Encoder. Der effiziente hybride Encoder wandelt die Multiskalenmerkmale durch die Interaktion zwischen den Skalen (AIFI) und das Cross-Scale-Feature-Fusion-Modul (CCFM) in eine Folge von Bildmerkmalen um. Die IoU-bewusste Abfrageauswahl wird eingesetzt, um eine feste Anzahl von Bildmerkmalen auszuw√§hlen, die als anf√§ngliche Objektabfrage f√ľr den Decoder dienen. Schlie√ülich optimiert der Decoder mit Hilfsvorhersagek√∂pfen iterativ die Objektabfragen, um Boxen und Konfidenzwerte zu erzeugen (Quelle).

Hauptmerkmale

  • Effizienter Hybrid-Encoder: Baidus RT-DETR verwendet einen effizienten Hybrid-Encoder, der multiskalige Merkmale durch Entkopplung von skaleninterner Interaktion und skalen√ľbergreifender Fusion verarbeitet. Dieses einzigartige, auf Vision Transformers basierende Design reduziert die Rechenkosten und erm√∂glicht die Objekterkennung in Echtzeit.
  • IoU-bewusste Abfrageauswahl: Baidu's RT-DETR verbessert die Initialisierung der Objektabfrage durch eine IoU-bewusste Abfrageauswahl. Dadurch kann sich das Modell auf die relevantesten Objekte in der Szene konzentrieren, was die Erkennungsgenauigkeit erh√∂ht.
  • Anpassbare Inferenzgeschwindigkeit: Baidu's RT-DETR unterst√ľtzt die flexible Anpassung der Inferenzgeschwindigkeit durch die Verwendung verschiedener Decoderschichten, ohne dass ein erneutes Training erforderlich ist. Diese Anpassungsf√§higkeit erleichtert die praktische Anwendung in verschiedenen Echtzeit-Objekterkennungsszenarien.

Vorgefertigte Modelle

Die Ultralytics Python API bietet vortrainierte PaddlePaddle RT-DETR Modelle mit verschiedenen Skalen:

  • RT-DETR-L: 53,0% AP auf COCO val2017, 114 FPS auf T4 GPU
  • RT-DETR-X: 54,8% AP auf COCO val2017, 74 FPS auf T4 GPU

Verwendungsbeispiele

Dieses Beispiel zeigt einfache RT-DETR Trainings- und Schlussfolgerungsbeispiele. Die vollständige Dokumentation zu diesen und anderen Modi findest du auf den Seiten Predict, Train, Val und Export docs.

Beispiel

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

Unterst√ľtzte Aufgaben und Modi

Diese Tabelle enth√§lt die Modelltypen, die spezifischen vortrainierten Gewichte, die von jedem Modell unterst√ľtzten Aufgaben und die verschiedenen unterst√ľtzten Modi(Train, Val, Predict, Export), die durch ‚úÖ Emojis gekennzeichnet sind.

Modell Typ Vortrainierte Gewichte Unterst√ľtzte Aufgaben Inferenz Validierung Ausbildung exportieren
RT-DETR Groß rtdetr-l.pt Objekt-Erkennung ✅ ✅ ✅ ✅
RT-DETR Extra-Large rtdetr-x.pt Objekt-Erkennung ‚úÖ ‚úÖ ‚úÖ ‚úÖ

Zitate und Danksagungen

Wenn du Baidu's RT-DETR in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte die Originalarbeit:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Wir m√∂chten uns bei Baidu und dem PaddlePaddle Team f√ľr die Erstellung und Pflege dieser wertvollen Ressource f√ľr die Computer Vision Community. Ihr Beitrag zur Entwicklung des auf Vision Transformers basierenden Echtzeit-Objektdetektors RT-DETR ist sehr zu sch√§tzen.

Schl√ľsselw√∂rter: RT-DETR, Transformer, ViT, Vision Transformers, Baidu RT-DETR, PaddlePaddle, Paddle Paddle RT-DETR, Echtzeit-Objekterkennung, Vision Transformers-basierte Objekterkennung, vortrainierte PaddlePaddle RT-DETR Modelle, Baidu's RT-DETR Nutzung, Ultralytics Python API



Erstellt am 2023-11-12, Aktualisiert am 2024-03-03
Autoren: glenn-jocher (8)

Kommentare