コンテンツへスキップ

百度のRT-DETR: ビジョントランスフォーマーベースのリアルタイム物体検出器

概要

バイドゥが開発したReal-Time Detection Transformer (RT-DETR) は、高精度を維持しながらリアルタイム性能を提供する最先端のエンド・ツー・エンド物体検出器である。Vision Transformers (ViT)のパワーを活用し、イントラスケールの相互作用とクロススケールの融合を切り離すことで、マルチスケールの特徴を効率的に処理する。RT-DETR は適応性が高く、再トレーニングなしで異なるデコーダ層を使用して推論速度を柔軟に調整できる。このモデルは、CUDA のような高速化されたバックエンドで優れた性能を発揮し、TensorRT 、他の多くのリアルタイム物体検出器を凌駕しています。

モデル例 百度の概要RT-DETR. RT-DETR モデルのアーキテクチャ図は、エンコーダへの入力として、バックボーンの最後の3つのステージ{S3、S4、S5}を示している。効率的なハイブリッドエンコーダは、イントラスケール特徴相互作用(AIFI)とクロススケール特徴融合モジュール(CCFM)を介して、マルチスケール特徴を画像特徴のシーケンスに変換する。IoUを考慮したクエリ選択は、デコーダの初期オブジェクトクエリとして機能する固定数の画像特徴を選択するために採用される。最後に、補助予測ヘッドを持つデコーダがオブジェクトクエリを繰り返し最適化し、ボックスと信頼度スコア(ソース).

主な特徴

  • 効率的なハイブリッド・エンコーダ:BaiduのRT-DETR 、効率的なハイブリッド・エンコーダを使用し、イントラ・スケール・インタラクションとクロス・スケール・フュージョンを切り離すことで、マルチスケール特徴を処理する。このユニークなVision Transformersベースの設計は、計算コストを削減し、リアルタイムのオブジェクト検出を可能にします。
  • IoUを意識したクエリー選択:BaiduのRT-DETR 、IoUを意識したクエリ選択を利用することで、オブジェクトクエリの初期化を改善。これにより、モデルはシーン内の最も関連性の高いオブジェクトに焦点を当てることができ、検出精度が向上する。
  • 適応可能な推論速度:バイドゥのRT-DETR は、再トレーニングの必要なく、異なるデコーダ層を使用することで推論速度の柔軟な調整をサポートしています。この適応性により、様々なリアルタイム物体検出シナリオでの実用化が容易になります。

訓練済みモデル

Ultralytics Python APIは、事前に訓練されたPaddlePaddle RT-DETR モデルをさまざまなスケールで提供する:

  • RT-DETR-L:COCO val2017でAP53.0%、T4 GPUで114 FPS
  • RT-DETR-X:COCOバル2017でAP54.8%、T4 GPUで74 FPS

使用例

この例では簡単なRT-DETRRのトレーニングと推論の例を提供します。これらのモードや他のモードに関する完全なドキュメントはPredict,Train,ValandExportdocs ページを参照してください。

例

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

サポートされるタスクとモード

この表は、モデルの種類、事前にトレーニングされた重み、各モデルでサポートされるタスク、サポートされる様々なモード(Train、Val、Predict、Export)を✅の絵文字で表しています。

モデルタイプ 事前に訓練されたウェイト 対応タスク 推論 バリデーション トレーニング 輸出
RT-DETR 大型 rtdetr-l.pt 物体検出 ✅ ✅ ✅ ✅
RT-DETR エクストラ・ラージ rtdetr-x.pt 物体検出 ✅ ✅ ✅ ✅

引用と謝辞

研究または開発作業でBaiduのRT-DETR 、元の論文を引用してください:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

我々はBaiduとそのチームに感謝したい。 PaddlePaddleコンピュータビジョンコミュニティのためにこの貴重なリソースを作成し、維持してくれたBaiduとそのチームに感謝したい。Vision Transformersベースのリアルタイム物体検出器、RT-DETR の開発による、この分野への貢献には大いに感謝している。

キーワードRT-DETRTransformer, ViT, Vision Transformers, BaiduRT-DETR,PaddlePaddle, Paddle PaddleRT-DETR, リアルタイム物体検出, Vision Transformersベースの物体検出, 事前学習済みPaddlePaddle RT-DETR モデル, BaiduのRT-DETR 使用法,Ultralytics Python API



作成日:2023-11-12 更新日:2024-01-16
作成者:glenn-jocher(7)

コメント