モバイルセグメントなんでも (MobileSAM)
MobileSAM の論文は現在arXivに掲載されている。
CPU上で動作するMobileSAM のデモは、こちらのデモリンクからアクセスできる。Mac i5 CPUでのパフォーマンスは約3秒です。Hugging Face のデモでは、インターフェースと低性能のCPUのためにレスポンスが遅くなっていますが、効果的に機能し続けています。
MobileSAM は、Grounding-SAM 、AnyLabeling、Segment Anything in 3D を含む様々なプロジェクトで実装されている。
MobileSAM は、100kのデータセット(元画像の1%)を1GPUで1日以内に学習する。このトレーニングのコードは将来公開される予定です。
利用可能なモデル、サポートされるタスク、および動作モード
この表は、利用可能なモデルを、特定の事前訓練された重み、サポートするタスク、および推論、検証、トレーニング、エクスポートなどのさまざまな操作モードとの互換性を示しています。
モデル・タイプ | 事前に訓練されたウェイト | 対応タスク | 推論 | バリデーション | トレーニング | 輸出 |
---|---|---|---|---|---|---|
MobileSAM | モバイルサム | インスタンスのセグメンテーション | ✅ | ❌ | ❌ | ❌ |
SAM からMobileSAM
MobileSAM はオリジナルのSAM と同じパイプラインを保持しているため、オリジナルの前処理、後処理、その他すべてのインターフェイスを組み込んでいる。その結果、現在オリジナルのSAM を使用している人は、最小限の労力でMobileSAM に移行することができる。
MobileSAM はオリジナルのSAM と同等の性能を持ち、画像エンコーダの変更以外は同じパイプラインを維持しています。具体的には、オリジナルのヘビー級のViT-Hエンコーダー(632M)を、より小型のTiny-ViT(5M)に置き換えています。シングルGPUでは、MobileSAM 、1画像あたり約12msで動作する:画像エンコーダーで8ms、マスクデコーダーで4msです。
次の表は、ViTベースの画像エンコーダの比較である:
画像エンコーダー | オリジナルSAM | MobileSAM |
---|---|---|
パラメータ | 611M | 5M |
スピード | 452ミリ秒 | 8ms |
オリジナルのSAM 、MobileSAM 、どちらも同じプロンプトガイド付きマスクデコーダーを利用している:
マスク・デコーダー | オリジナルSAM | MobileSAM |
---|---|---|
パラメータ | 3.876M | 3.876M |
スピード | 4ms | 4ms |
パイプライン全体の比較である:
パイプライン全体(Enc+Dec) | オリジナルSAM | MobileSAM |
---|---|---|
パラメータ | 615M | 9.66M |
スピード | 456ms | 12ms |
点と箱の両方をプロンプトとして使用し、MobileSAM とオリジナルのSAM のパフォーマンスを示す。
その優れた性能により、MobileSAM は、現在のFastSAM よりも約5倍小さく、7倍高速である。詳細はMobileSAM プロジェクトのページでご覧いただけます。
テストMobileSAM Ultralytics
オリジナルのSAM と同様に、Ultralytics では、ポイント・プロンプトとボックス・プロンプトの両方のモードを含む、わかりやすいテスト方法を提供しています。
モデルダウンロード
モデルはこちらからダウンロードできます。
ポイント・プロンプト
例
ボックス・プロンプト
例
を実施した。 MobileSAM
そして SAM
同じAPIを使用しています。詳しい使用法については SAM ページ.
引用と謝辞
もし、あなたの研究や開発業務にMobileSAM 、私たちの論文の引用をご検討ください: