MobileSAM ロゴ

モバイルセグメントなんでも (MobileSAM)

Q: How can I test MobileSAM using Ultralytics?

Ultralytics のMobileSAM のテストは、簡単な方法で行うことができます。セグメントを予測するには、Point プロンプトと Box プロンプトを使用します。以下は Point プロンプトを使った例です：詳細については、MobileSAM のテストセクションを参照してください。

Q: What are the primary use cases for MobileSAM?

MobileSAM は、モバイル環境での高速かつ効率的な画像分割のために設計されている。主なユースケースは以下の通り：より詳細な使用例と性能比較については、SAM からMobileSAM への適応のセクションを参照。

MobileSAM の論文は現在arXivに掲載されている。

CPU 上で動作するMobileSAM のデモは、このデモリンクからアクセスできる。Mac i5CPU でのパフォーマンスは約3秒です。Hugging Face のデモでは、インターフェースと低性能のCPUがレスポンスの遅さに寄与していますが、効果的に機能し続けています。

見るんだ： Ultralytics を使ってMobileSAM で推論を実行する方法｜ステップ・バイ・ステップ・ガイド🎉。

MobileSAM は、Grounding-SAM 、AnyLabeling、Segment Anything in 3D を含む様々なプロジェクトで実装されている。

MobileSAM は、100kのデータセット（元画像の1％）を用いて、GPU 、1日足らずで学習される。このトレーニングのコードは将来公開される予定である。

利用可能なモデル、サポートされるタスク、および動作モード

この表は、利用可能なモデルを、特定の事前訓練された重み、サポートするタスク、および推論、検証、トレーニング、エクスポートなどのさまざまな操作モードとの互換性を示します。

モデルタイプ	事前に訓練されたウェイト	対応タスク	推論	バリデーション	トレーニング	輸出
MobileSAM	モバイルサム	インスタンスのセグメンテーション	✅	❌	❌	❌

SAM からMobileSAM

MobileSAM はオリジナルのSAM と同じパイプラインを保持しているため、オリジナルの前処理、後処理、その他すべてのインターフェイスを組み込んでいる。その結果、現在オリジナルのSAM を使用している人は、最小限の労力でMobileSAM に移行することができる。

MobileSAM はオリジナルのSAM と同等の性能を持ち、画像エンコーダの変更以外は同じパイプラインを維持しています。具体的には、オリジナルのヘビー級のViT-Hエンコーダー（632M）を、より小型のTiny-ViT（5M）に置き換えています。シングルGPU 、MobileSAM は画像あたり約12msで動作する：画像エンコーダーで8ms、マスク・デコーダーで4msである。

次の表は、ViTベースの画像エンコーダの比較である：

画像エンコーダー	オリジナルSAM	MobileSAM
パラメータ	611M	5M
スピード	452ミリ秒	8ms

オリジナルのSAM 、MobileSAM 、どちらも同じプロンプトガイド付きマスクデコーダーを利用している：

マスク・デコーダー	オリジナルSAM	MobileSAM
パラメータ	3.876M	3.876M
スピード	4ms	4ms

パイプライン全体の比較である：

パイプライン全体（Enc+Dec）	オリジナルSAM	MobileSAM
パラメータ	615M	9.66M
スピード	456ms	12ms

点と箱の両方をプロンプトとして使用し、MobileSAM とオリジナルのSAM のパフォーマンスを示す。

点をプロンプトとした画像

ボックスをプロンプトにした画像

その優れた性能により、MobileSAM は、現行のFastSAM よりも約5倍小さく、7倍高速である。詳細はMobileSAM プロジェクトのページでご覧いただけます。

テストMobileSAM Ultralytics

オリジナルのSAM と同様に、Ultralytics では、ポイント・プロンプトとボックス・プロンプトの両方のモードを含む、わかりやすいテスト方法を提供しています。

モデルダウンロード

モデルはこちらからダウンロードできます。

ポイント・プロンプト

例

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict multiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

ボックス・プロンプト

例

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict mutiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

を実施した。 MobileSAM そして SAM 同じAPIを使用しています。詳しい使用法については SAM ページ.

引用と謝辞

もし、あなたの研究や開発業務にMobileSAM 、私たちの論文の引用をご検討ください：

ビブテックス

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}

よくあるご質問

MobileSAM 、オリジナルのSAM モデルとの違いは？

MobileSAM は、モバイルアプリケーション向けに設計された、軽量で高速な画像セグメンテーションモデルである。オリジナルのSAM と同じパイプラインを継承しているが、重量の大きい ViT-H エンコーダー（632M パラメーター）を、より小さな Tiny-ViT エンコーダー（5M パラメーター）に置き換えている。この変更により、MobileSAM は、オリジナルのSAM よりも約5倍小さく、7倍速くなった。例えば、MobileSAM は、オリジナルのSAM の 456ms と比較して、画像あたり約 12ms で動作します。様々なプロジェクトにおけるMobileSAM の実装については、こちらをご覧ください。

Ultralytics を使ってMobileSAM をテストするには？

Ultralytics のMobileSAM のテストは、簡単な方法で行うことができます。Point プロンプトと Box プロンプトを使ってセグメントを予測することができる。以下は Point プロンプトを使った例です：

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

詳細については、 MobileSAM のテストセクションも参照してください。

なぜモバイル・アプリケーションにMobileSAM 。

MobileSAM は、軽量なアーキテクチャと高速な推論速度により、モバイル・アプリケーションに最適である。オリジナルのSAM と比較して、MobileSAM は約 5 倍小さく、7 倍高速であるため、計算リソースが限られている環境に適している。この効率性により、モバイルデバイスは大きな待ち時間なしにリアルタイムの画像セグメンテーションを実行できる。さらに、MobileSAM の推論などのモデルは、モバイル性能に最適化されている。

MobileSAM 、どのようにトレーニングされたのですか？トレーニングコードは入手可能ですか？

MobileSAM は、元画像の1%に相当する100kのデータセットを使って、GPU 、1日もかからずに学習された。学習コードは将来公開される予定だが、現在、MobileSAM GitHubリポジトリで MobileSAM の他の側面を調べることができる。このリポジトリには、事前に訓練された重みと様々なアプリケーションの実装の詳細が含まれている。

MobileSAM の主な使用例は？

MobileSAM は、モバイル環境での高速かつ効率的な画像分割のために設計されている。主な使用例

モバイルアプリケーションのためのリアルタイム物体検出とセグメンテーション。
計算資源が限られた機器における低遅延画像処理。
拡張現実（AR）やリアルタイム分析などのタスクのためのAI駆動型モバイルアプリへの統合。

より詳細な使用例と性能比較については、「SAM からMobileSAM への適応」のセクションを参照のこと。

📅作成：1年前 ✏️更新しました 2ヶ月前