高速セグメント何でもモデル (FastSAM)
Fast Segment Anything Model (FastSAM) は、Segment Anything タスクのための、新しいリアルタイム CNN ベースのソリューションである。このタスクは、様々な可能性のあるユーザー対話プロンプトに基づき、画像内の任意のオブジェクトをセグメント化するように設計されている。FastSAM は、競争力のある性能を維持しながら計算負荷を大幅に削減し、様々な視覚タスクのための実用的な選択肢となっている。
概要
FastSAM は、Segment Anything Model (SAM) の限界に対処するために設計されている。Segment Anything Model は、計算リソースを大量に必要とする重いTransformerモデルである。FastSAM は、segment anything タスクを、全インスタンスのセグメンテーションとプロンプトガイド付き選択という2つの連続した段階に切り離す。最初のステージでは、YOLOv8-segを使用して、画像内のすべてのインスタンスのセグメンテーションマスクを生成する。第2段階では、プロンプトに対応する関心領域を出力する。
主な特徴
-
リアルタイム・ソリューション:CNNの計算効率を活用することで、FastSAM 、セグメント・エニシング・タスクのリアルタイム・ソリューションを提供し、迅速な結果を必要とする産業用アプリケーションに利用価値がある。
-
効率と性能: FastSAM は、性能の質を落とすことなく、計算量とリソースの需要を大幅に削減します。SAM に匹敵するパフォーマンスを達成しながら、計算リソースを大幅に削減し、リアルタイムアプリケーションを可能にします。
-
プロンプトガイドによるセグメンテーション: FastSAM は、さまざまなユーザーインタラクションプロンプトによって誘導される画像内のあらゆるオブジェクトをセグメンテーションすることができ、さまざまなシナリオにおいて柔軟性と適応性を提供する。
-
YOLOv8-segに基づく: FastSAM は、YOLOv8-segに基づくもので、インスタンス分割ブランチを備えたオブジェクト検出器です。これにより、画像内のすべてのインスタンスのセグメンテーションマスクを効率的に生成できる。
-
ベンチマークでの競争結果:MS COCOのオブジェクト提案タスクでは、FastSAM 、NVIDIA RTX 3090を1台使用した場合よりも大幅に速い速度で高いスコアを達成しました。 SAMを大幅に上回る速度で高スコアを達成し、その効率性と能力を実証しました。
-
実用的なアプリケーション提案されたアプローチは、多くのビジョンタスクに対して、現在の手法の数十倍から数百倍という高速で、新しい実用的なソリューションを提供する。
-
モデル圧縮の実現可能性: FastSAM は、人工的な先行構造を導入することで計算量を大幅に削減できるパスの実現可能性を示し、一般的な視覚タスクのための大規模モデルアーキテクチャの新たな可能性を開く。
利用可能なモデル、サポートされるタスク、および動作モード
この表は、利用可能なモデルを、特定の事前訓練された重み、サポートするタスク、および推論、検証、トレーニング、エクスポートなどのさまざまな操作モードとの互換性を示しています。
モデル・タイプ | 事前に訓練されたウェイト | 対応タスク | 推論 | バリデーション | トレーニング | 輸出 |
---|---|---|---|---|---|---|
FastSAM-s | FastSAM-S.PT | インスタンスのセグメンテーション | ✅ | ❌ | ❌ | ✅ |
FastSAM-x | FastSAM-x.pt | インスタンスのセグメンテーション | ✅ | ❌ | ❌ | ✅ |
使用例
FastSAM モデルは、Python アプリケーションに簡単に統合できます。Ultralytics ユーザーフレンドリーなPython API とCLI コマンドを提供し、開発を効率化します。
利用状況を予測する
画像上でオブジェクト検出を行うには predict
メソッドを使用する:
例
from ultralytics import FastSAM
from ultralytics.models.fastsam import FastSAMPrompt
# Define an inference source
source = 'path/to/bus.jpg'
# Create a FastSAM model
model = FastSAM('FastSAM-s.pt') # or FastSAM-x.pt
# Run inference on an image
everything_results = model(source, device='cpu', retina_masks=True, imgsz=1024, conf=0.4, iou=0.9)
# Prepare a Prompt Process object
prompt_process = FastSAMPrompt(source, everything_results, device='cpu')
# Everything prompt
ann = prompt_process.everything_prompt()
# Bbox default shape [0,0,0,0] -> [x1,y1,x2,y2]
ann = prompt_process.box_prompt(bbox=[200, 200, 300, 300])
# Text prompt
ann = prompt_process.text_prompt(text='a photo of a dog')
# Point prompt
# points default [[0,0]] [[x1,y1],[x2,y2]]
# point_label default [0] [1,0] 0:background, 1:foreground
ann = prompt_process.point_prompt(points=[[200, 200]], pointlabel=[1])
prompt_process.plot(annotations=ann, output='./')
このスニペットは、事前に訓練されたモデルをロードし、画像上で予測を実行するシンプルさを示しています。
バルの使用
データセットに対するモデルの検証は、次のように行うことができる:
例
FastSAM は、単一クラスのオブジェクトの検出とセグメンテーションのみをサポートしています。つまり、すべてのオブジェクトを同じクラスとして認識し、セグメンテーションします。したがって、データセットを準備する際には、すべてのオブジェクトのカテゴリーIDを0に変換する必要があります。
トラック利用
画像に対してオブジェクト・トラッキングを行うには track
メソッドを使用する:
例
FastSAM 公式使用法
FastSAM はhttps://github.com/CASIA-IVA-Lab/FastSAMリポジトリからも直接入手できる。以下は、FastSAM を使用するための典型的な手順の概要である:
インストール
- FastSAM リポジトリをクローンする:
- Python 3.9でConda環境を作成し、アクティベートする:
- クローンしたリポジトリに移動し、必要なパッケージをインストールする:
- CLIPモデルを取り付ける:
使用例
-
モデルのチェックポイントをダウンロードする。
-
推論にはFastSAM 。コマンドの例
- 画像内のすべてをセグメント化する:
- テキストプロンプトを使用して特定のオブジェクトをセグメント化します:
python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --text_prompt "the yellow dog"
- バウンディングボックス内でオブジェクトをセグメント化する(ボックス座標を xywh フォーマットで指定する):
python Inference.py --model_path ./weights/FastSAM.pt --img_path ./images/dogs.jpg --box_prompt "[570,200,230,400]"
- 特定のポイントに近いオブジェクトをセグメント化します:
さらに、Colabのデモや HuggingFace のウェブデモで、FastSAM を視覚的に体験することができます。
引用と謝辞
リアルタイムのインスタンスセグメンテーションの分野で多大な貢献をしてくれたFastSAM の著者に謝意を表したい:
オリジナルの論文(FastSAM )はarXivに掲載されている。著者らは彼らの研究を公開し、コードベースはGitHubでアクセスできる。我々は、この分野を発展させ、より広いコミュニティが彼らの研究にアクセスできるようにした彼らの努力に感謝している。