コンテンツにスキップ

SAM 3: コンセプトで何でもセグメントする

リリース -Ultralytics 統合が進行中

メタ社は2025年11月20日にSAMリリースした。Ultralytics 現在モデルを統合しており、近日中にネイティブサポートを含むパッケージアップデートを出荷する予定である。それまでの間、以下の公式SAM 3 READMEの手順に従って、アップストリームリリースを試すことができる。

SAM 3の概要

SAM 3(SegmentAnything Model 3)は、Metaがリリースしたプロンプト可能なコンセプトセグメンテーション(PCS)の基盤モデルである。SAM 2をベースにしたSAM 3は、テキストプロンプト、イメージエグザンプル、またはその両方によって指定されたビジュアルコンセプトのすべてのインスタンスを検出、セグメンテーション、トラッキングするという、根本的に新しい機能を導入している。プロンプトごとに1つのオブジェクトをsegment する従来のSAM バージョンとは異なり、SAM 3は、画像や動画のどこにでも出現するすべての概念を検出してsegment することができ、最新のインスタンスセグメンテーションにおけるオープンボキャブラリーの目標に合致している。

Ultralytics 、SAM積極的に統合している。 ultralytics パッケージがリリースされます。そのリリースが上陸するまでは、以下の公式のインストールと使用手順を使用して、アップストリームのMeta実装を試すことができる。

概要

SAM 3は、SAM 2の対話的な視覚的セグメンテーション機能を維持・向上させながら、プロンプト可能な概念セグメンテーションにおいて、既存システムに対して2倍の性能向上を達成した。このモデルはオープンボキャブラリーセグメンテーションに優れており、ユーザーは単純な名詞句(例:「黄色いスクールバス」、「縞模様の猫」)を使用したり、ターゲットオブジェクトの例画像を提供することで概念を指定することができる。これらの機能は、合理化された予測および追跡に依存するプロダクション対応パイプラインを補完します。 trackワークフローを補完します。

SAM 3 セグメンテーション

プロンプト・コンセプト・セグメンテーション(PCS)とは?

PCSタスクは、コンセプトプロンプトを入力として受け取り、一致するすべてのオブジェクトインスタンスについて一意のIDを持つセグメンテーションマスクを返す。コンセプトプロンプトは以下のとおりである:

  • テキスト赤いリンゴ」「帽子をかぶっている人」などの簡単な名詞句。
  • 画像の模範:高速汎化のための例オブジェクト(正または負)の周りのバウンディングボックス
  • 結合:テキストと画像の模範解答を併用し、正確なコントロールを実現

これは、オリジナルのSAM ファミリーが普及させたような、単一の特定のオブジェクトインスタンスのみをsegment する従来のビジュアルプロンプト(ポイント、ボックス、マスク)とは異なる。

主要業績評価指標

メトリックSAM 3 達成度
LVISゼロショットマスクAP47.0(対前回ベスト38.5、22%増)
SA-Coベンチマーク既存システムより2倍優れている
推論速度(H200GPU100以上の検出物体で1画像あたり30ミリ秒
ビデオパフォーマンス同時5オブジェクトのほぼリアルタイム
MOSEv2 VOSベンチマーク60.1 J&F(SAM 2.1より25.5%増、前SOTAより17%増)
インタラクティブな改良3回の模範的プロンプト後、CGF1は+18.6改善
ヒューマン・パフォーマンス・ギャップSA-Co/金の推定下限の88%を達成

モデル評価指標と生産におけるトレードオフに関する文脈は、モデル評価の洞察と YOLO パフォーマンス評価指標を参照のこと。

アーキテクチャ

SAM 3は、Perception Encoder (PE)ビジョンバックボーンを共有するディテクターと トラッカーで構成されています。この分離された設計は、Ultralytics Python 使用と CLI 使用と互換性のあるインターフェースで、画像レベルの検出とビデオレベルの追跡の両方を可能にしながら、タスクの競合を回避します。

コアコンポーネント

  • 検出器画像レベルの概念検出のためのDETRベースのアーキテクチャ

    • 名詞句プロンプト用テキストエンコーダ
    • 画像ベースのプロンプト用サンプルエンコーダ
    • プロンプトに画像特徴を条件付けるフュージョン・エンコーダ
    • 認識(「何を」)とローカライズ(「どこで」)を切り離す新しいプレゼンス・ヘッド
    • インスタンス分割マスクを生成するマスクヘッド
  • トラッカー SAM 2から継承されたメモリベースのビデオセグメンテーション

    • プロンプトエンコーダー、マスクデコーダー、メモリーエンコーダー
    • フレームをまたいでオブジェクトの外観を保存するためのメモリバンク
    • 多オブジェクト設定におけるカルマンフィルタのような技術によって支援される時間的曖昧性解消
  • プレゼンス・トークン:学習されたグローバルトークンは、ターゲット概念が画像/フレーム内に存在するかどうかを予測し、認識と定位を分離することで検出を向上させる。

SAM 3 アーキテクチャ

主なイノベーション

  1. 認識とローカリゼーションの分離:プレゼンス・ヘッドはグローバルにコンセプトの存在を予測し、プロポーザル・クエリはローカライゼーションのみに焦点を当て、相反する目的を回避する。
  2. 統一されたコンセプトとビジュアルプロンプト:PCS(コンセプト・プロンプト)とPVS(SAM 2のクリック/ボックスのようなビジュアル・プロンプト)の両方を1つのモデルでサポート。
  3. インタラクティブな模範解答の洗練:ユーザは、個々のインスタンスを修正するだけでなく、類似したオブジェクトにモデルを汎化することで、ポジティブまたはネガティブな画像の模範を追加して、結果を反復的に改良することができます。
  4. 時間的曖昧性解消:マスクレット検出スコアと定期的な再プロンプトにより、インスタンスのセグメンテーションとトラッキングのベストプラクティスに沿って、オクルージョン、混雑したシーン、ビデオ内のトラッキングの失敗を処理する。

SA-Coデータセット

SAM 3は、Segment Anything with Concepts (SA-Co)を用いて学習されます。SA-Coは、Metaのこれまでで最大かつ最も多様なセグメンテーションデータセットであり、以下のような一般的なベンチマークを超えるものです。 COCOLVISのような一般的なベンチマークを拡張しています。

トレーニングデータ

データセット・コンポーネント説明スケール
SA-Co/本部4フェーズ・データ・エンジンによる高品質な人間注釈付き画像データ5.2Mの画像、4Mのユニークな名詞句
SA・Co/SYN人間が関与せずにAIがラベル付けした合成データセット3800万の名詞句、14億のマスク
SA・Co/EXTハードネガを豊富に含む15の外部データセットソースによって異なる
SA-Co/ビデオ時間追跡によるビデオ注釈52.5Kのビデオ、24.8Kのユニークな名詞句

ベンチマークデータ

SA-Co評価ベンチマークは126Kの画像とビデオに 214Kのユニークなフレーズを含み、既存のベンチマークよりも50倍以上の概念を提供します。これには以下が含まれます:

  • SA-Co/Gold:7つのドメイン、人間のパフォーマンス境界を測定するためのトリプルアノテーション
  • SA-Co/Silver:10ドメイン、単一ヒトアノテーション
  • SA-Co/Bronzeと SA-Co/Bio:コンセプト・セグメンテーションに適応した9つの既存データセット
  • SA-Co/VEval:3つのドメインによるビデオベンチマーク(SA-V、YT-Temporal-1B、SmartGlasses)

データエンジンの革新

SAM 3のスケーラブルなヒューマン・イン・ザ・ループ・データエンジンは、2倍のアノテーションスループットを達成する:

  1. AIアノテーターラマベースのモデルは、ハードネガティヴを含む多様な名詞句を提案する
  2. AI検証者:微調整されたマルチモーダルLLMが人間に近い性能でマスクの品質と網羅性を検証する
  3. アクティブマイニング:AIが苦戦する困難な失敗事例に人間の労力を集中させる。
  4. オントロジー主導Wikidataに基づく大規模なオントロジーを活用し、コンセプトを網羅

インストール

SAM 3は、統合が完了次第、Ultralytics パッケージで直接利用できるようになる。インストールは残る:

pip install ultralytics

モデルは、最初に使用されたときに自動的にダウンロードされます。その後、標準の予測モードを使用し、後でモデルを以下のような形式にエクスポートすることができます。 ONNXTensorRTのような形式でエクスポートできます。SAM重みとコンフィグを含むパッケージのアップデートを近日中に予定しています。

SAM 使い方3:コンセプト・セグメンテーションの多様性

Ultralytics APIプレビュー

以下の例は、SAM 3がパッケージとして出荷された後に想定されるUltralytics APIを示している。統合が完了するまで、詳細は変更される可能性がある。

サポートされるタスクとモデル

SAM 3は、プロンプト・コンセプト・セグメンテーション(PCS)とプロンプト・ビジュアル・セグメンテーション(PVS)の両方のタスクをサポートしています:

タスクタイププロンプトの種類出力
コンセプト・セグメンテーション(PCS)テキスト(名詞句)、画像例コンセプトに一致するすべてのインスタンス
ビジュアル・セグメンテーション(PVS)ポイント、ボックス、マスク単一オブジェクトインスタンスSAM 2スタイル)
インタラクティブな改良模範例やクリックを反復的に追加/削除する精度が向上したセグメンテーション

コンセプト・セグメンテーションの例

テキスト・プロンプトによるセグメント

テキストベースのコンセプト・セグメンテーション

テキストの説明を使用して、概念のすべてのインスタンスを検索し、segment します。

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

模範画像によるセグメント

画像模範に基づくセグメンテーション

1つまたは複数の例オブジェクトを使用して、類似するインスタンスをすべて見つけます。

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

インタラクティブな改良

模範を用いた反復的改良

最初の出力に基づいて模範的なプロンプトを追加することにより、結果を徐々に改善する。

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

ビデオ・コンセプト・セグメンテーション

ビデオでコンセプトを追う

ビデオ全体を通して、コンセプトのすべてのインスタンスを検出し、track する。

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

より広範なストリーミングとプロダクションのセットアップについては、オブジェクト・トラッキングと ターミナルでの結果の表示を参照してください。

ビジュアルプロンプトSAM 2互換性)

SAM 3は、SAM 2のビジュアルプロンプトとの完全な下位互換性を維持している:

SAM 2スタイルのビジュアル・プロンプト

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

パフォーマンスベンチマーク

画像分割

SAM 3は、セグメンテーションのための LVISや COCO ような実世界のデータセットを含む、複数のベンチマークで最先端の結果を達成している:

ベンチマークメトリックSAM 3前回のベスト改善
LVIS(ゼロショット)マスクAP47.038.5+22.1%
SA-Co/ゴールドCGF165.034.3 (OWLv2)+89.5%
COCO (ゼロショット)ボックスAP53.552.2(Tレックス2)+2.5%
ADE-847(セマンティック・セグ)mIoU14.79.2 (APE-D)+59.8%
パスカルコンセプト-59mIoU59.458.5 (APE-D)+1.5%
街並み(セマンティック・セグ)mIoU65.144.2 (APE-D)+47.3%

Ultralytics データセットで素早く実験を行うためのデータセットオプションを探索します。

ビデオ・セグメンテーションのパフォーマンス

SAM 3は、DAVIS 2017や YouTube-VOSのようなビデオベンチマークにおいて、SAM 2や以前の最先端技術よりも大幅な改善を示している:

ベンチマークメトリックSAM 3SAM 2.1 L改善
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

数少ないショット

SAM 3は、データ中心のAIワークフローに関連する、最小限の例で新しいドメインに適応することに優れている:

ベンチマーク0ショットAP10発AP前回ベスト(10ショット)
ODinW1359.971.667.9(gDino1.5プロ)
RF100-VL14.335.733.7 (gDino-T)

インタラクティブな洗練の効果

SAM 3の模範解答を用いたコンセプトベースのプロンプトは、視覚的プロンプトよりもはるかに早く収束する:

プロンプト追加CGF1スコアゲイン vs テキストのみゲイン vs PVSベースライン
テキストのみ46.4ベースラインベースライン
+1模範57.6+11.2+6.7
+2 模範解答62.2+15.8+9.7
+3つの模範65.0+18.6+11.2
+模範解答4件65.7+19.3+11.5(プラトー)

オブジェクトのカウント精度

SAM 3は、オブジェクトの計数で一般的な要件である、すべてのインスタンスをセグメント化することで、正確な計数を提供します:

ベンチマーク精度MAE対ベストMLLM
カウントベンチ95.6%0.1192.4%(ジェミニ2.5)
ピクモカウント87.3%0.2288.8% (Molmo-72B)

SAM 3対SAM 2対YOLO 比較

ここでは、SAM 3の能力をSAM 2および YOLO11モデルと比較する:

能力SAM 3SAM 2YOLO11n-seg
コンセプト・セグメンテーション✅ テキスト/模範解答の全例❌ サポートされていない❌ サポートされていない
ビジュアル・セグメンテーションシングルインスタンスSAM 2互換)シングル・インスタンスすべてのインスタンス
ゼロ・ショット能力✅ オープン・ボキャブラリー✅ 幾何学的なプロンプトクローズド・セット
インタラクティブな改良模範解答+クリック ✅ 模範解答+クリッククリックのみ❌ サポートされていない
ビデオトラッキング✅ アイデンティティのあるマルチオブジェクトマルチオブジェクトマルチオブジェクト
LVISマスクAP (ゼロショット)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
推論スピード(H200)30ミリ秒(100以上のオブジェクト)~23ミリ秒(オブジェクトあたり)2~3ミリ秒(イメージ)
モデルサイズ大容量(~400MB以上を想定)162 MB(ベース)5.9 MB

重要なポイント

  • SAM 3: オープンボキャブラリーコンセプトのセグメンテーションに最適。
  • SAM 2: 幾何学的なプロンプトを用いた、画像やビデオにおけるインタラクティブな単一オブジェクトのセグメンテーションに最適
  • YOLO11:のような効率的なエクスポートパイプラインを使用した、リソースに制約のある環境でのリアルタイム高速セグメンテーションに最適です。 ONNXTensorRT

評価指標

SAM 3は、F1スコア精度リコールといったお馴染みの指標を補完し、PCSタスクのために設計された新しい指標を導入している。

クラシフィケーション・ゲートF1(CGF1)

ローカライゼーションと分類を組み合わせた主要な指標:

CGF1 = 100 × pmF1 × IL_MCC

説明:

  • pmF1(PositiveMacro F1):ポジティブな例に対するローカリゼーションの品質を測定
  • IL_MCC(画像レベルのマシューズ相関係数):二値分類の精度を測定(「概念が存在するか?)

なぜこれらの指標なのか?

従来のAP メトリクスはキャリブレーションを考慮しておらず、モデルを実際に使用することを困難にしている。信頼度0.5以上の予測値のみを評価することで、SAM 3のメトリクスは適切なキャリブレーションを強制し、インタラクティブな予測と追跡における実際の使用パターンを模倣します。 trackループになります。

主要なアブレーションと洞察

プレゼンス・ヘッドのインパクト

プレゼンスヘッドは、認識とローカリゼーションを切り離し、大幅な改善をもたらす:

構成CGF1IL_MCCpmF1
存在感なし57.60.7774.7
存在感63.30.8277.1

プレゼンス・ヘッドはCGF1を+5.7(+9.9%)押し上げ、主に認識能力を向上させる(IL_MCC +6.5%)。

ハードネガの効果

ハードネガ/イメージCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

ハードネガティヴはオープンボキャブラリー認識において重要であり、IL_MCCを54.5%(0.44 → 0.68)向上させた。

トレーニングデータのスケーリング

データソースCGF1IL_MCCpmF1
外部のみ30.90.4666.3
外部+合成39.70.5770.6
社外+本部51.80.7173.2
3人とも54.30.7473.5

質の高い人間によるアノテーションは、合成データや外部データだけよりも大きな利益をもたらす。データ品質の実践の背景については、データ収集とアノテーションを参照。

アプリケーション

SAM 3のコンセプトセグメンテーション機能は、新しいユースケースを可能にする:

  • コンテンツモデレーション:メディアライブラリ全体で特定のコンテンツタイプのインスタンスをすべて検索
  • Eコマース:カタログ画像で特定のタイプの全商品をセグメント化し、自動注釈をサポートします。
  • メディカルイメージング特定の組織タイプや異常の発生をすべて特定する
  • 自律システム:交通標識、歩行者、車両のすべてのインスタンスをカテゴリー別に追跡する。
  • ビデオ分析:特定の衣服の着用者やアクションを行うすべての人をカウントし、track 。
  • データセットアノテーション:レアなオブジェクトカテゴリの全インスタンスを迅速にアノテーション
  • 科学的研究:特定の基準に合致するすべての検体を定量・分析する。

SAM 3 エージェント拡張言語推論

SAM 3は、OWLv2や T-Rexのようなオープンボキャブラリーシステムと同様に、推論を必要とする複雑なクエリを処理するために、マルチモーダル大規模言語モデル(MLLM)と組み合わせることができる。

推論タスクのパフォーマンス

ベンチマークメトリックSAM 3エージェント(ジェミニ2.5プロ)前回のベスト
理由セグ(バリデーション)ジオユー76.065.0 (SoTA)
リーズンセグ(テスト)ジオユー73.861.3 (SoTA)
オムニラベル(バリデーション)AP46.736.5 (REAL)
RefCOCO+Acc91.289.3(リサ)

複雑なクエリの例

SAM 3 エージェントは推論を必要とするクエリを処理できる:

  • 「座っていても、ギフトボックスを手にしていない人たち
  • "首輪をしていない、カメラに最も近い犬"
  • "人の手より大きな赤い物体"

MLLMは単純な名詞句クエリをSAM 3に提案し、返されたマスクを分析し、満足するまで反復する。

制限事項

SAM 3は大きな進歩を遂げたが、一定の限界もある:

  • フレーズの複雑さ:単純な名詞句に最適。長い参照表現や複雑な推論には、MLLMの統合が必要な場合がある。
  • 曖昧さの処理:いくつかの概念は本質的に曖昧なままである(例:「小さな窓」、「居心地の良い部屋)
  • 計算要件:のような特殊な検出モデルよりも大きく、遅い。 YOLO
  • 語彙の範囲:原子的な視覚的概念に焦点を当てる。
  • 稀な概念:学習データにあまり含まれていない、極めて稀な概念や細かい概念では、パフォーマンスが低下する可能性がある。

引用

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

よくある質問

SAM 3の発売はいつ?

SAM 3は2025年11月20日にメタ社からリリースされた。Ultralytics サポートは現在進行中であり、予測モードと track モードの完全なドキュメントを含む次期パッケージのアップデートで出荷される予定である。

SAM 3はUltralytics統合されるのか?

コンセプトセグメンテーション、SAM 2スタイルのビジュアルプロンプト、マルチオブジェクトビデオトラッキングを含むSAM 3は、リリースと同時にUltralytics Python パッケージでサポートされます。以下のようなフォーマットへのエクスポートが可能になります。 ONNXTensorRTなどの形式にエクスポートできるようになります。 PythonCLIワークフロー。

実施スケジュール

本ドキュメントのコード例は、想定される使用パターンを示すプレビュー版です。実際の実装は、Ultralytics 統合を完了した後に利用可能になります。

プロンプト・コンセプト・セグメンテーション(PCS)とは?

PCS は、SAM 3 で導入された新しいタスクで、画像やビデオに含まれる視覚概念のすべてのインスタンスをセグメンテーションする。特定のオブジェクトのインスタンスを対象とする従来のセグメンテーションとは異なり、PCSはカテゴリのすべての出現を検出する。例えば

  • テキストプロンプト「黄色いスクールバス」 → シーン内の黄色いスクールバスをすべてセグメント化する
  • 画像の例:1匹の犬を囲むボックス → 画像内のすべての犬をセグメント化
  • 組み合わせる:"striped cat" + exemplar box → 例に一致するすべての縞模様の猫をセグメント化する。

オブジェクト検出と インスタンス分割に関する関連する背景を参照。

SAM 3とSAM 2の違いは?

特徴SAM 2SAM 3
タスクプロンプトごとに単一のオブジェクト概念のすべてのインスタンス
プロンプトの種類ポイント、ボックス、マスク+ テキストフレーズ、画像例
検出能力外部検出器が必要オープン語彙検出器内蔵
レコグニションジオメトリーベースのみテキストと視覚認識
アーキテクチャトラッカーのみ検出器 + トラッカー、プレゼンスヘッド付き
ゼロ・ショット性能該当なし(視覚的プロンプトが必要)LVISで47.0AP 、SA-Coで2倍良好
インタラクティブな改良クリックのみクリック+模範的汎化

SAM 3は、SAM 2のビジュアルプロンプトとの下位互換性を維持しながら、コンセプトベースの機能を追加している。

SAM 3のトレーニングにはどのようなデータセットが使われるのですか?

SAM 3はSegment Anything with Concepts (SA-Co)データセットで学習される:

トレーニングデータ

  • 5.2Mの画像と 4Mのユニークな名詞句(SA-Co/HQ) - 高品質のヒューマンアノテーション
  • 52.5Kのビデオ24.8Kのユニークな名詞句(SA-Co/VIDEO)
  • 3800万の名詞句にわたる 14億の合成マスク(SA-Co/SYN)
  • ハードネガ(SA-Co/EXT)を濃縮した15の外部データセット

ベンチマークデータ

  • 12万6000の画像/動画に21万4000のユニークなコンセプト
  • 既存のベンチマークより50倍多いコンセプト(例:LVISのコンセプトは〜4K)
  • SA-Co/Goldのトリプルアノテーションによる人間のパフォーマンス境界測定

この巨大なスケールと多様性により、SAM 3は、オープンボキャブラリーコンセプトにまたがる優れたゼロショット汎化を可能にしている。

セグメンテーションについて、SAM 3はYOLO11 どうですか?

SAM 3とYOLO11 11は異なるユースケースに対応している:

SAM 3 メリット

  • オープン語彙:トレーニングなしで、テキストプロンプトによりあらゆる概念をセグメント化
  • ゼロショット:新しいカテゴリーに即座に対応
  • 対話型:模範に基づく絞り込みは類似オブジェクトに汎化する
  • 概念ベース:カテゴリーのすべてのインスタンスを自動的に見つける
  • 精度:LVISゼロショット・インスタンス・セグメンテーションで47.0AP

YOLO11 メリット

  • スピード:推論が10~15倍速い(1画像あたり2~3ms vs 30ms)
  • 効率性:70倍小さいモデル(5.9MB対予想400MB)
  • リソースに優しい:エッジデバイスとモバイルで動作
  • リアルタイム:本番環境に最適化

推薦する

  • テキストや例文で説明された概念のすべてのインスタンスを見つける必要がある場合、柔軟でオープンな語彙のセグメンテーションにはSAM 3を使用します。
  • 用途 YOLO11カテゴリが事前に分かっている高速な本番展開にはYOLO11を使用する。
  • 幾何学的プロンプトによるインタラクティブな単一オブジェクトのセグメンテーションにSAM 2を使用する

SAM 3は複雑な言語クエリを処理できますか?

SAM 3は、単純な名詞句(例えば、"赤いリンゴ"、"帽子をかぶった人")用に設計されている。推論を必要とする複雑なクエリの場合は、SAM 3 を MLLM と組み合わせ、SAM 3 Agent として使用します:

単純なクエリー(ネイティブSAM 3):

  • 「黄色いスクールバス
  • 縞猫
  • 「赤い帽子をかぶった人

複雑なクエリ(SAM 3 Agent with MLLM):

  • "座ったままギフトボックスを持たない人々"
  • "首輪なしでカメラに最も近い犬"
  • "人の手より大きな赤い物体"

SAM 3エージェントは、SAM 3のセグメンテーションとMLLM推論機能を組み合わせることで、ReasonSeg検証で76.0gIoUを達成した(以前のベスト65.0に対して、16.9%向上)。

SAM 3は人間のパフォーマンスと比較してどの程度正確なのか?

SA-Co/Goldベンチマークのトリプルヒトアノテーションについて:

  • 人間の下限:74.2CGF1(最も保守的なアノテーター)
  • SAM 3パフォーマンス:65.0CGF1
  • 達成度:人間の推定下限の88
  • 人間の上限:81.4CGF1(最もリベラルなアノテーター)

SAM 3は、曖昧な概念や主観的な概念(例:「小さな窓」、「居心地の良い部屋」)のセグメンテーションにおいて、人間レベルの精度に迫る高いパフォーマンスを達成した。



📅作成 1ヶ月前 ✏️更新:1日前
glenn-jocherY-T-G

コメント