SAM 3: コンセプトで何でもセグメントする

Q: When Will SAM 3 Be Released?

SAM 3は2025年11月20日にメタ社からリリースされた。Ultralytics サポートは現在進行中であり、予測モードとtrack モードの完全なドキュメントを含む次期パッケージのアップデートで出荷される予定である。

Q: What Is Promptable Concept Segmentation (PCS)?

PCS は、SAM 3 で導入された新しいタスクで、画像やビデオに含まれる視覚概念のすべてのインスタンスをセグメンテーションする。特定のオブジェクトのインスタンスを対象とする従来のセグメンテーションとは異なり、PCSはカテゴリのすべての出現を検出する。例えばオブジェクト検出とインスタンスセグメンテーションの関連する背景を参照。

Q: What datasets are used to train SAM 3?

SAM 3はSegment Anything with Concepts (SA-Co)データセットで学習される：トレーニングデータベンチマークデータ：この膨大なスケールと多様性により、SAM 3はオープンボキャブラリーコンセプトの優れたゼロショット汎化を実現しています。

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3とYOLO11 11は異なるユースケースに対応している：SAM 3の利点YOLO11 利点推奨

Q: How accurate is SAM 3 compared to human performance?

SA-Co/Goldベンチマークのトリプル・ヒューマン・アノテーション：SAM 3は、曖昧な概念や主観的な概念（例えば、"小さな窓"、"居心地の良い部屋"）において、オープンボキャブラリーの概念分割において、人間レベルの精度に迫る高いパフォーマンスを達成した。

リリース -Ultralytics 統合が進行中

メタ社は2025年11月20日にSAMリリースした。Ultralytics 現在モデルを統合しており、近日中にネイティブサポートを含むパッケージアップデートを出荷する予定である。それまでの間、以下の公式SAM 3 READMEの手順に従って、アップストリームリリースを試すことができる。

SAM 3の概要

SAM 3（SegmentAnything Model 3）は、Metaがリリースしたプロンプト可能なコンセプトセグメンテーション（PCS）の基盤モデルである。SAM 2をベースにしたSAM 3は、テキストプロンプト、イメージエグザンプル、またはその両方によって指定されたビジュアルコンセプトのすべてのインスタンスを検出、セグメンテーション、トラッキングするという、根本的に新しい機能を導入している。プロンプトごとに1つのオブジェクトをsegment する従来のSAM バージョンとは異なり、SAM 3は、画像や動画のどこにでも出現するすべての概念を検出してsegment することができ、最新のインスタンスセグメンテーションにおけるオープンボキャブラリーの目標に合致している。

Ultralytics 、SAM積極的に統合している。 ultralytics パッケージがリリースされます。そのリリースが上陸するまでは、以下の公式のインストールと使用手順を使用して、アップストリームのMeta実装を試すことができる。

概要

SAM 3は、SAM 2の対話的な視覚的セグメンテーション機能を維持・向上させながら、プロンプト可能な概念セグメンテーションにおいて、既存システムに対して2倍の性能向上を達成した。このモデルはオープンボキャブラリーセグメンテーションに優れており、ユーザーは単純な名詞句（例：「黄色いスクールバス」、「縞模様の猫」）を使用したり、ターゲットオブジェクトの例画像を提供することで概念を指定することができる。これらの機能は、合理化された予測および追跡に依存するプロダクション対応パイプラインを補完します。 trackワークフローを補完します。

SAM 3 セグメンテーション

プロンプト・コンセプト・セグメンテーション（PCS）とは？

PCSタスクは、コンセプトプロンプトを入力として受け取り、一致するすべてのオブジェクトインスタンスについて一意のIDを持つセグメンテーションマスクを返す。コンセプトプロンプトは以下のとおりである：

テキスト赤いリンゴ」「帽子をかぶっている人」などの簡単な名詞句。
画像の模範：高速汎化のための例オブジェクト（正または負）の周りのバウンディングボックス
結合：テキストと画像の模範解答を併用し、正確なコントロールを実現

これは、オリジナルのSAM ファミリーが普及させたような、単一の特定のオブジェクトインスタンスのみをsegment する従来のビジュアルプロンプト（ポイント、ボックス、マスク）とは異なる。

主要業績評価指標

メトリック	SAM 3 達成度
LVISゼロショットマスクAP	47.0（対前回ベスト38.5、22％増）
SA-Coベンチマーク	既存システムより2倍優れている
推論速度（H200GPU	100以上の検出物体で1画像あたり30ミリ秒
ビデオパフォーマンス	同時5オブジェクトのほぼリアルタイム
MOSEv2 VOSベンチマーク	60.1 J&F（SAM 2.1より25.5%増、前SOTAより17%増）
インタラクティブな改良	3回の模範的プロンプト後、CGF1は+18.6改善
ヒューマン・パフォーマンス・ギャップ	SA-Co/金の推定下限の88%を達成

モデル評価指標と生産におけるトレードオフに関する文脈は、モデル評価の洞察と YOLO パフォーマンス評価指標を参照のこと。

アーキテクチャ

SAM 3は、Perception Encoder (PE)ビジョンバックボーンを共有するディテクターと トラッカーで構成されています。この分離された設計は、Ultralytics Python 使用と CLI 使用と互換性のあるインターフェースで、画像レベルの検出とビデオレベルの追跡の両方を可能にしながら、タスクの競合を回避します。

コアコンポーネント

検出器画像レベルの概念検出のためのDETRベースのアーキテクチャ
- 名詞句プロンプト用テキストエンコーダ
- 画像ベースのプロンプト用サンプルエンコーダ
- プロンプトに画像特徴を条件付けるフュージョン・エンコーダ
- 認識（「何を」）とローカライズ（「どこで」）を切り離す新しいプレゼンス・ヘッド
- インスタンス分割マスクを生成するマスクヘッド
トラッカー SAM 2から継承されたメモリベースのビデオセグメンテーション
- プロンプトエンコーダー、マスクデコーダー、メモリーエンコーダー
- フレームをまたいでオブジェクトの外観を保存するためのメモリバンク
- 多オブジェクト設定におけるカルマンフィルタのような技術によって支援される時間的曖昧性解消
プレゼンス・トークン：学習されたグローバルトークンは、ターゲット概念が画像/フレーム内に存在するかどうかを予測し、認識と定位を分離することで検出を向上させる。

SAM 3 アーキテクチャ

主なイノベーション

認識とローカリゼーションの分離：プレゼンス・ヘッドはグローバルにコンセプトの存在を予測し、プロポーザル・クエリはローカライゼーションのみに焦点を当て、相反する目的を回避する。
統一されたコンセプトとビジュアルプロンプト：PCS（コンセプト・プロンプト）とPVS（SAM 2のクリック/ボックスのようなビジュアル・プロンプト）の両方を1つのモデルでサポート。
インタラクティブな模範解答の洗練：ユーザは、個々のインスタンスを修正するだけでなく、類似したオブジェクトにモデルを汎化することで、ポジティブまたはネガティブな画像の模範を追加して、結果を反復的に改良することができます。
時間的曖昧性解消：マスクレット検出スコアと定期的な再プロンプトにより、インスタンスのセグメンテーションとトラッキングのベストプラクティスに沿って、オクルージョン、混雑したシーン、ビデオ内のトラッキングの失敗を処理する。

SA-Coデータセット

SAM 3は、Segment Anything with Concepts (SA-Co)を用いて学習されます。SA-Coは、Metaのこれまでで最大かつ最も多様なセグメンテーションデータセットであり、以下のような一般的なベンチマークを超えるものです。 COCOやLVISのような一般的なベンチマークを拡張しています。

トレーニングデータ

データセット・コンポーネント	説明	スケール
SA-Co/本部	4フェーズ・データ・エンジンによる高品質な人間注釈付き画像データ	5.2Mの画像、4Mのユニークな名詞句
SA・Co/SYN	人間が関与せずにAIがラベル付けした合成データセット	3800万の名詞句、14億のマスク
SA・Co/EXT	ハードネガを豊富に含む15の外部データセット	ソースによって異なる
SA-Co/ビデオ	時間追跡によるビデオ注釈	52.5Kのビデオ、24.8Kのユニークな名詞句

ベンチマークデータ

SA-Co評価ベンチマークは、126Kの画像とビデオに 214Kのユニークなフレーズを含み、既存のベンチマークよりも50倍以上の概念を提供します。これには以下が含まれます：

SA-Co/Gold：7つのドメイン、人間のパフォーマンス境界を測定するためのトリプルアノテーション
SA-Co/Silver：10ドメイン、単一ヒトアノテーション
SA-Co/Bronzeと SA-Co/Bio：コンセプト・セグメンテーションに適応した9つの既存データセット
SA-Co/VEval：3つのドメインによるビデオベンチマーク（SA-V、YT-Temporal-1B、SmartGlasses）

データエンジンの革新

SAM 3のスケーラブルなヒューマン・イン・ザ・ループ・データエンジンは、2倍のアノテーションスループットを達成する：

AIアノテーター：ラマベースのモデルは、ハードネガティヴを含む多様な名詞句を提案する
AI検証者：微調整されたマルチモーダルLLMが人間に近い性能でマスクの品質と網羅性を検証する
アクティブマイニング：AIが苦戦する困難な失敗事例に人間の労力を集中させる。
オントロジー主導：Wikidataに基づく大規模なオントロジーを活用し、コンセプトを網羅

インストール

SAM 3は、統合が完了次第、Ultralytics パッケージで直接利用できるようになる。インストールは残る：

pip install ultralytics

モデルは、最初に使用されたときに自動的にダウンロードされます。その後、標準の予測モードを使用し、後でモデルを以下のような形式にエクスポートすることができます。 ONNXや TensorRTのような形式でエクスポートできます。SAM重みとコンフィグを含むパッケージのアップデートを近日中に予定しています。

SAM 使い方3：コンセプト・セグメンテーションの多様性

Ultralytics APIプレビュー

以下の例は、SAM 3がパッケージとして出荷された後に想定されるUltralytics APIを示している。統合が完了するまで、詳細は変更される可能性がある。

サポートされるタスクとモデル

SAM 3は、プロンプト・コンセプト・セグメンテーション（PCS）とプロンプト・ビジュアル・セグメンテーション（PVS）の両方のタスクをサポートしています：

タスクタイプ	プロンプトの種類	出力
コンセプト・セグメンテーション（PCS）	テキスト（名詞句）、画像例	コンセプトに一致するすべてのインスタンス
ビジュアル・セグメンテーション（PVS）	ポイント、ボックス、マスク	単一オブジェクトインスタンスSAM 2スタイル）
インタラクティブな改良	模範例やクリックを反復的に追加/削除する	精度が向上したセグメンテーション

コンセプト・セグメンテーションの例

テキスト・プロンプトによるセグメント

テキストベースのコンセプト・セグメンテーション

テキストの説明を使用して、概念のすべてのインスタンスを検索し、segment します。

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

模範画像によるセグメント

画像模範に基づくセグメンテーション

1つまたは複数の例オブジェクトを使用して、類似するインスタンスをすべて見つけます。

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

模範を用いた反復的改良

最初の出力に基づいて模範的なプロンプトを追加することにより、結果を徐々に改善する。

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

ビデオ・コンセプト・セグメンテーション

ビデオでコンセプトを追う

ビデオ全体を通して、コンセプトのすべてのインスタンスを検出し、track する。

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

より広範なストリーミングとプロダクションのセットアップについては、オブジェクト・トラッキングとターミナルでの結果の表示を参照してください。

ビジュアルプロンプトSAM 2互換性）

SAM 3は、SAM 2のビジュアルプロンプトとの完全な下位互換性を維持している：

SAM 2スタイルのビジュアル・プロンプト

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

APIプレビュー

この例は意図された使用方法を示しています。実際の実装はUltralytics 統合をお待ちください。

パフォーマンスベンチマーク

画像分割

SAM 3は、セグメンテーションのための LVISや COCO ような実世界のデータセットを含む、複数のベンチマークで最先端の結果を達成している：

ベンチマーク	メトリック	SAM 3	前回のベスト	改善
LVIS（ゼロショット）	マスクAP	47.0	38.5	+22.1%
SA-Co/ゴールド	CGF1	65.0	34.3 (OWLv2)	+89.5%
COCO （ゼロショット）	ボックスAP	53.5	52.2（Tレックス2）	+2.5%
ADE-847（セマンティック・セグ）	mIoU	14.7	9.2 (APE-D)	+59.8%
パスカルコンセプト-59	mIoU	59.4	58.5 (APE-D)	+1.5%
街並み（セマンティック・セグ）	mIoU	65.1	44.2 (APE-D)	+47.3%

Ultralytics データセットで素早く実験を行うためのデータセットオプションを探索します。

ビデオ・セグメンテーションのパフォーマンス

SAM 3は、DAVIS 2017や YouTube-VOSのようなビデオベンチマークにおいて、SAM 2や以前の最先端技術よりも大幅な改善を示している：

ベンチマーク	メトリック	SAM 3	SAM 2.1 L	改善
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

数少ないショット

SAM 3は、データ中心のAIワークフローに関連する、最小限の例で新しいドメインに適応することに優れている：

ベンチマーク	0ショットAP	10発AP	前回ベスト（10ショット）
ODinW13	59.9	71.6	67.9（gDino1.5プロ）
RF100-VL	14.3	35.7	33.7 (gDino-T)

SAM 3の模範解答を用いたコンセプトベースのプロンプトは、視覚的プロンプトよりもはるかに早く収束する：

プロンプト追加	CGF1スコア	ゲイン vs テキストのみ	ゲイン vs PVSベースライン
テキストのみ	46.4	ベースライン	ベースライン
+1模範	57.6	+11.2	+6.7
+2 模範解答	62.2	+15.8	+9.7
+3つの模範	65.0	+18.6	+11.2
+模範解答4件	65.7	+19.3	+11.5（プラトー）

オブジェクトのカウント精度

SAM 3は、オブジェクトの計数で一般的な要件である、すべてのインスタンスをセグメント化することで、正確な計数を提供します：

ベンチマーク	精度	MAE	対ベストMLLM
カウントベンチ	95.6%	0.11	92.4%（ジェミニ2.5）
ピクモカウント	87.3%	0.22	88.8% (Molmo-72B)

SAM 3対SAM 2対YOLO 比較

ここでは、SAM 3の能力をSAM 2および YOLO11モデルと比較する：

能力	SAM 3	SAM 2	YOLO11n-seg
コンセプト・セグメンテーション	✅ テキスト/模範解答の全例	❌ サポートされていない	❌ サポートされていない
ビジュアル・セグメンテーション	シングルインスタンスSAM 2互換)	シングル・インスタンス	すべてのインスタンス
ゼロ・ショット能力	✅ オープン・ボキャブラリー	✅ 幾何学的なプロンプト	クローズド・セット
インタラクティブな改良	模範解答＋クリック ✅ 模範解答＋クリック	クリックのみ	❌ サポートされていない
ビデオトラッキング	✅ アイデンティティのあるマルチオブジェクト	マルチオブジェクト	マルチオブジェクト
LVISマスクAP （ゼロショット）	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
推論スピード（H200）	30ミリ秒（100以上のオブジェクト）	~23ミリ秒（オブジェクトあたり）	2～3ミリ秒（イメージ）
モデルサイズ	大容量（～400MB以上を想定）	162 MB（ベース）	5.9 MB

重要なポイント

SAM 3: オープンボキャブラリーコンセプトのセグメンテーションに最適。
SAM 2: 幾何学的なプロンプトを用いた、画像やビデオにおけるインタラクティブな単一オブジェクトのセグメンテーションに最適
YOLO11:のような効率的なエクスポートパイプラインを使用した、リソースに制約のある環境でのリアルタイム高速セグメンテーションに最適です。 ONNXや TensorRT

評価指標

SAM 3は、F1スコア、精度、リコールといったお馴染みの指標を補完し、PCSタスクのために設計された新しい指標を導入している。

クラシフィケーション・ゲートF1（CGF1）

ローカライゼーションと分類を組み合わせた主要な指標：

CGF1 = 100 × pmF1 × IL_MCC

説明:

pmF1（PositiveMacro F1）：ポジティブな例に対するローカリゼーションの品質を測定
IL_MCC（画像レベルのマシューズ相関係数）：二値分類の精度を測定（「概念が存在するか？）

なぜこれらの指標なのか？

従来のAP メトリクスはキャリブレーションを考慮しておらず、モデルを実際に使用することを困難にしている。信頼度0.5以上の予測値のみを評価することで、SAM 3のメトリクスは適切なキャリブレーションを強制し、インタラクティブな予測と追跡における実際の使用パターンを模倣します。 trackループになります。

主要なアブレーションと洞察

プレゼンス・ヘッドのインパクト

プレゼンスヘッドは、認識とローカリゼーションを切り離し、大幅な改善をもたらす：

構成	CGF1	IL_MCC	pmF1
存在感なし	57.6	0.77	74.7
存在感	63.3	0.82	77.1

プレゼンス・ヘッドはCGF1を+5.7（+9.9%）押し上げ、主に認識能力を向上させる（IL_MCC +6.5%）。

ハードネガの効果

ハードネガ／イメージ	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

ハードネガティヴはオープンボキャブラリー認識において重要であり、IL_MCCを54.5%(0.44 → 0.68)向上させた。

トレーニングデータのスケーリング

データソース	CGF1	IL_MCC	pmF1
外部のみ	30.9	0.46	66.3
外部＋合成	39.7	0.57	70.6
社外＋本部	51.8	0.71	73.2
3人とも	54.3	0.74	73.5

質の高い人間によるアノテーションは、合成データや外部データだけよりも大きな利益をもたらす。データ品質の実践の背景については、データ収集とアノテーションを参照。

アプリケーション

SAM 3のコンセプトセグメンテーション機能は、新しいユースケースを可能にする：

コンテンツモデレーション：メディアライブラリ全体で特定のコンテンツタイプのインスタンスをすべて検索
Eコマース：カタログ画像で特定のタイプの全商品をセグメント化し、自動注釈をサポートします。
メディカルイメージング特定の組織タイプや異常の発生をすべて特定する
自律システム：交通標識、歩行者、車両のすべてのインスタンスをカテゴリー別に追跡する。
ビデオ分析：特定の衣服の着用者やアクションを行うすべての人をカウントし、track 。
データセットアノテーション：レアなオブジェクトカテゴリの全インスタンスを迅速にアノテーション
科学的研究：特定の基準に合致するすべての検体を定量・分析する。

SAM 3 エージェント拡張言語推論

SAM 3は、OWLv2や T-Rexのようなオープンボキャブラリーシステムと同様に、推論を必要とする複雑なクエリを処理するために、マルチモーダル大規模言語モデル（MLLM）と組み合わせることができる。

推論タスクのパフォーマンス

ベンチマーク	メトリック	SAM 3エージェント（ジェミニ2.5プロ）	前回のベスト
理由セグ（バリデーション）	ジオユー	76.0	65.0 (SoTA)
リーズンセグ（テスト）	ジオユー	73.8	61.3 (SoTA)
オムニラベル（バリデーション）	AP	46.7	36.5 (REAL)
RefCOCO+	Acc	91.2	89.3（リサ）

複雑なクエリの例

SAM 3 エージェントは推論を必要とするクエリを処理できる：

「座っていても、ギフトボックスを手にしていない人たち
"首輪をしていない、カメラに最も近い犬"
"人の手より大きな赤い物体"

MLLMは単純な名詞句クエリをSAM 3に提案し、返されたマスクを分析し、満足するまで反復する。

制限事項

SAM 3は大きな進歩を遂げたが、一定の限界もある：

フレーズの複雑さ：単純な名詞句に最適。長い参照表現や複雑な推論には、MLLMの統合が必要な場合がある。
曖昧さの処理：いくつかの概念は本質的に曖昧なままである（例：「小さな窓」、「居心地の良い部屋）
計算要件：のような特殊な検出モデルよりも大きく、遅い。 YOLO
語彙の範囲：原子的な視覚的概念に焦点を当てる。
稀な概念：学習データにあまり含まれていない、極めて稀な概念や細かい概念では、パフォーマンスが低下する可能性がある。

引用

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

よくある質問

SAM 3の発売はいつ？

SAM 3は2025年11月20日にメタ社からリリースされた。Ultralytics サポートは現在進行中であり、予測モードと track モードの完全なドキュメントを含む次期パッケージのアップデートで出荷される予定である。

SAM 3はUltralytics統合されるのか？

コンセプトセグメンテーション、SAM 2スタイルのビジュアルプロンプト、マルチオブジェクトビデオトラッキングを含むSAM 3は、リリースと同時にUltralytics Python パッケージでサポートされます。以下のようなフォーマットへのエクスポートが可能になります。 ONNXや TensorRTなどの形式にエクスポートできるようになります。 Pythonと CLIワークフロー。

実施スケジュール

本ドキュメントのコード例は、想定される使用パターンを示すプレビュー版です。実際の実装は、Ultralytics 統合を完了した後に利用可能になります。

プロンプト・コンセプト・セグメンテーション（PCS）とは？

PCS は、SAM 3 で導入された新しいタスクで、画像やビデオに含まれる視覚概念のすべてのインスタンスをセグメンテーションする。特定のオブジェクトのインスタンスを対象とする従来のセグメンテーションとは異なり、PCSはカテゴリのすべての出現を検出する。例えば

テキストプロンプト「黄色いスクールバス」 → シーン内の黄色いスクールバスをすべてセグメント化する
画像の例：1匹の犬を囲むボックス → 画像内のすべての犬をセグメント化
組み合わせる："striped cat" + exemplar box → 例に一致するすべての縞模様の猫をセグメント化する。

オブジェクト検出とインスタンス分割に関する関連する背景を参照。

SAM 3とSAM 2の違いは？

特徴	SAM 2	SAM 3
タスク	プロンプトごとに単一のオブジェクト	概念のすべてのインスタンス
プロンプトの種類	ポイント、ボックス、マスク	+ テキストフレーズ、画像例
検出能力	外部検出器が必要	オープン語彙検出器内蔵
レコグニション	ジオメトリーベースのみ	テキストと視覚認識
アーキテクチャ	トラッカーのみ	検出器 + トラッカー、プレゼンスヘッド付き
ゼロ・ショット性能	該当なし（視覚的プロンプトが必要）	LVISで47.0AP 、SA-Coで2倍良好
インタラクティブな改良	クリックのみ	クリック＋模範的汎化

SAM 3は、SAM 2のビジュアルプロンプトとの下位互換性を維持しながら、コンセプトベースの機能を追加している。

SAM 3のトレーニングにはどのようなデータセットが使われるのですか？

SAM 3はSegment Anything with Concepts (SA-Co)データセットで学習される：

トレーニングデータ：

5.2Mの画像と 4Mのユニークな名詞句（SA-Co/HQ） - 高品質のヒューマンアノテーション
52.5Kのビデオ、24.8Kのユニークな名詞句（SA-Co/VIDEO）
3800万の名詞句にわたる 14億の合成マスク（SA-Co/SYN）
ハードネガ（SA-Co/EXT）を濃縮した15の外部データセット

ベンチマークデータ

12万6000の画像／動画に21万4000のユニークなコンセプト
既存のベンチマークより50倍多いコンセプト（例：LVISのコンセプトは〜4K）
SA-Co/Goldのトリプルアノテーションによる人間のパフォーマンス境界測定

この巨大なスケールと多様性により、SAM 3は、オープンボキャブラリーコンセプトにまたがる優れたゼロショット汎化を可能にしている。

セグメンテーションについて、SAM 3はYOLO11 どうですか？

SAM 3とYOLO11 11は異なるユースケースに対応している：

SAM 3 メリット

オープン語彙：トレーニングなしで、テキストプロンプトによりあらゆる概念をセグメント化
ゼロショット：新しいカテゴリーに即座に対応
対話型：模範に基づく絞り込みは類似オブジェクトに汎化する
概念ベース：カテゴリーのすべてのインスタンスを自動的に見つける
精度：LVISゼロショット・インスタンス・セグメンテーションで47.0AP

YOLO11 メリット

スピード：推論が10～15倍速い（1画像あたり2～3ms vs 30ms）
効率性：70倍小さいモデル（5.9MB対予想400MB）
リソースに優しい：エッジデバイスとモバイルで動作
リアルタイム：本番環境に最適化

推薦する：

テキストや例文で説明された概念のすべてのインスタンスを見つける必要がある場合、柔軟でオープンな語彙のセグメンテーションにはSAM 3を使用します。
用途 YOLO11カテゴリが事前に分かっている高速な本番展開にはYOLO11を使用する。
幾何学的プロンプトによるインタラクティブな単一オブジェクトのセグメンテーションにSAM 2を使用する

SAM 3は複雑な言語クエリを処理できますか？

SAM 3は、単純な名詞句（例えば、"赤いリンゴ"、"帽子をかぶった人"）用に設計されている。推論を必要とする複雑なクエリの場合は、SAM 3 を MLLM と組み合わせ、SAM 3 Agent として使用します：

単純なクエリー(ネイティブSAM 3)：

「黄色いスクールバス
縞猫
「赤い帽子をかぶった人

複雑なクエリ(SAM 3 Agent with MLLM)：

"座ったままギフトボックスを持たない人々"
"首輪なしでカメラに最も近い犬"
"人の手より大きな赤い物体"

SAM 3エージェントは、SAM 3のセグメンテーションとMLLM推論機能を組み合わせることで、ReasonSeg検証で76.0gIoUを達成した（以前のベスト65.0に対して、16.9%向上）。

SAM 3は人間のパフォーマンスと比較してどの程度正確なのか？

SA-Co/Goldベンチマークのトリプルヒトアノテーションについて：

人間の下限：74.2CGF1（最も保守的なアノテーター）
SAM 3パフォーマンス：65.0CGF1
達成度：人間の推定下限の88
人間の上限：81.4CGF1（最もリベラルなアノテーター）

SAM 3は、曖昧な概念や主観的な概念（例：「小さな窓」、「居心地の良い部屋」）のセグメンテーションにおいて、人間レベルの精度に迫る高いパフォーマンスを達成した。

📅作成 1ヶ月前 ✏️更新：1日前

SAM 3: コンセプトで何でもセグメントする

概要

プロンプト・コンセプト・セグメンテーション（PCS）とは？

主要業績評価指標

アーキテクチャ

コアコンポーネント

主なイノベーション

SA-Coデータセット

トレーニングデータ

ベンチマークデータ

データエンジンの革新

インストール

SAM 使い方3：コンセプト・セグメンテーションの多様性

サポートされるタスクとモデル

コンセプト・セグメンテーションの例

テキスト・プロンプトによるセグメント

模範画像によるセグメント

インタラクティブな改良

ビデオ・コンセプト・セグメンテーション

ビジュアルプロンプトSAM 2互換性）

パフォーマンスベンチマーク

画像分割

ビデオ・セグメンテーションのパフォーマンス

数少ないショット

インタラクティブな洗練の効果

オブジェクトのカウント精度

SAM 3対SAM 2対YOLO 比較

評価指標

クラシフィケーション・ゲートF1（CGF1）

なぜこれらの指標なのか？

主要なアブレーションと洞察

プレゼンス・ヘッドのインパクト

ハードネガの効果

トレーニングデータのスケーリング

アプリケーション

SAM 3 エージェント拡張言語推論

推論タスクのパフォーマンス

複雑なクエリの例

制限事項

引用

よくある質問

SAM 3の発売はいつ？

SAM 3はUltralytics統合されるのか？

プロンプト・コンセプト・セグメンテーション（PCS）とは？

SAM 3とSAM 2の違いは？

SAM 3のトレーニングにはどのようなデータセットが使われるのですか？

セグメンテーションについて、SAM 3はYOLO11 どうですか？

SAM 3は複雑な言語クエリを処理できますか？

SAM 3は人間のパフォーマンスと比較してどの程度正確なのか？

コメント