SAM 3: コンセプトで何でもセグメントする
近日公開 ⚠️
🚧 SASAM 3モデルは、メタ社からまだ公表されていない。以下の情報はICLR2026に提出された研究論文に基づいている。 モデルのダウンロードと最終的なベンチマークは、Metaの公式リリース後に利用可能となる。
SAM 3(SegmentAnything Model 3)は、プロンプト可能なコンセプトセグメンテーション(PCS)のためのMetaの次世代基盤モデルです。SAM 2をベースにしたSAM 3は、テキストプロンプト、イメージエグザンプル、またはその両方によって指定されたビジュアルコンセプトのすべてのインスタンスを検出、セグメンテーション、トラッキングするという、根本的に新しい機能を導入している。プロンプトごとに1つのオブジェクトをセグメンテーションする従来のSAM バージョンとは異なり、SAM 3は、画像や動画のどこにでも出現するすべての概念を検出し、セグメンテーションすることができます。
概要
SAM 3は、SAM 2の対話的な視覚的セグメンテーション機能を維持・向上させながら、プロンプト可能な概念セグメンテーションにおいて、既存システムに対して2倍の性能向上を達成した。このモデルはオープンボキャブラリーセグメンテーションを得意とし、ユーザーは単純な名詞句(例:「黄色いスクールバス」、「縞模様の猫」)を使用するか、ターゲットオブジェクトの例画像を提供することで概念を指定できる。これらの機能は、合理化された予測と追跡のワークフローに依存するプロダクション対応パイプラインを補完します。
プロンプト・コンセプト・セグメンテーション(PCS)とは?
PCSタスクは、コンセプトプロンプトを入力として受け取り、一致するすべてのオブジェクトインスタンスについて一意のIDを持つセグメンテーションマスクを返す。コンセプトプロンプトは以下のとおりである:
- テキスト赤いリンゴ」「帽子をかぶっている人」などの簡単な名詞句。
- 画像の模範:高速汎化のための例オブジェクト(正または負)の周りのバウンディングボックス
- 結合:テキストと画像の模範解答を併用し、正確なコントロールを実現
これは、オリジナルのSAM ファミリーが普及させたような、単一の特定のオブジェクトインスタンスのみをセグメント化する従来のビジュアルプロンプト(ポイント、ボックス、マスク)とは異なる。
主要業績評価指標
メトリック | SAM 3 達成度 |
---|---|
LVISゼロショットマスクAP | 47.0(対前回ベスト38.5、22%増) |
SA-Coベンチマーク | 既存システムより2倍優れている |
推論速度(H200GPU | 100以上の検出物体で1画像あたり30ミリ秒 |
ビデオパフォーマンス | 同時5オブジェクトのほぼリアルタイム |
MOSEv2 VOSベンチマーク | 60.1 J&F(SAM 2.1より25.5%増、前SOTAより17%増) |
インタラクティブな改良 | 3回の模範的プロンプト後、CGF1は+18.6改善 |
ヒューマン・パフォーマンス・ギャップ | SA-Co/金の推定下限の88%を達成 |
モデル評価指標と生産におけるトレードオフに関する文脈は、モデル評価の洞察と YOLO パフォーマンス評価指標を参照のこと。
アーキテクチャ
SAM 3は、Perception Encoder (PE)ビジョンバックボーンを共有するディテクターと トラッカーで構成されています。この分離された設計は、Ultralytics Python 使用と CLI 使用と互換性のあるインターフェースで、画像レベルの検出とビデオレベルの追跡の両方を可能にしながら、タスクの競合を回避します。
コアコンポーネント
-
検出器画像レベルの概念検出のためのDETRベースのアーキテクチャ
- 名詞句プロンプト用テキストエンコーダ
- 画像ベースのプロンプト用サンプルエンコーダ
- プロンプトに画像特徴を条件付けるフュージョン・エンコーダ
- 認識(「何を」)とローカライズ(「どこで」)を切り離す新しいプレゼンス・ヘッド
- インスタンス分割マスクを生成するマスクヘッド
-
トラッカー SAM 2から継承されたメモリベースのビデオセグメンテーション
- プロンプトエンコーダー、マスクデコーダー、メモリーエンコーダー
- フレームをまたいでオブジェクトの外観を保存するためのメモリバンク
- 多オブジェクト設定におけるカルマンフィルタのような技術によって支援される時間的曖昧性解消
-
プレゼンス・トークン:学習されたグローバルトークンは、ターゲット概念が画像/フレーム内に存在するかどうかを予測し、認識と定位を分離することで検出を向上させる。
主なイノベーション
- 認識とローカリゼーションの分離:プレゼンス・ヘッドはグローバルにコンセプトの存在を予測し、プロポーザル・クエリはローカライゼーションのみに焦点を当て、相反する目的を回避する。
- 統一されたコンセプトとビジュアルプロンプト:PCS(コンセプト・プロンプト)とPVS(SAM 2のクリック/ボックスのようなビジュアル・プロンプト)の両方を1つのモデルでサポート。
- インタラクティブな模範解答の洗練:ユーザは、個々のインスタンスを修正するだけでなく、類似したオブジェクトにモデルを汎化することで、ポジティブまたはネガティブな画像の模範を追加して、結果を反復的に改良することができます。
- 時間的曖昧性解消:マスクレット検出スコアと定期的な再プロンプトにより、インスタンスのセグメンテーションとトラッキングのベストプラクティスに沿って、オクルージョン、混雑したシーン、ビデオ内のトラッキングの失敗を処理する。
SA-Coデータセット
SAM 3は、COCOや LVISのような一般的なベンチマークを超える、Metaのこれまでで最大かつ最も多様なセグメンテーションデータセットであるSegment Anything with Concepts (SA-Co)で学習される。
トレーニングデータ
データセット・コンポーネント | 説明 | スケール |
---|---|---|
SA-Co/本部 | 4フェーズ・データ・エンジンによる高品質な人間注釈付き画像データ | 5.2Mの画像、4Mのユニークな名詞句 |
SA・Co/SYN | 人間が関与せずにAIがラベル付けした合成データセット | 3800万の名詞句、14億のマスク |
SA・Co/EXT | ハードネガを豊富に含む15の外部データセット | ソースによって異なる |
SA-Co/ビデオ | 時間追跡によるビデオ注釈 | 52.5Kのビデオ、24.8Kのユニークな名詞句 |
ベンチマークデータ
SA-Co評価ベンチマークは、126Kの画像とビデオに 214Kのユニークなフレーズを含み、既存のベンチマークよりも50倍以上の概念を提供します。これには以下が含まれます:
- SA-Co/Gold:7つのドメイン、人間のパフォーマンス境界を測定するためのトリプルアノテーション
- SA-Co/Silver:10ドメイン、単一ヒトアノテーション
- SA-Co/Bronzeと SA-Co/Bio:コンセプト・セグメンテーションに適応した9つの既存データセット
- SA-Co/VEval:3つのドメインによるビデオベンチマーク(SA-V、YT-Temporal-1B、SmartGlasses)
データエンジンの革新
SAM 3のスケーラブルなヒューマン・イン・ザ・ループ・データエンジンは、2倍のアノテーションスループットを達成する:
- AIアノテーター:ラマベースのモデルは、ハードネガティヴを含む多様な名詞句を提案する
- AI検証者:微調整されたマルチモーダルLLMが人間に近い性能でマスクの品質と網羅性を検証する
- アクティブマイニング:AIが苦戦する困難な失敗事例に人間の労力を集中させる。
- オントロジー主導:Wikidataに基づく大規模なオントロジーを活用し、コンセプトを網羅
インストール
SAM 3は、リリースと同時にUltralytics パッケージでネイティブにサポートされる:
pip install ultralytics
モデルは、最初に使用されたときに自動的にダウンロードされます。その後、標準の予測モードを使用し、後でモデルを以下のような形式にエクスポートすることができます。 ONNXや TensorRTのような形式にエクスポートできます。
SAM 使い方3:コンセプト・セグメンテーションの多様性
プレビューAPI - 変更される場合があります。
以下のコード例は、研究論文に基づいた想定される使用パターンを示している。実際のAPIはその後に公開される:
- メタ、SAM 3モデルの重みをオープンソース化
- Ultralytics はSAM 3 をパッケージに統合しています。
構文やパラメータは、最終的な実装では異なる可能性があります。これらの例は、期待される機能のプレビューとして役立ちます。
サポートされるタスクとモデル
SAM 3は、プロンプト・コンセプト・セグメンテーション(PCS)とプロンプト・ビジュアル・セグメンテーション(PVS)の両方のタスクをサポートしています:
タスクタイプ | プロンプトの種類 | 出力 |
---|---|---|
コンセプト・セグメンテーション(PCS) | テキスト(名詞句)、画像例 | コンセプトに一致するすべてのインスタンス |
ビジュアル・セグメンテーション(PVS) | ポイント、ボックス、マスク | 単一オブジェクトインスタンスSAM 2スタイル) |
インタラクティブな改良 | 模範例やクリックを反復的に追加/削除する | 精度が向上したセグメンテーション |
コンセプト・セグメンテーションの例
テキスト・プロンプトによるセグメント
テキストベースのコンセプト・セグメンテーション
テキストの説明を使用して、概念のすべてのインスタンスを検索し、セグメント化します。
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
APIプレビュー
この例は意図された使用方法を示しています。実際の実装は、MetaのリリースとUltralytics 統合をお待ちください。
模範画像によるセグメント
画像模範に基づくセグメンテーション
1つまたは複数の例オブジェクトを使用して、類似するインスタンスをすべて見つけます。
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
APIプレビュー
この例は意図された使用方法を示しています。実際の実装は、MetaのリリースとUltralytics 統合をお待ちください。
インタラクティブな改良
模範を用いた反復的改良
最初の出力に基づいて模範的なプロンプトを追加することにより、結果を徐々に改善する。
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
APIプレビュー
この例は意図された使用方法を示しています。実際の実装は、MetaのリリースとUltralytics 統合をお待ちください。
ビデオ・コンセプト・セグメンテーション
ビデオでコンセプトを追う
ビデオ全体を通して、コンセプトのすべてのインスタンスを検出し、追跡する。
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
APIプレビュー
この例は意図された使用方法を示しています。実際の実装は、MetaのリリースとUltralytics 統合をお待ちください。
より広範なストリーミングとプロダクションのセットアップについては、オブジェクト・トラッキングと ターミナルでの結果の表示を参照してください。
ビジュアルプロンプトSAM 2互換性)
SAM 3は、SAM 2のビジュアルプロンプトとの完全な下位互換性を維持している:
SAM 2スタイルのビジュアル・プロンプト
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
APIプレビュー
この例は意図された使用方法を示しています。実際の実装は、MetaのリリースとUltralytics 統合をお待ちください。
パフォーマンスベンチマーク
画像分割
SAM 3は、セグメンテーションのための LVISや COCOのような実世界のデータセットを含む、複数のベンチマークで最先端の結果を達成している:
ベンチマーク | メトリック | SAM 3 | 前回のベスト | 改善 |
---|---|---|---|---|
LVIS(ゼロショット) | マスクAP | 47.0 | 38.5 | +22.1% |
SA-Co/ゴールド | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
COCO(ゼロショット) | ボックスAP | 53.5 | 52.2(Tレックス2) | +2.5% |
ADE-847(セマンティック・セグ) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
パスカルコンセプト-59 | mIoU | 59.4 | 58.5 (APE-D) | +1.5% |
街並み(セマンティック・セグ) | mIoU | 65.1 | 44.2 (APE-D) | +47.3% |
Ultralytics データセットで素早く実験を行うためのデータセットオプションを探索します。
ビデオ・セグメンテーションのパフォーマンス
SAM 3は、DAVIS 2017や YouTube-VOSのようなビデオベンチマークにおいて、SAM 2や以前の最先端技術よりも大幅な改善を示している:
ベンチマーク | メトリック | SAM 3 | SAM 2.1 L | 改善 |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
数少ないショット
SAM 3は、データ中心のAIワークフローに関連する、最小限の例で新しいドメインに適応することに優れている:
ベンチマーク | 0ショットAP | 10発AP | 前回ベスト(10ショット) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67.9(gDino1.5プロ) |
RF100-VL | 14.3 | 35.7 | 33.7 (gDino-T) |
インタラクティブな洗練の効果
SAM 3の模範解答を用いたコンセプトベースのプロンプトは、視覚的プロンプトよりもはるかに早く収束する:
プロンプト追加 | CGF1スコア | ゲイン vs テキストのみ | ゲイン vs PVSベースライン |
---|---|---|---|
テキストのみ | 46.4 | ベースライン | ベースライン |
+1模範 | 57.6 | +11.2 | +6.7 |
+2 模範解答 | 62.2 | +15.8 | +9.7 |
+3つの模範 | 65.0 | +18.6 | +11.2 |
+模範解答4件 | 65.7 | +19.3 | +11.5(プラトー) |
オブジェクトのカウント精度
SAM 3は、オブジェクトの計数で一般的な要件である、すべてのインスタンスをセグメント化することで、正確な計数を提供します:
ベンチマーク | 精度 | MAE | 対ベストMLLM |
---|---|---|---|
カウントベンチ | 95.6% | 0.11 | 92.4%(ジェミニ2.5) |
ピクモカウント | 87.3% | 0.22 | 88.8% (Molmo-72B) |
SAM 3対SAM 2対YOLO 比較
ここでは、SAM 3の能力をSAM 2および YOLO11モデルと比較する:
能力 | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
コンセプト・セグメンテーション | ✅ テキスト/模範解答の全例 | ❌ サポートされていない | ❌ サポートされていない |
ビジュアル・セグメンテーション | シングルインスタンスSAM 2互換) | シングル・インスタンス | すべてのインスタンス |
ゼロ・ショット能力 | ✅ オープン・ボキャブラリー | ✅ 幾何学的なプロンプト | クローズド・セット |
インタラクティブな改良 | 模範解答+クリック ✅ 模範解答+クリック | クリックのみ | ❌ サポートされていない |
ビデオトラッキング | ✅ アイデンティティのあるマルチオブジェクト | マルチオブジェクト | マルチオブジェクト |
LVISマスクAP(ゼロショット) | 47.0 | N/A | N/A |
MOSEv2 J&F | 60.1 | 47.9 | N/A |
推論スピード(H200) | 30ミリ秒(100以上のオブジェクト) | ~23ミリ秒(オブジェクトあたり) | 2~3ミリ秒(イメージ) |
モデルサイズ | 大容量(~400MB以上を想定) | 162 MB(ベース) | 5.9 MB |
重要なポイント
- SAM 3: オープンボキャブラリーコンセプトのセグメンテーションに最適。
- SAM 2: 幾何学的なプロンプトを用いた、画像やビデオにおけるインタラクティブな単一オブジェクトのセグメンテーションに最適
- YOLO11:のような効率的なエクスポートパイプラインを使用した、リソースに制約のある環境でのリアルタイム高速セグメンテーションに最適です。 ONNXや TensorRT
評価指標
SAM 3は、F1スコア、精度、リコールといったお馴染みの指標を補完し、PCSタスクのために設計された新しい指標を導入している。
クラシフィケーション・ゲートF1(CGF1)
ローカライゼーションと分類を組み合わせた主要な指標:
CGF1 = 100 × pmF1 × IL_MCC
説明:
- pmF1(PositiveMacro F1):ポジティブな例に対するローカリゼーションの品質を測定
- IL_MCC(画像レベルのマシューズ相関係数):二値分類の精度を測定(「概念が存在するか?)
なぜこれらの指標なのか?
従来のAPメトリクスはキャリブレーションを考慮しておらず、モデルを実際に使用することを困難にしている。信頼度0.5以上の予測値のみを評価することで、SAM 3のメトリクスは優れたキャリブレーションを強制し、インタラクティブな予測と追跡ループにおける実際の使用パターンを模倣します。
主要なアブレーションと洞察
プレゼンス・ヘッドのインパクト
プレゼンスヘッドは、認識とローカリゼーションを切り離し、大幅な改善をもたらす:
構成 | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
存在感なし | 57.6 | 0.77 | 74.7 |
存在感 | 63.3 | 0.82 | 77.1 |
プレゼンス・ヘッドはCGF1を+5.7(+9.9%)押し上げ、主に認識能力を向上させる(IL_MCC +6.5%)。
ハードネガの効果
ハードネガ/イメージ | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
ハードネガティヴはオープンボキャブラリー認識において重要であり、IL_MCCを54.5%(0.44 → 0.68)向上させた。
トレーニングデータのスケーリング
データソース | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
外部のみ | 30.9 | 0.46 | 66.3 |
外部+合成 | 39.7 | 0.57 | 70.6 |
社外+本部 | 51.8 | 0.71 | 73.2 |
3人とも | 54.3 | 0.74 | 73.5 |
質の高い人間によるアノテーションは、合成データや外部データだけよりも大きな利益をもたらす。データ品質の実践の背景については、データ収集とアノテーションを参照。
アプリケーション
SAM 3のコンセプトセグメンテーション機能は、新しいユースケースを可能にする:
- コンテンツモデレーション:メディアライブラリ全体で特定のコンテンツタイプのインスタンスをすべて検索
- Eコマース:カタログ画像で特定のタイプの全商品をセグメント化し、自動注釈をサポートします。
- メディカルイメージング特定の組織タイプや異常の発生をすべて特定する
- 自律システム:交通標識、歩行者、車両のすべてのインスタンスをカテゴリー別に追跡する。
- ビデオ分析:特定の衣服の着用者やアクションの実行者をカウントし、追跡します。
- データセットアノテーション:レアなオブジェクトカテゴリの全インスタンスを迅速にアノテーション
- 科学的研究:特定の基準に合致するすべての検体を定量・分析する。
SAM 3 エージェント拡張言語推論
SAM 3は、OWLv2や T-Rexのようなオープンボキャブラリーシステムと同様に、推論を必要とする複雑なクエリを処理するために、マルチモーダル大規模言語モデル(MLLM)と組み合わせることができる。
推論タスクのパフォーマンス
ベンチマーク | メトリック | SAM 3エージェント(ジェミニ2.5プロ) | 前回のベスト |
---|---|---|---|
理由セグ(バリデーション) | ジオユー | 76.0 | 65.0 (SoTA) |
リーズンセグ(テスト) | ジオユー | 73.8 | 61.3 (SoTA) |
オムニラベル(バリデーション) | AP | 46.7 | 36.5 (REAL) |
RefCOCO+ | Acc | 91.2 | 89.3(リサ) |
複雑なクエリの例
SAM 3 エージェントは推論を必要とするクエリを処理できる:
- 「座っていても、ギフトボックスを手にしていない人たち
- "首輪をしていない、カメラに最も近い犬"
- "人の手より大きな赤い物体"
MLLMは単純な名詞句クエリをSAM 3に提案し、返されたマスクを分析し、満足するまで反復する。
制限事項
SAM 3は大きな進歩を遂げたが、一定の限界もある:
- フレーズの複雑さ:単純な名詞句に最適。長い参照表現や複雑な推論には、MLLMの統合が必要な場合がある。
- 曖昧さの処理:いくつかの概念は本質的に曖昧なままである(例:「小さな窓」、「居心地の良い部屋)
- 計算要件:のような特殊な検出モデルよりも大きく、遅い。 YOLO
- 語彙の範囲:原子的な視覚的概念に焦点を当てる。
- 稀な概念:学習データにあまり含まれていない、極めて稀な概念や細かい概念では、パフォーマンスが低下する可能性がある。
引用
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
よくある質問
SAM 3の発売はいつ?
SAM 3は現在、ICLR2026(2026年会議、2025年審査)で審査中である。正式なモデル、ウェイト、ベンチマークは、おそらく2026年のレビュープロセス後に公開される。Ultralytics 、Metaがリリースされた時点でSAM 3統合のサポートを直ちに提供し、予測モードと 追跡モードでの使用法を文書化する予定です。
SAM 3はUltralytics統合されるのか?
コンセプトセグメンテーション、SAM 2スタイルのビジュアルプロンプト、マルチオブジェクトビデオトラッキングを含むSAM 3は、リリースと同時にUltralytics Python パッケージでサポートされます。以下のようなフォーマットへのエクスポートが可能になります。 ONNXや TensorRTなどの形式にエクスポートできるようになります。 Pythonと CLIワークフロー。
実施スケジュール
このドキュメントのコード例は、想定される使用パターンを示すプレビュー版である。実際の実装は、MetaがSAM 3 weightsをリリースし、Ultralytics 統合を完了した後に可能となる。
プロンプト・コンセプト・セグメンテーション(PCS)とは?
PCS は、SAM 3 で導入された新しいタスクで、画像やビデオに含まれる視覚概念のすべてのインスタンスをセグメンテーションする。特定のオブジェクトのインスタンスを対象とする従来のセグメンテーションとは異なり、PCSはカテゴリのすべての出現を検出する。例えば
- テキストプロンプト「黄色いスクールバス」 → シーン内の黄色いスクールバスをすべてセグメント化する
- 画像の例:1匹の犬を囲むボックス → 画像内のすべての犬をセグメント化
- 組み合わせる:"striped cat" + exemplar box → 例に一致するすべての縞模様の猫をセグメント化する。
オブジェクト検出と インスタンス分割に関する関連する背景を参照。
SAM 3とSAM 2の違いは?
特徴 | SAM 2 | SAM 3 |
---|---|---|
タスク | プロンプトごとに単一のオブジェクト | 概念のすべてのインスタンス |
プロンプトの種類 | ポイント、ボックス、マスク | + テキストフレーズ、画像例 |
検出能力 | 外部検出器が必要 | オープン語彙検出器内蔵 |
レコグニション | ジオメトリーベースのみ | テキストと視覚認識 |
アーキテクチャ | トラッカーのみ | 検出器 + トラッカー、プレゼンスヘッド付き |
ゼロ・ショット性能 | 該当なし(視覚的プロンプトが必要) | LVISで47.0AP、SA-Coで2倍良好 |
インタラクティブな改良 | クリックのみ | クリック+模範的汎化 |
SAM 3は、SAM 2のビジュアルプロンプトとの下位互換性を維持しながら、コンセプトベースの機能を追加している。
SAM 3のトレーニングにはどのようなデータセットが使われるのですか?
SAM 3はSegment Anything with Concepts (SA-Co)データセットで学習される:
トレーニングデータ:
- 5.2Mの画像と 4Mのユニークな名詞句(SA-Co/HQ) - 高品質のヒューマンアノテーション
- 52.5Kのビデオ、24.8Kのユニークな名詞句(SA-Co/VIDEO)
- 3800万の名詞句にわたる 14億の合成マスク(SA-Co/SYN)
- ハードネガ(SA-Co/EXT)を濃縮した15の外部データセット
ベンチマークデータ
- 12万6000の画像/動画に21万4000のユニークなコンセプト
- 既存のベンチマークより50倍多いコンセプト(例:LVISのコンセプトは〜4K)
- SA-Co/Goldのトリプルアノテーションによる人間のパフォーマンス境界測定
この巨大なスケールと多様性により、SAM 3は、オープンボキャブラリーコンセプトにまたがる優れたゼロショット汎化を可能にしている。
セグメンテーションについて、SAM 3はYOLO11 どうですか?
SAM 3とYOLO11 11は異なるユースケースに対応している:
SAM 3 メリット
- オープン語彙:トレーニングなしで、テキストプロンプトによりあらゆる概念をセグメント化
- ゼロショット:新しいカテゴリーに即座に対応
- 対話型:模範に基づく絞り込みは類似オブジェクトに汎化する
- 概念ベース:カテゴリーのすべてのインスタンスを自動的に見つける
- 精度:LVISゼロショット・インスタンス・セグメンテーションで47.0AP
YOLO11 メリット
- スピード:推論が10~15倍速い(1画像あたり2~3ms vs 30ms)
- 効率性:70倍小さいモデル(5.9MB対予想400MB)
- リソースに優しい:エッジデバイスとモバイルで動作
- リアルタイム:本番環境に最適化
推薦する:
- テキストや例文で説明された概念のすべてのインスタンスを見つける必要がある場合、柔軟でオープンな語彙のセグメンテーションにはSAM 3を使用します。
- 用途 YOLO11カテゴリが事前に分かっている高速な本番展開にはYOLO11を使用する。
- 幾何学的プロンプトによるインタラクティブな単一オブジェクトのセグメンテーションにSAM 2を使用する
SAM 3は複雑な言語クエリを処理できますか?
SAM 3は、単純な名詞句(例えば、"赤いリンゴ"、"帽子をかぶった人")用に設計されている。推論を必要とする複雑なクエリの場合は、SAM 3 を MLLM と組み合わせ、SAM 3 Agent として使用します:
単純なクエリー(ネイティブSAM 3):
- 「黄色いスクールバス
- 縞猫
- 「赤い帽子をかぶった人
複雑なクエリ(SAM 3 Agent with MLLM):
- "座ったままギフトボックスを持たない人々"
- "首輪なしでカメラに最も近い犬"
- "人の手より大きな赤い物体"
SAM 3エージェントは、SAM 3のセグメンテーションとMLLM推論機能を組み合わせることで、ReasonSeg検証で76.0gIoUを達成した(以前のベスト65.0に対して、16.9%向上)。
SAM 3は人間のパフォーマンスと比較してどの程度正確なのか?
SA-Co/Goldベンチマークのトリプルヒトアノテーションについて:
- 人間の下限:74.2CGF1(最も保守的なアノテーター)
- SAM 3パフォーマンス:65.0CGF1
- 達成度:人間の推定下限の88
- 人間の上限:81.4CGF1(最もリベラルなアノテーター)
SAM 3は、曖昧な概念や主観的な概念(例:「小さな窓」、「居心地の良い部屋」)のセグメンテーションにおいて、人間レベルの精度に迫る高いパフォーマンスを達成した。