SAM 3: コンセプトで何でもセグメントする
Ultralyticsでご利用いただけます
SAM 、Ultralytics に完全に統合されています。 バージョン 8.3.237 (PR #22897). インストールまたはアップグレードするには pip install -U ultralytics テキストベースの概念セグメンテーション、画像例示プロンプト、動画追跡を含む、SAM 全機能にアクセスする。

SAM 3(SegmentAnything Model 3)は、Metaがリリースしたプロンプト可能なコンセプトセグメンテーション(PCS)の基盤モデルである。SAM 2をベースにしたSAM 3は、テキストプロンプト、イメージエグザンプル、またはその両方によって指定されたビジュアルコンセプトのすべてのインスタンスを検出、セグメンテーション、トラッキングするという、根本的に新しい機能を導入している。プロンプトごとに1つのオブジェクトをsegment する従来のSAM バージョンとは異なり、SAM 3は、画像や動画のどこにでも出現するすべての概念を検出してsegment することができ、最新のインスタンスセグメンテーションにおけるオープンボキャブラリーの目標に合致している。
SAM は現在、完全に統合されました。 ultralytics パッケージは、テキストプロンプト、画像例示プロンプト、および動画追跡機能による概念セグメンテーションのネイティブサポートを提供します。
概要
SAM 3は、SAM 2の対話的な視覚的セグメンテーション機能を維持・向上させながら、プロンプト可能な概念セグメンテーションにおいて、既存システムに対して2倍の性能向上を達成した。このモデルはオープンボキャブラリーセグメンテーションに優れており、ユーザーは単純な名詞句(例:「黄色いスクールバス」、「縞模様の猫」)を使用したり、ターゲットオブジェクトの例画像を提供することで概念を指定することができる。これらの機能は、合理化された予測および追跡に依存するプロダクション対応パイプラインを補完します。 trackワークフローを補完します。

プロンプト・コンセプト・セグメンテーション(PCS)とは?
PCSタスクは、コンセプトプロンプトを入力として受け取り、一致するすべてのオブジェクトインスタンスについて一意のIDを持つセグメンテーションマスクを返す。コンセプトプロンプトは以下のとおりである:
- テキスト赤いリンゴ」「帽子をかぶっている人」などの簡単な名詞句。
- 画像の模範:高速汎化のための例オブジェクト(正または負)の周りのバウンディングボックス
- 結合:テキストと画像の模範解答を併用し、正確なコントロールを実現
これは、オリジナルのSAM ファミリーが普及させたような、単一の特定のオブジェクトインスタンスのみをsegment する従来のビジュアルプロンプト(ポイント、ボックス、マスク)とは異なる。
主要業績評価指標
| メトリック | SAM 3 達成度 |
|---|---|
| LVISゼロショットマスクAP | 47.0 (以前の最高38.5と比較して、+22%の改善) |
| SA-Coベンチマーク | 既存のシステムより2倍優れている |
| 推論速度(H200GPU | 100個以上のdetectされたオブジェクトを含む画像あたり30 ms |
| ビデオパフォーマンス | 同時5オブジェクトのほぼリアルタイム |
| MOSEv2 VOSベンチマーク | 60.1 J&F (SAM 2.1より+25.5%、従来のSOTAより+17%) |
| インタラクティブな改良 | +18.6 CGF1、3つの模範的なプロンプトの後に改善 |
| ヒューマン・パフォーマンス・ギャップ | SA-Co/金の推定下限の88%を達成 |
モデル評価指標と生産におけるトレードオフに関する文脈は、モデル評価の洞察と YOLO パフォーマンス評価指標を参照のこと。
アーキテクチャ
SAM 3は、Perception Encoder (PE)ビジョンバックボーンを共有するディテクターと トラッカーで構成されています。この分離された設計は、Ultralytics Python 使用と CLI 使用と互換性のあるインターフェースで、画像レベルの検出とビデオレベルの追跡の両方を可能にしながら、タスクの競合を回避します。
コアコンポーネント
検出器画像レベルの概念検出のためのDETRベースのアーキテクチャ
- 名詞句プロンプト用テキストエンコーダ
- 画像ベースのプロンプト用サンプルエンコーダ
- プロンプトに画像特徴を条件付けるフュージョン・エンコーダ
- 認識(「何を」)とローカライズ(「どこで」)を切り離す新しいプレゼンス・ヘッド
- インスタンス分割マスクを生成するマスクヘッド
トラッカー SAM 2から継承されたメモリベースのビデオセグメンテーション
- プロンプトエンコーダー、マスクデコーダー、メモリーエンコーダー
- フレームをまたいでオブジェクトの外観を保存するためのメモリバンク
- 多オブジェクト設定におけるカルマンフィルタのような技術によって支援される時間的曖昧性解消
プレゼンス・トークン:学習されたグローバルトークンは、ターゲット概念が画像/フレーム内に存在するかどうかを予測し、認識と定位を分離することで検出を向上させる。

主なイノベーション
- 認識とローカリゼーションの分離:プレゼンス・ヘッドはグローバルにコンセプトの存在を予測し、プロポーザル・クエリはローカライゼーションのみに焦点を当て、相反する目的を回避する。
- 統一されたコンセプトとビジュアルプロンプト:PCS(コンセプト・プロンプト)とPVS(SAM 2のクリック/ボックスのようなビジュアル・プロンプト)の両方を1つのモデルでサポート。
- インタラクティブな模範解答の洗練:ユーザは、個々のインスタンスを修正するだけでなく、類似したオブジェクトにモデルを汎化することで、ポジティブまたはネガティブな画像の模範を追加して、結果を反復的に改良することができます。
- 時間的曖昧性解消:マスクレット検出スコアと定期的な再プロンプトにより、インスタンスのセグメンテーションとトラッキングのベストプラクティスに沿って、オクルージョン、混雑したシーン、ビデオ内のトラッキングの失敗を処理する。
SA-Coデータセット
SAM 3は、Segment Anything with Concepts (SA-Co)を用いて学習されます。SA-Coは、Metaのこれまでで最大かつ最も多様なセグメンテーションデータセットであり、以下のような一般的なベンチマークを超えるものです。 COCOやLVISのような一般的なベンチマークを拡張しています。
トレーニングデータ
| データセット・コンポーネント | 説明 | スケール |
|---|---|---|
| SA-Co/本部 | 4フェーズ・データ・エンジンによる高品質な人間注釈付き画像データ | 5.2M 画像、4M ユニークな名詞句 |
| SA・Co/SYN | 人間が関与せずにAIがラベル付けした合成データセット | 38M 名詞句, 1.4B マスク |
| SA・Co/EXT | ハードネガティブで強化された15個の外部データセット | ソースによって異なる |
| SA-Co/ビデオ | 時間追跡によるビデオ注釈 | 52.5K ビデオ、24.8K ユニークな名詞句 |
ベンチマークデータ
SA-Co評価ベンチマークは、126Kの画像とビデオに 214Kのユニークなフレーズを含み、既存のベンチマークよりも50倍以上の概念を提供します。これには以下が含まれます:
- SA-Co/Gold:7つのドメイン、人間のパフォーマンス境界を測定するためのトリプルアノテーション
- SA-Co/Silver:10ドメイン、単一ヒトアノテーション
- SA-Co/Bronzeと SA-Co/Bio:コンセプト・セグメンテーションに適応した9つの既存データセット
- SA-Co/VEval:3つのドメインによるビデオベンチマーク(SA-V、YT-Temporal-1B、SmartGlasses)
データエンジンの革新
SAM 3のスケーラブルなヒューマン・イン・ザ・ループ・データエンジンは、2倍のアノテーションスループットを達成する:
- AIアノテーター: Llamaベースのモデルは、難しいネガティブを含む多様な名詞句を提案します
- AI検証者: ファインチューニングされたマルチモーダルLLMは、ほぼ人間のパフォーマンスでマスクの品質と網羅性を検証します
- アクティブマイニング: AIが苦戦する困難な失敗事例に人間の労力を集中させます
- オントロジー主導:Wikidataに基づく大規模なオントロジーを活用し、コンセプトを網羅
インストール
SAM Ultralytics バージョン 8.3.237以降で利用可能です。以下の方法でインストールまたはアップグレードしてください:
pip install -U ultralytics
SAM モデル 必要重量
他のUltralytics 異なり、SAM は重み付けを行う(sam3.pt) は 自動的にダウンロードされないモデル重みを手動でダウンロードする必要があります。 公式SAM リポジトリ SAM を使用する前に、ダウンロードした sam3.pt 作業ディレクトリ内のファイルを指定するか、モデルを読み込む際に完全なパスを指定してください。
SAM 使い方3:コンセプト・セグメンテーションの多様性
SAM 3は、異なる予測インターフェースを介して、Promptable Concept Segmentation (PCS) と Promptable Visual Segmentation (PVS) の両タスクをサポートしています。
サポートされるタスクとモデル
| タスクタイプ | プロンプトの種類 | 出力 |
|---|---|---|
| コンセプト・セグメンテーション(PCS) | テキスト(名詞句)、画像例 | コンセプトに一致するすべてのインスタンス |
| ビジュアル・セグメンテーション(PVS) | ポイント、ボックス、マスク | 単一オブジェクトインスタンスSAM 2スタイル) |
| インタラクティブな改良 | 模範例やクリックを反復的に追加/削除する | 精度が向上したセグメンテーション |
コンセプト・セグメンテーションの例
テキスト・プロンプトによるセグメント
テキストベースのコンセプト・セグメンテーション
テキスト記述を用いて概念のsegment インスタンスsegment 検索し、segment 。テキストプロンプトには SAM3SemanticPredictor インターフェース
from ultralytics.models.sam import SAM3SemanticPredictor
# Initialize predictor with configuration
overrides = dict(
conf=0.25,
task="segment",
mode="predict",
model="sam3.pt",
half=True, # Use FP16 for faster inference
)
predictor = SAM3SemanticPredictor(overrides=overrides)
# Set image once for multiple queries
predictor.set_image("path/to/image.jpg")
# Query with multiple text prompts
results = predictor(text=["person", "bus", "glasses"], save=True)
# Works with descriptive phrases
results = predictor(text=["person with red cloth", "person with blue cloth"], save=True)
# Query with a single concept
results = predictor(text=["a person"], save=True)
模範画像によるセグメント
画像模範に基づくセグメンテーション
境界ボックスを視覚的な手がかりとして使用し、類似するインスタンスをすべて見つける。これにはまた SAM3SemanticPredictor 概念ベースのマッチングのために。
from ultralytics.models.sam import SAM3SemanticPredictor
# Initialize predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3SemanticPredictor(overrides=overrides)
# Set image
predictor.set_image("path/to/image.jpg")
# Provide bounding box examples to segment similar objects
results = predictor(bboxes=[[480.0, 290.0, 590.0, 650.0]], save=True)
# Multiple bounding boxes for different concepts
results = predictor(bboxes=[[539, 599, 589, 639], [343, 267, 499, 662]], save=True)
効率のための特徴量ベース推論
複数のクエリに対する画像特徴の再利用
画像特徴を一度抽出し、複数のセグメンテーションクエリで再利用することで効率を向上させる。
import cv2
from ultralytics.models.sam import SAM3SemanticPredictor
from ultralytics.utils.plotting import Annotator, colors
# Initialize predictors
overrides = dict(conf=0.50, task="segment", mode="predict", model="sam3.pt", verbose=False)
predictor = SAM3SemanticPredictor(overrides=overrides)
predictor2 = SAM3SemanticPredictor(overrides=overrides)
# Extract features from the first predictor
source = "path/to/image.jpg"
predictor.set_image(source)
src_shape = cv2.imread(source).shape[:2]
# Setup second predictor and reuse features
predictor2.setup_model()
# Perform inference using shared features with text prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, text=["person"])
# Perform inference using shared features with bounding box prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, bboxes=[[439, 437, 524, 709]])
# Visualize results
if masks is not None:
masks, boxes = masks.cpu().numpy(), boxes.cpu().numpy()
im = cv2.imread(source)
annotator = Annotator(im, pil=False)
annotator.masks(masks, [colors(x, True) for x in range(len(masks))])
cv2.imshow("result", annotator.result())
cv2.waitKey(0)
ビデオ・コンセプト・セグメンテーション
バウンディングボックスで動画全体にわたる概念を追跡する
視覚的プロンプトを用いた動画追跡
バウンディングボックスプロンプトを用いて、動画フレーム間でtrack インスタンスを検出しtrack 。
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3VideoPredictor(overrides=overrides)
# Track objects using bounding box prompts
results = predictor(source="path/to/video.mp4", bboxes=[[706.5, 442.5, 905.25, 555], [598, 635, 725, 750]], stream=True)
# Process and display results
for r in results:
r.show() # Display frame with segmentation masks
テキストプロンプトによる概念の追跡
意味的クエリを用いた動画追跡
動画フレーム全体で、テキストで指定された概念のすべての出現箇所を追跡する。
from ultralytics.models.sam import SAM3VideoSemanticPredictor
# Initialize semantic video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=640, model="sam3.pt", half=True)
predictor = SAM3VideoSemanticPredictor(overrides=overrides)
# Track concepts using text prompts
results = predictor(source="path/to/video.mp4", text=["person", "bicycle"], stream=True, save=True)
# Process results
for r in results:
r.show() # Display frame with tracked objects
# Alternative: Track with bounding box prompts
results = predictor(
source="path/to/video.mp4",
bboxes=[[864, 383, 975, 620], [705, 229, 782, 402]],
labels=[1, 1], # Positive labels
stream=True,
save=True,
)
ビジュアルプロンプトSAM 2互換性)
SAM は、単一オブジェクトのセグメンテーションにおけるSAM の視覚的プロンプト機能との完全な下位互換性を維持します:
SAM 2スタイルのビジュアル・プロンプト
基本 SAM インターSAM 全く同じように動作し、視覚的なプロンプト(点、ボックス、またはマスク)で示された特定の領域のみをセグメント化します。
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt - segments object at specific location
results = model.predict(source="path/to/image.jpg", points=[900, 370], labels=[1])
results[0].show()
# Multiple points - segments single object with multiple point hints
results = model.predict(source="path/to/image.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt - segments object within bounding box
results = model.predict(source="path/to/image.jpg", bboxes=[100, 150, 300, 400])
results[0].show()
視覚的プロンプト対概念セグメンテーション
使用 SAM("sam3.pt") 視覚的プロンプト(点/ボックス/マスク)segment 特定のオブジェクトのみ その位置で、SAM と同様に。segmentするために 概念のすべての実例、を使用します。 SAM3SemanticPredictor 上記のようにテキストまたは見本プロンプトを用いて。
パフォーマンスベンチマーク
画像分割
SAM 3は、セグメンテーションのための LVISや COCO ような実世界のデータセットを含む、複数のベンチマークで最先端の結果を達成している:
| ベンチマーク | メトリック | SAM 3 | 前回のベスト | 改善 |
|---|---|---|---|---|
| LVIS(ゼロショット) | マスクAP | 47.0 | 38.5 | +22.1% |
| SA-Co/ゴールド | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
| COCO (ゼロショット) | ボックスAP | 53.5 | 52.2 (T-Rex2) | +2.5% |
| ADE-847(セマンティック・セグ) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
| パスカルコンセプト-59 | mIoU | 59.4 | 58.5 (APE-D) | +1.5% |
| 街並み(セマンティック・セグ) | mIoU | 65.1 | 44.2 (APE-D) | +47.3% |
Ultralytics データセットで素早く実験を行うためのデータセットオプションを探索します。
ビデオ・セグメンテーションのパフォーマンス
SAM 3は、DAVIS 2017や YouTube-VOSのようなビデオベンチマークにおいて、SAM 2や以前の最先端技術よりも大幅な改善を示している:
| ベンチマーク | メトリック | SAM 3 | SAM 2.1 L | 改善 |
|---|---|---|---|---|
| MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
| DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
| LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
| SA-V | J&F | 84.6 | 78.4 | +7.9% |
| YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
数少ないショット
SAM 3は、データ中心のAIワークフローに関連する、最小限の例で新しいドメインに適応することに優れている:
| ベンチマーク | 0-shot AP | 10-shot AP | 前回ベスト(10ショット) |
|---|---|---|---|
| ODinW13 | 59.9 | 71.6 | 67.9(gDino1.5プロ) |
| RF100-VL | 14.3 | 35.7 | 33.7 (gDino-T) |
インタラクティブな洗練の効果
SAM 3の模範解答を用いたコンセプトベースのプロンプトは、視覚的プロンプトよりもはるかに早く収束する:
| プロンプト追加 | CGF1スコア | ゲイン vs テキストのみ | ゲイン vs PVSベースライン |
|---|---|---|---|
| テキストのみ | 46.4 | ベースライン | ベースライン |
| +1 例 | 57.6 | +11.2 | +6.7 |
| +2 例 | 62.2 | +15.8 | +9.7 |
| +3 例 | 65.0 | +18.6 | +11.2 |
| +4 例 | 65.7 | +19.3 | +11.5 (プラトー) |
オブジェクトのカウント精度
SAM 3は、オブジェクトの計数で一般的な要件である、すべてのインスタンスをセグメント化することで、正確な計数を提供します:
| ベンチマーク | 精度 | MAE | 対ベストMLLM |
|---|---|---|---|
| カウントベンチ | 95.6% | 0.11 | 92.4%(ジェミニ2.5) |
| ピクモカウント | 87.3% | 0.22 | 88.8% (Molmo-72B) |
SAM 3対SAM 2対YOLO 比較
ここでは、SAM 3の能力をSAM 2および YOLO11モデルと比較する:
| 能力 | SAM 3 | SAM 2 | YOLO11n-seg |
|---|---|---|---|
| コンセプト・セグメンテーション | ✅ テキスト/模範解答の全例 | ❌ サポートされていない | ❌ サポートされていない |
| ビジュアル・セグメンテーション | シングルインスタンスSAM 2互換) | シングル・インスタンス | すべてのインスタンス |
| ゼロ・ショット能力 | ✅ オープン・ボキャブラリー | ✅ 幾何学的なプロンプト | クローズド・セット |
| インタラクティブな改良 | 模範解答+クリック ✅ 模範解答+クリック | クリックのみ | ❌ サポートされていない |
| ビデオトラッキング | ✅ アイデンティティのあるマルチオブジェクト | マルチオブジェクト | マルチオブジェクト |
| LVISマスクAP (ゼロショット) | 47.0 | N/A | N/A |
| MOSEv2 J&F | 60.1 | 47.9 | N/A |
| 推論スピード(H200) | 30 ms (100個以上のオブジェクト) | ~23ミリ秒(オブジェクトあたり) | 2~3ミリ秒(画像) |
| モデルサイズ | 3.4ギガバイト | 162 MB(ベース) | 5.9 MB |
重要なポイント
- SAM 3: オープンボキャブラリーコンセプトのセグメンテーションに最適。
- SAM 2: 幾何学的なプロンプトを用いた、画像やビデオにおけるインタラクティブな単一オブジェクトのセグメンテーションに最適
- YOLO11:のような効率的なエクスポートパイプラインを使用した、リソースに制約のある環境でのリアルタイム高速セグメンテーションに最適です。 ONNXや TensorRT
評価指標
SAM 3は、F1スコア、精度、リコールといったお馴染みの指標を補完し、PCSタスクのために設計された新しい指標を導入している。
クラシフィケーション・ゲートF1(CGF1)
ローカライゼーションと分類を組み合わせた主要な指標:
CGF1 = 100 × pmF1 × IL_MCC
説明:
- pmF1(PositiveMacro F1):ポジティブな例に対するローカリゼーションの品質を測定
- IL_MCC(画像レベルのマシューズ相関係数):二値分類の精度を測定(「概念が存在するか?)
なぜこれらの指標なのか?
従来のAP メトリクスはキャリブレーションを考慮しておらず、モデルを実際に使用することを困難にしている。信頼度0.5以上の予測値のみを評価することで、SAM 3のメトリクスは適切なキャリブレーションを強制し、インタラクティブな予測と追跡における実際の使用パターンを模倣します。 trackループになります。
主要なアブレーションと洞察
プレゼンス・ヘッドのインパクト
プレゼンスヘッドは、認識とローカリゼーションを切り離し、大幅な改善をもたらす:
| 構成 | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 存在感なし | 57.6 | 0.77 | 74.7 |
| 存在感 | 63.3 | 0.82 | 77.1 |
プレゼンス・ヘッドはCGF1を+5.7(+9.9%)押し上げ、主に認識能力を向上させる(IL_MCC +6.5%)。
ハードネガの効果
| ハードネガ/イメージ | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 0 | 31.8 | 0.44 | 70.2 |
| 5 | 44.8 | 0.62 | 71.9 |
| 30 | 49.2 | 0.68 | 72.3 |
ハードネガティヴはオープンボキャブラリー認識において重要であり、IL_MCCを54.5%(0.44 → 0.68)向上させた。
トレーニングデータのスケーリング
| データソース | CGF1 | IL_MCC | pmF1 |
|---|---|---|---|
| 外部のみ | 30.9 | 0.46 | 66.3 |
| 外部+合成 | 39.7 | 0.57 | 70.6 |
| 社外+本部 | 51.8 | 0.71 | 73.2 |
| 3人とも | 54.3 | 0.74 | 73.5 |
質の高い人間によるアノテーションは、合成データや外部データだけよりも大きな利益をもたらす。データ品質の実践の背景については、データ収集とアノテーションを参照。
アプリケーション
SAM 3のコンセプトセグメンテーション機能は、新しいユースケースを可能にする:
- コンテンツモデレーション:メディアライブラリ全体で特定のコンテンツタイプのインスタンスをすべて検索
- Eコマース:カタログ画像で特定のタイプの全商品をセグメント化し、自動注釈をサポートします。
- メディカルイメージング特定の組織タイプや異常の発生をすべて特定する
- 自律システム:交通標識、歩行者、車両のすべてのインスタンスをカテゴリー別に追跡する。
- ビデオ分析:特定の衣服の着用者やアクションを行うすべての人をカウントし、track 。
- データセットアノテーション:レアなオブジェクトカテゴリの全インスタンスを迅速にアノテーション
- 科学的研究:特定の基準に合致するすべての検体を定量・分析する。
SAM 3 エージェント拡張言語推論
SAM 3は、OWLv2や T-Rexのようなオープンボキャブラリーシステムと同様に、推論を必要とする複雑なクエリを処理するために、マルチモーダル大規模言語モデル(MLLM)と組み合わせることができる。
推論タスクのパフォーマンス
| ベンチマーク | メトリック | SAM 3エージェント(ジェミニ2.5プロ) | 前回のベスト |
|---|---|---|---|
| 理由セグ(バリデーション) | ジオユー | 76.0 | 65.0 (SoTA) |
| リーズンセグ(テスト) | ジオユー | 73.8 | 61.3 (SoTA) |
| オムニラベル(バリデーション) | AP | 46.7 | 36.5 (REAL) |
| RefCOCO+ | Acc | 91.2 | 89.3(リサ) |
複雑なクエリの例
SAM 3 エージェントは推論を必要とするクエリを処理できる:
- 「座っているが、手にプレゼントボックスを持っていない人々」
- 「首輪をつけていない、カメラに一番近い犬」
- 「人の手よりも大きい赤い物体」
MLLMは単純な名詞句クエリをSAM 3に提案し、返されたマスクを分析し、満足するまで反復する。
制限事項
SAM 3は大きな進歩を遂げたが、一定の限界もある:
- フレーズの複雑さ:単純な名詞句に最適。長い参照表現や複雑な推論には、MLLMの統合が必要な場合がある。
- 曖昧さの処理:一部の概念は本質的に曖昧なままです(例:「小さな窓」、「居心地の良い部屋」)
- 計算要件:のような特殊な検出モデルよりも大きく、遅い。 YOLO
- 語彙の範囲:原子的な視覚的概念に焦点を当てる。
- 稀な概念:学習データにあまり含まれていない、極めて稀な概念や細かい概念では、パフォーマンスが低下する可能性がある。
引用
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
よくある質問
SAM いつリリースされましたか?
SAM 3は2025年11月20日にMetaよりリリースされ、 Ultralyticsバージョン8.3.237(PR #22897)Ultralytics 完全に統合されました。予測モードとtrack 完全なサポートが利用可能です。
SAM Ultralyticsに統合されていますか?
はい!SAM Ultralytics Python に完全に統合されており、概念セグメンテーション、SAM 視覚的プロンプト、マルチオブジェクト動画追跡などが含まれます。ONNX や TensorRT などの形式でデプロイメント用にエクスポートでき、 Python および CLI ワークフローを備えています。
プロンプト・コンセプト・セグメンテーション(PCS)とは?
PCS は、SAM 3 で導入された新しいタスクで、画像やビデオに含まれる視覚概念のすべてのインスタンスをセグメンテーションする。特定のオブジェクトのインスタンスを対象とする従来のセグメンテーションとは異なり、PCSはカテゴリのすべての出現を検出する。例えば
- テキストプロンプト「黄色いスクールバス」 → シーン内の黄色いスクールバスをすべてセグメント化する
- 画像の例:1匹の犬を囲むボックス → 画像内のすべての犬をセグメント化
- 組み合わせる:"striped cat" + exemplar box → 例に一致するすべての縞模様の猫をセグメント化する。
オブジェクト検出と インスタンス分割に関する関連する背景を参照。
SAM 3とSAM 2の違いは?
| 特徴 | SAM 2 | SAM 3 |
|---|---|---|
| タスク | プロンプトごとに単一のオブジェクト | 概念のすべてのインスタンス |
| プロンプトの種類 | ポイント、ボックス、マスク | + テキストフレーズ、画像例 |
| 検出能力 | 外部検出器が必要 | オープン語彙検出器内蔵 |
| レコグニション | ジオメトリーベースのみ | テキストと視覚認識 |
| アーキテクチャ | トラッカーのみ | 検出器 + トラッカー、プレゼンスヘッド付き |
| ゼロ・ショット性能 | 該当なし(視覚的プロンプトが必要) | LVISで47.0 AP、SA-Coで2×向上 |
| インタラクティブな改良 | クリックのみ | クリック+模範的汎化 |
SAM 3は、SAM 2のビジュアルプロンプトとの下位互換性を維持しながら、コンセプトベースの機能を追加している。
SAM 3のトレーニングにはどのようなデータセットが使われるのですか?
SAM 3はSegment Anything with Concepts (SA-Co)データセットで学習される:
トレーニングデータ:
- 520万枚の画像と400万個のユニークな名詞句 (SA-Co/HQ) - 高品質な人間によるアノテーション
- 52,500本の動画と24,800個のユニークな名詞句 (SA-Co/VIDEO)
- 14億の合成マスク(3800万の名詞句にわたる)(SA-Co/SYN)
- 15個の外部データセットを、ハードネガティブで強化(SA-Co/EXT)
ベンチマークデータ
- 126,000枚の画像/動画にわたる214,000のユニークな概念
- 既存のベンチマーク(例えば、LVISは約4,000の概念を持つ)より50倍多い概念
- SA-Co/Goldのトリプルアノテーションによる人間のパフォーマンス境界測定
この巨大なスケールと多様性により、SAM 3は、オープンボキャブラリーコンセプトにまたがる優れたゼロショット汎化を可能にしている。
セグメンテーションについて、SAM 3はYOLO11 どうですか?
SAM 3とYOLO11 11は異なるユースケースに対応している:
SAM 3 メリット
- オープン語彙:トレーニングなしで、テキストプロンプトによりあらゆる概念をセグメント化
- ゼロショット:新しいカテゴリーに即座に対応
- 対話型:模範に基づく絞り込みは類似オブジェクトに汎化する
- 概念ベース:カテゴリーのすべてのインスタンスを自動的に見つける
- 精度:LVISゼロショットインスタンスsegmentationで47.0 AP
YOLO11 メリット
- スピード:推論が10~15倍速い(1画像あたり2~3ms vs 30ms)
- 効率性:576倍小型化されたモデル(5.9MB 対 3.4GB)
- リソースに優しい:エッジデバイスとモバイルで動作
- リアルタイム:本番環境に最適化
推薦する:
- テキストや例文で説明された概念のすべてのインスタンスを見つける必要がある場合、柔軟でオープンな語彙のセグメンテーションにはSAM 3を使用します。
- 用途 YOLO11カテゴリが事前に分かっている高速な本番展開にはYOLO11を使用する。
- 幾何学的プロンプトによるインタラクティブな単一オブジェクトのセグメンテーションにSAM 2を使用する
SAM 3は複雑な言語クエリを処理できますか?
SAM 3は、単純な名詞句(例えば、"赤いリンゴ"、"帽子をかぶった人")用に設計されている。推論を必要とする複雑なクエリの場合は、SAM 3 を MLLM と組み合わせ、SAM 3 Agent として使用します:
単純なクエリー(ネイティブSAM 3):
- 「黄色いスクールバス」
- 「縞模様の猫」
- 「赤い帽子をかぶっている人」
複雑なクエリ(SAM 3 Agent with MLLM):
- 「座っているが、プレゼントボックスを持っていない人々」
- 「首輪なしでカメラに一番近い犬」
- 「人の手よりも大きい赤い物体」
SAM 3エージェントは、SAM 3のセグメンテーションとMLLM推論機能を組み合わせることで、ReasonSeg検証で76.0gIoUを達成した(以前のベスト65.0に対して、16.9%向上)。
SAM 3は人間のパフォーマンスと比較してどの程度正確なのか?
SA-Co/Goldベンチマークのトリプルヒトアノテーションについて:
- 人間の下限:74.2CGF1(最も保守的なアノテーター)
- SAM 3パフォーマンス:65.0CGF1
- 達成:推定される人間の下限の88%
- 人間の上限:81.4CGF1(最もリベラルなアノテーター)
SAM 3は、曖昧な概念や主観的な概念(例:「小さな窓」、「居心地の良い部屋」)のセグメンテーションにおいて、人間レベルの精度に迫る高いパフォーマンスを達成した。