Meet YOLO26: next-gen vision AI.

Link to this sectionSAM 2: Segment Anything Model 2#

SAMの進化

SAM 2は、オリジナルのSAMを基盤とし、ビデオセグメンテーション機能を備えています。テキストおよび画像プロンプトを使用したプロンプト対応コンセプトセグメンテーションについては、SAM 3を参照してください。

Inference with Segment Anything 2 In Colab

SAM 2は、MetaのSegment Anything Model (SAM)の後継であり、画像とビデオの両方で包括的なオブジェクトセグメンテーションを行うために設計された最先端のツールです。リアルタイム処理とゼロショット汎化をサポートする統合されたプロンプト可能なモデルアーキテクチャを通じて、複雑な視覚データの処理に優れています。

Ultralyticsプラットフォーム上のSAM 2

SAM 2.1 models power the smart annotation feature on Ultralytics Platform, enabling click-based segmentation for fast dataset labeling. See the annotation guide for details.

SAM 2 Example Results

Link to this section主な機能#



Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉

Link to this section統合モデルアーキテクチャ#

SAM 2は、画像セグメンテーションとビデオセグメンテーションの機能を単一のモデルに統合しています。この統合によりデプロイが簡素化され、異なるメディアタイプ間で一貫したパフォーマンスが可能になります。柔軟なプロンプトベースのインターフェースを活用しており、ポイント、バウンディングボックス、マスクなどの様々なプロンプトタイプを通じて、ユーザーが関心のあるオブジェクトを指定できます。

Link to this sectionリアルタイムパフォーマンス#

このモデルは毎秒約44フレームを処理するリアルタイムの推論速度を実現しています。これにより、SAM 2はビデオ編集や拡張現実(AR)など、即時のフィードバックを必要とするアプリケーションに適しています。

Link to this sectionゼロショット汎化#

SAM 2はこれまでに遭遇したことのないオブジェクトをセグメント化することができ、強力なゼロショット汎化能力を示します。これは、事前定義されたカテゴリがすべての可能なオブジェクトを網羅できないような、多様または進化する視覚ドメインにおいて特に有用です。

Link to this sectionインタラクティブな微調整#

ユーザーは追加のプロンプトを提供することで、セグメンテーション結果を反復的に改善でき、出力に対して精密な制御が可能です。この対話性は、ビデオアノテーションや医療画像処理のようなアプリケーションで結果を微調整する際に不可欠です。

Link to this section視覚的課題への高度な対応#

SAM 2には、オブジェクトのオクルージョン(遮蔽)や再出現といった、ビデオセグメンテーションにおける一般的な課題を管理するためのメカニズムが含まれています。洗練されたメモリメカニズムを使用してフレーム間でオブジェクトを追跡し、一時的に隠れたりシーンから出入りしたりする場合でも継続性を維持します。

SAM 2のアーキテクチャと機能の詳細については、SAM 2研究論文をご覧ください。

Link to this sectionパフォーマンスと技術的詳細#

SAM 2はこの分野で新しいベンチマークを打ち立て、様々な指標で以前のモデルを上回っています:

指標SAM 2以前のSOTA
インタラクティブビデオセグメンテーション最高-
必要な人間の対話数3分の1以下ベースライン
画像セグメンテーション精度改善SAM
推論速度6倍高速SAM

Link to this sectionモデルアーキテクチャ#

Link to this sectionコアコンポーネント#

  • 画像・ビデオエンコーダー: Transformerベースのアーキテクチャを利用して、画像とビデオフレームの両方から高レベルな特徴を抽出します。このコンポーネントは、各タイムステップでの視覚的な内容を理解する役割を担います。
  • プロンプトエンコーダー: ユーザーが提供したプロンプト(ポイント、ボックス、マスク)を処理し、セグメンテーションタスクをガイドします。これにより、SAM 2はユーザー入力に適応し、シーン内の特定のオブジェクトをターゲットにできます。
  • メモリメカニズム: メモリエンコーダー、メモリバンク、メモリ注意モジュールが含まれます。これらのコンポーネントは過去のフレームからの情報を集合的に保存・利用し、モデルが長期間にわたって一貫したオブジェクトトラッキングを維持できるようにします。
  • マスクデコーダー: エンコードされた画像特徴とプロンプトに基づいて、最終的なセグメンテーションマスクを生成します。ビデオでは、フレーム間での正確な追跡を確実にするためにメモリコンテキストも使用します。

SAM 2 Architecture Diagram

Link to this sectionメモリメカニズムとオクルージョン処理#

メモリメカニズムにより、SAM 2はビデオデータにおける時間的依存関係やオクルージョンを処理できます。オブジェクトが移動や相互作用をする際、SAM 2はその特徴をメモリバンクに記録します。オブジェクトが遮蔽された場合、モデルはこのメモリを利用して、再出現した際の位置と外観を予測できます。オクルージョンヘッドは、オブジェクトが見えていないシナリオを特に処理し、オブジェクトが遮蔽されている可能性を予測します。

Link to this sectionマルチマスク曖昧性解消#

曖昧な状況(重なり合うオブジェクトなど)では、SAM 2は複数のマスク予測を生成できます。この機能は、単一のマスクではシーンのニュアンスを十分に記述できないような複雑なシーンを正確に表現するために不可欠です。

Link to this sectionSA-Vデータセット#

SAM 2のトレーニング用に開発されたSA-Vデータセットは、利用可能な中で最大かつ最も多様なビデオセグメンテーションデータセットの一つです。以下が含まれています:

  • 51,000本以上のビデオ: 47か国で撮影され、幅広い現実世界のシナリオを提供します。
  • 600,000個以上のマスクアノテーション: 「masklets」と呼ばれる詳細な時空間マスクアノテーションで、オブジェクト全体やパーツをカバーしています。
  • データセット規模: 以前の最大規模のデータセットと比較して4.5倍のビデオと53倍のアノテーションを特徴としており、前例のない多様性と複雑さを提供します。

Link to this sectionベンチマーク#

Link to this sectionビデオオブジェクトセグメンテーション#

SAM 2は、主要なビデオセグメンテーションベンチマーク全体で優れたパフォーマンスを発揮しました:

データセットJ&FJF
DAVIS 201782.579.885.2
YouTube-VOS81.278.983.5

Link to this sectionインタラクティブセグメンテーション#

インタラクティブセグメンテーションタスクにおいて、SAM 2は高い効率と精度を示します:

データセットNoC@90AUC
DAVIS Interactive1.540.872

Link to this sectionインストール#

SAM 2をインストールするには、以下のコマンドを使用してください。すべてのSAM 2モデルは初回使用時に自動的にダウンロードされます。

pip install ultralytics

Link to this sectionSAM 2の使用方法:画像およびビデオセグメンテーションにおける汎用性#

以下の表は、利用可能なSAM 2モデル、その事前学習済みウェイト、サポートされているタスク、および推論バリデーショントレーニングエクスポートといった様々な動作モードとの互換性を詳細に示しています。

モデルタイプ事前学習済みウェイトサポートされているタスク推論 (Inference)バリデーショントレーニングエクスポート
SAM 2 tinysam2_t.ptインスタンスセグメンテーション
SAM 2 smallsam2_s.ptインスタンスセグメンテーション
SAM 2 basesam2_b.ptインスタンスセグメンテーション
SAM 2 largesam2_l.ptインスタンスセグメンテーション
SAM 2.1 tinysam2.1_t.ptインスタンスセグメンテーション
SAM 2.1 smallsam2.1_s.ptインスタンスセグメンテーション
SAM 2.1 basesam2.1_b.ptインスタンスセグメンテーション
SAM 2.1 largesam2.1_l.ptインスタンスセグメンテーション

Link to this sectionSAM 2の予測例#

SAM 2は、リアルタイムビデオ編集、医療画像処理、自律システムなど、幅広いタスクで利用できます。静的および動的な視覚データの両方をセグメント化する能力により、研究者や開発者にとって多目的なツールとなります。

Link to this sectionプロンプトによるセグメンテーション#

プロンプトによるセグメンテーション

プロンプトを使用して、画像や動画内の特定のオブジェクトをセグメント化します。

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Link to this sectionすべてをセグメント化#

すべてをセグメント化

特定のプロンプトなしで、画像や動画のコンテンツ全体をセグメント化します。

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

Link to this section動画のセグメンテーションとオブジェクトのトラッキング#

動画のセグメンテーション

特定のプロンプトを使用して動画のコンテンツ全体をセグメント化し、オブジェクトをトラッキングします。

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])
  • この例では、プロンプト(bbox/点/マスク)が提供されない場合に、SAM 2を使用して画像や動画の全コンテンツをセグメント化する方法を示します。

Link to this section動的な対話型セグメンテーションとトラッキング#

SAM2DynamicInteractivePredictorは、SAM2の高度なトレーニング不要の拡張機能であり、複数フレームとの動的なインタラクションと継続的な学習機能を実現します。この予測器は、画像シーケンス全体でのトラッキング性能を向上させるために、リアルタイムのプロンプト更新とメモリ管理をサポートしています。元のSAM2と比較して、SAM2DynamicInteractivePredictorは推論フローを再構築し、追加のトレーニングを必要とせずに学習済みのSAM2モデルを最大限に活用します。

SAM 2 Example Results

Link to this section主な機能#

以下の3つの重要な拡張機能を提供します:

  1. 動的なインタラクション: 動画処理中であればいつでも、追跡されていない新しいインスタンスの結合や追加のために新しいプロンプトを追加できます。
  2. 継続的な学習: 既存のインスタンスに対して新しいプロンプトを追加することで、時間の経過とともにモデルのパフォーマンスを向上させます。
  3. 独立したマルチ画像サポート: メモリ共有と画像間オブジェクトトラッキングを用いて、複数の独立した画像(動画シーケンスでなくても可)を処理します。

Link to this section主要な機能#

  • プロンプトの柔軟性: プロンプトとしてバウンディングボックス、点、マスクを受け付けます。
  • メモリバンク管理: フレーム間でオブジェクトの状態を保存するために、動的なメモリバンクを維持します。
  • マルチオブジェクトトラッキング: 個別のオブジェクトIDを使用して、複数のオブジェクトを同時にトラッキングすることをサポートします。
  • リアルタイム更新: 前のフレームを再処理することなく、推論中に新しいプロンプトを追加できます。
  • 独立した画像処理: 共有メモリコンテキストを用いて、画像間でのオブジェクト整合性を保ちながら単独の画像を処理します。
動的なオブジェクトの追加
from ultralytics.models.sam import SAM2DynamicInteractivePredictor

# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)

# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)

# Detect this particular object in a new image
results = predictor(source="image2.jpg")

# Add new category with a new object ID
results = predictor(
    source="image4.jpg",
    bboxes=[[300, 300, 400, 400]],  # New object
    obj_ids=[1],  # New object ID
    update_memory=True,  # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")

# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
    source="image6.jpg",
    points=[[150, 150]],  # Refinement point
    labels=[1],  # Positive point
    obj_ids=[1],  # Same object ID
    update_memory=True,  # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")
注意

SAM2DynamicInteractivePredictorはSAM2モデルと連携するように設計されており、SAM2がネイティブにサポートするすべてのbox/point/mask promptsによるカテゴリの追加や調整をサポートします。これは、動画アノテーションや対話型編集タスクなど、オブジェクトが出現したり時間が経過して変化したりするシナリオで特に有用です。

Link to this section引数#

名前デフォルト値データ型説明
max_obj_num3int設定された最大カテゴリ数
update_memoryFalsebool新しいプロンプトでメモリを更新するかどうか
obj_idsNoneList[int]プロンプトに対応するオブジェクトIDのリスト

Link to this sectionユースケース#

SAM2DynamicInteractivePredictorは以下に最適です:

  • シーケンス中に新しいオブジェクトが出現する動画アノテーションワークフロー
  • リアルタイムのオブジェクト追加と調整が必要な対話型動画編集
  • 動的なオブジェクトトラッキングが必要な監視アプリケーション
  • 時系列に沿って解剖学的構造をトラッキングするための医療画像処理
  • 適応型オブジェクト検出とトラッキングが必要な自律型システム
  • 独立した画像間で一貫したオブジェクトセグメンテーションを行うためのマルチ画像データセット
  • 異なるシーン間でオブジェクトをトラッキングする必要がある画像収集分析
  • 多様な画像コンテキストからのメモリを活用するクロスドメインセグメンテーション
  • 最小限の手作業で効率的なデータセット作成を行うための半自動アノテーション

Link to this sectionSAMとYOLOの比較#

ここでは、MetaのSAM 2モデル(最小のSAM2-tバリアントを含む)と、YOLO26n-segを含むUltralyticsセグメンテーションモデルを比較します:

モデルサイズ
(MB)
パラメータ
(M)
速度 (CPU)
(ms/im)
Meta SAM-b37593.741703
Meta SAM2-b16280.828867
Meta SAM2-t78.138.923430
MobileSAM40.710.123802
FastSAM-s with YOLOv8 backbone23.911.858.0
Ultralytics YOLOv8n-seg7.1 (11.0x smaller)3.4 (11.4x less)24.8 (945x faster)
Ultralytics YOLO11n-seg6.2 (12.6x smaller)2.9 (13.4x less)24.3 (964x faster)
Ultralytics YOLO26n-seg6.7 (11.7x smaller)2.7 (14.4x less)25.2 (930x faster)

この比較は、SAMバリアントとYOLOセグメンテーションモデルの間にあるモデルサイズと速度の大きな違いを示しています。SAMは独自の自動セグメンテーション機能を提供しますが、YOLOモデル(特にYOLOv8n-seg、YOLO11n-seg、およびYOLO26n-seg)は、大幅に小型で高速であり、計算効率に優れています。

SAMの速度はPyTorchで、YOLOの速度はONNX Runtimeで測定しました。テストは2025 Apple M4 Air (RAM 16GB) 上で torch==2.10.0, ultralytics==8.4.31, onnxruntime==1.24.4 を使用して実行されました。このテストを再現するには:

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    onnx_path = model.export(format="onnx", dynamic=True)
    model = YOLO(onnx_path)
    model(ASSETS)

Link to this section自動アノテーション:効率的なデータセット作成#

自動アノテーションはSAM 2の強力な機能であり、学習済みモデルを活用してセグメンテーションデータセットを迅速かつ正確に生成できます。この機能は、膨大な手作業なしで大規模かつ高品質なデータセットを作成するのに特に役立ちます。

Link to this sectionSAM 2を使用して自動アノテーションを行う方法#



Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling

SAM 2を使用してデータセットを自動アノテーションするには、この例に従ってください:

自動アノテーションの例
from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")
引数タイプデフォルト説明
datastr必須アノテーションまたはセグメンテーションの対象画像を含むディレクトリへのパス。
det_modelstr'yolo26x.pt'初期オブジェクト検出のためのYOLO検出モデルパス。
sam_modelstr'sam_b.pt'セグメンテーションのためのSAMモデルパス(SAM、SAM 2、MobileSAM、SAM 3の重みをサポート)。
devicestr''計算デバイス(例:'cuda:0'、'cpu'、または自動デバイス検出の場合は'')。
conffloat0.25弱い検出を除外するためのYOLO検出信頼度しきい値。
ioufloat0.45重なっているボックスを除外するためのNMS(Non-Maximum Suppression)のIoUしきい値。
imgszint640画像リサイズのための入力サイズ(32の倍数である必要があります)。
max_detint300メモリ効率のための画像あたりの最大検出数。
classeslist[int]None検出するクラスインデックスのリスト(例:人と自転車の場合は [0, 1])。
output_dirstrNoneアノテーションの保存先ディレクトリ(デフォルト:<data>_auto_annotate_labels の兄弟ディレクトリ)。

この関数は、プロジェクトの加速を目指す研究者や開発者に最適な、高品質なセグメンテーションデータセットの迅速な作成を促進します。

Link to this section制限事項#

SAM 2には強力な点がある一方で、特定の制限事項もあります:

  • トラッキングの安定性: SAM 2は、長いシーケンスや大幅な視点の変化がある場合にオブジェクトの追跡を見失う可能性があります。
  • オブジェクトの混同: このモデルは、特に混雑したシーンにおいて、見た目が似ているオブジェクトを混同することがあります。
  • 複数オブジェクトに対する効率性: オブジェクト間の通信機能がないため、複数のオブジェクトを同時に処理する場合、セグメンテーションの効率が低下します。
  • 詳細の精度: 特に高速移動するオブジェクトにおいて、細かい詳細を見逃す可能性があります。追加のプロンプトである程度この問題に対処できますが、時間的な滑らかさは保証されません。

Link to this section引用と謝辞#

SAM 2が研究や開発の重要な部分を占める場合は、以下の参考文献を使用して引用してください:

引用
@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

この画期的なモデルとデータセットでAIコミュニティに貢献してくれたMeta AIに感謝の意を表します。

Link to this sectionFAQ#

Link to this sectionSAM 2とは何ですか?また、オリジナルのSegment Anything Model(SAM)と比べてどのように改善されていますか?#

SAM 2は、MetaのSegment Anything Model (SAM)の後継であり、画像とビデオの両方で包括的なオブジェクトセグメンテーションを行うために設計された最先端のツールです。リアルタイム処理とゼロショット汎化をサポートする統合されたプロンプト可能なモデルアーキテクチャを通じて、複雑な視覚データを処理することに優れています。SAM 2は、オリジナルのSAMに比べて以下のような改善点を提供します:

  • 統合されたモデルアーキテクチャ: 画像とビデオのセグメンテーション機能を単一のモデルに統合しています。
  • リアルタイムパフォーマンス: 毎秒約44フレームを処理するため、即時のフィードバックが必要なアプリケーションに適しています。
  • ゼロショット汎化: これまで遭遇したことのないオブジェクトをセグメント化でき、多様な視覚領域で役立ちます。
  • 対話的な改善: ユーザーは追加のプロンプトを提供することで、セグメンテーションの結果を繰り返し調整できます。
  • 視覚的課題に対する高度な対応: オブジェクトの遮蔽や再出現といった、ビデオセグメンテーションにおける一般的な課題を管理します。

SAM 2のアーキテクチャと機能の詳細については、SAM 2研究論文をご覧ください。

Link to this sectionSAM 2を使用してリアルタイムビデオセグメンテーションを行うにはどうすればよいですか?#

SAM 2は、プロンプト可能なインターフェースとリアルタイム推論機能を活用することで、リアルタイムビデオセグメンテーションに使用できます。基本的な例は以下の通りです:

プロンプトによるセグメンテーション

プロンプトを使用して、画像や動画内の特定のオブジェクトをセグメント化します。

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

より包括的な使用方法については、SAM 2の使用方法セクションを参照してください。

Link to this sectionSAM 2のトレーニングにはどのデータセットが使用されており、それらはパフォーマンスをどのように向上させますか?#

SAM 2は、利用可能なビデオセグメンテーションデータセットの中で最大かつ最も多様なものの1つであるSA-Vデータセットでトレーニングされています。SA-Vデータセットには以下が含まれます:

  • 51,000本以上のビデオ: 47か国で撮影され、幅広い現実世界のシナリオを提供します。
  • 600,000個以上のマスクアノテーション: 「masklets」と呼ばれる詳細な時空間マスクアノテーションで、オブジェクト全体やパーツをカバーしています。
  • データセットの規模: 以前の最大データセットと比較して4.5倍のビデオと53倍のアノテーションを特徴としており、これまでにない多様性と複雑さを提供します。

この広範なデータセットにより、SAM 2は主要なビデオセグメンテーションベンチマーク全体で優れたパフォーマンスを達成し、ゼロショット汎化機能を強化しています。詳細については、SA-Vデータセットセクションを参照してください。

Link to this sectionSAM 2はビデオセグメンテーションにおける遮蔽やオブジェクトの再出現をどのように処理しますか?#

SAM 2には、ビデオデータにおける時間的な依存関係や遮蔽を管理するための洗練されたメモリメカニズムが含まれています。メモリメカニズムは以下で構成されています:

  • メモリエンコーダとメモリバンク: 過去のフレームから特徴を保存します。
  • メモリ注意モジュール: 保存された情報を利用して、時間経過とともに一貫したオブジェクトトラッキングを維持します。
  • 遮蔽ヘッド: オブジェクトが見えない状況を具体的に処理し、オブジェクトが遮蔽されている可能性を予測します。

このメカニズムにより、オブジェクトが一時的に隠れたり、シーンから出て再び入ったりした場合でも継続性が保証されます。詳細については、メモリメカニズムと遮蔽の取り扱いセクションを参照してください。

Link to this sectionSAM 2はYOLO26のような他のセグメンテーションモデルとどのように比較されますか?#

MetaのSAM2-tやSAM2-bなどのSAM 2モデルは、強力なゼロショットセグメンテーション機能を提供しますが、YOLOモデルと比較して大幅に大きく、低速です。例えば、YOLO26n-segは、CPU上でSAM2-bと比較して約24分の1のサイズであり、1145倍以上高速です。SAM 2は汎用的でプロンプトベースのゼロショットセグメンテーションシナリオで優れていますが、YOLO26は速度、効率、およびNMS不要のエンドツーエンド推論を備えたリアルタイムアプリケーション向けに最適化されており、リソースが制限された環境でのデプロイに適しています。

コメント