SAM 2: Segment Anything Model 2

SAM 진화

SAM 2는 기존의 SAM을 기반으로 비디오 세그멘테이션 기능을 더했습니다. 텍스트 및 이미지 예시 프롬프트를 사용하는 Promptable Concept Segmentation은 SAM 3을 확인하십시오.

Inference with Segment Anything 2 In Colab

Meta의 Segment Anything Model (SAM)의 후속 모델인 SAM 2는 이미지와 비디오 모두에서 포괄적인 객체 세그멘테이션을 위해 설계된 최첨단 도구입니다. 실시간 처리와 제로샷 일반화를 지원하는 통합 프롬프트 기반 모델 아키텍처를 통해 복잡한 시각 데이터를 탁월하게 처리합니다.

Ultralytics 플랫폼에서의 SAM 2

SAM 2.1 models power the smart annotation feature on Ultralytics Platform, enabling click-based segmentation for fast dataset labeling. See the annotation guide for details.

SAM 2 결과 예시

주요 특징



Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉

통합 모델 아키텍처

SAM 2는 이미지 및 비디오 세그멘테이션 기능을 단일 모델로 통합합니다. 이러한 통합을 통해 배포가 간소화되고 다양한 미디어 유형에서 일관된 성능을 제공합니다. 유연한 프롬프트 기반 인터페이스를 활용하여 사용자가 포인트, 바운딩 박스, 마스크 등 다양한 프롬프트 유형을 통해 관심 객체를 지정할 수 있습니다.

실시간 성능

본 모델은 초당 약 44 프레임을 처리하는 실시간 추론 속도를 달성합니다. 이 덕분에 SAM 2는 비디오 편집이나 증강 현실과 같이 즉각적인 피드백이 필요한 애플리케이션에 적합합니다.

제로샷 일반화

SAM 2는 이전에 학습한 적 없는 객체도 세그멘테이션할 수 있으며 강력한 제로샷 일반화 능력을 보여줍니다. 이는 미리 정의된 카테고리로 모든 가능한 객체를 포괄할 수 없는 다양하거나 변화하는 시각 도메인에서 특히 유용합니다.

대화형 개선

사용자는 추가 프롬프트를 제공하여 세그멘테이션 결과를 반복적으로 개선할 수 있으며 이를 통해 출력값에 대한 정밀한 제어가 가능합니다. 이러한 상호작용성은 비디오 어노테이션이나 의료 영상과 같은 분야에서 결과물을 미세 조정하는 데 필수적입니다.

시각적 문제 해결을 위한 고급 기능

SAM 2는 객체 가림(occlusion) 및 재등장과 같은 일반적인 비디오 세그멘테이션 문제를 관리하는 메커니즘을 포함합니다. 정교한 메모리 메커니즘을 사용하여 프레임 전반에 걸쳐 객체를 추적하며 객체가 일시적으로 가려지거나 장면을 나갔다가 다시 들어와도 연속성을 보장합니다.

SAM 2의 아키텍처와 기능에 대한 심층적인 이해를 위해 SAM 2 연구 논문을 살펴보십시오.

성능 및 기술 사양

SAM 2는 다양한 지표에서 이전 모델들을 능가하며 해당 분야의 새로운 벤치마크를 설정했습니다:

지표SAM 2이전 SOTA
대화형 비디오 세그멘테이션최고-
필요한 인간 상호작용3배 감소베이스라인
이미지 세그멘테이션 정확도향상됨SAM
추론 속도6배 빠름SAM

모델 아키텍처

핵심 구성 요소

  • 이미지 및 비디오 인코더: Transformer 기반 아키텍처를 사용하여 이미지와 비디오 프레임 모두에서 고수준 특징을 추출합니다. 이 구성 요소는 각 타임스텝의 시각적 콘텐츠를 이해하는 역할을 합니다.
  • 프롬프트 인코더: 사용자 제공 프롬프트(포인트, 박스, 마스크)를 처리하여 세그멘테이션 작업을 안내합니다. 이를 통해 SAM 2는 사용자 입력에 적응하여 장면 내 특정 객체를 타겟팅할 수 있습니다.
  • 메모리 메커니즘: 메모리 인코더, 메모리 뱅크, 메모리 어텐션 모듈을 포함합니다. 이러한 구성 요소는 과거 프레임의 정보를 함께 저장 및 활용하여 모델이 시간이 지나도 일관된 객체 추적을 유지할 수 있게 합니다.
  • 마스크 디코더: 인코딩된 이미지 특징과 프롬프트를 기반으로 최종 세그멘테이션 마스크를 생성합니다. 비디오의 경우, 메모리 컨텍스트를 사용하여 프레임 전반에 걸친 정확한 추적을 보장합니다.

SAM 2 아키텍처 다이어그램

메모리 메커니즘 및 가림 처리

메모리 메커니즘을 통해 SAM 2는 비디오 데이터의 시간적 의존성과 가림 현상을 처리할 수 있습니다. 객체가 움직이고 상호작용함에 따라 SAM 2는 해당 객체의 특징을 메모리 뱅크에 기록합니다. 객체가 가려지면 모델은 이 메모리에 의존하여 다시 나타날 때의 위치와 외관을 예측할 수 있습니다. 특히 occlusion 헤드는 객체가 보이지 않는 상황을 처리하며 객체가 가려졌을 가능성을 예측합니다.

멀티 마스크 모호성 해결

모호성이 존재하는 상황(예: 객체가 겹치는 경우)에서 SAM 2는 여러 마스크 예측을 생성할 수 있습니다. 이 기능은 단일 마스크만으로는 장면의 뉘앙스를 충분히 설명할 수 없는 복잡한 장면을 정확하게 표현하는 데 중요합니다.

SA-V 데이터셋

SAM 2 학습을 위해 개발된 SA-V 데이터셋은 현재 가장 방대하고 다양한 비디오 세그멘테이션 데이터셋 중 하나입니다. 구성은 다음과 같습니다:

  • 51,000개 이상의 비디오: 47개국에서 촬영되었으며 다양한 실제 시나리오를 제공합니다.
  • 600,000개 이상의 마스크 어노테이션: "masklets"이라 불리는 세밀한 시공간 마스크 어노테이션으로, 전체 객체와 부분을 포함합니다.
  • 데이터셋 규모: 이전 최대 데이터셋보다 4.5배 많은 비디오와 53배 많은 어노테이션을 특징으로 하며 전례 없는 다양성과 복잡성을 제공합니다.

벤치마크

비디오 객체 세그멘테이션

SAM 2는 주요 비디오 세그멘테이션 벤치마크 전반에서 우수한 성능을 입증했습니다:

데이터셋J&FJF
DAVIS 201782.579.885.2
YouTube-VOS81.278.983.5

대화형 세그멘테이션

대화형 세그멘테이션 작업에서 SAM 2는 상당한 효율성과 정확도를 보여줍니다:

데이터셋NoC@90AUC
DAVIS Interactive1.540.872

설치

SAM 2를 설치하려면 다음 명령어를 사용하십시오. 모든 SAM 2 모델은 처음 사용 시 자동으로 다운로드됩니다.

pip install ultralytics

SAM 2 사용 방법: 이미지 및 비디오 세그멘테이션의 다재다능함

다음 표는 사용 가능한 SAM 2 모델, 사전 학습된 가중치, 지원 작업, 그리고 추론, 검증, 학습, 내보내기와 같은 다양한 운영 모드와의 호환성을 상세히 설명합니다.

모델 유형사전 학습된 가중치지원 작업추론검증학습내보내기 (Export)
SAM 2 tinysam2_t.pt인스턴스 세그멘테이션
SAM 2 smallsam2_s.pt인스턴스 세그멘테이션
SAM 2 basesam2_b.pt인스턴스 세그멘테이션
SAM 2 largesam2_l.pt인스턴스 세그멘테이션
SAM 2.1 tinysam2.1_t.pt인스턴스 세그멘테이션
SAM 2.1 smallsam2.1_s.pt인스턴스 세그멘테이션
SAM 2.1 basesam2.1_b.pt인스턴스 세그멘테이션
SAM 2.1 largesam2.1_l.pt인스턴스 세그멘테이션

SAM 2 예측 예시

SAM 2는 실시간 비디오 편집, 의료 영상, 자율 시스템을 포함한 광범위한 작업에서 활용될 수 있습니다. 정적 및 동적 시각 데이터를 모두 세그멘테이션할 수 있는 능력 덕분에 연구자와 개발자 모두에게 다재다능한 도구가 됩니다.

프롬프트로 세그멘테이션

프롬프트로 세그멘테이션

프롬프트를 사용하여 이미지나 비디오의 특정 객체를 세그멘테이션합니다.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

모든 것 세그멘테이션

모든 것 세그멘테이션

특정 프롬프트 없이 전체 이미지 또는 비디오 콘텐츠를 세그멘테이션합니다.

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

비디오 세그멘테이션 및 객체 추적

비디오 세그멘테이션

특정 프롬프트를 사용하여 전체 비디오 콘텐츠를 세그멘테이션하고 객체를 추적합니다.

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])
  • 이 예시는 프롬프트(bbox/포인트/마스크)가 제공되지 않을 경우 SAM 2를 사용하여 이미지나 비디오의 전체 콘텐츠를 세그멘테이션하는 방법을 보여줍니다.

동적 대화형 세그멘테이션 및 추적

SAM2DynamicInteractivePredictor는 SAM2의 고급 학습 불필요 확장 기능으로, 여러 프레임 간의 동적 상호작용과 지속적 학습 기능을 지원합니다. 이 예측기는 이미지 시퀀스 전반에서 향상된 추적 성능을 위해 실시간 프롬프트 업데이트와 메모리 관리를 지원합니다. 기존 SAM2와 비교하여 SAM2DynamicInteractivePredictor는 추가적인 학습 없이 사전 학습된 SAM2 모델을 최대한 활용할 수 있도록 추론 흐름을 재구성합니다.

SAM 2 예시 결과

주요 특징

세 가지 주요 개선 사항을 제공합니다:

  1. 동적 상호작용(Dynamic Interactive): 비디오 처리 중 언제든지 후속 프레임에서 새로운 인스턴스를 병합하거나 추적되지 않은 인스턴스를 추가하기 위해 새로운 프롬프트를 추가할 수 있습니다.
  2. 지속적 학습(Continual Learning): 시간 경과에 따라 모델 성능을 향상시키기 위해 기존 인스턴스에 대한 새로운 프롬프트를 추가할 수 있습니다.
  3. 독립적 다중 이미지 지원(Independent Multi-Image Support): 메모리 공유 및 이미지 간 객체 추적을 사용하여 여러 개의 독립적인 이미지(반드시 비디오 시퀀스일 필요는 없음)를 처리합니다.

핵심 기능

  • 프롬프트 유연성: BBox, 포인트, 마스크를 프롬프트로 허용합니다.
  • 메모리 뱅크 관리: 프레임 전반에 걸쳐 객체 상태를 저장하기 위해 동적 메모리 뱅크를 유지합니다.
  • 다중 객체 추적: 개별 객체 ID를 사용하여 여러 객체를 동시에 추적할 수 있습니다.
  • 실시간 업데이트: 이전 프레임을 다시 처리할 필요 없이 추론 중에 새로운 프롬프트를 추가할 수 있습니다.
  • 독립적 이미지 처리: 이미지 간 객체 일관성을 위해 공유 메모리 컨텍스트를 사용하여 독립형 이미지를 처리합니다.
동적 객체 추가
from ultralytics.models.sam import SAM2DynamicInteractivePredictor

# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)

# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)

# Detect this particular object in a new image
results = predictor(source="image2.jpg")

# Add new category with a new object ID
results = predictor(
    source="image4.jpg",
    bboxes=[[300, 300, 400, 400]],  # New object
    obj_ids=[1],  # New object ID
    update_memory=True,  # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")

# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
    source="image6.jpg",
    points=[[150, 150]],  # Refinement point
    labels=[1],  # Positive point
    obj_ids=[1],  # Same object ID
    update_memory=True,  # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")
참고

SAM2DynamicInteractivePredictor는 SAM2 모델과 함께 작동하도록 설계되었으며, SAM2가 기본적으로 지원하는 모든 박스/포인트/마스크 프롬프트를 통해 카테고리를 추가/정교화하는 것을 지원합니다. 이는 비디오 주석이나 대화형 편집 작업과 같이 객체가 나타나거나 시간이 지남에 따라 변경되는 시나리오에서 특히 유용합니다.

인수

이름기본값데이터 유형설명
max_obj_num3int사전 설정된 최대 카테고리 수
update_memoryFalsebool새로운 프롬프트로 메모리를 업데이트할지 여부
obj_idsNoneList[int]프롬프트에 해당하는 객체 ID 목록

사용 사례

SAM2DynamicInteractivePredictor는 다음에 이상적입니다:

  • 시퀀스 중에 새로운 객체가 나타나는 비디오 주석 워크플로우
  • 실시간 객체 추가 및 정교화가 필요한 대화형 비디오 편집
  • 동적 객체 추적 요구 사항이 있는 감시 애플리케이션
  • 시계열 전반에 걸쳐 해부학적 구조를 추적하기 위한 의료 영상
  • 적응형 객체 감지 및 추적이 필요한 자율 시스템
  • 독립적인 이미지 전반에서 일관된 객체 분할을 위한 다중 이미지 데이터셋
  • 다양한 장면에서 객체를 추적해야 하는 이미지 컬렉션 분석
  • 다양한 이미지 컨텍스트의 메모리를 활용하는 교차 도메인 분할
  • 최소한의 수동 개입으로 효율적인 데이터셋 생성을 위한 반자동 주석

SAM과 YOLO 비교

여기에서는 가장 작은 SAM2-t 변형을 포함한 Meta의 SAM 2 모델을 YOLO26n-seg를 포함한 Ultralytics 분할 모델과 비교합니다:

모델크기
(MB)
매개변수
(M)
속도 (CPU)
(ms/im)
Meta SAM-b37593.741703
Meta SAM2-b16280.828867
Meta SAM2-t78.138.923430
MobileSAM40.710.123802
FastSAM-s with YOLOv8 backbone23.911.858.0
Ultralytics YOLOv8n-seg7.1 (11.0x 작음)3.4 (11.4x 적음)24.8 (945x 빠름)
Ultralytics YOLO11n-seg6.2 (12.6x 작음)2.9 (13.4x 적음)24.3 (964x 빠름)
Ultralytics YOLO26n-seg6.7 (11.7x 작음)2.7 (14.4x 적음)25.2 (930x 빠름)

이 비교는 SAM 변형 모델들과 YOLO 세그멘테이션 모델 간의 모델 크기 및 속도 차이를 보여줍니다. SAM은 독보적인 자동 세그멘테이션 기능을 제공하지만, YOLO 모델, 특히 YOLOv8n-seg, YOLO11n-seg 및 YOLO26n-seg는 훨씬 더 작고 빠르며 계산 효율성이 뛰어납니다.

SAM 속도는 PyTorch로 측정되었으며, YOLO 속도는 ONNX Runtime으로 측정되었습니다. 테스트는 16GB RAM이 탑재된 2025 Apple M4 Air에서 torch==2.10.0, ultralytics==8.4.31, onnxruntime==1.24.4를 사용하여 실행되었습니다. 이 테스트를 재현하려면:

예시
from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    onnx_path = model.export(format="onnx", dynamic=True)
    model = YOLO(onnx_path)
    model(ASSETS)

자동 주석: 효율적인 데이터셋 생성

자동 주석은 SAM 2의 강력한 기능으로, 사용자가 사전 학습된 모델을 활용하여 신속하고 정확하게 분할 데이터셋을 생성할 수 있게 합니다. 이 기능은 광범위한 수동 작업 없이 대규모의 고품질 데이터셋을 만드는 데 특히 유용합니다.

SAM 2로 자동 주석을 다는 방법



Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling

SAM 2를 사용하여 데이터셋에 자동 주석을 달려면 다음 예시를 따르십시오:

자동 주석 예시
from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")
인수(Argument)유형(Type)기본값(Default)설명
datastr필수주석 또는 세그멘테이션을 위한 대상 이미지가 포함된 디렉토리 경로.
det_modelstr'yolo26x.pt'초기 객체 감지를 위한 YOLO 감지 모델 경로.
sam_modelstr'sam_b.pt'세그멘테이션을 위한 SAM 모델 경로(SAM, SAM2 변형 및 MobileSAM 모델 지원).
devicestr''계산 장치(예: 'cuda:0', 'cpu', 또는 자동 장치 감지를 위해 '').
conffloat0.25약한 감지를 필터링하기 위한 YOLO 감지 신뢰도 임계값.
ioufloat0.45겹치는 박스를 필터링하기 위한 NMS(Non-Maximum Suppression) IoU 임계값.
imgszint640이미지 크기 조정을 위한 입력 크기(32의 배수여야 함).
max_detint300메모리 효율성을 위한 이미지당 최대 감지 수.
classeslist[int]None감지할 클래스 인덱스 목록(예: 사람 및 자전거를 위해 [0, 1]).
output_dirstrNone주석 저장 디렉토리(데이터 경로 기준 기본값은 './labels').

이 기능은 프로젝트 속도를 높이려는 연구자와 개발자에게 이상적인 고품질 분할 데이터셋의 빠른 생성을 촉진합니다.

제한 사항

강점에도 불구하고, SAM 2에는 다음과 같은 특정 제한 사항이 있습니다:

  • 추적 안정성: SAM 2는 긴 시퀀스나 상당한 시점 변화 동안 객체 추적을 놓칠 수 있습니다.
  • 객체 혼동: 모델은 특히 혼잡한 장면에서 비슷하게 보이는 객체를 때때로 혼동할 수 있습니다.
  • 다중 객체 효율성: 객체 간 통신이 부족하여 여러 객체를 동시에 처리할 때 분할 효율성이 감소합니다.
  • 세부 정확도: 특히 빠르게 움직이는 객체의 경우 미세한 세부 사항을 놓칠 수 있습니다. 추가 프롬프트로 이 문제를 부분적으로 해결할 수 있지만, 시간적 부드러움은 보장되지 않습니다.

인용 및 감사의 글

SAM 2가 귀하의 연구나 개발 업무에서 중요한 부분이라면 다음 참조를 사용하여 인용해 주십시오:

인용
@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

이 획기적인 모델과 데이터셋으로 AI 커뮤니티에 기여한 Meta AI에 감사를 표합니다.

FAQ

SAM 2란 무엇이며, 원래의 Segment Anything Model(SAM)보다 어떻게 향상되었습니까?

Meta의 Segment Anything Model(SAM)의 후속 제품인 SAM 2는 이미지와 비디오 모두에서 포괄적인 객체 분할을 위해 설계된 최첨단 도구입니다. 이 모델은 실시간 처리와 제로샷 일반화를 지원하는 통합된 프롬프트 가능 모델 아키텍처를 통해 복잡한 시각적 데이터를 처리하는 데 탁월합니다. SAM 2는 다음과 같은 원래 SAM보다 몇 가지 개선 사항을 제공합니다:

  • 통합 모델 아키텍처: 이미지 및 비디오 분할 기능을 단일 모델로 결합합니다.
  • 실시간 성능: 초당 약 44프레임을 처리하여 즉각적인 피드백이 필요한 애플리케이션에 적합합니다.
  • 제로샷 일반화: 이전에 한 번도 본 적 없는 객체를 분할하며, 다양한 시각적 도메인에서 유용합니다.
  • 대화형 정교화: 사용자가 추가 프롬프트를 제공하여 반복적으로 분할 결과를 정교화할 수 있습니다.
  • 고급 시각적 문제 처리: 객체 가림 및 재등장과 같은 일반적인 비디오 분할 문제를 관리합니다.

SAM 2의 아키텍처와 기능에 대한 자세한 내용은 SAM 2 연구 논문을 살펴보십시오.

실시간 비디오 분할에 SAM 2를 어떻게 사용할 수 있습니까?

SAM 2는 프롬프트 가능 인터페이스와 실시간 추론 기능을 활용하여 실시간 비디오 분할에 활용할 수 있습니다. 다음은 기본 예시입니다:

프롬프트로 세그멘테이션

프롬프트를 사용하여 이미지나 비디오의 특정 객체를 세그멘테이션합니다.

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

더 포괄적인 사용법은 SAM 2 사용 방법 섹션을 참조하십시오.

SAM 2를 학습시키는 데 어떤 데이터셋이 사용되며, 어떻게 성능이 향상됩니까?

SAM 2는 사용 가능한 가장 크고 다양한 비디오 분할 데이터셋 중 하나인 SA-V 데이터셋으로 학습됩니다. SA-V 데이터셋에는 다음이 포함됩니다:

  • 51,000개 이상의 비디오: 47개국에서 촬영되었으며 다양한 실제 시나리오를 제공합니다.
  • 600,000개 이상의 마스크 어노테이션: "masklets"이라 불리는 세밀한 시공간 마스크 어노테이션으로, 전체 객체와 부분을 포함합니다.
  • 데이터셋 규모: 이전 최대 데이터셋보다 4.5배 더 많은 비디오와 53배 더 많은 주석을 특징으로 하며, 전례 없는 다양성과 복잡성을 제공합니다.

이 방대한 데이터셋을 통해 SAM 2는 주요 비디오 분할 벤치마크 전반에서 우수한 성능을 달성하고 제로샷 일반화 기능을 향상시킵니다. 자세한 내용은 SA-V 데이터셋 섹션을 참조하십시오.

SAM 2는 비디오 분할에서 가림과 객체 재등장을 어떻게 처리합니까?

SAM 2는 비디오 데이터의 시간적 의존성과 가림을 관리하기 위해 정교한 메모리 메커니즘을 포함합니다. 메모리 메커니즘은 다음으로 구성됩니다:

  • 메모리 인코더 및 메모리 뱅크: 과거 프레임의 특징을 저장합니다.
  • 메모리 어텐션 모듈: 저장된 정보를 활용하여 시간이 지나도 일관된 객체 추적을 유지합니다.
  • 가림 헤드(Occlusion Head): 객체가 보이지 않는 시나리오를 구체적으로 처리하여 객체가 가려질 가능성을 예측합니다.

이 메커니즘은 객체가 일시적으로 가려지거나 장면을 나갔다가 다시 들어올 때에도 연속성을 보장합니다. 자세한 내용은 메모리 메커니즘 및 가림 처리 섹션을 참조하십시오.

SAM 2는 YOLO26과 같은 다른 분할 모델과 어떻게 비교됩니까?

Meta의 SAM2-t 및 SAM2-b와 같은 SAM 2 모델은 강력한 제로샷 분할 기능을 제공하지만 YOLO 모델에 비해 훨씬 크고 느립니다. 예를 들어, YOLO26n-seg는 CPU에서 SAM2-b보다 약 24배 더 작고 1145배 이상 더 빠릅니다. SAM 2는 다재다능한 프롬프트 기반의 제로샷 분할 시나리오에서 뛰어나지만, YOLO26은 NMS가 없는 엔드투엔드 추론으로 속도, 효율성 및 실시간 애플리케이션에 최적화되어 리소스가 제한된 환경에서의 배포에 더 적합합니다.

댓글