Link to this sectionSAM 2: Segment Anything Model 2#
Meta의 Segment Anything Model (SAM)의 후속 모델인 SAM 2는 이미지와 비디오 모두에서 포괄적인 객체 분할을 위해 설계된 최첨단 도구입니다. 이 모델은 실시간 처리와 제로샷 일반화를 지원하는 통합된 프롬프트 기반 아키텍처를 통해 복잡한 시각적 데이터를 효과적으로 처리합니다.
SAM 2.1 models power the smart annotation feature on Ultralytics Platform, enabling click-based segmentation for fast dataset labeling. See the annotation guide for details.

Link to this section주요 기능#
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Link to this section통합 모델 아키텍처#
SAM 2는 이미지와 비디오 분할 기능을 하나의 모델로 결합합니다. 이러한 통합을 통해 배포가 간소화되고 다양한 미디어 유형 전반에서 일관된 성능을 제공합니다. 또한 유연한 프롬프트 기반 인터페이스를 활용하여 사용자가 포인트, BBox 또는 마스크와 같은 다양한 프롬프트 유형을 통해 관심 객체를 지정할 수 있습니다.
Link to this section실시간 성능#
이 모델은 초당 약 44프레임을 처리하는 실시간 추론 속도를 달성합니다. 덕분에 SAM 2는 비디오 편집 및 증강 현실과 같이 즉각적인 피드백이 필요한 애플리케이션에 적합합니다.
Link to this section제로샷 일반화#
SAM 2는 이전에 학습한 적 없는 객체도 분할할 수 있으며 강력한 제로샷 일반화 성능을 보여줍니다. 이는 사전 정의된 범주가 모든 가능한 객체를 포괄할 수 없는 다양하고 진화하는 시각적 도메인에서 특히 유용합니다.
Link to this section대화형 개선#
사용자는 추가 프롬프트를 제공하여 분할 결과를 반복적으로 개선할 수 있으며 이를 통해 출력물에 대한 정밀한 제어가 가능합니다. 이러한 상호작용성은 비디오 주석이나 의료 영상과 같은 애플리케이션에서 결과를 미세 조정하는 데 필수적입니다.
Link to this section시각적 문제에 대한 고급 처리#
SAM 2에는 객체 가림(occlusion) 및 재등장과 같은 일반적인 비디오 분할 문제를 관리하는 메커니즘이 포함되어 있습니다. 정교한 메모리 메커니즘을 사용하여 프레임 전반에 걸쳐 객체를 추적하며 객체가 일시적으로 가려지거나 장면을 나갔다 다시 들어오더라도 연속성을 유지합니다.
SAM 2의 아키텍처와 기능에 대한 자세한 이해를 원하시면 SAM 2 연구 논문을 살펴보십시오.
Link to this section성능 및 기술 세부 정보#
SAM 2는 다양한 지표에서 이전 모델들을 능가하며 해당 분야의 새로운 벤치마크를 설정합니다:
| 지표 | SAM 2 | 이전 SOTA |
|---|---|---|
| 대화형 비디오 분할 | 최고 | - |
| 필요한 인간 상호작용 | 3배 감소 | 기준치 |
| 이미지 분할 정확도 | 향상됨 | SAM |
| 추론 속도 | 6배 빠름 | SAM |
Link to this section모델 아키텍처#
Link to this section핵심 구성 요소#
- 이미지 및 비디오 인코더: Transformer 기반 아키텍처를 활용하여 이미지와 비디오 프레임 모두에서 고수준 특징을 추출합니다. 이 구성 요소는 각 시점의 시각적 내용을 이해하는 역할을 합니다.
- 프롬프트 인코더: 사용자가 제공한 프롬프트(포인트, BBox, 마스크)를 처리하여 분할 작업을 안내합니다. 이를 통해 SAM 2는 사용자 입력에 적응하고 장면 내의 특정 객체를 타겟팅할 수 있습니다.
- 메모리 메커니즘: 메모리 인코더, 메모리 뱅크, 메모리 어텐션 모듈을 포함합니다. 이러한 구성 요소들은 과거 프레임의 정보를 집합적으로 저장하고 활용하여 모델이 시간이 지나도 일관된 객체 추적을 유지할 수 있도록 합니다.
- 마스크 디코더: 인코딩된 이미지 특징과 프롬프트를 기반으로 최종 분할 마스크를 생성합니다. 비디오의 경우 메모리 컨텍스트를 사용하여 프레임 전반에 걸쳐 정확한 추적을 보장합니다.

Link to this section메모리 메커니즘 및 가림 처리#
메모리 메커니즘을 통해 SAM 2는 비디오 데이터의 시간적 종속성과 가림 문제를 처리할 수 있습니다. 객체가 이동하고 상호작용함에 따라 SAM 2는 그 특징들을 메모리 뱅크에 기록합니다. 객체가 가려지면 모델은 이 메모리에 의존하여 객체가 다시 나타날 때 위치와 외형을 예측할 수 있습니다. 가림 헤드(occlusion head)는 객체가 보이지 않는 상황을 특별히 처리하여 객체가 가려졌을 가능성을 예측합니다.
Link to this section다중 마스크 모호성 해결#
모호성이 있는 상황(예: 겹치는 객체)에서 SAM 2는 여러 개의 마스크 예측을 생성할 수 있습니다. 이 기능은 단일 마스크로는 장면의 미묘한 차이를 충분히 설명할 수 없는 복잡한 장면을 정확하게 표현하는 데 매우 중요합니다.
Link to this sectionSA-V 데이터셋#
SAM 2 학습을 위해 개발된 SA-V 데이터셋은 현재 사용 가능한 가장 크고 다양한 비디오 분할 데이터셋 중 하나입니다. 다음을 포함합니다:
- 51,000개 이상의 비디오: 47개국에서 촬영되어 광범위한 실제 시나리오를 제공합니다.
- 600,000개 이상의 마스크 주석: "masklets"라고 불리는 상세한 시공간 마스크 주석으로 객체 전체와 부분을 포함합니다.
- 데이터셋 규모: 이전 최대 데이터셋 대비 4.5배 더 많은 비디오와 53배 더 많은 주석을 제공하여 전례 없는 다양성과 복잡성을 제공합니다.
Link to this section벤치마크#
Link to this section비디오 객체 분할#
SAM 2는 주요 비디오 분할 벤치마크 전반에서 우수한 성능을 입증했습니다:
| 데이터셋 | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Link to this section대화형 분할#
대화형 분할 작업에서 SAM 2는 상당한 효율성과 정확도를 보여줍니다:
| 데이터셋 | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Link to this section설치#
SAM 2를 설치하려면 다음 명령어를 사용하십시오. 모든 SAM 2 모델은 처음 사용할 때 자동으로 다운로드됩니다.
pip install ultralyticsLink to this sectionSAM 2 사용 방법: 이미지 및 비디오 분할의 다재다능함#
다음 표는 사용 가능한 SAM 2 모델, 사전 학습된 가중치, 지원되는 작업 및 추론, 검증, 학습, 내보내기와 같은 다양한 운영 모드와의 호환성에 대한 세부 정보를 제공합니다.
| 모델 유형 | 사전 학습된 가중치 | 지원되는 작업 | 추론(Inference) | 검증 | 학습 | 내보내기 (Export) |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | 인스턴스 분할 | ✅ | ❌ | ❌ | ❌ |
Link to this sectionSAM 2 예측 예시#
SAM 2는 실시간 비디오 편집, 의료 영상, 자율 시스템을 포함한 광범위한 작업 전반에 걸쳐 활용될 수 있습니다. 정적 및 동적 시각 데이터를 모두 분할하는 능력은 연구자와 개발자에게 매우 다재다능한 도구를 제공합니다.
Link to this section프롬프트 기반 분할#
프롬프트를 사용하여 이미지나 비디오 내 특정 객체를 분할합니다.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Link to this section전체 분할#
특정 프롬프트 없이 이미지나 비디오 콘텐츠 전체를 분할합니다.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Link to this section비디오 분할 및 객체 추적#
특정 프롬프트를 사용하여 비디오 콘텐츠 전체를 분할하고 객체를 추적합니다.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- 이 예제는 프롬프트(bboxes/points/masks)가 제공되지 않을 경우 SAM 2를 사용하여 이미지나 비디오의 전체 콘텐츠를 분할하는 방법을 보여줍니다.
Link to this section동적 대화형 분할 및 추적#
SAM2DynamicInteractivePredictor는 SAM 2의 고급 학습 불필요 확장 모델로, 여러 프레임 간의 동적 상호 작용과 지속적 학습 기능을 지원합니다. 이 예측기는 실시간 프롬프트 업데이트와 메모리 관리를 지원하여 이미지 시퀀스 전반에서 추적 성능을 향상시킵니다. 기존 SAM 2와 비교하여, SAM2DynamicInteractivePredictor는 추론 흐름을 재구성하여 추가 학습 없이도 사전 학습된 SAM 2 모델을 최적으로 활용할 수 있게 합니다.

Link to this section주요 기능#
이는 세 가지 주요 개선 사항을 제공합니다:
- 동적 대화형: 비디오 처리 중 언제든지 후속 프레임에서 새로운 인스턴스를 병합하거나 추적되지 않은 인스턴스를 추가하기 위한 새로운 프롬프트를 추가할 수 있습니다.
- 지속적 학습: 시간이 지남에 따라 모델 성능을 향상시키기 위해 기존 인스턴스에 대한 새로운 프롬프트를 추가할 수 있습니다.
- 독립적 다중 이미지 지원: 메모리 공유 및 이미지 간 객체 추적 기능을 사용하여 여러 개의 독립적인 이미지(비디오 시퀀스가 아닐 수 있음)를 처리합니다.
Link to this section핵심 기능#
- 프롬프트 유연성: BBox, 포인트, 마스크를 프롬프트로 허용합니다.
- 메모리 뱅크 관리: 프레임 전반에서 객체 상태를 저장하기 위해 동적 메모리 뱅크를 유지합니다.
- 다중 객체 추적: 개별 객체 ID를 통해 여러 객체를 동시에 추적하는 것을 지원합니다.
- 실시간 업데이트: 이전 프레임을 재처리하지 않고도 추론 중에 새로운 프롬프트를 추가할 수 있습니다.
- 독립적 이미지 처리: 이미지 간 객체 일관성을 위해 공유 메모리 컨텍스트를 사용하여 독립적인 이미지를 처리합니다.
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")SAM2DynamicInteractivePredictor는 SAM 2 모델과 함께 작동하도록 설계되었으며, SAM 2가 지원하는 모든 box/point/mask 프롬프트를 통해 카테고리를 추가/수정하는 것을 기본적으로 지원합니다. 이는 비디오 주석 작업이나 대화형 편집 작업과 같이 객체가 시간에 따라 나타나거나 변화하는 시나리오에 특히 유용합니다.
Link to this section인수#
| 이름 | 기본값 | 데이터 유형 | 설명 |
|---|---|---|---|
max_obj_num | 3 | int | 사전 설정된 최대 카테고리 수 |
update_memory | False | bool | 새로운 프롬프트로 메모리를 업데이트할지 여부 |
obj_ids | None | List[int] | 프롬프트에 해당하는 객체 ID 목록 |
Link to this section사용 사례#
SAM2DynamicInteractivePredictor는 다음에 이상적입니다:
- 시퀀스 중에 새로운 객체가 나타나는 비디오 주석 워크플로우
- 실시간 객체 추가 및 수정이 필요한 대화형 비디오 편집
- 동적 객체 추적 요구 사항이 있는 감시 애플리케이션
- 시계열 전체에서 해부학적 구조를 추적하기 위한 의료 영상
- 적응형 객체 탐지 및 추적이 필요한 자율 시스템
- 독립적인 이미지 간 일관된 객체 분할을 위한 다중 이미지 데이터셋
- 서로 다른 장면에서 객체를 추적해야 하는 이미지 컬렉션 분석
- 다양한 이미지 컨텍스트의 메모리를 활용하는 도메인 간 분할
- 최소한의 수동 개입으로 효율적인 데이터셋 생성을 위한 반자동 주석
Link to this sectionSAM과 YOLO 비교#
여기에서는 가장 작은 SAM 2-t 변형을 포함한 Meta의 SAM 2 모델을 YOLO26n-seg를 포함한 Ultralytics 분할 모델과 비교합니다:
| 모델 | 크기 (MB) | 파라미터 (M) | 속도 (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM 2-b | 162 | 80.8 | 28867 |
| Meta SAM 2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s with YOLOv8 backbone | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (11.0배 작음) | 3.4 (11.4배 적음) | 24.8 (945배 빠름) |
| Ultralytics YOLO11n-seg | 6.2 (12.6배 작음) | 2.9 (13.4배 적음) | 24.3 (964배 빠름) |
| Ultralytics YOLO26n-seg | 6.7 (11.7배 작음) | 2.7 (14.4배 적음) | 25.2 (930배 빠름) |
이 비교는 SAM 변형 모델과 YOLO 분할 모델 간의 모델 크기 및 속도 차이를 명확히 보여줍니다. SAM은 고유한 자동 분할 기능을 제공하지만, YOLO 모델(특히 YOLOv8n-seg, YOLO11n-seg, YOLO26n-seg)은 훨씬 더 작고 빠르며 컴퓨팅 효율성이 뛰어납니다.
SAM 속도는 PyTorch로 측정되었으며, YOLO 속도는 ONNX Runtime으로 측정되었습니다. 테스트는 16GB RAM이 탑재된 2025 Apple M4 Air에서 torch==2.10.0, ultralytics==8.4.31, onnxruntime==1.24.4를 사용하여 수행되었습니다. 이 테스트를 재현하려면 다음을 참조하십시오:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Link to this section자동 주석: 효율적인 데이터셋 생성#
자동 주석은 SAM 2의 강력한 기능으로, 사용자가 사전 학습된 모델을 활용하여 분할 데이터셋을 빠르고 정확하게 생성할 수 있도록 합니다. 이 기능은 광범위한 수동 노력 없이 대규모의 고품질 데이터셋을 만드는 데 특히 유용합니다.
Link to this sectionSAM 2로 자동 주석을 다는 방법#
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
SAM 2를 사용하여 데이터셋에 자동 주석을 달려면 이 예제를 따르십시오:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| 인수 | 유형 | 기본값 | 설명 |
|---|---|---|---|
data | str | 필수 | 주석 또는 분할할 대상 이미지가 포함된 디렉토리 경로. |
det_model | str | 'yolo26x.pt' | 초기 객체 탐지를 위한 YOLO 탐지 모델 경로. |
sam_model | str | 'sam_b.pt' | 분할을 위한 SAM 모델 경로 (SAM, SAM 2, MobileSAM, SAM 3 가중치 지원). |
device | str | '' | 계산 장치 (예: 'cuda:0', 'cpu', 또는 자동 장치 탐지를 위한 ''). |
conf | float | 0.25 | 약한 탐지를 필터링하기 위한 YOLO 탐지 신뢰도 임계값. |
iou | float | 0.45 | 겹치는 박스를 필터링하기 위한 NMS(Non-Maximum Suppression) IoU 임계값입니다. |
imgsz | int | 640 | 이미지 크기 조정에 필요한 입력 크기입니다(32의 배수여야 합니다). |
max_det | int | 300 | 메모리 효율성을 위해 이미지당 최대 탐지 개수를 설정합니다. |
classes | list[int] | None | 탐지할 클래스 인덱스 목록입니다(예: 사람과 자전거를 위한 [0, 1]). |
output_dir | str | None | 어노테이션을 저장할 디렉토리입니다(기본값: <data>_auto_annotate_labels 하위 폴더). |
이 기능은 연구자와 개발자가 프로젝트를 가속화할 수 있도록 고품질 세그멘테이션 데이터셋을 빠르게 생성하는 것을 지원합니다.
Link to this section제한 사항#
강점에도 불구하고 SAM 2는 다음과 같은 제한 사항이 있습니다:
- 추적 안정성: SAM 2는 긴 시퀀스나 급격한 시점 변화가 발생할 경우 객체 추적을 놓칠 수 있습니다.
- 객체 혼동: 모델이 때때로 비슷하게 생긴 객체들을 혼동할 수 있으며, 특히 복잡한 장면에서 더 두드러집니다.
- 다중 객체 효율성: 객체 간 상호 통신이 부족하여 여러 객체를 동시에 처리할 때 세그멘테이션 효율성이 저하됩니다.
- 세부 정확도: 특히 빠르게 움직이는 객체의 경우 세부 사항을 놓칠 수 있습니다. 추가 프롬프트를 통해 이 문제를 부분적으로 해결할 수 있지만, 시간적 부드러움은 보장되지 않습니다.
Link to this section인용 및 감사의 글#
SAM 2가 귀하의 연구나 개발 업무에 중요한 역할을 한다면, 다음 참조를 사용하여 인용해 주십시오:
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}이 혁신적인 모델과 데이터셋으로 AI 커뮤니티에 기여한 Meta AI에 감사를 표합니다.
Link to this sectionFAQ#
Link to this sectionSAM 2란 무엇이며, 원래의 Segment Anything Model(SAM)에 비해 어떻게 개선되었습니까?#
Meta의 Segment Anything Model (SAM)의 후속 모델인 SAM 2는 이미지와 비디오 모두에서 포괄적인 객체 세그멘테이션을 수행하도록 설계된 최첨단 도구입니다. 실시간 처리와 제로샷 일반화를 지원하는 통합된 프롬프트 가능 모델 아키텍처를 통해 복잡한 시각 데이터를 처리하는 데 탁월합니다. SAM 2는 기존 SAM 대비 다음과 같은 개선 사항을 제공합니다:
- 통합 모델 아키텍처: 이미지와 비디오 세그멘테이션 기능을 하나의 모델에 결합했습니다.
- 실시간 성능: 초당 약 44프레임을 처리하여 즉각적인 피드백이 필요한 애플리케이션에 적합합니다.
- 제로샷 일반화: 이전에 본 적 없는 객체도 세그멘테이션할 수 있어 다양한 시각적 영역에서 유용합니다.
- 대화형 개선: 사용자가 추가 프롬프트를 제공하여 세그멘테이션 결과를 반복적으로 개선할 수 있습니다.
- 시각적 도전 과제에 대한 고급 처리: 객체 가림 및 재등장과 같은 일반적인 비디오 세그멘테이션 문제를 관리합니다.
SAM 2의 아키텍처와 기능에 대한 자세한 내용은 SAM 2 연구 논문을 확인하십시오.
Link to this section실시간 비디오 세그멘테이션을 위해 SAM 2를 어떻게 사용할 수 있습니까?#
SAM 2는 프롬프트 기반 인터페이스와 실시간 추론 기능을 활용하여 실시간 비디오 세그멘테이션에 사용할 수 있습니다. 다음은 기본 예제입니다:
프롬프트를 사용하여 이미지나 비디오 내 특정 객체를 분할합니다.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])더 자세한 사용 방법은 SAM 2 사용 방법 섹션을 참조하십시오.
Link to this sectionSAM 2 학습에는 어떤 데이터셋이 사용되며, 성능은 어떻게 향상됩니까?#
SAM 2는 현재 가장 크고 다양한 비디오 세그멘테이션 데이터셋 중 하나인 SA-V 데이터셋으로 학습되었습니다. SA-V 데이터셋은 다음을 포함합니다:
- 51,000개 이상의 비디오: 47개국에서 촬영되어 광범위한 실제 시나리오를 제공합니다.
- 600,000개 이상의 마스크 주석: "masklets"라고 불리는 상세한 시공간 마스크 주석으로 객체 전체와 부분을 포함합니다.
- 데이터셋 규모: 이전 최대 데이터셋 대비 4.5배 더 많은 비디오와 53배 더 많은 어노테이션을 포함하여 전례 없는 다양성과 복잡성을 제공합니다.
이 방대한 데이터셋을 통해 SAM 2는 주요 비디오 세그멘테이션 벤치마크 전반에서 뛰어난 성능을 달성하고 제로샷 일반화 능력을 향상시킵니다. 자세한 내용은 SA-V 데이터셋 섹션을 참조하십시오.
Link to this sectionSAM 2는 비디오 세그멘테이션에서 가림(occlusion)과 객체 재등장을 어떻게 처리합니까?#
SAM 2에는 비디오 데이터의 시간적 종속성과 가림 문제를 관리하기 위한 정교한 메모리 메커니즘이 포함되어 있습니다. 메모리 메커니즘은 다음으로 구성됩니다:
- 메모리 인코더 및 메모리 뱅크: 과거 프레임의 특징(features)을 저장합니다.
- 메모리 어텐션 모듈: 저장된 정보를 활용하여 시간 흐름에 따라 일관된 객체 추적을 유지합니다.
- 가림 헤드: 객체가 보이지 않는 상황을 특별히 처리하며, 객체가 가려질 가능성을 예측합니다.
이 메커니즘은 객체가 일시적으로 가려지거나 화면 밖으로 나갔다가 다시 들어올 때도 연속성을 보장합니다. 자세한 내용은 메모리 메커니즘 및 가림 처리 섹션을 참조하십시오.
Link to this sectionSAM 2는 YOLO26과 같은 다른 세그멘테이션 모델과 어떻게 비교됩니까?#
Meta의 SAM2-t 및 SAM2-b와 같은 SAM 2 모델은 강력한 제로샷 세그멘테이션 기능을 제공하지만, YOLO 모델에 비해 상당히 크고 속도가 느립니다. 예를 들어, YOLO26n-seg는 CPU에서 SAM2-b보다 약 24배 더 작고 1145배 이상 빠릅니다. SAM 2는 다재다능하고 프롬프트 기반의 제로샷 세그멘테이션 시나리오에서 뛰어나지만, YOLO26은 속도, 효율성 및 NMS가 필요 없는 엔드 투 엔드 실시간 추론에 최적화되어 리소스가 제한된 환경 배포에 더 적합합니다.