MobileSAM 로고

모바일 세그먼트 애니씽 (MobileSAM)

Q: What is MobileSAM and how does it differ from the original SAM model?

MobileSAM 는 모바일 애플리케이션용으로 설계된 가볍고 빠른 이미지 분할 모델입니다. 기존 SAM 과 동일한 파이프라인을 유지하지만 무거운 ViT-H 인코더(632M 파라미터)를 더 작은 Tiny-ViT 인코더(5M 파라미터)로 대체합니다. 이러한 변경으로 인해 MobileSAM 은 기존 SAM 보다 약 5배 작고 7배 빨라졌습니다. 예를 들어, MobileSAM 은 이미지당 약 12ms로 작동하는 반면, 기존 SAM 은 456ms로 작동합니다. 다양한 프로젝트에서 MobileSAM 구현에 대해 자세히 알아보려면 여기를 참조하세요.

MobileSAM 논문은 현재 arXiv에서 확인할 수 있습니다.

CPU 에서 실행되는 MobileSAM 데모는 이 데모 링크에서 확인할 수 있습니다. Mac i5 CPU 에서의 성능은 약 3초가 소요됩니다. Hugging Face 데모에서는 인터페이스와 저성능 CPU로 인해 응답 속도가 느려지지만 여전히 효과적으로 작동합니다.

Watch: Ultralytics | 단계별 가이드 🎉를 사용하여 추론을 실행하는 방법 MobileSAM

MobileSAM 접지( SAM ) , 애니라벨링, 3D 세그먼트 애니씽 등 다양한 프로젝트에서 구현되고 있습니다.

MobileSAM 는 100,000개의 데이터 세트(원본 이미지의 1%)로 구성된 단일 GPU 에 대해 하루도 채 걸리지 않고 학습되었습니다. 이 훈련에 대한 코드는 향후 공개될 예정입니다.

사용 가능한 모델, 지원되는 작업 및 작동 모드

이 표에는 사용 가능한 모델과 함께 특정 사전 학습된 가중치, 지원되는 작업, 추론, 검증, 학습 및 내보내기와 같은 다양한 작동 모드와의 호환성이 표시되어 있으며, 지원되는 모드의 경우 ✅ 이모티콘, 지원되지 않는 모드의 경우 ❌ 이모티콘으로 표시되어 있습니다.

모델 유형	사전 학습된 가중치	지원되는 작업	추론	유효성 검사	교육	내보내기
MobileSAM	mobile_sam.pt	인스턴스 세분화	✅	❌	❌	❌

SAM 에서 MobileSAM

MobileSAM 은 원본 SAM 과 동일한 파이프라인을 유지하므로 원본의 전처리, 후처리 및 기타 모든 인터페이스를 통합했습니다. 따라서 현재 원본 SAM 을 사용 중인 사용자는 최소한의 노력으로 MobileSAM 으로 전환할 수 있습니다.

MobileSAM 는 이미지 인코더의 변경을 제외하고는 동일한 파이프라인을 유지하면서 기존 SAM 과 비슷한 성능을 발휘합니다. 특히, 기존의 무거운 ViT-H 인코더(632M)를 더 작은 Tiny-ViT(5M)로 교체했습니다. 단일 GPU, MobileSAM 에서 이미지당 약 12ms로 작동합니다: 이미지 인코더에서 8ms, 마스크 디코더에서 4ms입니다.

다음 표는 ViT 기반 이미지 인코더를 비교한 것입니다:

이미지 인코더	원본 SAM	MobileSAM
매개변수	611M	5M
속도	452ms	8ms

원본 SAM 및 MobileSAM 모두 동일한 프롬프트 안내 마스크 디코더를 사용합니다:

마스크 디코더	원본 SAM	MobileSAM
매개변수	3.876M	3.876M
속도	4ms	4ms

다음은 전체 파이프라인을 비교한 것입니다:

전체 파이프라인(Enc+Dec)	원본 SAM	MobileSAM
매개변수	615M	9.66M
속도	456ms	12ms

MobileSAM 및 원본 SAM 의 성능은 점과 상자를 모두 프롬프트로 사용하여 시연합니다.

포인트가 있는 이미지를 프롬프트로 표시

상자를 프롬프트로 사용하는 이미지

우수한 성능을 갖춘 MobileSAM 은 현재 FastSAM 보다 약 5배 작고 7배 빠릅니다. 자세한 내용은 MobileSAM 프로젝트 페이지에서 확인할 수 있습니다.

테스트 MobileSAM Ultralytics

기존 SAM 과 마찬가지로 Ultralytics 에서 포인트 및 박스 프롬프트 모드를 포함한 간단한 테스트 방법을 제공합니다.

모델 다운로드

여기에서 모델을 다운로드할 수 있습니다.

포인트 프롬프트

예

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict multiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

상자 프롬프트

예

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict mutiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

우리는 구현했습니다 MobileSAM 그리고 SAM 동일한 API를 사용합니다. 자세한 사용 정보는 SAM 페이지.

인용 및 감사

연구 또는 개발 작업에 MobileSAM 이 유용하다고 생각되면 저희 논문을 인용해 주세요:

BibTeX

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}

자주 묻는 질문

MobileSAM 이란 무엇이며 기존 SAM 모델과 어떻게 다른가요?

MobileSAM 는 모바일 애플리케이션용으로 설계된 가볍고 빠른 이미지 분할 모델입니다. 이 모델은 기존 SAM 과 동일한 파이프라인을 유지하지만 무거운 ViT-H 인코더(632M 매개변수)를 더 작은 Tiny-ViT 인코더(5M 매개변수)로 대체합니다. 이러한 변경으로 인해 MobileSAM 은 기존 SAM 보다 약 5배 작고 7배 빨라졌습니다. 예를 들어, MobileSAM 은 이미지당 약 12ms로 작동하는 반면, 기존 SAM 은 456ms로 작동합니다. 다양한 프로젝트에서 MobileSAM 구현에 대해 자세히 알아보려면 여기를 참조하세요.

Ultralytics 을 사용하여 MobileSAM 테스트하려면 어떻게 해야 하나요?

Ultralytics 에서 MobileSAM 테스트는 간단한 방법으로 수행할 수 있습니다. 포인트 및 박스 프롬프트를 사용하여 세그먼트를 예측할 수 있습니다. 다음은 포인트 프롬프트를 사용하는 예제입니다:

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

자세한 내용은 테스트 MobileSAM 섹션을 참조하세요.

모바일 애플리케이션에 MobileSAM 을 사용해야 하는 이유는 무엇인가요?

MobileSAM 는 가벼운 아키텍처와 빠른 추론 속도로 인해 모바일 애플리케이션에 이상적입니다. 기존 SAM 과 비교하면 MobileSAM 은 약 5배 작고 7배 빠르므로 컴퓨팅 리소스가 제한된 환경에 적합합니다. 이러한 효율성 덕분에 모바일 디바이스에서 상당한 지연 시간 없이 실시간 이미지 분할을 수행할 수 있습니다. 또한 MobileSAM 의 추론과 같은 모델은 모바일 성능에 최적화되어 있습니다.

MobileSAM 교육은 어떻게 진행되었으며, 교육 코드를 사용할 수 있나요?

MobileSAM 는 원본 이미지의 1%에 해당하는 10만 개의 데이터셋으로 하루도 안 되는 시간 내에 단일 GPU 로 학습되었습니다. 트레이닝 코드는 향후 제공될 예정이지만, 현재는 MobileSAM GitHub 리포지토리에서 MobileSAM 의 다른 측면을 살펴볼 수 있습니다. 이 리포지토리에는 다양한 애플리케이션을 위한 사전 학습된 가중치와 구현 세부 정보가 포함되어 있습니다.

MobileSAM 의 주요 사용 사례는 무엇인가요?

MobileSAM 는 모바일 환경에서 빠르고 효율적인 이미지 분할을 위해 설계되었습니다. 주요 사용 사례는 다음과 같습니다:

모바일 애플리케이션을 위한 실시간 객체 감지 및 세분화.
컴퓨팅 리소스가 제한된 기기에서 지연 시간이 짧은 이미지 처리.
증강 현실(AR) 및 실시간 분석과 같은 작업을 위해 AI 기반 모바일 앱에 통합합니다.

자세한 사용 사례와 성능 비교는 SAM 에서 MobileSAM 으로의 적응 섹션을 참조하세요.

📅1 년 전 생성됨 ✏️ 2개월 전 업데이트됨