์ฝ˜ํ…์ธ ๋กœ ๊ฑด๋„ˆ๋›ฐ๊ธฐ

MobileSAM ๋กœ๊ณ 

๋ชจ๋ฐ”์ผ ์„ธ๊ทธ๋จผํŠธ ์• ๋‹ˆ์”ฝ (MobileSAM)

MobileSAM ๋…ผ๋ฌธ์€ ํ˜„์žฌ arXiv์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐ๋ชจ ๋งํฌ์—์„œ CPU์—์„œ ์‹คํ–‰๋˜๋Š” MobileSAM ๋ฐ๋ชจ์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Mac i5 CPU์—์„œ์˜ ์„ฑ๋Šฅ์€ ์•ฝ 3์ดˆ๊ฐ€ ์†Œ์š”๋ฉ๋‹ˆ๋‹ค. Hugging Face ๋ฐ๋ชจ์—์„œ๋Š” ์ธํ„ฐํŽ˜์ด์Šค์™€ ์ €์„ฑ๋Šฅ CPU๋กœ ์ธํ•ด ์‘๋‹ต ์†๋„๊ฐ€ ๋Š๋ ค์ง€์ง€๋งŒ ์—ฌ์ „ํžˆ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

MobileSAM ์ ‘์ง€( SAM ) , ์• ๋‹ˆ๋ผ๋ฒจ๋ง, 3D ์„ธ๊ทธ๋จผํŠธ ์• ๋‹ˆ์”ฝ ๋“ฑ ๋‹ค์–‘ํ•œ ํ”„๋กœ์ ํŠธ์—์„œ ๊ตฌํ˜„๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

MobileSAM ๋Š” ๋‹จ์ผ GPU์—์„œ 100๋งŒ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ(์›๋ณธ ์ด๋ฏธ์ง€์˜ 1%)๋กœ ํ•˜๋ฃจ๋„ ์ฑ„ ๊ฑธ๋ฆฌ์ง€ ์•Š๊ณ  ํ•™์Šต๋ฉ๋‹ˆ๋‹ค. ์ด ํ›ˆ๋ จ์— ๋Œ€ํ•œ ์ฝ”๋“œ๋Š” ํ–ฅํ›„ ๊ณต๊ฐœ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ, ์ง€์›๋˜๋Š” ์ž‘์—… ๋ฐ ์ž‘๋™ ๋ชจ๋“œ

์ด ํ‘œ์—๋Š” ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๊ณผ ํ•จ๊ป˜ ํŠน์ • ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜, ์ง€์›๋˜๋Š” ์ž‘์—…, ์ถ”๋ก , ๊ฒ€์ฆ, ํ•™์Šต ๋ฐ ๋‚ด๋ณด๋‚ด๊ธฐ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘๋™ ๋ชจ๋“œ์™€์˜ ํ˜ธํ™˜์„ฑ์ด ํ‘œ์‹œ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ง€์›๋˜๋Š” ๋ชจ๋“œ์˜ ๊ฒฝ์šฐ โœ… ์ด๋ชจํ‹ฐ์ฝ˜, ์ง€์›๋˜์ง€ ์•Š๋Š” ๋ชจ๋“œ์˜ ๊ฒฝ์šฐ โŒ ์ด๋ชจํ‹ฐ์ฝ˜์œผ๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์œ ํ˜• ์‚ฌ์ „ ํ•™์Šต๋œ ๊ฐ€์ค‘์น˜ ์ง€์›๋˜๋Š” ์ž‘์—… ์ถ”๋ก  ์œ ํšจ์„ฑ ๊ฒ€์‚ฌ ๊ต์œก ๋‚ด๋ณด๋‚ด๊ธฐ
MobileSAM mobile_sam.pt ์ธ์Šคํ„ด์Šค ์„ธ๋ถ„ํ™” โœ… โŒ โŒ โŒ

SAM ์—์„œ MobileSAM

MobileSAM ์€ ์›๋ณธ SAM ๊ณผ ๋™์ผํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์œ ์ง€ํ•˜๋ฏ€๋กœ ์›๋ณธ์˜ ์ „์ฒ˜๋ฆฌ, ํ›„์ฒ˜๋ฆฌ ๋ฐ ๊ธฐํƒ€ ๋ชจ๋“  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ˜„์žฌ ์›๋ณธ SAM ์„ ์‚ฌ์šฉ ์ค‘์ธ ์‚ฌ์šฉ์ž๋Š” ์ตœ์†Œํ•œ์˜ ๋…ธ๋ ฅ์œผ๋กœ MobileSAM ์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MobileSAM ๋Š” ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์˜ ๋ณ€๊ฒฝ์„ ์ œ์™ธํ•˜๊ณ ๋Š” ๋™์ผํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์œ ์ง€ํ•˜๋ฉด์„œ ๊ธฐ์กด SAM ๊ณผ ๋น„์Šทํ•œ ์„ฑ๋Šฅ์„ ๋ฐœํœ˜ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธฐ์กด์˜ ๋ฌด๊ฑฐ์šด ViT-H ์ธ์ฝ”๋”(632M)๋ฅผ ๋” ์ž‘์€ Tiny-ViT(5M)๋กœ ๋Œ€์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ GPU์—์„œ MobileSAM ๋Š” ์ด๋ฏธ์ง€๋‹น ์•ฝ 12ms๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค: ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ 8ms, ๋งˆ์Šคํฌ ๋””์ฝ”๋”์—์„œ 4ms์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ ํ‘œ๋Š” ViT ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค:

์ด๋ฏธ์ง€ ์ธ์ฝ”๋” ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 611M 5M
์†๋„ 452ms 8ms

์›๋ณธ SAM ๋ฐ MobileSAM ๋ชจ๋‘ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ ์•ˆ๋‚ด ๋งˆ์Šคํฌ ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:

๋งˆ์Šคํฌ ๋””์ฝ”๋” ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 3.876M 3.876M
์†๋„ 4ms 4ms

๋‹ค์Œ์€ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค:

์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ(Enc+Dec) ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 615M 9.66M
์†๋„ 456ms 12ms

MobileSAM ๋ฐ ์›๋ณธ SAM ์˜ ์„ฑ๋Šฅ์€ ์ ๊ณผ ์ƒ์ž๋ฅผ ๋ชจ๋‘ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ์—ฐํ•ฉ๋‹ˆ๋‹ค.

ํฌ์ธํŠธ๊ฐ€ ์žˆ๋Š” ์ด๋ฏธ์ง€ ํ”„๋กฌํ”„ํŠธ

์ƒ์ž๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ด๋ฏธ์ง€

์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์„ ๊ฐ–์ถ˜ MobileSAM ์€ ํ˜„์žฌ FastSAM ๋ณด๋‹ค ์•ฝ 5๋ฐฐ ์ž‘๊ณ  7๋ฐฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ MobileSAM ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํ…Œ์ŠคํŠธ MobileSAM Ultralytics

๊ธฐ์กด SAM ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ Ultralytics ์—์„œ ํฌ์ธํŠธ ๋ฐ ๋ฐ•์Šค ํ”„๋กฌํ”„ํŠธ ๋ชจ๋“œ๋ฅผ ํฌํ•จํ•œ ๊ฐ„๋‹จํ•œ ํ…Œ์ŠคํŠธ ๋ฐฉ๋ฒ•์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ

์—ฌ๊ธฐ์—์„œ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํฌ์ธํŠธ ํ”„๋กฌํ”„ํŠธ

์˜ˆ

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

์ƒ์ž ํ”„๋กฌํ”„ํŠธ

์˜ˆ

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a box prompt
model.predict("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

์šฐ๋ฆฌ๋Š” ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค MobileSAM ๊ทธ๋ฆฌ๊ณ  SAM ๋™์ผํ•œ API๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ž์„ธํ•œ ์‚ฌ์šฉ ์ •๋ณด๋Š” SAM ํŽ˜์ด์ง€.

์ธ์šฉ ๋ฐ ๊ฐ์‚ฌ

์—ฐ๊ตฌ ๋˜๋Š” ๊ฐœ๋ฐœ ์ž‘์—…์— MobileSAM ์ด ์œ ์šฉํ•˜๋‹ค๊ณ  ์ƒ๊ฐ๋˜๋ฉด ์ €ํฌ ๋…ผ๋ฌธ์„ ์ธ์šฉํ•ด ์ฃผ์„ธ์š”:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


Created 2023-11-12, Updated 2024-06-10
Authors: glenn-jocher (11), ChaoningZhang (1), Laughing-q (1)

๋Œ“๊ธ€