์ฝ˜ํ…์ธ ๋กœ ๊ฑด๋„ˆ๋›ฐ๊ธฐ

MobileSAM ๋กœ๊ณ 

๋ชจ๋ฐ”์ผ ์„ธ๊ทธ๋จผํŠธ ์• ๋‹ˆ์”ฝ (MobileSAM)

MobileSAM ๋…ผ๋ฌธ์€ ํ˜„์žฌ arXiv์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

์ด ๋ฐ๋ชจ ๋งํฌ์—์„œ CPU์—์„œ ์‹คํ–‰๋˜๋Š” MobileSAM ๋ฐ๋ชจ์— ์•ก์„ธ์Šคํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Mac i5 CPU์—์„œ์˜ ์„ฑ๋Šฅ์€ ์•ฝ 3์ดˆ๊ฐ€ ์†Œ์š”๋ฉ๋‹ˆ๋‹ค. Hugging Face ๋ฐ๋ชจ์—์„œ๋Š” ์ธํ„ฐํŽ˜์ด์Šค์™€ ์ €์„ฑ๋Šฅ CPU๋กœ ์ธํ•ด ์‘๋‹ต ์†๋„๊ฐ€ ๋Š๋ ค์ง€์ง€๋งŒ ์—ฌ์ „ํžˆ ํšจ๊ณผ์ ์œผ๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค.

MobileSAM ์ ‘์ง€( SAM ), ์• ๋‹ˆ๋ผ๋ฒจ๋ง(AnyLabeling), ์„ธ๊ทธ๋จผํŠธ ์• ๋‹ˆ์”ฝ(Segment Anything in 3D) ๋“ฑ ๋‹ค์–‘ํ•œ ํ”„๋กœ์ ํŠธ์—์„œ ๊ตฌํ˜„๋˜๊ณ  ์žˆ์Šต๋‹ˆ๋‹ค.

MobileSAM ๋Š” ๋‹จ์ผ GPU์—์„œ 10๋งŒ ๊ฐœ์˜ ๋ฐ์ดํ„ฐ ์„ธํŠธ(์›๋ณธ ์ด๋ฏธ์ง€์˜ 1%)๋กœ ํ•˜๋ฃจ ๋งŒ์— ํ•™์Šตํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ์ด ํ›ˆ๋ จ์˜ ์ฝ”๋“œ๋Š” ํ–ฅํ›„์— ๊ณต๊ฐœ๋  ์˜ˆ์ •์ž…๋‹ˆ๋‹ค.

์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ, ์ง€์›๋˜๋Š” ์ž‘์—… ๋ฐ ์ž‘๋™ ๋ชจ๋“œ

์ด ํ‘œ์—๋Š” ์‚ฌ์šฉ ๊ฐ€๋Šฅํ•œ ๋ชจ๋ธ๊ณผ ํŠน์ • ์‚ฌ์ „ ํ•™์Šต ๊ฐ€์ค‘์น˜, ์ง€์› ์ž‘์—…, ์ถ”๋ก , ๊ฒ€์ฆ, ํ•™์Šต ๋ฐ ๋‚ด๋ณด๋‚ด๊ธฐ์™€ ๊ฐ™์€ ๋‹ค์–‘ํ•œ ์ž‘๋™ ๋ชจ๋“œ์™€์˜ ํ˜ธํ™˜์„ฑ์ด ํ‘œ์‹œ๋˜์–ด ์žˆ์œผ๋ฉฐ, ์ง€์›๋˜๋Š” ๋ชจ๋“œ์—๋Š” โœ… ์ด๋ชจํ‹ฐ์ฝ˜, ์ง€์›๋˜์ง€ ์•Š๋Š” ๋ชจ๋“œ์—๋Š” โŒ ์ด๋ชจํ‹ฐ์ฝ˜์œผ๋กœ ํ‘œ์‹œ๋˜์–ด ์žˆ์Šต๋‹ˆ๋‹ค.

๋ชจ๋ธ ์œ ํ˜• ์‚ฌ์ „ ํ›ˆ๋ จ๋œ ์›จ์ดํŠธ ์ง€์›๋˜๋Š” ์ž‘์—… ์ถ”๋ก  ์œ ํšจ์„ฑ ๊ฒ€์‚ฌ ๊ต์œก ๋‚ด๋ณด๋‚ด๊ธฐ
MobileSAM mobile_sam.pt ์ธ์Šคํ„ด์Šค ์„ธ๋ถ„ํ™” โœ… โŒ โŒ โŒ

SAM ์—์„œ MobileSAM

MobileSAM ์€ ์›๋ณธ SAM ๊ณผ ๋™์ผํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์œ ์ง€ํ•˜๋ฏ€๋กœ ์›๋ณธ์˜ ์ „์ฒ˜๋ฆฌ, ํ›„์ฒ˜๋ฆฌ ๋ฐ ๊ธฐํƒ€ ๋ชจ๋“  ์ธํ„ฐํŽ˜์ด์Šค๋ฅผ ํ†ตํ•ฉํ–ˆ์Šต๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ํ˜„์žฌ ์›๋ณธ SAM ์„ ์‚ฌ์šฉ ์ค‘์ธ ์‚ฌ์šฉ์ž๋Š” ์ตœ์†Œํ•œ์˜ ๋…ธ๋ ฅ์œผ๋กœ MobileSAM ์œผ๋กœ ์ „ํ™˜ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MobileSAM ์˜ ์„ฑ๋Šฅ์€ ์›๋ณธ( SAM )๊ณผ ๋น„์Šทํ•˜๋ฉฐ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์˜ ๋ณ€๊ฒฝ์„ ์ œ์™ธํ•˜๊ณ ๋Š” ๋™์ผํ•œ ํŒŒ์ดํ”„๋ผ์ธ์„ ์œ ์ง€ํ•ฉ๋‹ˆ๋‹ค. ํŠนํžˆ, ๊ธฐ์กด์˜ ๋ฌด๊ฑฐ์šด ViT-H ์ธ์ฝ”๋”(632M)๋ฅผ ๋” ์ž‘์€ Tiny-ViT(5M)๋กœ ๋Œ€์ฒดํ–ˆ์Šต๋‹ˆ๋‹ค. ๋‹จ์ผ GPU์—์„œ MobileSAM ๋Š” ์ด๋ฏธ์ง€๋‹น ์•ฝ 12ms๋กœ ์ž‘๋™ํ•ฉ๋‹ˆ๋‹ค: ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”์—์„œ 8ms, ๋งˆ์Šคํฌ ๋””์ฝ”๋”์—์„œ 4ms์ž…๋‹ˆ๋‹ค.

๋‹ค์Œ ํ‘œ๋Š” ViT ๊ธฐ๋ฐ˜ ์ด๋ฏธ์ง€ ์ธ์ฝ”๋”๋ฅผ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค:

์ด๋ฏธ์ง€ ์ธ์ฝ”๋” ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 611M 5M
์†๋„ 452ms 8ms

์›๋ณธ SAM ๋ฐ MobileSAM ๋ชจ๋‘ ๋™์ผํ•œ ํ”„๋กฌํ”„ํŠธ ์•ˆ๋‚ด ๋งˆ์Šคํฌ ๋””์ฝ”๋”๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค:

๋งˆ์Šคํฌ ๋””์ฝ”๋” ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 3.876M 3.876M
์†๋„ 4ms 4ms

๋‹ค์Œ์€ ์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ์„ ๋น„๊ตํ•œ ๊ฒƒ์ž…๋‹ˆ๋‹ค:

์ „์ฒด ํŒŒ์ดํ”„๋ผ์ธ(Enc+Dec) ์›๋ณธ SAM MobileSAM
๋งค๊ฐœ๋ณ€์ˆ˜ 615M 9.66M
์†๋„ 456ms 12ms

MobileSAM ์˜ ์„ฑ๋Šฅ๊ณผ ์›๋ณธ SAM ์˜ ์„ฑ๋Šฅ์€ ์ ๊ณผ ์ƒ์ž๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•˜์—ฌ ์‹œ์—ฐํ•ฉ๋‹ˆ๋‹ค.

ํฌ์ธํŠธ๊ฐ€ ์žˆ๋Š” ์ด๋ฏธ์ง€๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ํ‘œ์‹œ

์ƒ์ž๋ฅผ ํ”„๋กฌํ”„ํŠธ๋กœ ์‚ฌ์šฉํ•˜๋Š” ์ด๋ฏธ์ง€

์šฐ์ˆ˜ํ•œ ์„ฑ๋Šฅ์˜ MobileSAM ์€ ํ˜„์žฌ FastSAM ๋ณด๋‹ค ์•ฝ 5๋ฐฐ ์ž‘๊ณ  7๋ฐฐ ๋น ๋ฆ…๋‹ˆ๋‹ค. ์ž์„ธํ•œ ๋‚ด์šฉ์€ MobileSAM ํ”„๋กœ์ ํŠธ ํŽ˜์ด์ง€์—์„œ ํ™•์ธํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

MobileSAM ์—์„œ ํ…Œ์ŠคํŠธ Ultralytics

๊ธฐ์กด SAM ๊ณผ ๋งˆ์ฐฌ๊ฐ€์ง€๋กœ, ํฌ์ธํŠธ ๋ฐ ๋ฐ•์Šค ํ”„๋กฌํ”„ํŠธ ๋ชจ๋“œ๋ฅผ ํฌํ•จํ•œ ๊ฐ„๋‹จํ•œ ํ…Œ์ŠคํŠธ ๋ฐฉ๋ฒ•์„ Ultralytics ์—์„œ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋ชจ๋ธ ๋‹ค์šด๋กœ๋“œ

์—ฌ๊ธฐ์—์„œ ๋ชจ๋ธ์„ ๋‹ค์šด๋กœ๋“œํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค.

ํฌ์ธํŠธ ํ”„๋กฌํ”„ํŠธ

์˜ˆ์ œ

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a point prompt
model.predict('ultralytics/assets/zidane.jpg', points=[900, 370], labels=[1])

์ƒ์ž ํ”„๋กฌํ”„ํŠธ

์˜ˆ์ œ

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a box prompt
model.predict('ultralytics/assets/zidane.jpg', bboxes=[439, 437, 524, 709])

๋‹ค์Œ์„ ๊ตฌํ˜„ํ–ˆ์Šต๋‹ˆ๋‹ค. MobileSAM ๋ฐ SAM ์™€ ๋™์ผํ•œ API๋ฅผ ์‚ฌ์šฉํ•ฉ๋‹ˆ๋‹ค. ์ž์„ธํ•œ ์‚ฌ์šฉ ์ •๋ณด๋Š” SAM ํŽ˜์ด์ง€.

์ธ์šฉ ๋ฐ ๊ฐ์‚ฌ

์—ฐ๊ตฌ ๋˜๋Š” ๊ฐœ๋ฐœ ์—…๋ฌด์— MobileSAM ์ด ์œ ์šฉํ•˜๋‹ค๊ณ  ์ƒ๊ฐ๋˜๋ฉด ์ €ํฌ ๋…ผ๋ฌธ์„ ์ธ์šฉํ•ด ์ฃผ์„ธ์š”:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


์ƒ์„ฑ๋จ 2023-11-12, ์—…๋ฐ์ดํŠธ๋จ 2024-01-16
์ž‘์„ฑ์ž: glenn-jocher (7), ChaoningZhang (1), Laughing-q (1)

๋Œ“๊ธ€