सामग्री पर जाएं

MobileSAM लोगो

मोबाइल सेगमेंट कुछ भी (MobileSAM)

वही MobileSAM कागज अब arXiv पर उपलब्ध है।

का एक प्रदर्शन MobileSAM सीपीयू पर चल रहा है इस डेमो लिंक पर पहुँचा जा सकता है. मैक i5 सीपीयू पर प्रदर्शन में लगभग 3 सेकंड लगते हैं। पर Hugging Face डेमो, इंटरफ़ेस और कम-प्रदर्शन सीपीयू धीमी प्रतिक्रिया में योगदान करते हैं, लेकिन यह प्रभावी ढंग से कार्य करना जारी रखता है।

MobileSAM सहित विभिन्न परियोजनाओं में कार्यान्वित किया गया है ग्राउंडिंग-SAM, AnyLabeling, और 3D में कुछ भी खंडित करें।

MobileSAM एक दिन से भी कम समय में 100k डेटासेट (मूल छवियों का 1%) के साथ एकल GPU पर प्रशिक्षित किया जाता है। इस प्रशिक्षण के लिए कोड भविष्य में उपलब्ध कराया जाएगा।

उपलब्ध मॉडल, समर्थित कार्य और ऑपरेटिंग मोड

यह तालिका उपलब्ध मॉडलों को उनके विशिष्ट पूर्व-प्रशिक्षित भार, उनके द्वारा समर्थित कार्यों और अनुमान, सत्यापन, प्रशिक्षण और निर्यात जैसे विभिन्न ऑपरेटिंग मोड के साथ उनकी संगतता के साथ प्रस्तुत करती है, जो समर्थित मोड के लिए इमोजी और ❌ असमर्थित मोड के लिए इमोजी द्वारा ✅ इंगित की जाती है।

मॉडल प्रकार पूर्व-प्रशिक्षित वजन समर्थित कार्य अनुमान मान्यता प्रशिक्षण निर्यातित माल
MobileSAM mobile_sam.पीटी इंस्टेंस सेगमेंटेशन

से अनुकूलन SAM तक MobileSAM

क्योंकि MobileSAM मूल के समान पाइपलाइन को बरकरार रखता है SAM, हमने मूल के प्री-प्रोसेसिंग, पोस्ट-प्रोसेसिंग और अन्य सभी इंटरफेस को शामिल किया है। नतीजतन, वर्तमान में मूल का उपयोग करने वाले SAM करने के लिए संक्रमण कर सकते हैं MobileSAM न्यूनतम प्रयास के साथ।

MobileSAM मूल की तुलना में प्रदर्शन करता है SAM और छवि एन्कोडर में बदलाव को छोड़कर उसी पाइपलाइन को बरकरार रखता है। विशेष रूप से, हम मूल हैवीवेट ViT-H एनकोडर (632M) को एक छोटे Tiny-ViT (5M) से बदल देते हैं। एकल GPU पर, MobileSAM प्रति छवि लगभग 12ms पर संचालित होता है: छवि एनकोडर पर 8ms और मास्क डिकोडर पर 4ms।

निम्न तालिका ViT-आधारित छवि एन्कोडर की तुलना प्रदान करती है:

छवि एनकोडर मूल SAM MobileSAM
पैरामीटर 611M 5M
गति 452ms 8ms

दोनों मूल SAM और MobileSAM उसी प्रॉम्प्ट-गाइडेड मास्क डिकोडर का उपयोग करें:

मास्क डिकोडर मूल SAM MobileSAM
पैरामीटर 3.876M 3.876M
गति 4ms 4ms

यहाँ पूरी पाइपलाइन की तुलना है:

पूरी पाइपलाइन (Enc + Dec) मूल SAM MobileSAM
पैरामीटर 615M 9.66M
गति 456एमएस 12ms

का प्रदर्शन MobileSAM और मूल SAM संकेत के रूप में एक बिंदु और एक बॉक्स दोनों का उपयोग करके प्रदर्शित किया जाता है।

प्रॉम्प्ट के रूप में पॉइंट के साथ छवि

प्रॉम्प्ट के रूप में बॉक्स के साथ छवि

अपने बेहतर प्रदर्शन के साथ, MobileSAM वर्तमान की तुलना में लगभग 5 गुना छोटा और 7 गुना तेज है FastSAM. अधिक विवरण पर उपलब्ध हैं MobileSAM परियोजना पृष्ठ

परीक्षण MobileSAM में Ultralytics

मूल की तरह SAM, हम में एक सीधा परीक्षण विधि प्रदान करते हैं Ultralytics, बिंदु और बॉक्स दोनों संकेतों के लिए मोड सहित।

मॉडल डाउनलोड

आप मॉडल को यहां डाउनलोड कर सकते हैं।

प्वाइंट प्रॉम्प्ट

उदाहरण

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

बॉक्स प्रॉम्प्ट

उदाहरण

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a box prompt
model.predict("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

हमने लागू किया है MobileSAM और SAM एक ही एपीआई का उपयोग करना। अधिक उपयोग की जानकारी के लिए, कृपया देखें SAM पृष्ठ.

प्रशंसा पत्र और पावती

यदि आप पाते हैं MobileSAM आपके शोध या विकास कार्य में उपयोगी, कृपया हमारे पेपर का हवाला देने पर विचार करें:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


Created 2023-11-12, Updated 2024-06-10
Authors: glenn-jocher (11), ChaoningZhang (1), Laughing-q (1)

टिप्पणियाँ