انتقل إلى المحتوى

MobileSAM شعار

قطاع المحمول أي شيء (MobileSAM)

ال MobileSAM الورق متاح الآن على arXiv.

عرض توضيحي ل MobileSAM يمكن الوصول إلى التشغيل على وحدة المعالجة المركزية على هذا الرابط التجريبي. يستغرق الأداء على وحدة المعالجة المركزية Mac i5 حوالي 3 ثوان. على Hugging Face يساهم العرض التوضيحي والواجهة ووحدات المعالجة المركزية منخفضة الأداء في استجابة أبطأ ، لكنها تستمر في العمل بفعالية.

MobileSAM يتم تنفيذه في مشاريع مختلفة بما في ذلك اسس-SAM، AnyLabeling ، وتقسيم أي شيء في 3D.

MobileSAM يتم تدريبه على وحدة معالجة رسومات واحدة مع مجموعة بيانات 100 ألف (1٪ من الصور الأصلية) في أقل من يوم واحد. وسيتاح رمز هذا التدريب في المستقبل.

الطرز المتوفرة والمهام المدعومة وأوضاع التشغيل

يعرض هذا الجدول النماذج المتاحة مع أوزانها المحددة المدربة مسبقا ، والمهام التي تدعمها ، وتوافقها مع أوضاع التشغيل المختلفة مثل الاستدلال والتحقق من الصحة والتدريب والتصدير ، المشار إليها بواسطة ✅ الرموز التعبيرية للأوضاع المدعومة والرموز ❌ التعبيرية للأوضاع غير المدعومة.

نوع الموديل الأوزان المدربة مسبقا المهام المدعومة استدلال التحقق تدريب تصدير
MobileSAM mobile_sam.pt تجزئة المثيل

التكيف من SAM ل MobileSAM

منذ MobileSAM يحتفظ بنفس خط الأنابيب الأصلي SAM، قمنا بدمج المعالجة المسبقة والمعالجة اللاحقة للأصل وجميع الواجهات الأخرى. وبالتالي ، فإن أولئك الذين يستخدمون حاليا الأصل SAM يمكن الانتقال إلى MobileSAM بأقل جهد.

MobileSAM أداء مماثل للأصل SAM ويحتفظ بنفس المسار باستثناء تغيير في برنامج تشفير الصور. على وجه التحديد ، نستبدل مشفر ViT-H الأصلي للوزن الثقيل (632M) ب Tiny-ViT أصغر (5M). على وحدة معالجة رسومات واحدة ، MobileSAM يعمل بحوالي 12 مللي ثانية لكل صورة: 8 مللي ثانية على برنامج تشفير الصور و 4 مللي ثانية على وحدة فك ترميز القناع.

يوفر الجدول التالي مقارنة بين برامج ترميز الصور المستندة إلى ViT:

برنامج تشفير الصور اللغة الأصلية SAM MobileSAM
البارامترات 611M 5M
سرعة 452 مللي ثانية 8 مللي ثانية

كل من الأصلي SAM و MobileSAM استخدم نفس وحدة فك ترميز القناع الموجهة بسرعة:

وحدة فك ترميز القناع اللغة الأصلية SAM MobileSAM
البارامترات 3.876M 3.876M
سرعة 4 مللي ثانية 4 مللي ثانية

فيما يلي مقارنة بين خط الأنابيب بأكمله:

خط أنابيب كامل (ENC + ديسمبر) اللغة الأصلية SAM MobileSAM
البارامترات 615M 9.66M
سرعة 456 مللي ثانية 12 مللي ثانية

أداء MobileSAM والأصل SAM يتم عرضها باستخدام كل من نقطة ومربع كمطالبات.

صورة مع نقطة كموجه

صورة مع مربع كما يطالب

مع أدائها المتفوق ، MobileSAM أصغر بحوالي 5 مرات وأسرع 7 مرات من التيار FastSAM. مزيد من التفاصيل متوفرة في MobileSAM صفحة المشروع.

اختبار MobileSAM في Ultralytics

تماما مثل الأصل SAM، نحن نقدم طريقة اختبار مباشرة في Ultralytics، بما في ذلك أوضاع كل من مطالبات Point وBox.

نموذج تحميل

يمكنك تنزيل النموذج هنا.

نقطة موجه

مثل

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a point prompt
model.predict('ultralytics/assets/zidane.jpg', points=[900, 370], labels=[1])

موجه الصندوق

مثل

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a box prompt
model.predict('ultralytics/assets/zidane.jpg', bboxes=[439, 437, 524, 709])

لقد قمنا بتنفيذ MobileSAM و SAM باستخدام نفس واجهة برمجة التطبيقات. لمزيد من معلومات الاستخدام، يرجى الاطلاع على SAM صفحة.

الاستشهادات والشكر

إذا وجدت MobileSAM مفيد في أعمال البحث أو التطوير الخاصة بك ، يرجى النظر في الاستشهاد بورقتنا:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


تم إنشاء 2023-11-12, اخر تحديث 2024-01-16
المؤلفون: جلين جوشر (7) ، تشاونينغ تشانغ (1) ، يضحك س (1)

التعليقات