İçeriğe geç

MobileSAM Logo

Mobil Segment Anything (MobileSAM)

MobileSAM makalesi artık arXiv'de mevcuttur.

Bir CPU üzerinde çalışan MobileSAM 'un bir gösterimine bu demo bağlantısından erişilebilir. Mac i5 CPU üzerindeki performans yaklaşık 3 saniye sürmektedir. Hugging Face demosunda, arayüz ve daha düşük performanslı CPU'lar daha yavaş bir yanıta katkıda bulunur, ancak etkili bir şekilde çalışmaya devam eder.

MobileSAM Grounding-SAM, AnyLabeling ve Segment Anything in 3D gibi çeşitli projelerde uygulanmaktadır.

MobileSAM tek bir GPU üzerinde 100 bin veri kümesiyle (orijinal görüntülerin %1'i) bir günden daha kısa bir sürede eğitilmiştir. Bu eğitimin kodu gelecekte kullanıma sunulacaktır.

Mevcut Modeller, Desteklenen Görevler ve Çalışma Modları

Bu tablo, önceden eğitilmiş belirli ağırlıklarıyla birlikte mevcut modelleri, destekledikleri görevleri ve desteklenen modlar için ✅ emojisi ve desteklenmeyen modlar için ❌ emojisi ile gösterilen Çıkarım, Doğrulama, Eğitim ve Dışa Aktarma gibi farklı çalışma modlarıyla uyumluluklarını sunar.

Model Tipi Önceden Eğitilmiş Ağırlıklar Desteklenen Görevler Çıkarım Doğrulama Eğitim İhracat
MobileSAM mobile_sam.pt Örnek Segmentasyonu

SAM adresinden MobileSAM

MobileSAM orijinal SAM ile aynı boru hattını koruduğundan, orijinalin ön işleme, son işleme ve diğer tüm arayüzlerini dahil ettik. Sonuç olarak, şu anda orijinal SAM 'u kullananlar minimum çabayla MobileSAM 'a geçiş yapabilirler.

MobileSAM orijinal SAM ile karşılaştırılabilir bir performans sergiler ve görüntü kodlayıcısındaki bir değişiklik dışında aynı işlem hattını korur. Özellikle, orijinal ağır ViT-H kodlayıcıyı (632M) daha küçük bir Tiny-ViT (5M) ile değiştiriyoruz. Tek bir GPU'da, MobileSAM görüntü başına yaklaşık 12 ms'de çalışır: Görüntü kodlayıcıda 8 ms ve maske kod çözücüde 4 ms.

Aşağıdaki tablo ViT tabanlı görüntü kodlayıcıların bir karşılaştırmasını sunmaktadır:

Görüntü Kodlayıcı Orijinal SAM MobileSAM
Parametreler 611M 5M
Hız 452ms 8ms

Hem orijinal SAM hem de MobileSAM aynı istem güdümlü maske çözücüyü kullanmaktadır:

Maske Çözücü Orijinal SAM MobileSAM
Parametreler 3.876M 3.876M
Hız 4ms 4ms

İşte tüm boru hattının karşılaştırması:

Tüm Boru Hattı (Enc+Dec) Orijinal SAM MobileSAM
Parametreler 615M 9.66M
Hız 456ms 12ms

MobileSAM ve orijinal SAM 'un performansı hem bir nokta hem de bir kutu ipucu olarak kullanılarak gösterilmiştir.

İpucu Olarak Noktalı Resim

İstem Olarak Kutulu Resim

Üstün performansıyla MobileSAM , mevcut FastSAM adresinden yaklaşık 5 kat daha küçük ve 7 kat daha hızlıdır. Daha fazla ayrıntı MobileSAM proje sayfasında mevcuttur.

Test MobileSAM içinde Ultralytics

Tıpkı orijinal SAM'da olduğu gibi, Ultralytics'da da hem Nokta hem de Kutu istemleri için modlar içeren basit bir test yöntemi sunuyoruz.

Model İndir

Modeli buradan indirebilirsiniz.

Nokta İstemi

Örnek

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a point prompt
model.predict('ultralytics/assets/zidane.jpg', points=[900, 370], labels=[1])

Kutu İstemi

Örnek

from ultralytics import SAM

# Load the model
model = SAM('mobile_sam.pt')

# Predict a segment based on a box prompt
model.predict('ultralytics/assets/zidane.jpg', bboxes=[439, 437, 524, 709])

Biz uyguladık MobileSAM ve SAM aynı API'yi kullanarak. Daha fazla kullanım bilgisi için lütfen SAM Sayfa.

Atıflar ve Teşekkür

Araştırma veya geliştirme çalışmalarınızda MobileSAM adresini faydalı bulursanız, lütfen makalemize atıfta bulunmayı düşünün:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


Oluşturma 2023-11-12, Güncelleme 2024-04-17
Yazarlar: glenn-jocher (8), ChaoningZhang (1), Laughing-q (1)

Yorumlar