MobileSAM Логотип

Мобильный сегмент "Все что угодно" (MobileSAM)

Статья MobileSAM теперь доступна на сайте arXiv.

Демонстрация работы MobileSAM на компьютере CPU доступна по этой демонстрационной ссылке. Работа на Mac i5 CPU занимает около 3 секунд. На демонстрационной версии Hugging Face интерфейс и менее производительные процессоры приводят к замедлению отклика, но программа продолжает эффективно работать.

Смотреть: Как выполнить вывод с помощью MobileSAM , используя Ultralytics | Пошаговое руководство 🎉

MobileSAM реализована в различных проектах, включая Grounding-SAM, AnyLabeling и Segment Anything in 3D.

MobileSAM обучается на одном GPU с набором данных 100 тыс. (1% от исходных изображений) менее чем за сутки. Код для этого обучения будет доступен в будущем.

Доступные модели, поддерживаемые задачи и режимы работы

В этой таблице представлены доступные модели с определенными предварительно обученными весами, задачи, которые они поддерживают, и их совместимость с различными режимами работы, такими как Inference, Validation, Training и Export, обозначенные ✅ emojis для поддерживаемых режимов и ❌ emojis для неподдерживаемых режимов.

Тип модели	Предварительно обученные веса	Поддерживаемые задачи	Заключение	Валидация	Обучение	Экспорт
MobileSAM	mobile_sam.pt	Сегментация экземпляров	✅	❌	❌	❌

Адаптация с сайта SAM на MobileSAM

Поскольку MobileSAM сохраняет тот же конвейер, что и оригинальный SAM, мы включили в него предварительную обработку, постобработку и все остальные интерфейсы. Следовательно, те, кто в настоящее время использует оригинальный SAM , могут перейти на MobileSAM с минимальными усилиями.

MobileSAM по производительности сопоставим с оригинальным SAM и сохраняет тот же конвейер, за исключением изменения кодировщика изображений. В частности, мы заменяем оригинальный тяжелый кодер ViT-H (632 Мбайт) на более компактный Tiny-ViT (5 Мбайт). На одном GPU, MobileSAM работает примерно 12 мс на изображение: 8 мс на кодер изображения и 4 мс на декодер маски.

В следующей таблице представлено сравнение кодировщиков изображений на базе технологии ViT:

Кодировщик изображений	Оригинал SAM	MobileSAM
Параметры	611M	5M
Скорость	452 мс	8 мс

И в оригинальном SAM , и в MobileSAM используется один и тот же декодер масок, управляемый подсказками:

Декодер масок	Оригинал SAM	MobileSAM
Параметры	3.876M	3.876M
Скорость	4 мс	4 мс

Вот сравнение всего трубопровода:

Целый трубопровод (Enc+Dec)	Оригинал SAM	MobileSAM
Параметры	615M	9.66M
Скорость	456 мс	12 мс

Работа MobileSAM и оригинального SAM демонстрируется с использованием точки и коробки в качестве подсказок.

Изображение с точкой в качестве подсказки

Изображение с рамкой в качестве подсказки

Благодаря своей высокой производительности MobileSAM примерно в 5 раз меньше и в 7 раз быстрее, чем текущий FastSAM. Более подробную информацию можно найти на странице проектаMobileSAM .

Тестирование MobileSAM в Ultralytics

Как и в оригинальном SAM, в Ultralytics мы предлагаем простой метод тестирования, включающий режимы для подсказок типа Point и Box.

Скачать модель

Модель можно скачать здесь.

Точечная подсказка

Пример

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict multiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Коробка Prompt

Пример

Python

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict mutiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Мы реализовали MobileSAM и SAM используя тот же API. Для получения более подробной информации об использовании, пожалуйста, обратитесь к SAM страница.

Цитаты и благодарности

Если вы найдете сайт MobileSAM полезным в ваших исследованиях или разработках, пожалуйста, подумайте о том, чтобы сослаться на нашу статью:

BibTeX

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое MobileSAM и чем она отличается от оригинальной модели SAM ?

MobileSAM это легкая и быстрая модель сегментации изображений, предназначенная для мобильных приложений. В ней сохранен тот же конвейер, что и в оригинальном SAM , но тяжелый кодер ViT-H (632 М параметров) заменен на более компактный кодер Tiny-ViT (5 М параметров). В результате этого изменения MobileSAM стал примерно в 5 раз меньше и в 7 раз быстрее, чем оригинальный SAM. Например, MobileSAM работает примерно за 12 мс на изображение по сравнению с 456 мс оригинального SAM. Подробнее о реализации MobileSAM в различных проектах можно узнать здесь.

Как протестировать MobileSAM с помощью Ultralytics?

Проверка MobileSAM на сайте Ultralytics может быть выполнена с помощью простых методов. Для предсказания сегментов можно использовать подсказки Point и Box. Вот пример с использованием подсказки Point:

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

Для получения более подробной информации вы также можете обратиться к разделу Тестирование MobileSAM.

Почему я должен использовать MobileSAM для своего мобильного приложения?

MobileSAM идеально подходит для мобильных приложений благодаря своей легкой архитектуре и высокой скорости вычислений. По сравнению с оригинальным SAM, MobileSAM примерно в 5 раз меньше и в 7 раз быстрее, что делает его подходящим для сред, где вычислительные ресурсы ограничены. Благодаря такой эффективности мобильные устройства могут выполнять сегментацию изображений в реальном времени без значительных задержек. Кроме того, модели MobileSAM, такие как Inference, оптимизированы для работы на мобильных устройствах.

Как проходило обучение на сайте MobileSAM , и доступен ли код обучения?

MobileSAM был обучен на одном GPU с набором данных 100 тыс. изображений, что составляет 1% от исходных изображений, менее чем за день. Хотя код обучения будет доступен в будущем, в настоящее время вы можете изучить другие аспекты MobileSAM в репозиторииMobileSAM на GitHub. Этот репозиторий включает в себя предварительно обученные веса и детали реализации для различных приложений.

Каковы основные сценарии использования MobileSAM?

MobileSAM предназначен для быстрой и эффективной сегментации изображений в мобильных условиях. Основные области применения включают:

Обнаружение и сегментация объектов в реальном времени для мобильных приложений.
Обработка изображений с низкой задержкой в устройствах с ограниченными вычислительными ресурсами.
Интеграция в мобильные приложения, управляемые ИИ, для таких задач, как дополненная реальность (AR) и аналитика в реальном времени.

Более подробные примеры использования и сравнения производительности приведены в разделе Адаптация с SAM на MobileSAM.

📅 Создано 1 год назад ✏️ Обновлено 2 месяца назад