Saltar al contenido

MobileSAM Logotipo

Segmento m贸vil Cualquier cosa (MobileSAM)

El art铆culo MobileSAM ya est谩 disponible en arXiv.

Puedes acceder a una demostraci贸n de MobileSAM ejecut谩ndose en una CPU en este enlace de demostraci贸n. El rendimiento en una CPU Mac i5 es de aproximadamente 3 segundos. En la demostraci贸n de Hugging Face , la interfaz y las CPU de menor rendimiento contribuyen a que la respuesta sea m谩s lenta, pero sigue funcionando eficazmente.

MobileSAM se aplica en varios proyectos, como Grounding-SAM, AnyLabeling y Segment Anything en 3D.

MobileSAM se entrena en una sola GPU con un conjunto de datos de 100.000 (1% de las im谩genes originales) en menos de un d铆a. El c贸digo para este entrenamiento estar谩 disponible en el futuro.

Modelos disponibles, tareas admitidas y modos de funcionamiento

Esta tabla presenta los modelos disponibles con sus pesos espec铆ficos preentrenados, las tareas que admiten y su compatibilidad con distintos modos de funcionamiento como Inferencia, Validaci贸n, Entrenamiento y Exportaci贸n, indicados con 鉁 emojis para los modos admitidos y 鉂 emojis para los modos no admitidos.

Tipo de modelo Pesos preentrenados Tareas admitidas Inferencia Validaci贸n Formaci贸n Exportar
MobileSAM mobile_sam.pt Segmentaci贸n de instancias

Adaptaci贸n de SAM a MobileSAM

Como MobileSAM conserva el mismo proceso que el original SAM, hemos incorporado el preprocesamiento, el postprocesamiento y todas las dem谩s interfaces del original. En consecuencia, quienes utilicen actualmente el original SAM pueden pasar a MobileSAM con un esfuerzo m铆nimo.

MobileSAM tiene un rendimiento comparable al original SAM y conserva el mismo pipeline, salvo por un cambio en el codificador de im谩genes. En concreto, sustituimos el pesado codificador ViT-H original (632M) por un Tiny-ViT m谩s peque帽o (5M). En una sola GPU, MobileSAM funciona a unos 12 ms por imagen: 8 ms en el codificador de im谩genes y 4 ms en el descodificador de m谩scaras.

La tabla siguiente ofrece una comparaci贸n de los codificadores de im谩genes basados en ViT:

Codificador de im谩genes Original SAM MobileSAM
Par谩metros 611M 5M
Velocidad 452ms 8ms

Tanto el original SAM como MobileSAM utilizan el mismo descodificador de m谩scaras guiado por instrucciones:

Descodificador de m谩scaras Original SAM MobileSAM
Par谩metros 3.876M 3.876M
Velocidad 4ms 4ms

Aqu铆 tienes la comparaci贸n de toda la tuber铆a:

Tuber铆a completa (Enc+Dec) Original SAM MobileSAM
Par谩metros 615M 9.66M
Velocidad 456 ms 12ms

Se demuestra el funcionamiento de MobileSAM y del original SAM utilizando un punto y una caja como indicaciones.

Imagen con punto como indicador

Imagen con Caja como Prompt

Con su rendimiento superior, MobileSAM es aproximadamente 5 veces m谩s peque帽o y 7 veces m谩s r谩pido que el actual FastSAM. Puedes encontrar m谩s detalles en la p谩gina del proyectoMobileSAM .

Prueba MobileSAM en Ultralytics

Al igual que en el original SAM, ofrecemos un m茅todo de prueba sencillo en Ultralytics, que incluye modos para indicaciones de Punto y de Caja.

Descarga de modelos

Puedes descargar el modelo aqu铆.

Indicaci贸n de puntos

Ejemplo

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

Caja Prompt

Ejemplo

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a box prompt
model.predict("ultralytics/assets/zidane.jpg", bboxes=[439, 437, 524, 709])

Hemos puesto en marcha MobileSAM y SAM utilizando la misma API. Para m谩s informaci贸n sobre su uso, consulta el SAM p谩gina.

Citas y agradecimientos

Si encuentras 煤til MobileSAM en tu trabajo de investigaci贸n o desarrollo, considera la posibilidad de citar nuestro documento:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}


Creado 2023-11-12, Actualizado 2024-05-18
Autores: glenn-jocher (9), ChaoningZhang (1), Laughing-q (1)

Comentarios