Ir al contenido

MobileSAM Logotipo

Segmento móvil Cualquier cosa (MobileSAM)

El artículo MobileSAM ya está disponible en arXiv.

Se puede acceder a una demostración de MobileSAM ejecutándose en un CPU en este enlace de demostración. El rendimiento en un Mac i5 CPU tarda aproximadamente 3 segundos. En la demostración de Hugging Face , la interfaz y las CPU de menor rendimiento contribuyen a una respuesta más lenta, pero sigue funcionando eficazmente.



Observa: Cómo ejecutar la inferencia con MobileSAM utilizando Ultralytics | Guía paso a paso 🎉

MobileSAM se aplica en varios proyectos, como Grounding-SAM, AnyLabeling y Segment Anything in 3D.

MobileSAM se entrena en un solo GPU con un conjunto de datos de 100k (1% de las imágenes originales) en menos de un día. El código de este entrenamiento estará disponible en el futuro.

Modelos disponibles, tareas admitidas y modos de funcionamiento

Esta tabla presenta los modelos disponibles con sus pesos específicos preentrenados, las tareas que admiten y su compatibilidad con distintos modos de funcionamiento como Inferencia, Validación, Entrenamiento y Exportación, indicados mediante emojis ✅ para los modos admitidos y emojis ❌ para los modos no admitidos.

Tipo de modelo Pesas preentrenadas Tareas admitidas Inferencia Validación Formación Exportar
MobileSAM mobile_sam.pt Segmentación de instancias

Adaptación de SAM a MobileSAM

Dado que MobileSAM conserva el mismo proceso que el original SAM, hemos incorporado el preprocesamiento, el postprocesamiento y todas las demás interfaces del original. Por consiguiente, quienes utilicen actualmente el original SAM pueden pasar a MobileSAM con un esfuerzo mínimo.

MobileSAM tiene un rendimiento comparable al del original SAM y mantiene el mismo pipeline, salvo por un cambio en el codificador de imágenes. En concreto, sustituimos el pesado codificador ViT-H original (632M) por un Tiny-ViT más pequeño (5M). En un único GPU, MobileSAM funciona a unos 12ms por imagen: 8 ms en el codificador de imágenes y 4 ms en el descodificador de máscaras.

En la tabla siguiente se comparan los codificadores de imágenes basados en ViT:

Codificador de imágenes Original SAM MobileSAM
Parámetros 611M 5M
Velocidad 452ms 8ms

Tanto el original SAM como MobileSAM utilizan el mismo descodificador de máscaras guiado por instrucciones:

Decodificador de máscaras Original SAM MobileSAM
Parámetros 3.876M 3.876M
Velocidad 4ms 4ms

He aquí la comparación de toda la tubería:

Tubería completa (Enc+Dec) Original SAM MobileSAM
Parámetros 615M 9.66M
Velocidad 456 ms 12ms

Se demuestra el funcionamiento de MobileSAM y del original SAM utilizando un punto y un recuadro como indicadores.

Imagen con punto como indicador

Imagen con recuadro

Con su rendimiento superior, MobileSAM es aproximadamente 5 veces más pequeño y 7 veces más rápido que el actual FastSAM. Más detalles en la página del proyectoMobileSAM .

Pruebas MobileSAM en Ultralytics

Al igual que el original SAM, ofrecemos un método de prueba sencillo en Ultralytics, que incluye modos tanto para indicaciones de punto como de caja.

Descarga de modelos

Puede descargar el modelo aquí.

Punto Prompt

Ejemplo

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict multiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Caja Prompt

Ejemplo

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a single point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

# Predict mutiple segments based on multiple points prompt
model.predict("ultralytics/assets/zidane.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Predict a segment based on multiple points prompt per object
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Predict a segment using both positive and negative prompts.
model.predict("ultralytics/assets/zidane.jpg", points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Hemos aplicado MobileSAM y SAM utilizando la misma API. Para más información sobre su uso, consulte la página SAM página.

Automatically Build Segmentation Datasets Leveraging a Detection Model

To automatically annotate your dataset using the Ultralytics framework, utilize the auto_annotate function as demonstrated below:

Ejemplo

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo11x.pt", sam_model="mobile_sam.pt")
Argumento Tipo Por defecto Descripción
data str required Path to directory containing target images/videos for annotation or segmentation.
det_model str "yolo11x.pt" YOLO detection model path for initial object detection.
sam_model str "sam2_b.pt" SAM2 model path for segmentation (supports t/s/b/l variants and SAM2.1) and mobile_sam models.
device str "" Computation device (e.g., 'cuda:0', 'cpu', or '' for automatic device detection).
conf float 0.25 YOLO detection confidence threshold for filtering weak detections.
iou float 0.45 IoU threshold for Non-Maximum Suppression to filter overlapping boxes.
imgsz int 640 Input size for resizing images (must be multiple of 32).
max_det int 300 Maximum number of detections per image for memory efficiency.
classes list[int] None List of class indices to detect (e.g., [0, 1] for person & bicycle).
output_dir str None Save directory for annotations (defaults to './labels' relative to data path).

Citas y agradecimientos

Si encuentra útil MobileSAM en su trabajo de investigación o desarrollo, considere la posibilidad de citar nuestro artículo:

@article{mobile_sam,
  title={Faster Segment Anything: Towards Lightweight SAM for Mobile Applications},
  author={Zhang, Chaoning and Han, Dongshen and Qiao, Yu and Kim, Jung Uk and Bae, Sung Ho and Lee, Seungkyu and Hong, Choong Seon},
  journal={arXiv preprint arXiv:2306.14289},
  year={2023}
}

PREGUNTAS FRECUENTES

¿Qué es MobileSAM y en qué se diferencia del modelo original SAM ?

MobileSAM es un modelo de segmentación de imágenes ligero y rápido diseñado para aplicaciones móviles. Conserva la misma estructura que el original SAM , pero sustituye el pesado codificador ViT-H (632 millones de parámetros) por un codificador Tiny-ViT más pequeño (5 millones de parámetros). Este cambio hace que MobileSAM sea aproximadamente 5 veces más pequeño y 7 veces más rápido que el original SAM. Por ejemplo, MobileSAM funciona a unos 12 ms por imagen, frente a los 456 ms del SAM original. Puede obtener más información sobre la implementación de MobileSAM en varios proyectos aquí.

¿Cómo puedo probar MobileSAM utilizando Ultralytics?

La comprobación de MobileSAM en Ultralytics puede realizarse mediante métodos sencillos. Para predecir segmentos, puede utilizar los indicadores Punto y Caja. Aquí hay un ejemplo usando un indicador de Punto:

from ultralytics import SAM

# Load the model
model = SAM("mobile_sam.pt")

# Predict a segment based on a point prompt
model.predict("ultralytics/assets/zidane.jpg", points=[900, 370], labels=[1])

También puede consultar la sección Pruebas MobileSAM para más detalles.

¿Por qué debería utilizar MobileSAM para mi aplicación móvil?

MobileSAM es ideal para aplicaciones móviles gracias a su arquitectura ligera y a su rápida velocidad de inferencia. Comparado con el original SAM, MobileSAM es aproximadamente 5 veces más pequeño y 7 veces más rápido, lo que lo hace adecuado para entornos en los que los recursos computacionales son limitados. Esta eficiencia garantiza que los dispositivos móviles puedan realizar la segmentación de imágenes en tiempo real sin una latencia significativa. Además, los modelos de MobileSAM, como Inference, están optimizados para el rendimiento móvil.

¿Cómo se formó MobileSAM y está disponible el código de formación?

MobileSAM fue entrenado en un solo GPU con un conjunto de datos de 100k, que es el 1% de las imágenes originales, en menos de un día. Aunque el código de entrenamiento estará disponible en el futuro, actualmente puedes explorar otros aspectos de MobileSAM en el repositorio GitHub MobileSAM . Este repositorio incluye pesos preentrenados y detalles de implementación para varias aplicaciones.

¿Cuáles son los principales casos de uso de MobileSAM?

MobileSAM está diseñado para la segmentación rápida y eficaz de imágenes en entornos móviles. Los principales casos de uso son:

  • Detección y segmentación de objetos en tiempo real para aplicaciones móviles.
  • Procesamiento de imágenes de baja latencia en dispositivos con recursos informáticos limitados.
  • Integración en aplicaciones móviles basadas en IA para tareas como la realidad aumentada (RA) y el análisis en tiempo real.

Para conocer casos de uso y comparaciones de rendimiento más detallados, consulte la sección Adaptación de SAM a MobileSAM.

Creado hace 1 año ✏️ Actualizado hace 19 días

Comentarios