SAM 2.1

Acabamos de añadir compatibilidad con el modelo SAM2.1, más preciso. ¡Pruébelo!

SAM 2: Segmento Cualquier cosa Modelo 2

SAM 2, el sucesor del Segment Anything Model de Meta (SAM), es una herramienta de vanguardia diseñada para la segmentación exhaustiva de objetos tanto en imágenes como en vídeos. Sobresale en el manejo de datos visuales complejos a través de una arquitectura de modelo unificada y promptable que soporta el procesamiento en tiempo real y la generalización de cero disparos.

SAM 2 Ejemplos de resultados

Características principales

Observa: Cómo ejecutar la inferencia con SAM2 de Meta usando Ultralytics | Guía paso a paso 🎉

Arquitectura del modelo unificado

SAM 2 combina las capacidades de segmentación de imagen y vídeo en un único modelo. Esta unificación simplifica la implantación y permite un rendimiento uniforme en distintos tipos de medios. Aprovecha una interfaz flexible basada en instrucciones, que permite a los usuarios especificar objetos de interés mediante diversos tipos de instrucciones, como puntos, cuadros delimitadores o máscaras.

Rendimiento en tiempo real

El modelo alcanza velocidades de inferencia en tiempo real, procesando aproximadamente 44 fotogramas por segundo. Esto hace que SAM 2 sea adecuado para aplicaciones que requieren una respuesta inmediata, como la edición de vídeo y la realidad aumentada.

Generalización Zero-Shot

SAM 2 puede segmentar objetos que nunca ha encontrado antes, demostrando una fuerte generalización de cero disparos. Esto resulta especialmente útil en ámbitos visuales diversos o en evolución, en los que las categorías predefinidas pueden no abarcar todos los objetos posibles.

Los usuarios pueden refinar iterativamente los resultados de la segmentación proporcionando indicaciones adicionales, lo que permite un control preciso sobre el resultado. Esta interactividad es esencial para afinar los resultados en aplicaciones como la anotación de vídeos o la obtención de imágenes médicas.

Manejo avanzado de los retos visuales

SAM 2 incluye mecanismos para gestionar los retos habituales de la segmentación de vídeo, como la oclusión y reaparición de objetos. Utiliza un sofisticado mecanismo de memoria para realizar un seguimiento de los objetos a lo largo de los fotogramas, garantizando la continuidad incluso cuando los objetos se oscurecen temporalmente o salen y vuelven a entrar en la escena.

Para conocer mejor la arquitectura y las funciones de SAM 2, consulte el documento de investigaciónSAM 2.

Prestaciones y detalles técnicos

SAM 2 establece una nueva referencia en este campo, superando a los modelos anteriores en varias métricas:

Métrica	SAM 2	SOTA anterior
Segmentación de vídeo interactivo	Mejor	-
Interacciones humanas necesarias	3 veces menos	Línea de base
Precisión de la segmentación de imágenes	Mejorado	SAM
Velocidad de inferencia	6 veces más rápido	SAM

Arquitectura modelo

Componentes básicos

Codificador de imagen y vídeo: Utiliza una arquitectura basada en transformadores para extraer características de alto nivel tanto de imágenes como de fotogramas de vídeo. Este componente se encarga de comprender el contenido visual en cada paso temporal.
Codificador de avisos: Procesa las indicaciones proporcionadas por el usuario (puntos, cuadros, máscaras) para guiar la tarea de segmentación. Esto permite a SAM 2 adaptarse a las indicaciones del usuario y centrarse en objetos específicos de una escena.
Mecanismo de memoria: incluye un codificador de memoria, un banco de memoria y un módulo de atención a la memoria. Estos componentes almacenan y utilizan colectivamente información de fotogramas anteriores, lo que permite al modelo mantener un seguimiento coherente de los objetos a lo largo del tiempo.
Decodificador de máscaras: Genera las máscaras de segmentación finales basándose en las características de la imagen codificada y en las indicaciones. En vídeo, también utiliza el contexto de memoria para garantizar un seguimiento preciso entre fotogramas.

SAM 2 Diagrama de arquitectura

Mecanismo de memoria y gestión de oclusiones

El mecanismo de memoria permite a SAM 2 gestionar las dependencias temporales y las oclusiones en los datos de vídeo. A medida que los objetos se mueven e interactúan, SAM 2 registra sus características en un banco de memoria. Cuando un objeto queda oculto, el modelo puede basarse en esta memoria para predecir su posición y apariencia cuando reaparece. La cabeza de oclusión se ocupa específicamente de las situaciones en las que los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.

Resolución de ambigüedades en varias máscaras

En situaciones de ambigüedad (por ejemplo, objetos superpuestos), SAM 2 puede generar predicciones de máscaras múltiples. Esta característica es crucial para representar con precisión escenas complejas en las que una sola máscara podría no describir suficientemente los matices de la escena.

Conjunto de datos SA-V

El conjunto de datos SA-V, desarrollado para el entrenamiento de SAM 2, es uno de los mayores y más diversos conjuntos de datos de segmentación de vídeo disponibles. Incluye:

Más de 51.000 vídeos: Captados en 47 países, ofrecen una amplia gama de situaciones reales.
Más de 600.000 anotaciones de máscara: Anotaciones de máscara espaciotemporales detalladas, denominadas "masklets", que abarcan objetos enteros y partes.
Escala del conjunto de datos: Presenta 4,5 veces más vídeos y 53 veces más anotaciones que los mayores conjuntos de datos anteriores, lo que ofrece una diversidad y complejidad sin precedentes.

Puntos de referencia

Segmentación de objetos de vídeo

SAM 2 ha demostrado un rendimiento superior en las principales pruebas de segmentación de vídeo:

Conjunto de datos	J&AMP;F	J	F
DAVIS 2017	82.5	79.8	85.2
YouTube-VOS	81.2	78.9	83.5

Segmentación interactiva

En tareas de segmentación interactiva, SAM 2 muestra una eficiencia y precisión significativas:

Conjunto de datos	NoC@90	AUC
DAVIS Interactivo	1.54	0.872

Instalación

Para instalar SAM 2, utilice el siguiente comando. Todos los modelos de SAM 2 se descargarán automáticamente la primera vez que se utilicen.

pip install ultralytics

Cómo utilizar SAM 2: Versatilidad en la segmentación de imágenes y vídeos

La siguiente tabla detalla los modelos disponibles en SAM 2, sus pesos preentrenados, las tareas soportadas y la compatibilidad con diferentes modos de funcionamiento como Inferencia, Validación, Entrenamiento y Exportación.

Tipo de modelo	Pesas preentrenadas	Tareas admitidas	Inferencia	Validación	Formación	Exportar
SAM 2 pequeños	sam2_t.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2 pequeños	sam2_s.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2 base	sam2_b.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2 grandes	sam2_l.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2.1 minúscula	sam2.1_t.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2.1 pequeño	sam2.1_s.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2.1 base	sam2.1_b.pt	Segmentación de instancias	✅	❌	❌	❌
SAM 2.1 grandes	sam2.1_l.pt	Segmentación de instancias	✅	❌	❌	❌

SAM 2 Ejemplos de predicción

SAM 2 puede utilizarse en un amplio espectro de tareas, como la edición de vídeo en tiempo real, la obtención de imágenes médicas y los sistemas autónomos. Su capacidad para segmentar datos visuales estáticos y dinámicos lo convierte en una herramienta versátil para investigadores y desarrolladores.

Segmento con indicaciones

Utilice indicaciones para segmentar objetos específicos en imágenes o vídeos.

Python

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Segmento Todo

Segmente todo el contenido de la imagen o el vídeo sin indicaciones específicas.

PythonCLI

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

# Run inference with a SAM 2 model
yolo predict model=sam2.1_b.pt source=path/to/video.mp4

Segmentar vídeo y rastrear objetos

Segmento de vídeo

Segmente todo el contenido del vídeo con indicaciones específicas y objetos de seguimiento.

Python

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])

Este ejemplo demuestra cómo SAM 2 puede utilizarse para segmentar todo el contenido de una imagen o vídeo si no se proporcionan indicaciones (bboxes/puntos/máscaras).

SAM 2 Comparación con YOLO

Aquí comparamos los modelos SAM 2 de Meta, incluida la variante más pequeña SAM2, con el modelo de segmentación más pequeño de Ultralytics , YOLO11n-seg:

Modelo	Tamaño ^(MB)	Parámetros ^(M)	Velocidad (CPU) ^(ms/im)
Meta SAM-b	375	93.7	49401
Meta SAM2-b	162	80.8	31901
Meta SAM2-t	78.1	38.9	25997
MobileSAM	40.7	10.1	25381
FastSAM conred troncal YOLOv8	23.7	11.8	55.9
Ultralytics YOLOv8n-seg	6,7 (11,7 veces menor)	3,4 (11,4 veces menos)	24,5 (1061 veces más rápido)
Ultralytics YOLO11n-seg	5,9 (13,2x menor)	2,9 (13,4 veces menos)	30,1 (864 veces más rápido)

Esta comparación demuestra las diferencias sustanciales de tamaño y velocidad de los modelos entre las variantes de SAM y los modelos de segmentación de YOLO . Mientras que SAM proporciona capacidades únicas de segmentación automática, los modelos YOLO , en particular YOLOv8n y YOLO11n-seg, son significativamente más pequeños, más rápidos y más eficientes desde el punto de vista computacional.

Pruebas realizadas en un Apple M4 Pro 2025 con 24 GB de RAM utilizando torch==2.6.0 y ultralytics==8.3.90. Para reproducir esta prueba:

Ejemplo

Python

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLO models
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt"]:
    model = YOLO(file_name)
    model.info()
    model(ASSETS)

Anotación automática: Creación eficiente de conjuntos de datos

La anotación automática es una potente función de SAM 2, que permite a los usuarios generar conjuntos de datos de segmentación con rapidez y precisión aprovechando modelos preentrenados. Esta función es especialmente útil para crear grandes conjuntos de datos de alta calidad sin un gran esfuerzo manual.

Cómo realizar anotaciones automáticas con SAM 2

Observa: Anotación automática con el modelo Segment Anything 2 de Meta utilizando Ultralytics | Etiquetado de datos

Para auto-anotar su conjunto de datos utilizando SAM 2, siga este ejemplo:

Ejemplo de anotación automática

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo11x.pt", sam_model="sam2_b.pt")

Argumento	Tipo	Por defecto	Descripción
`data`	`str`	obligatorio	Ruta al directorio que contiene las imágenes de destino para la anotación o segmentación.
`det_model`	`str`	`'yolo11x.pt'`	YOLO trayectoria del modelo de detección para la detección inicial de objetos.
`sam_model`	`str`	`'sam_b.pt'`	Trayectoria del modelo SAM para la segmentación (admite las variantes SAM, SAM2 y los modelos mobile_sam).
`device`	`str`	`''`	Dispositivo de cálculo (por ejemplo, 'cuda:0', 'cpu', o '' para la detección automática de dispositivos).
`conf`	`float`	`0.25`	YOLO umbral de confianza de detección para filtrar las detecciones débiles.
`iou`	`float`	`0.45`	Umbral IoU de Supresión No Máxima para filtrar cajas solapadas.
`imgsz`	`int`	`640`	Tamaño de entrada para redimensionar las imágenes (debe ser múltiplo de 32).
`max_det`	`int`	`300`	Número máximo de detecciones por imagen para ahorrar memoria.
`classes`	`list[int]`	`None`	Lista de índices de clase a detectar (por ejemplo, `[0, 1]` para persona y bicicleta).
`output_dir`	`str`	`None`	Guardar directorio para anotaciones (por defecto './labels' relativo a la ruta de datos).

Esta función facilita la creación rápida de conjuntos de datos de segmentación de alta calidad, ideales para investigadores y desarrolladores que deseen acelerar sus proyectos.

Limitaciones

A pesar de sus puntos fuertes, SAM 2 tiene ciertas limitaciones:

Estabilidad de seguimiento: SAM 2 puede perder el seguimiento de los objetos durante secuencias prolongadas o cambios significativos del punto de vista.
Confusión de objetos: El modelo puede confundir a veces objetos de aspecto similar, sobre todo en escenas abarrotadas.
Eficiencia con múltiples objetos: La eficacia de la segmentación disminuye cuando se procesan varios objetos simultáneamente debido a la falta de comunicación entre objetos.
Precisión en los detalles: Puede pasar por alto detalles finos, especialmente con objetos que se mueven rápidamente. Las indicaciones adicionales pueden resolver parcialmente este problema, pero no se garantiza la suavidad temporal.

Citas y agradecimientos

Si SAM 2 es una parte crucial de su trabajo de investigación o desarrollo, cítelo utilizando la siguiente referencia:

BibTeX

@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

Extendemos nuestra gratitud a Meta AI por su contribución a la comunidad de la IA con este innovador modelo y conjunto de datos.

PREGUNTAS FRECUENTES

¿Qué es SAM 2 y cómo mejora el modelo original Segment Anything Model (SAM)?

SAM 2, el sucesor del Segment Anything Model de Meta (SAM), es una herramienta de vanguardia diseñada para la segmentación exhaustiva de objetos tanto en imágenes como en vídeos. Sobresale en el manejo de datos visuales complejos a través de una arquitectura de modelo unificada y promptable que soporta el procesamiento en tiempo real y la generalización zero-shot. SAM 2 ofrece varias mejoras con respecto al original SAM, entre las que se incluyen:

Arquitectura de modelo unificado: Combina las capacidades de segmentación de imagen y vídeo en un único modelo.
Rendimiento en tiempo real: Procesa aproximadamente 44 fotogramas por segundo, lo que la hace adecuada para aplicaciones que requieren una respuesta inmediata.
Generalización Zero-Shot: Segmenta objetos que nunca ha encontrado antes, útil en diversos dominios visuales.
Perfeccionamiento interactivo: Permite a los usuarios refinar iterativamente los resultados de la segmentación proporcionando indicaciones adicionales.
Gestión avanzada de los retos visuales: Gestiona problemas habituales de segmentación de vídeo, como la oclusión y reaparición de objetos.

Para más detalles sobre la arquitectura y las funciones de SAM 2, consulte el documento de investigaciónSAM 2.

¿Cómo puedo utilizar SAM 2 para la segmentación de vídeo en tiempo real?

SAM 2 se puede utilizar para la segmentación de vídeo en tiempo real aprovechando su interfaz de avisos y sus capacidades de inferencia en tiempo real. He aquí un ejemplo básico:

Segmento con indicaciones

Utilice indicaciones para segmentar objetos específicos en imágenes o vídeos.

Python

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

Para un uso más completo, consulte la sección Cómo utilizar SAM 2.

¿Qué conjuntos de datos se utilizan para entrenar SAM 2 y cómo mejoran su rendimiento?

SAM 2 se entrena en el conjunto de datos SA-V, uno de los mayores y más diversos conjuntos de datos de segmentación de vídeo disponibles. El conjunto de datos SA-V incluye:

Más de 51.000 vídeos: Captados en 47 países, ofrecen una amplia gama de situaciones reales.
Más de 600.000 anotaciones de máscara: Anotaciones de máscara espaciotemporales detalladas, denominadas "masklets", que abarcan objetos enteros y partes.
Escala del conjunto de datos: Presenta 4,5 veces más vídeos y 53 veces más anotaciones que los mayores conjuntos de datos anteriores, lo que ofrece una diversidad y complejidad sin precedentes.

Este amplio conjunto de datos permite a SAM 2 alcanzar un rendimiento superior en las principales pruebas de segmentación de vídeo y mejora su capacidad de generalización sin disparos. Para obtener más información, consulte la sección SA-V Dataset.

¿Cómo gestiona SAM 2 las oclusiones y las reapariciones de objetos en la segmentación de vídeo?

SAM 2 incluye un sofisticado mecanismo de memoria para gestionar las dependencias temporales y las oclusiones en los datos de vídeo. El mecanismo de memoria consta de:

Codificador de memoria y banco de memoria: Almacena características de fotogramas anteriores.
Módulo de atención a la memoria: Utiliza la información almacenada para mantener un seguimiento coherente de los objetos a lo largo del tiempo.
Cabezal de oclusión: trata específicamente los escenarios en los que los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.

Este mecanismo garantiza la continuidad incluso cuando los objetos se oscurecen temporalmente o salen y vuelven a entrar en la escena. Para más detalles, consulte la sección Mecanismo de memoria y manejo de oclusiones.

¿Cómo se compara SAM 2 con otros modelos de segmentación como YOLO11?

Los modelos SAM 2, como SAM2 y SAM2 de Meta, ofrecen potentes capacidades de segmentación de disparo cero, pero son significativamente más grandes y lentos en comparación con los modelos YOLO11 . Por ejemplo, YOLO11n-seg es aproximadamente 13 veces más pequeño y más de 860 veces más rápido que SAM2. Mientras que SAM 2 destaca en escenarios versátiles, basados en avisos y de segmentación de disparo cero, YOLO11 está optimizado para aplicaciones de velocidad, eficiencia y tiempo real, lo que lo hace más adecuado para su despliegue en entornos con recursos limitados.

Creado hace 8 meses ✏️ Actualizado hace 20 días

SAM 2: Segmento Cualquier cosa Modelo 2

Características principales

Arquitectura del modelo unificado

Rendimiento en tiempo real

Generalización Zero-Shot

Perfeccionamiento interactivo

Manejo avanzado de los retos visuales

Prestaciones y detalles técnicos

Arquitectura modelo

Componentes básicos

Mecanismo de memoria y gestión de oclusiones

Resolución de ambigüedades en varias máscaras

Conjunto de datos SA-V

Puntos de referencia

Segmentación de objetos de vídeo

Segmentación interactiva

Instalación

Cómo utilizar SAM 2: Versatilidad en la segmentación de imágenes y vídeos

SAM 2 Ejemplos de predicción

Segmento con indicaciones

Segmento Todo

Segmentar vídeo y rastrear objetos

SAM 2 Comparación con YOLO

Anotación automática: Creación eficiente de conjuntos de datos

Cómo realizar anotaciones automáticas con SAM 2

Limitaciones

Citas y agradecimientos

PREGUNTAS FRECUENTES

¿Qué es SAM 2 y cómo mejora el modelo original Segment Anything Model (SAM)?

¿Cómo puedo utilizar SAM 2 para la segmentación de vídeo en tiempo real?

¿Qué conjuntos de datos se utilizan para entrenar SAM 2 y cómo mejoran su rendimiento?

¿Cómo gestiona SAM 2 las oclusiones y las reapariciones de objetos en la segmentación de vídeo?

¿Cómo se compara SAM 2 con otros modelos de segmentación como YOLO11?

Comentarios