Link to this sectionSAM 2: Segment Anything Model 2#
SAM 2, el sucesor de Segment Anything Model (SAM) de Meta, es una herramienta de vanguardia diseñada para la segmentación integral de objetos tanto en imágenes como en vídeos. Destaca en el manejo de datos visuales complejos mediante una arquitectura de modelo unificada y adaptable a prompts que permite el procesamiento en tiempo real y la generalización zero-shot.
Los modelos SAM 2.1 potencian la función de anotación inteligente en la plataforma de Ultralytics, permitiendo la segmentación mediante clics para un etiquetado de conjuntos de datos rápido. Consulta la guía de anotación para obtener más detalles.

Link to this sectionCaracterísticas clave#
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Link to this sectionArquitectura de modelo unificada#
SAM 2 combina las capacidades de segmentación de imagen y vídeo en un solo modelo. Esta unificación simplifica el despliegue y permite un rendimiento consistente en diferentes tipos de medios. Aprovecha una interfaz flexible basada en prompts, que permite a los usuarios especificar objetos de interés mediante varios tipos de prompts, como puntos, cajas delimitadoras o máscaras.
Link to this sectionRendimiento en tiempo real#
El modelo logra velocidades de inferencia en tiempo real, procesando aproximadamente 44 fotogramas por segundo. Esto hace que SAM 2 sea adecuado para aplicaciones que requieren feedback inmediato, como la edición de vídeo y la realidad aumentada.
Link to this sectionGeneralización Zero-Shot#
SAM 2 puede segmentar objetos que nunca antes ha visto, demostrando una sólida generalización zero-shot. Esto es particularmente útil en dominios visuales diversos o cambiantes donde las categorías predefinidas pueden no cubrir todos los objetos posibles.
Link to this sectionRefinamiento interactivo#
Los usuarios pueden refinar iterativamente los resultados de la segmentación proporcionando prompts adicionales, lo que permite un control preciso sobre la salida. Esta interactividad es esencial para ajustar resultados en aplicaciones como la anotación de vídeo o la imagen médica.
Link to this sectionManejo avanzado de desafíos visuales#
SAM 2 incluye mecanismos para gestionar los desafíos comunes en la segmentación de vídeo, como la oclusión y la reaparición de objetos. Utiliza un sofisticado mecanismo de memoria para realizar un seguimiento de los objetos a través de los fotogramas, asegurando la continuidad incluso cuando los objetos están temporalmente ocultos o salen y vuelven a entrar en la escena.
Para una comprensión más profunda de la arquitectura y las capacidades de SAM 2, explora el artículo de investigación de SAM 2.
Link to this sectionRendimiento y detalles técnicos#
SAM 2 establece un nuevo estándar en el campo, superando a los modelos anteriores en varias métricas:
| Métrica | SAM 2 | SOTA anterior |
|---|---|---|
| Segmentación de vídeo interactiva | Mejor | - |
| Interacciones humanas necesarias | 3 veces menos | Línea base |
| Precisión de segmentación de imagen | Mejorada | SAM |
| Velocidad de inferencia | 6 veces más rápida | SAM |
Link to this sectionArquitectura del modelo#
Link to this sectionComponentes principales#
- Codificador de imagen y vídeo: Utiliza una arquitectura basada en transformer para extraer características de alto nivel tanto de imágenes como de fotogramas de vídeo. Este componente es responsable de comprender el contenido visual en cada paso de tiempo.
- Codificador de prompts: Procesa los prompts proporcionados por el usuario (puntos, cajas, máscaras) para guiar la tarea de segmentación. Esto permite que SAM 2 se adapte a la entrada del usuario y apunte a objetos específicos dentro de una escena.
- Mecanismo de memoria: Incluye un codificador de memoria, un banco de memoria y un módulo de atención de memoria. Estos componentes almacenan y utilizan colectivamente información de fotogramas pasados, lo que permite al modelo mantener un seguimiento de objetos consistente a lo largo del tiempo.
- Decodificador de máscaras: Genera las máscaras de segmentación finales basadas en las características de imagen codificadas y los prompts. En vídeo, también utiliza el contexto de memoria para asegurar un seguimiento preciso a través de los fotogramas.

Link to this sectionMecanismo de memoria y manejo de oclusiones#
El mecanismo de memoria permite que SAM 2 gestione las dependencias temporales y las oclusiones en los datos de vídeo. A medida que los objetos se mueven e interactúan, SAM 2 registra sus características en un banco de memoria. Cuando un objeto queda ocluido, el modelo puede confiar en esta memoria para predecir su posición y apariencia cuando reaparezca. El cabezal de oclusión maneja específicamente escenarios donde los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.
Link to this sectionResolución de ambigüedad de máscara múltiple#
En situaciones con ambigüedad (por ejemplo, objetos superpuestos), SAM 2 puede generar múltiples predicciones de máscara. Esta característica es crucial para representar con precisión escenas complejas donde una única máscara podría no describir suficientemente los matices de la escena.
Link to this sectionConjunto de datos SA-V#
El conjunto de datos SA-V, desarrollado para el entrenamiento de SAM 2, es uno de los conjuntos de datos de segmentación de vídeo más grandes y diversos disponibles. Incluye:
- Más de 51.000 vídeos: Capturados en 47 países, proporcionando una amplia gama de escenarios del mundo real.
- Más de 600.000 anotaciones de máscara: Anotaciones de máscara espacio-temporales detalladas, denominadas "masklets", que cubren objetos enteros y partes.
- Escala del conjunto de datos: Presenta 4,5 veces más vídeos y 53 veces más anotaciones que los conjuntos de datos más grandes anteriores, ofreciendo una diversidad y complejidad sin precedentes.
Link to this sectionBenchmarks#
Link to this sectionSegmentación de objetos de vídeo#
SAM 2 ha demostrado un rendimiento superior en los principales benchmarks de segmentación de vídeo:
| Conjunto de datos | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Link to this sectionSegmentación interactiva#
En tareas de segmentación interactiva, SAM 2 muestra una eficiencia y precisión significativas:
| Conjunto de datos | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Link to this sectionInstalación#
Para instalar SAM 2, utiliza el siguiente comando. Todos los modelos SAM 2 se descargarán automáticamente en el primer uso.
pip install ultralyticsLink to this sectionCómo usar SAM 2: Versatilidad en la segmentación de imágenes y vídeos#
La siguiente tabla detalla los modelos SAM 2 disponibles, sus pesos preentrenados, las tareas admitidas y la compatibilidad con diferentes modos de operación como Inferencia, Validación, Entrenamiento y Exportación.
| Tipo de modelo | Pesos preentrenados | Tareas admitidas | Inferencia | Validación | Entrenamiento | Exportar |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
Link to this sectionEjemplos de predicción de SAM 2#
SAM 2 se puede utilizar en un amplio espectro de tareas, incluyendo edición de vídeo en tiempo real, imagen médica y sistemas autónomos. Su capacidad para segmentar datos visuales tanto estáticos como dinámicos lo convierte en una herramienta versátil para investigadores y desarrolladores.
Link to this sectionSegmentar con prompts#
Usa prompts para segmentar objetos específicos en imágenes o vídeos.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Link to this sectionSegmentar todo#
Segmenta todo el contenido de una imagen o vídeo sin necesidad de prompts específicos.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Link to this sectionSegmentar vídeo y rastrear objetos#
Segmenta todo el contenido de un vídeo con prompts específicos y rastrea objetos.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- Este ejemplo demuestra cómo puedes usar SAM 2 para segmentar todo el contenido de una imagen o vídeo si no se proporcionan prompts (bboxes/puntos/máscaras).
Link to this sectionSegmentación y rastreo interactivo dinámico#
SAM2DynamicInteractivePredictor es una extensión avanzada y sin entrenamiento de SAM2 que permite la interacción dinámica con múltiples fotogramas y capacidades de aprendizaje continuo. Este predictor admite actualizaciones de prompts en tiempo real y gestión de memoria para mejorar el rendimiento del rastreo en una secuencia de imágenes. En comparación con el SAM2 original, SAM2DynamicInteractivePredictor reconstruye el flujo de inferencia para aprovechar al máximo los modelos SAM2 preentrenados sin necesidad de entrenamiento adicional.

Link to this sectionCaracterísticas clave#
Ofrece tres mejoras significativas:
- Dinámico e interactivo: Añade nuevos prompts para fusionar o rastrear nuevas instancias en los siguientes fotogramas en cualquier momento durante el procesamiento del vídeo.
- Aprendizaje continuo: Añade nuevos prompts para instancias existentes y mejora el rendimiento del modelo con el paso del tiempo.
- Soporte independiente para múltiples imágenes: Procesa varias imágenes independientes (no necesariamente de una secuencia de vídeo) con memoria compartida y rastreo de objetos entre imágenes.
Link to this sectionCapacidades principales#
- Flexibilidad de prompts: Acepta cuadros delimitadores, puntos y máscaras como prompts.
- Gestión del banco de memoria: Mantiene un banco de memoria dinámico para almacenar estados de objetos a través de los fotogramas.
- Rastreo multiobjeto: Admite el rastreo de varios objetos simultáneamente con IDs de objeto individuales.
- Actualizaciones en tiempo real: Permite añadir nuevos prompts durante la inferencia sin reprocesar los fotogramas anteriores.
- Procesamiento de imágenes independientes: Procesa imágenes aisladas con un contexto de memoria compartido para lograr coherencia de objetos entre imágenes.
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")El SAM2DynamicInteractivePredictor está diseñado para funcionar con modelos SAM2 y admite la adición y el refinamiento de categorías mediante todos los prompts de caja/punto/máscara que SAM2 soporta de forma nativa. Es especialmente útil en escenarios donde los objetos aparecen o cambian con el tiempo, como en tareas de anotación de vídeo o edición interactiva.
Link to this sectionArgumentos#
| Nombre | Valor predeterminado | Tipo de dato | Descripción |
|---|---|---|---|
max_obj_num | 3 | int | El número máximo preestablecido de categorías |
update_memory | False | bool | Indica si se debe actualizar la memoria con nuevos prompts |
obj_ids | None | List[int] | Lista de IDs de objetos correspondientes a los prompts |
Link to this sectionCasos de uso#
SAM2DynamicInteractivePredictor es ideal para:
- Flujos de trabajo de anotación de vídeo donde aparecen nuevos objetos durante la secuencia.
- Edición de vídeo interactiva que requiere adición y refinamiento de objetos en tiempo real.
- Aplicaciones de vigilancia con necesidades de rastreo dinámico de objetos.
- Imagen médica para el rastreo de estructuras anatómicas en series temporales.
- Sistemas autónomos que requieren detección y rastreo de objetos adaptativo.
- Conjuntos de datos de múltiples imágenes para una segmentación de objetos coherente en imágenes independientes.
- Análisis de colecciones de imágenes donde los objetos deben rastrearse en diferentes escenas.
- Segmentación de dominio cruzado aprovechando la memoria de diversos contextos de imagen.
- Anotación semiautomática para una creación eficiente de conjuntos de datos con una mínima intervención manual.
Link to this sectionComparativa de SAM frente a YOLO#
Aquí comparamos los modelos SAM 2 de Meta, incluida la variante más pequeña SAM2-t, con los modelos de segmentación de Ultralytics, incluido YOLO26n-seg:
| Modelo | Tamaño (MB) | Parámetros (M) | Velocidad (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s con backbone YOLOv8 | 23.9 | 11.8 | 58.0 |
| Ultralytics YOLOv8n-seg | 7.1 (11.0x más pequeño) | 3.4 (11.4x menos) | 24.8 (945x más rápido) |
| Ultralytics YOLO11n-seg | 6.2 (12.6x más pequeño) | 2.9 (13.4x menos) | 24.3 (964x más rápido) |
| Ultralytics YOLO26n-seg | 6.7 (11.7x más pequeño) | 2.7 (14.4x menos) | 25.2 (930x más rápido) |
Esta comparativa demuestra las diferencias sustanciales en tamaños y velocidades de modelo entre las variantes de SAM y los modelos de segmentación de YOLO. Mientras que SAM proporciona capacidades únicas de segmentación automática, los modelos YOLO, particularmente YOLOv8n-seg, YOLO11n-seg y YOLO26n-seg, son significativamente más pequeños, rápidos y eficientes computacionalmente.
Velocidades de SAM medidas con PyTorch, velocidades de YOLO medidas con ONNX Runtime. Pruebas realizadas en un Apple M4 Air de 2025 con 16GB de RAM usando torch==2.10.0, ultralytics==8.4.31 y onnxruntime==1.24.4. Para reproducir esta prueba:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Link to this sectionAutoanotación: Creación eficiente de conjuntos de datos#
La autoanotación es una función potente de SAM 2 que permite a los usuarios generar conjuntos de datos de segmentación de forma rápida y precisa aprovechando modelos preentrenados. Esta capacidad es especialmente útil para crear conjuntos de datos grandes y de alta calidad sin un esfuerzo manual excesivo.
Link to this sectionCómo realizar la autoanotación con SAM 2#
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
Para realizar la autoanotación de tu conjunto de datos usando SAM 2, sigue este ejemplo:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
data | str | requerido | Ruta al directorio que contiene las imágenes objetivo para anotación o segmentación. |
det_model | str | 'yolo26x.pt' | Ruta del modelo de detección YOLO para la detección inicial de objetos. |
sam_model | str | 'sam_b.pt' | Ruta del modelo SAM para segmentación (admite pesos de SAM, SAM 2, MobileSAM y SAM 3). |
device | str | '' | Dispositivo de computación (ej. 'cuda:0', 'cpu' o '' para detección automática de dispositivo). |
conf | float | 0.25 | Umbral de confianza de detección de YOLO para filtrar detecciones débiles. |
iou | float | 0.45 | Umbral de IoU para la supresión de no máximos (NMS) para filtrar cajas superpuestas. |
imgsz | int | 640 | Tamaño de entrada para redimensionar imágenes (debe ser un múltiplo de 32). |
max_det | int | 300 | Número máximo de detecciones por imagen para mejorar la eficiencia de la memoria. |
classes | list[int] | None | Lista de índices de clases a detectar (p. ej., [0, 1] para persona y bicicleta). |
output_dir | str | None | Directorio de guardado para anotaciones (predeterminado: hermano de <data>_auto_annotate_labels). |
Esta función facilita la creación rápida de conjuntos de datos de segmentación de alta calidad, ideal para investigadores y desarrolladores que buscan acelerar sus proyectos.
Link to this sectionLimitaciones#
A pesar de sus fortalezas, SAM 2 tiene ciertas limitaciones:
- Estabilidad de seguimiento: SAM 2 puede perder el rastro de objetos durante secuencias prolongadas o cambios significativos de punto de vista.
- Confusión de objetos: El modelo a veces puede confundir objetos de aspecto similar, particularmente en escenas abarrotadas.
- Eficiencia con múltiples objetos: La eficiencia de la segmentación disminuye al procesar múltiples objetos simultáneamente debido a la falta de comunicación entre objetos.
- Precisión de detalle: Puede omitir detalles finos, especialmente con objetos que se mueven rápido. Prompts adicionales pueden abordar parcialmente este problema, pero la suavidad temporal no está garantizada.
Link to this sectionCitas y agradecimientos#
Si SAM 2 es una parte crucial de tu investigación o trabajo de desarrollo, por favor cítalo utilizando la siguiente referencia:
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}Extendemos nuestra gratitud a Meta AI por sus contribuciones a la comunidad de IA con este modelo y conjunto de datos innovadores.
Link to this sectionPreguntas frecuentes#
Link to this section¿Qué es SAM 2 y cómo mejora respecto al Segment Anything Model (SAM) original?#
SAM 2, el sucesor del Segment Anything Model (SAM) de Meta, es una herramienta de vanguardia diseñada para la segmentación integral de objetos tanto en imágenes como en videos. Destaca en el manejo de datos visuales complejos a través de una arquitectura de modelo unificada y promptable que admite procesamiento en tiempo real y generalización zero-shot. SAM 2 ofrece varias mejoras sobre el SAM original, incluyendo:
- Arquitectura de modelo unificada: Combina capacidades de segmentación de imagen y video en un solo modelo.
- Rendimiento en tiempo real: Procesa aproximadamente 44 fotogramas por segundo, lo que lo hace adecuado para aplicaciones que requieren retroalimentación inmediata.
- Generalización Zero-Shot: Segmenta objetos que nunca antes ha encontrado, útil en diversos dominios visuales.
- Refinamiento interactivo: Permite a los usuarios refinar iterativamente los resultados de segmentación proporcionando prompts adicionales.
- Manejo avanzado de desafíos visuales: Gestiona desafíos comunes de segmentación de video como la oclusión de objetos y la reaparición.
Para obtener más detalles sobre la arquitectura y las capacidades de SAM 2, explora el artículo de investigación de SAM 2.
Link to this section¿Cómo puedo usar SAM 2 para la segmentación de video en tiempo real?#
SAM 2 se puede utilizar para la segmentación de video en tiempo real aprovechando su interfaz promptable y sus capacidades de inferencia en tiempo real. Aquí tienes un ejemplo básico:
Usa prompts para segmentar objetos específicos en imágenes o vídeos.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])Para un uso más completo, consulta la sección Cómo usar SAM 2.
Link to this section¿Qué conjuntos de datos se utilizan para entrenar SAM 2 y cómo mejoran su rendimiento?#
SAM 2 está entrenado en el conjunto de datos SA-V, uno de los conjuntos de datos de segmentación de video más grandes y diversos disponibles. El conjunto de datos SA-V incluye:
- Más de 51.000 vídeos: Capturados en 47 países, proporcionando una amplia gama de escenarios del mundo real.
- Más de 600.000 anotaciones de máscara: Anotaciones de máscara espacio-temporales detalladas, denominadas "masklets", que cubren objetos enteros y partes.
- Escala del conjunto de datos: Presenta 4.5 veces más videos y 53 veces más anotaciones que los conjuntos de datos más grandes anteriores, ofreciendo una diversidad y complejidad sin precedentes.
Este extenso conjunto de datos permite a SAM 2 lograr un rendimiento superior en los principales puntos de referencia de segmentación de video y mejora sus capacidades de generalización zero-shot. Para obtener más información, consulta la sección Conjunto de datos SA-V.
Link to this section¿Cómo maneja SAM 2 las oclusiones y reapariciones de objetos en la segmentación de video?#
SAM 2 incluye un sofisticado mecanismo de memoria para gestionar las dependencias temporales y las oclusiones en datos de video. El mecanismo de memoria consta de:
- Codificador de memoria y banco de memoria: Almacena características de fotogramas pasados.
- Módulo de atención de memoria: Utiliza información almacenada para mantener un seguimiento constante del objeto a lo largo del tiempo.
- Cabezal de oclusión: Maneja específicamente escenarios donde los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.
Este mecanismo garantiza la continuidad incluso cuando los objetos están temporalmente ocultos o salen y vuelven a entrar en la escena. Para más detalles, consulta la sección Mecanismo de memoria y manejo de oclusiones.
Link to this section¿Cómo se compara SAM 2 con otros modelos de segmentación como YOLO26?#
Los modelos SAM 2, como SAM2-t y SAM2-b de Meta, ofrecen potentes capacidades de segmentación zero-shot, pero son significativamente más grandes y lentos en comparación con los modelos YOLO. Por ejemplo, YOLO26n-seg es aproximadamente 24 veces más pequeño y más de 1145 veces más rápido que SAM2-b en CPU. Si bien SAM 2 destaca en escenarios de segmentación versátiles, basados en prompts y zero-shot, YOLO26 está optimizado para la velocidad, la eficiencia y aplicaciones en tiempo real con inferencia de extremo a extremo sin NMS, lo que lo hace más adecuado para el despliegue en entornos con recursos limitados.