SAM 2: Segment Anything Model 2
SAM 2, el sucesor del Segment Anything Model (SAM) de Meta, es una herramienta de vanguardia diseñada para la segmentación completa de objetos tanto en imágenes como en vídeos. Destaca en el manejo de datos visuales complejos mediante una arquitectura de modelo unificada y basada en prompts que admite el procesamiento en tiempo real y la generalización zero-shot.
Los modelos SAM 2.1 impulsan la función de anotación inteligente en Ultralytics Platform, lo que permite la segmentación basada en clics para un etiquetado rápido de datasets. Consulta la guía de anotación para obtener más detalles.

Características clave
Watch: How to Run Inference with Meta's SAM2 using Ultralytics | Step-by-Step Guide 🎉
Arquitectura de modelo unificada
SAM 2 combina las capacidades de segmentación de imágenes y vídeos en un único modelo. Esta unificación simplifica el despliegue y permite un rendimiento consistente en diferentes tipos de medios. Aprovecha una interfaz flexible basada en prompts, lo que permite a los usuarios especificar los objetos de interés mediante varios tipos de prompts, como puntos, cajas delimitadoras (bounding boxes) o máscaras.
Rendimiento en tiempo real
El modelo logra velocidades de inferencia en tiempo real, procesando aproximadamente 44 fotogramas por segundo. Esto hace que SAM 2 sea adecuado para aplicaciones que requieren feedback inmediato, como la edición de vídeo y la realidad aumentada.
Generalización Zero-Shot
SAM 2 puede segmentar objetos que nunca ha visto antes, demostrando una potente generalización zero-shot. Esto es especialmente útil en dominios visuales diversos o cambiantes donde las categorías predefinidas pueden no cubrir todos los objetos posibles.
Refinamiento interactivo
Puedes refinar iterativamente los resultados de segmentación proporcionando prompts adicionales, lo que permite un control preciso sobre la salida. Esta interactividad es esencial para ajustar resultados en aplicaciones como la anotación de vídeo o la imagenología médica.
Manejo avanzado de desafíos visuales
SAM 2 incluye mecanismos para gestionar desafíos comunes en la segmentación de vídeo, como la oclusión y la reaparición de objetos. Utiliza un sofisticado mecanismo de memoria para realizar un seguimiento de los objetos a través de los fotogramas, garantizando la continuidad incluso cuando los objetos están temporalmente ocultos o salen y vuelven a entrar en la escena.
Para profundizar en la arquitectura y capacidades de SAM 2, explora el artículo de investigación de SAM 2.
Detalles técnicos y de rendimiento
SAM 2 establece un nuevo estándar en el campo, superando a modelos anteriores en varias métricas:
| Métrica | SAM 2 | SOTA anterior |
|---|---|---|
| Segmentación de vídeo interactiva | Mejor | - |
| Interacciones humanas necesarias | 3 veces menos | Línea base |
| Precisión en Segmentación de imágenes | Mejorada | SAM |
| Velocidad de inferencia | 6 veces más rápida | SAM |
Arquitectura del modelo
Componentes principales
- Codificador de imágenes y vídeo: Utiliza una arquitectura basada en transformer para extraer características de alto nivel tanto de imágenes como de fotogramas de vídeo. Este componente es responsable de comprender el contenido visual en cada paso temporal.
- Codificador de prompts: Procesa los prompts proporcionados por el usuario (puntos, cajas, máscaras) para guiar la tarea de segmentación. Esto permite que SAM 2 se adapte a la entrada del usuario y se centre en objetos específicos dentro de una escena.
- Mecanismo de memoria: Incluye un codificador de memoria, un banco de memoria y un módulo de atención de memoria. Estos componentes almacenan y utilizan conjuntamente información de fotogramas pasados, permitiendo al modelo mantener un seguimiento de objetos consistente a lo largo del tiempo.
- Decodificador de máscaras: Genera las máscaras de segmentación finales basadas en las características de imagen codificadas y los prompts. En vídeo, también utiliza el contexto de memoria para garantizar un seguimiento preciso entre fotogramas.

Mecanismo de memoria y manejo de oclusiones
El mecanismo de memoria permite a SAM 2 gestionar las dependencias temporales y las oclusiones en los datos de vídeo. A medida que los objetos se mueven e interactúan, SAM 2 registra sus características en un banco de memoria. Cuando un objeto queda ocluido, el modelo puede confiar en esta memoria para predecir su posición y apariencia cuando vuelve a aparecer. El cabezal de oclusión maneja específicamente escenarios donde los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.
Resolución de ambigüedad de máscara múltiple
En situaciones de ambigüedad (p. ej., objetos superpuestos), SAM 2 puede generar múltiples predicciones de máscara. Esta característica es crucial para representar con precisión escenas complejas donde una única máscara podría no describir suficientemente los matices de la escena.
Dataset SA-V
El dataset SA-V, desarrollado para el entrenamiento de SAM 2, es uno de los datasets de segmentación de vídeo más grandes y diversos disponibles. Incluye:
- Más de 51,000 vídeos: Capturados en 47 países, proporcionando una amplia gama de escenarios del mundo real.
- Más de 600,000 anotaciones de máscara: Anotaciones de máscara espaciotemporales detalladas, conocidas como "masklets", que cubren objetos completos y partes.
- Escala del dataset: Cuenta con 4.5 veces más vídeos y 53 veces más anotaciones que los datasets más grandes anteriores, ofreciendo una diversidad y complejidad sin precedentes.
Benchmarks
Segmentación de objetos en vídeo
SAM 2 ha demostrado un rendimiento superior en los principales benchmarks de segmentación de vídeo:
| Dataset | J&F | J | F |
|---|---|---|---|
| DAVIS 2017 | 82.5 | 79.8 | 85.2 |
| YouTube-VOS | 81.2 | 78.9 | 83.5 |
Segmentación interactiva
En tareas de segmentación interactiva, SAM 2 muestra una eficiencia y precisión significativas:
| Dataset | NoC@90 | AUC |
|---|---|---|
| DAVIS Interactive | 1.54 | 0.872 |
Instalación
Para instalar SAM 2, utiliza el siguiente comando. Todos los modelos SAM 2 se descargarán automáticamente en el primer uso.
pip install ultralyticsCómo usar SAM 2: Versatilidad en la segmentación de imágenes y vídeo
La siguiente tabla detalla los modelos SAM 2 disponibles, sus pesos preentrenados, las tareas admitidas y la compatibilidad con diferentes modos de operación como Inferencia, Validación, Entrenamiento y Exportación.
| Tipo de modelo | Pesos preentrenados | Tareas soportadas | Inferencia | Validación | Entrenamiento | Exportar (Export) |
|---|---|---|---|---|---|---|
| SAM 2 tiny | sam2_t.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 small | sam2_s.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 base | sam2_b.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2 large | sam2_l.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 tiny | sam2.1_t.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 small | sam2.1_s.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 base | sam2.1_b.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
| SAM 2.1 large | sam2.1_l.pt | Segmentación de instancias | ✅ | ❌ | ❌ | ❌ |
Ejemplos de predicción de SAM 2
SAM 2 puede utilizarse en una amplia gama de tareas, incluida la edición de vídeo en tiempo real, la imagenología médica y los sistemas autónomos. Su capacidad para segmentar datos visuales tanto estáticos como dinámicos lo convierte en una herramienta versátil para investigadores y desarrolladores.
Segmentación con prompts
Usa prompts para segmentar objetos específicos en imágenes o vídeos.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Run inference with single point
results = model(points=[900, 370], labels=[1])
# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])Segmentar todo
Segmenta todo el contenido de la imagen o vídeo sin prompts específicos.
from ultralytics import SAM
# Load a model
model = SAM("sam2.1_b.pt")
# Display model information (optional)
model.info()
# Run inference
model("path/to/video.mp4")Segmentar vídeo y realizar seguimiento de objetos
Segmenta todo el contenido del vídeo con prompts específicos y realiza el seguimiento de objetos.
from ultralytics.models.sam import SAM2VideoPredictor
# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)
# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=[1])
# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])
# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])
# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])- Este ejemplo demuestra cómo se puede utilizar SAM 2 para segmentar todo el contenido de una imagen o vídeo si no se proporcionan prompts (bboxes/puntos/máscaras).
Segmentación y seguimiento interactivo dinámico
SAM2DynamicInteractivePredictor es una extensión avanzada sin entrenamiento de SAM2 que permite la interacción dinámica con múltiples fotogramas y capacidades de aprendizaje continuo. Este predictor admite actualizaciones de prompts en tiempo real y gestión de memoria para mejorar el rendimiento de seguimiento a lo largo de una secuencia de imágenes. En comparación con el SAM2 original, SAM2DynamicInteractivePredictor reconstruye el flujo de inferencia para aprovechar al máximo los modelos SAM2 preentrenados sin necesidad de entrenamiento adicional.

Características clave
Ofrece tres mejoras significativas:
- Interacción dinámica: Añade nuevos prompts para fusionar/rastrear nuevas instancias en fotogramas siguientes en cualquier momento durante el procesamiento de video.
- Aprendizaje continuo: Añade nuevos prompts para instancias existentes con el fin de mejorar el rendimiento del modelo con el tiempo.
- Soporte independiente para múltiples imágenes: Procesa múltiples imágenes independientes (no necesariamente de una secuencia de video) con uso compartido de memoria y seguimiento de objetos entre imágenes.
Capacidades principales
- Flexibilidad de prompts: Acepta cajas delimitadoras (bbox), puntos y máscaras como prompts.
- Gestión del banco de memoria: Mantiene un banco de memoria dinámico para almacenar estados de objetos a través de los fotogramas.
- Seguimiento de múltiples objetos: Admite el seguimiento de múltiples objetos simultáneamente con IDs de objeto individuales.
- Actualizaciones en tiempo real: Permite añadir nuevos prompts durante la inferencia sin reprocesar fotogramas anteriores.
- Procesamiento de imágenes independiente: Procesa imágenes individuales con un contexto de memoria compartido para la consistencia de objetos entre imágenes.
from ultralytics.models.sam import SAM2DynamicInteractivePredictor
# Create SAM2DynamicInteractivePredictor
overrides = dict(conf=0.01, task="segment", mode="predict", imgsz=1024, model="sam2_t.pt", save=False)
predictor = SAM2DynamicInteractivePredictor(overrides=overrides, max_obj_num=10)
# Define a category by box prompt
predictor(source="image1.jpg", bboxes=[[100, 100, 200, 200]], obj_ids=[0], update_memory=True)
# Detect this particular object in a new image
results = predictor(source="image2.jpg")
# Add new category with a new object ID
results = predictor(
source="image4.jpg",
bboxes=[[300, 300, 400, 400]], # New object
obj_ids=[1], # New object ID
update_memory=True, # Add to memory
)
# Perform inference
results = predictor(source="image5.jpg")
# Add refinement prompts to the same category to boost performance
# This helps when object appearance changes significantly
results = predictor(
source="image6.jpg",
points=[[150, 150]], # Refinement point
labels=[1], # Positive point
obj_ids=[1], # Same object ID
update_memory=True, # Update memory with new information
)
# Perform inference on new image
results = predictor(source="image7.jpg")El SAM2DynamicInteractivePredictor está diseñado para funcionar con modelos SAM2 y admite añadir/refinar categorías de forma nativa mediante todos los prompts de caja/punto/máscara que soporta SAM2. Es especialmente útil para escenarios donde los objetos aparecen o cambian con el tiempo, como en tareas de anotación de video o edición interactiva.
Argumentos
| Nombre | Valor predeterminado | Tipo de dato | Descripción |
|---|---|---|---|
max_obj_num | 3 | int | El número máximo preestablecido de categorías |
update_memory | False | bool | Si se debe actualizar la memoria con nuevos prompts |
obj_ids | None | List[int] | Lista de IDs de objetos correspondientes a los prompts |
Casos de uso
SAM2DynamicInteractivePredictor es ideal para:
- Flujos de trabajo de anotación de video donde aparecen nuevos objetos durante la secuencia
- Edición de video interactiva que requiere añadir y refinar objetos en tiempo real
- Aplicaciones de vigilancia con necesidades de seguimiento de objetos dinámicos
- Imágenes médicas para el seguimiento de estructuras anatómicas a través de series temporales
- Sistemas autónomos que requieren detección y seguimiento de objetos adaptativo
- Conjuntos de datos de múltiples imágenes para una segmentación de objetos consistente en imágenes independientes
- Análisis de colecciones de imágenes donde los objetos necesitan ser rastreados a través de diferentes escenas
- Segmentación de dominio cruzado aprovechando la memoria de diversos contextos de imagen
- Anotación semiautomática para una creación eficiente de conjuntos de datos con una intervención manual mínima
Comparativa de SAM frente a YOLO
Aquí comparamos los modelos SAM 2 de Meta, incluida la variante más pequeña SAM2-t, con los modelos de segmentación de Ultralytics, incluido YOLO26n-seg:
| Modelo | Tamaño (MB) | Parámetros (M) | Velocidad (CPU) (ms/im) |
|---|---|---|---|
| Meta SAM-b | 375 | 93.7 | 41703 |
| Meta SAM2-b | 162 | 80.8 | 28867 |
| Meta SAM2-t | 78.1 | 38.9 | 23430 |
| MobileSAM | 40.7 | 10.1 | 23802 |
| FastSAM-s con backbone de YOLOv8 | 23.9 | 11.8 | 58.0 |
| YOLOv8n-seg de Ultralytics | 7.1 (11.0x más pequeño) | 3.4 (11.4x menos) | 24.8 (945x más rápido) |
| YOLO11n-seg de Ultralytics | 6.2 (12.6x más pequeño) | 2.9 (13.4x menos) | 24.3 (964x más rápido) |
| YOLO26n-seg de Ultralytics | 6.7 (11.7x más pequeño) | 2.7 (14.4x menos) | 25.2 (930x más rápido) |
Esta comparación demuestra las diferencias sustanciales en los tamaños y velocidades de los modelos entre las variantes de SAM y los modelos de segmentación YOLO. Mientras que SAM ofrece capacidades únicas de segmentación automática, los modelos YOLO, particularmente YOLOv8n-seg, YOLO11n-seg y YOLO26n-seg, son significativamente más pequeños, más rápidos y más eficientes desde el punto de vista computacional.
Velocidades de SAM medidas con PyTorch, velocidades de YOLO medidas con ONNX Runtime. Pruebas realizadas en un Apple M4 Air de 2025 con 16GB de RAM usando torch==2.10.0, ultralytics==8.4.31 y onnxruntime==1.24.4. Para reproducir esta prueba:
from ultralytics import ASSETS, SAM, YOLO, FastSAM
# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
model = SAM(file)
model.info()
model(ASSETS)
# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)
# Profile YOLO models (ONNX)
for file_name in ["yolov8n-seg.pt", "yolo11n-seg.pt", "yolo26n-seg.pt"]:
model = YOLO(file_name)
model.info()
onnx_path = model.export(format="onnx", dynamic=True)
model = YOLO(onnx_path)
model(ASSETS)Auto-anotación: Creación eficiente de conjuntos de datos
La auto-anotación es una característica potente de SAM 2, que permite a los usuarios generar conjuntos de datos de segmentación de forma rápida y precisa aprovechando modelos preentrenados. Esta capacidad es particularmente útil para crear conjuntos de datos grandes y de alta calidad sin un esfuerzo manual extenso.
Cómo auto-anotar con SAM 2
Watch: Auto Annotation with Meta's Segment Anything 2 Model using Ultralytics | Data Labeling
Para auto-anotar tu conjunto de datos usando SAM 2, sigue este ejemplo:
from ultralytics.data.annotator import auto_annotate
auto_annotate(data="path/to/images", det_model="yolo26x.pt", sam_model="sam2_b.pt")| Argumento | Tipo | Predeterminado | Descripción |
|---|---|---|---|
data | str | requerido | Ruta al directorio que contiene las imágenes objetivo para la anotación o segmentación. |
det_model | str | 'yolo26x.pt' | Ruta del modelo de detección YOLO para la detección inicial de objetos. |
sam_model | str | 'sam_b.pt' | Ruta del modelo SAM para segmentación (admite SAM, variantes de SAM2 y modelos MobileSAM). |
device | str | '' | Dispositivo de computación (p. ej., 'cuda:0', 'cpu', o '' para la detección automática del dispositivo). |
conf | float | 0.25 | Umbral de confianza de detección de YOLO para filtrar detecciones débiles. |
iou | float | 0.45 | Umbral de IoU para la supresión no máxima (NMS) para filtrar cajas superpuestas. |
imgsz | int | 640 | Tamaño de entrada para redimensionar imágenes (debe ser múltiplo de 32). |
max_det | int | 300 | Número máximo de detecciones por imagen para la eficiencia de la memoria. |
classes | list[int] | None | Lista de índices de clase a detectar (p. ej., [0, 1] para persona y bicicleta). |
output_dir | str | None | Directorio de guardado para anotaciones (por defecto es './labels' relativo a la ruta de los datos). |
Esta función facilita la creación rápida de conjuntos de datos de segmentación de alta calidad, ideal para investigadores y desarrolladores que buscan acelerar sus proyectos.
Limitaciones
A pesar de sus fortalezas, SAM 2 tiene ciertas limitaciones:
- Estabilidad del seguimiento: SAM 2 puede perder el rastro de los objetos durante secuencias extendidas o cambios significativos de punto de vista.
- Confusión de objetos: El modelo a veces puede confundir objetos de aspecto similar, particularmente en escenas concurridas.
- Eficiencia con múltiples objetos: La eficiencia de segmentación disminuye al procesar múltiples objetos simultáneamente debido a la falta de comunicación entre objetos.
- Precisión de detalles: Puede pasar por alto detalles finos, especialmente con objetos que se mueven rápido. Los prompts adicionales pueden solucionar parcialmente este problema, pero no se garantiza la suavidad temporal.
Citas y reconocimientos
Si SAM 2 es una parte crucial de tu trabajo de investigación o desarrollo, por favor cítalo usando la siguiente referencia:
@article{ravi2024sam2,
title={SAM 2: Segment Anything in Images and Videos},
author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
journal={arXiv preprint},
year={2024}
}Extendemos nuestro agradecimiento a Meta AI por sus contribuciones a la comunidad de IA con este modelo y conjunto de datos revolucionario.
Preguntas frecuentes
¿Qué es SAM 2 y cómo mejora el Segment Anything Model (SAM) original?
SAM 2, el sucesor del Segment Anything Model (SAM) de Meta, es una herramienta de vanguardia diseñada para la segmentación integral de objetos tanto en imágenes como en videos. Destaca en el manejo de datos visuales complejos a través de una arquitectura de modelo unificada y adaptable a prompts que admite procesamiento en tiempo real y generalización zero-shot. SAM 2 ofrece varias mejoras sobre el SAM original, incluyendo:
- Arquitectura de modelo unificada: Combina capacidades de segmentación de imagen y video en un solo modelo.
- Rendimiento en tiempo real: Procesa aproximadamente 44 fotogramas por segundo, lo que lo hace adecuado para aplicaciones que requieren retroalimentación inmediata.
- Generalización zero-shot: Segmenta objetos que nunca ha encontrado antes, útil en diversos dominios visuales.
- Refinamiento interactivo: Permite a los usuarios refinar iterativamente los resultados de segmentación proporcionando prompts adicionales.
- Manejo avanzado de desafíos visuales: Gestiona desafíos comunes de segmentación de video como la oclusión y la reaparición de objetos.
Para más detalles sobre la arquitectura y capacidades de SAM 2, explora el artículo de investigación de SAM 2.
¿Cómo puedo usar SAM 2 para segmentación de video en tiempo real?
SAM 2 puede utilizarse para la segmentación de video en tiempo real aprovechando su interfaz basada en prompts y sus capacidades de inferencia en tiempo real. Aquí tienes un ejemplo básico:
Usa prompts para segmentar objetos específicos en imágenes o vídeos.
from ultralytics import SAM
# Load a model
model = SAM("sam2_b.pt")
# Display model information (optional)
model.info()
# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])
# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])Para un uso más completo, consulta la sección Cómo usar SAM 2.
¿Qué conjuntos de datos se utilizan para entrenar SAM 2 y cómo mejoran su rendimiento?
SAM 2 está entrenado en el conjunto de datos SA-V, uno de los conjuntos de datos de segmentación de video más grandes y diversos disponibles. El conjunto de datos SA-V incluye:
- Más de 51,000 vídeos: Capturados en 47 países, proporcionando una amplia gama de escenarios del mundo real.
- Más de 600,000 anotaciones de máscara: Anotaciones de máscara espaciotemporales detalladas, conocidas como "masklets", que cubren objetos completos y partes.
- Escala del conjunto de datos: Presenta 4.5 veces más videos y 53 veces más anotaciones que los conjuntos de datos anteriores más grandes, ofreciendo una diversidad y complejidad sin precedentes.
Este extenso conjunto de datos permite a SAM 2 lograr un rendimiento superior en los principales benchmarks de segmentación de video y mejora sus capacidades de generalización zero-shot. Para más información, consulta la sección Conjunto de datos SA-V.
¿Cómo maneja SAM 2 las oclusiones y reapariciones de objetos en la segmentación de video?
SAM 2 incluye un sofisticado mecanismo de memoria para gestionar las dependencias temporales y las oclusiones en los datos de video. El mecanismo de memoria consiste en:
- Codificador de memoria y banco de memoria: Almacena características de fotogramas pasados.
- Módulo de atención de memoria: Utiliza información almacenada para mantener un seguimiento consistente de los objetos a lo largo del tiempo.
- Cabezal de oclusión: Maneja específicamente escenarios donde los objetos no son visibles, prediciendo la probabilidad de que un objeto esté ocluido.
Este mecanismo garantiza la continuidad incluso cuando los objetos están temporalmente ocultos o salen y vuelven a entrar en la escena. Para más detalles, consulta la sección Mecanismo de memoria y manejo de oclusiones.
¿Cómo se compara SAM 2 con otros modelos de segmentación como YOLO26?
Los modelos SAM 2, como SAM2-t y SAM2-b de Meta, ofrecen potentes capacidades de segmentación zero-shot, pero son significativamente más grandes y lentos en comparación con los modelos YOLO. Por ejemplo, YOLO26n-seg es aproximadamente 24 veces más pequeño y más de 1145 veces más rápido que SAM2-b en CPU. Mientras que SAM 2 destaca en escenarios de segmentación versátiles, basados en prompts y zero-shot, YOLO26 está optimizado para la velocidad, la eficiencia y las aplicaciones en tiempo real con inferencia end-to-end sin NMS, lo que lo hace más adecuado para el despliegue en entornos con recursos limitados.