Ir al contenido

SAM 3: Segment Anything con Conceptos

Ahora disponible en Ultralytics

SAM está totalmente integrado en el Ultralytics a partir de versión 8.3.237 (PR n.º 22897). Instalar o actualizar con pip install -U ultralytics para acceder a todas las funciones SAM , incluyendo la segmentación de conceptos basada en texto, las indicaciones de ejemplos de imágenes y el seguimiento de vídeos.

Descripción general de SAM 3

SAM 3 (Segment Anything Model 3) es el modelo fundacional lanzado por Meta para la Segmentación de Conceptos Solicitables (PCS). Basándose en SAM 2, SAM 3 introduce una capacidad fundamentalmente nueva: detectar, segmentar y trackear todas las instancias de un concepto visual especificado por indicaciones de texto, ejemplos de imágenes o ambos. A diferencia de las versiones anteriores de SAM que segmentan objetos individuales por indicación, SAM 3 puede encontrar y segmentar cada aparición de un concepto que aparezca en cualquier lugar de las imágenes o los vídeos, lo que se alinea con los objetivos de vocabulario abierto en la segmentación de instancias moderna.

SAM ahora está completamente integrado en el ultralytics paquete, que proporciona soporte nativo para la segmentación de conceptos con indicaciones de texto, indicaciones de ejemplos de imágenes y capacidades de seguimiento de vídeo.

Visión general

SAM 3 logra una ganancia de rendimiento de 2× con respecto a los sistemas existentes en Segmentación de Conceptos Solicitables, al tiempo que mantiene y mejora las capacidades de SAM 2 para la segmentación visual interactiva. El modelo destaca en la segmentación de vocabulario abierto, lo que permite a los usuarios especificar conceptos utilizando frases nominales simples (por ejemplo, "autobús escolar amarillo", "gato a rayas") o proporcionando imágenes de ejemplo del objeto objetivo. Estas capacidades complementan los flujos de trabajo listos para producción que se basan en flujos de trabajo optimizados de predict y track.

Segmentación con SAM 3

¿Qué es la segmentación de conceptos con avisos (PCS)?

La tarea PCS toma un prompt de concepto como entrada y devuelve máscaras de segmentación con identidades únicas para todas las instancias de objetos coincidentes. Los prompts de concepto pueden ser:

  • Texto: Frases nominales simples como "manzana roja" o "persona con sombrero", similar al aprendizaje zero-shot
  • Imágenes ejemplares: Bounding boxes alrededor de objetos de ejemplo (positivos o negativos) para una generalización rápida
  • Combinado: Ejemplares de texto e imagen juntos para un control preciso

Esto difiere de los prompts visuales tradicionales (puntos, bbox, máscaras) que segment solo una instancia de objeto específica, como popularizó la familia SAM original.

Métricas clave de rendimiento

MétricaLogro SAM 3
AP de máscaras LVIS Zero-Shot47.0 (vs el mejor anterior 38.5, +22% de mejora)
Benchmark SA-Co2 veces mejor que los sistemas existentes
Velocidad de Inferencia (GPU H200)30 ms por imagen con más de 100 objetos detectados
Rendimiento de vídeoCasi en tiempo real para ~5 objetos concurrentes
Benchmark MOSEv2 VOS60.1 J&F (+25.5% sobre SAM 2.1, +17% sobre el SOTA anterior)
Refinamiento interactivoMejora de +18.6 CGF1 tras 3 indicaciones ejemplares
Brecha de Rendimiento HumanoAlcanza un 88% del límite inferior estimado en SA-Co/Gold

Para obtener contexto sobre las métricas del modelo y las compensaciones en la producción, consulta información sobre la evaluación del modelo y métricas de rendimiento de YOLO.

Arquitectura

SAM 3 consta de un detector y un tracker que comparten una red troncal de visión Perception Encoder (PE). Este diseño desacoplado evita conflictos de tareas al tiempo que permite la detección a nivel de imagen y el tracking a nivel de video, con una interfaz compatible con el uso de python y el uso de la CLI de Ultralytics.

Componentes centrales

  • Detector: Arquitectura basada en DETR para la detección de conceptos a nivel de imagen

    • Codificador de texto para indicaciones de frases nominales
    • Codificador ejemplar para indicaciones basadas en imágenes
    • Codificador de fusión para condicionar las características de la imagen en función de las indicaciones
    • Nueva cabecera de presencia que desacopla el reconocimiento ("qué") de la localización ("dónde")
    • Cabezal de máscara para generar máscaras de segmentación de instancias
  • Tracker: Segmentación de video basada en memoria heredada de SAM 2

    • Codificador de indicaciones, decodificador de máscaras, codificador de memoria
    • Banco de memoria para almacenar la apariencia de los objetos a través de los fotogramas
    • Desambiguación temporal asistida por técnicas como un filtro de Kalman en configuraciones multi-objeto
  • Token de Presencia: Un token global aprendido que predice si el concepto objetivo está presente en la imagen/fotograma, mejorando la detección al separar el reconocimiento de la localización.

Arquitectura de SAM 3

Innovaciones clave

  1. Reconocimiento y Localización Desacoplados: El head de presencia predice la presencia del concepto globalmente, mientras que las consultas de propuesta se centran únicamente en la localización, evitando objetivos conflictivos.
  2. Concepto unificado y avisos visuales: Admite tanto PCS (avisos de concepto) como PVS (avisos visuales como los clics/cuadros de SAM 2) en un solo modelo.
  3. Perfeccionamiento interactivo de ejemplos: Los usuarios pueden añadir ejemplos de imágenes positivas o negativas para refinar los resultados de forma iterativa, de modo que el modelo generalice a objetos similares en lugar de limitarse a corregir instancias individuales.
  4. Desambiguación Temporal: Utiliza puntuaciones de detección de masklet y re-prompts periódicos para manejar oclusiones, escenas concurridas y fallos de seguimiento en vídeo, en consonancia con las mejores prácticas de segmentación y seguimiento de instancias.

Conjunto de datos SA-Co

SAM 3 está entrenado en Segment Anything with Concepts (SA-Co), el conjunto de datos de segmentación más grande y diverso de Meta hasta la fecha, que se extiende más allá de los benchmarks comunes como COCO y LVIS.

Datos de entrenamiento

Componente del conjunto de datosDescripciónEscala
SA-Co/HQDatos de imagen anotados por humanos de alta calidad procedentes del motor de datos de 4 fases5.2 millones de imágenes, 4 millones de frases nominales únicas
SA-Co/SYNConjunto de datos sintéticos etiquetado por IA sin intervención humana38 millones de frases nominales, 1.400 millones de máscaras
SA-Co/EXT15 conjuntos de datos externos enriquecidos con negativos difícilesVaría según la fuente
SA-Co/VIDEOAnotaciones de vídeo con seguimiento temporal52.5K vídeos, 24.8K frases nominales únicas

Datos de referencia

El punto de referencia de evaluación SA-Co contiene 214.000 frases únicas en 126.000 imágenes y vídeos, lo que proporciona más de 50 veces más conceptos que los puntos de referencia existentes. Incluye:

  • SA-Co/Gold: 7 dominios, con triple anotación para medir los límites del rendimiento humano
  • SA-Co/Silver: 10 dominios, anotación humana única
  • SA-Co/Bronze y SA-Co/Bio: 9 conjuntos de datos existentes adaptados para la segmentación de conceptos
  • SA-Co/VEval: Video benchmark con 3 dominios (SA-V, YT-Temporal-1B, SmartGlasses)

Innovaciones del motor de datos

El motor de datos escalable de SAM 3, con humanos y modelos en el bucle, logra un rendimiento de anotación 2× a través de:

  1. Anotadores de IA: Los modelos basados en Llama proponen diversas frases nominales, incluyendo negativos difíciles.
  2. Verificadores de IA: Los LLM multimodales ajustados verifican la calidad y la exhaustividad de la máscara con un rendimiento casi humano.
  3. Minería Activa: Centra el esfuerzo humano en casos de fallo desafiantes donde la IA tiene dificultades
  4. Basado en ontología: Aprovecha una gran ontología basada en Wikidata para la cobertura de conceptos

Instalación

SAM está disponible en Ultralytics versión 8.3.237 y posteriores. Instálelo o actualícelo con:

pip install -U ultralytics

Peso requerido para el modelo SAM

A diferencia de otros Ultralytics , SAM pondera (sam3.pt) son no se descarga automáticamente. Debe descargar manualmente los pesos del modelo desde el repositorio oficial SAM antes de utilizar SAM . Coloque el archivo descargado sam3.pt archivo en su directorio de trabajo o especifique la ruta completa al cargar el modelo.

Cómo utilizar SAM 3: Versatilidad en la segmentación de conceptos

SAM admite tareas de segmentación conceptual promptable (PCS) y segmentación visual promptable (PVS) a través de diferentes interfaces predictivas:

Tareas y Modelos Soportados

Tipo de TareaTipos de indicacionesSalida
Segmentación de conceptos (PCS)Texto (frases nominales), ejemplos de imágenesTodas las instancias que coinciden con el concepto
Segmentación visual (PVS)Puntos, cuadros, máscarasInstancia de un solo objeto (estilo SAM 2)
Refinamiento interactivoAñadir/eliminar ejemplares o clics de forma iterativaSegmentación refinada con precisión mejorada

Ejemplos de segmentación de conceptos

segment con Indicaciones de Texto

Segmentación de conceptos basada en texto

Busca y segment las instancias de un concepto utilizando una descripción textual. Las indicaciones de texto requieren el SAM3SemanticPredictor interfaz.

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor with configuration
overrides = dict(
    conf=0.25,
    task="segment",
    mode="predict",
    model="sam3.pt",
    half=True,  # Use FP16 for faster inference
)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image once for multiple queries
predictor.set_image("path/to/image.jpg")

# Query with multiple text prompts
results = predictor(text=["person", "bus", "glasses"], save=True)

# Works with descriptive phrases
results = predictor(text=["person with red cloth", "person with blue cloth"], save=True)

# Query with a single concept
results = predictor(text=["a person"], save=True)

segment con Ejemplares de Imagen

Segmentación basada en ejemplares de imágenes

Utiliza cuadros delimitadores como indicaciones visuales para encontrar todas las instancias similares. Esto también requiere SAM3SemanticPredictor para la correspondencia basada en conceptos.

from ultralytics.models.sam import SAM3SemanticPredictor

# Initialize predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3SemanticPredictor(overrides=overrides)

# Set image
predictor.set_image("path/to/image.jpg")

# Provide bounding box examples to segment similar objects
results = predictor(bboxes=[[480.0, 290.0, 590.0, 650.0]], save=True)

# Multiple bounding boxes for different concepts
results = predictor(bboxes=[[539, 599, 589, 639], [343, 267, 499, 662]], save=True)

Inferencia basada en características para la eficiencia

Reutilización de características de imagen para múltiples consultas

Extraiga las características de la imagen una vez y reutilícelas para múltiples consultas de segmentación con el fin de mejorar la eficiencia.

import cv2

from ultralytics.models.sam import SAM3SemanticPredictor
from ultralytics.utils.plotting import Annotator, colors

# Initialize predictors
overrides = dict(conf=0.50, task="segment", mode="predict", model="sam3.pt", verbose=False)
predictor = SAM3SemanticPredictor(overrides=overrides)
predictor2 = SAM3SemanticPredictor(overrides=overrides)

# Extract features from the first predictor
source = "path/to/image.jpg"
predictor.set_image(source)
src_shape = cv2.imread(source).shape[:2]

# Setup second predictor and reuse features
predictor2.setup_model()

# Perform inference using shared features with text prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, text=["person"])

# Perform inference using shared features with bounding box prompt
masks, boxes = predictor2.inference_features(predictor.features, src_shape=src_shape, bboxes=[[439, 437, 524, 709]])

# Visualize results
if masks is not None:
    masks, boxes = masks.cpu().numpy(), boxes.cpu().numpy()
    im = cv2.imread(source)
    annotator = Annotator(im, pil=False)
    annotator.masks(masks, [colors(x, True) for x in range(len(masks))])

    cv2.imshow("result", annotator.result())
    cv2.waitKey(0)

Segmentación de conceptos en vídeo

Sigue conceptos a lo largo del vídeo con cuadros delimitadores

Seguimiento de vídeo con indicaciones visuales

Detecta y track instancias track en fotogramas de vídeo utilizando indicaciones de cuadros delimitadores.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", model="sam3.pt", half=True)
predictor = SAM3VideoPredictor(overrides=overrides)

# Track objects using bounding box prompts
results = predictor(source="path/to/video.mp4", bboxes=[[706.5, 442.5, 905.25, 555], [598, 635, 725, 750]], stream=True)

# Process and display results
for r in results:
    r.show()  # Display frame with segmentation masks

Conceptos de seguimiento con indicaciones de texto

Seguimiento de vídeo con consultas semánticas

Realiza un seguimiento de todas las instancias de conceptos especificados por texto en los fotogramas de vídeo.

from ultralytics.models.sam import SAM3VideoSemanticPredictor

# Initialize semantic video predictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=640, model="sam3.pt", half=True)
predictor = SAM3VideoSemanticPredictor(overrides=overrides)

# Track concepts using text prompts
results = predictor(source="path/to/video.mp4", text=["person", "bicycle"], stream=True, save=True)

# Process results
for r in results:
    r.show()  # Display frame with tracked objects

# Alternative: Track with bounding box prompts
results = predictor(
    source="path/to/video.mp4",
    bboxes=[[864, 383, 975, 620], [705, 229, 782, 402]],
    labels=[1, 1],  # Positive labels
    stream=True,
    save=True,
)

Indicaciones visuales (compatibilidad con SAM 2)

SAM mantiene una compatibilidad total con las indicaciones visuales SAM para la segmentación de objetos individuales:

SAM 2 Estilos de Prompts Visuales

Lo básico SAM La interfaz se comporta exactamente igual que SAM , segmentando solo el área específica indicada por las indicaciones visuales (puntos, cuadros o máscaras).

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt - segments object at specific location
results = model.predict(source="path/to/image.jpg", points=[900, 370], labels=[1])
results[0].show()

# Multiple points - segments single object with multiple point hints
results = model.predict(source="path/to/image.jpg", points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt - segments object within bounding box
results = model.predict(source="path/to/image.jpg", bboxes=[100, 150, 300, 400])
results[0].show()

Indicaciones visuales frente a segmentación conceptual

Usando SAM("sam3.pt") con indicaciones visuales (puntos/cuadros/máscaras) se segment solo el objeto específico en esa ubicación, igual que SAM . Para segment todos los casos de un concepto, usa SAM3SemanticPredictor con indicaciones de texto o ejemplos como se muestra arriba.

Métricas de rendimiento

Segmentación de imágenes

SAM 3 logra resultados de última generación en múltiples benchmarks, incluyendo conjuntos de datos del mundo real como LVIS y COCO para segmentación:

BenchmarkMétricaSAM 3Mejor AnteriorMejora
LVIS (zero-shot)Mask AP47.038.5+22.1%
SA-Co/GoldCGF165.034.3 (OWLv2)+89.5%
COCO (zero-shot)AP de caja53.552.2 (T-Rex2)+2.5%
ADE-847 (segmentación semántica)mIoU14.79.2 (APE-D)+59.8%
PascalConcept-59mIoU59.458.5 (APE-D)+1.5%
Cityscapes (seg. semántica)mIoU65.144.2 (APE-D)+47.3%

Explore las opciones de conjuntos de datos para una experimentación rápida en conjuntos de datos de Ultralytics.

Rendimiento de la segmentación de vídeo

SAM 3 muestra mejoras significativas sobre SAM 2 y el estado del arte anterior en benchmarks de video como DAVIS 2017 y YouTube-VOS:

BenchmarkMétricaSAM 3SAM 2.1 LMejora
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Adaptación Few-Shot

SAM 3 destaca en la adaptación a nuevos dominios con ejemplos mínimos, relevante para los flujos de trabajo de IA centrada en los datos:

BenchmarkAP 0-shotAP 10-shotMejor Anterior (10-shot)
ODinW1359.971.667.9 (gDino1.5-Pro)
RF100-VL14.335.733.7 (gDino-T)

Eficacia del refinamiento interactivo

El prompting basado en conceptos con ejemplares de SAM 3 converge mucho más rápido que el prompting visual:

Indicaciones añadidasPuntuación CGF1Ganancia vs Solo textoGanancia vs Línea base PVS
Solo texto46.4línea baselínea base
+1 ejemplo57.6+11.2+6.7
+2 ejemplos62.2+15.8+9.7
+3 ejemplos65.0+18.6+11.2
+4 ejemplares65.7+19.3+11.5 (meseta)

Precisión en el conteo de objetos

SAM 3 proporciona un conteo preciso al segmentar todas las instancias, un requisito común en el conteo de objetos:

BenchmarkPrecisiónMAEvs el mejor MLLM
CountBench95.6%0.1192.4% (Gemini 2.5)
PixMo-Count87.3%0.2288.8% (Molmo-72B)

Comparación de SAM 3 vs SAM 2 vs YOLO

Aquí comparamos las capacidades de SAM 3 con los modelos SAM 2 y YOLO11:

CapacidadSAM 3SAM 2YOLO11n-seg
Segmentación de conceptos✅ Todas las instancias de texto/ejemplares❌ No compatible❌ No compatible
Segmentación visual✅ Instancia única (compatible con SAM 2)✅ Instancia única✅ Todas las instancias
Capacidad Zero-shot✅ Vocabulario abierto✅ Indicaciones geométricas❌ Conjunto cerrado
Refinamiento interactivo✅ Ejemplares + clics✅ Solo clics❌ No compatible
Seguimiento de vídeo✅ Multiobjeto con identidades✅ Multiobjeto✅ Multiobjeto
AP de máscaras LVIS (zero-shot)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
Velocidad de Inferencia (H200)30 ms (más de 100 objetos)~23 ms (por objeto)2-3 ms (imagen)
Tamaño del modelo3,4 GB162 MB (base)5.9 MB

Conclusiones clave:

  • SAM 3: Ideal para la segmentación de conceptos de vocabulario abierto, encontrando todas las instancias de un concepto con texto o indicaciones ejemplares
  • SAM 2: Lo mejor para la segmentación interactiva de un solo objeto en imágenes y vídeos con indicaciones geométricas
  • YOLO11: Lo mejor para la segmentación en tiempo real y a alta velocidad en implantaciones con recursos limitados utilizando canalizaciones de exportación eficientes como ONNX y TensorRT

Métricas de evaluación

SAM 3 introduce nuevas métricas diseñadas para la tarea PCS, que complementan las medidas familiares como la puntuación F1, la precisión y la recuperación.

F1 con puerta de enlace de clasificación (CGF1)

La métrica principal que combina localización y clasificación:

CGF1 = 100 × pmF1 × IL_MCC

Dónde:

  • pmF1 (F1 Macro Positivo): Mide la calidad de la localización en ejemplos positivos
  • IL_MCC (Coeficiente de Correlación de Matthews a Nivel de Imagen): Mide la precisión de la clasificación binaria ("¿está presente el concepto?")

¿Por qué estas métricas?

Las métricas AP tradicionales no tienen en cuenta la calibración, lo que dificulta el uso de los modelos en la práctica. Al evaluar solo las predicciones por encima de 0.5 de confianza, las métricas de SAM 3 imponen una buena calibración e imitan los patrones de uso del mundo real en los bucles interactivos de predict y track.

Ablaciones e Insights Clave

Impacto de la presencia de la cabeza

El encabezado de presencia desacopla el reconocimiento de la localización, proporcionando mejoras significativas:

ConfiguraciónCGF1IL_MCCpmF1
Sin presencia57.60.7774.7
Con presencia63.30.8277.1

El encabezado de presencia proporciona un aumento de +5.7 CGF1 (+9.9%), mejorando principalmente la capacidad de reconocimiento (IL_MCC +6.5%).

Efecto de los negativos difíciles

Negativos Difíciles/ImagenCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Los negativos difíciles son cruciales para el reconocimiento de vocabulario abierto, mejorando IL_MCC en un 54.5% (0.44 → 0.68).

Escalado de datos de entrenamiento

Fuentes de datosCGF1IL_MCCpmF1
Solo externo30.90.4666.3
Externo + Sintético39.70.5770.6
Externo + AC51.80.7173.2
Los tres54.30.7473.5

Las anotaciones humanas de alta calidad proporcionan grandes beneficios en comparación con los datos sintéticos o externos por sí solos. Para obtener información general sobre las prácticas de calidad de los datos, consulta recopilación y anotación de datos.

Aplicaciones

La capacidad de segmentación de conceptos de SAM 3 permite nuevos casos de uso:

  • Moderación de contenido: Encuentra todas las instancias de tipos de contenido específicos en las bibliotecas de medios
  • Comercio electrónico: segment todos los productos de un determinado tipo en las imágenes del catálogo, lo que permite la anotación automática
  • Imágenes médicas: Identifique todas las apariciones de tipos de tejido o anomalías específicas
  • Sistemas autónomos: track todas las instancias de señales de tráfico, peatones o vehículos por categoría
  • Analítica de Video: Contar y rastrear a todas las personas que visten ropa específica o realizan acciones
  • Anotación de conjuntos de datos: Anote rápidamente todas las instancias de categorías de objetos raras
  • Investigación Científica: Cuantificar y analizar todos los especímenes que coincidan con criterios específicos

Agente SAM 3: Razonamiento Extendido del Lenguaje

SAM 3 se puede combinar con Modelos de Lenguaje Grande Multimodal (MLLM) para manejar consultas complejas que requieren razonamiento, similar en espíritu a los sistemas de vocabulario abierto como OWLv2 y T-Rex.

Rendimiento en tareas de razonamiento

BenchmarkMétricaAgente SAM 3 (Gemini 2.5 Pro)Mejor Anterior
ReasonSeg (validación)GIoU76.065.0 (SoTA)
ReasonSeg (prueba)GIoU73.861.3 (SoTA)
OmniLabel (validación)AP46.736.5 (REAL)
RefCOCO+Prec91.289.3 (LISA)

Ejemplo de consultas complejas

El Agente SAM 3 puede manejar consultas que requieren razonamiento:

  • "Personas sentadas que no sostienen una caja de regalo en sus manos"
  • "El perro más cercano a la cámara que no lleva collar"
  • "Objetos rojos más grandes que la mano de la persona"

El MLLM propone consultas simples de frases nominales a SAM 3, analiza las máscaras devueltas e itera hasta que esté satisfecho.

Limitaciones

Si bien SAM 3 representa un gran avance, tiene ciertas limitaciones:

  • Complejidad de la frase: Más adecuado para frases nominales simples; las expresiones de referencia largas o el razonamiento complejo pueden requerir la integración de MLLM
  • Manejo de la ambigüedad: Algunos conceptos siguen siendo intrínsecamente ambiguos (por ejemplo, "ventana pequeña", "habitación acogedora")
  • Requisitos Computacionales: Más grande y lento que los modelos de detección especializados como YOLO
  • Alcance del Vocabulario: Centrado en conceptos visuales atómicos; el razonamiento compositivo es limitado sin la asistencia de MLLM
  • Conceptos raros: El rendimiento puede degradarse en conceptos extremadamente raros o de grano fino que no están bien representados en los datos de entrenamiento.

Citación

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Preguntas frecuentes

¿Cuándo se lanzó SAM ?

SAM fue lanzado por Meta el 20 de noviembre de 2025 y está totalmente integrado en Ultralytics de la versión 8.3.237 (PR #22897). Se ofrece compatibilidad total con track de predicción y track .

SAM está integrado en Ultralytics?

¡Sí! SAM está totalmente integrado en elPython Ultralytics , incluyendo la segmentación de conceptos, las indicaciones visuales SAM y el seguimiento de vídeo de múltiples objetos. Puede exportar a formatos como ONNX y TensorRT para su implementación, con Python y CLI .

¿Qué es la segmentación de conceptos con avisos (PCS)?

PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o video. A diferencia de la segmentación tradicional que se dirige a una instancia de objeto específica, PCS encuentra cada ocurrencia de una categoría. Por ejemplo:

  • Indicación de texto: "autobús escolar amarillo" → segmenta todos los autobuses escolares amarillos en la escena
  • Imagen ejemplar: Recuadro alrededor de un perro → segments todos los perros en la imagen
  • Combinado: "gato atigrado" + cuadro ejemplar → segmenta todos los gatos atigrados que coinciden con el ejemplo

Consulte información relacionada sobre detección de objetos y segmentación de instancias.

¿En qué se diferencia SAM 3 de SAM 2?

CaracterísticaSAM 2SAM 3
TareaUn solo objeto por solicitudTodas las instancias de un concepto
Tipos de indicacionesPuntos, cuadros, máscaras+ Frases de texto, ejemplos de imágenes
Capacidad de DetecciónRequiere detector externoDetector de vocabulario abierto incorporado
ReconocimientoBasado solo en la geometríaTexto y reconocimiento visual
ArquitecturaSolo TrackerDetector + Tracker con cabezal de presencia
Rendimiento Zero-ShotN/A (requiere indicaciones visuales)47.0 AP en LVIS, 2× mejor en SA-Co
Refinamiento interactivoSolo clicsClics + generalización ejemplar

SAM 3 mantiene la compatibilidad con versiones anteriores con el prompting visual de SAM 2 al tiempo que añade capacidades basadas en conceptos.

¿Qué conjuntos de datos se utilizan para entrenar SAM 3?

SAM 3 está entrenado en el conjunto de datos Segment Anything with Concepts (SA-Co):

Datos de Entrenamiento:

  • 5.2M de imágenes con 4M de frases nominales únicas (SA-Co/HQ) - anotaciones humanas de alta calidad
  • 52.5K vídeos con 24.8K frases nominales únicas (SA-Co/VIDEO)
  • 1.400 millones de máscaras sintéticas en 38 millones de frases nominales (SA-Co/SYN)
  • 15 conjuntos de datos externos enriquecidos con negativos difíciles (SA-Co/EXT)

Datos de referencia:

  • 214.000 conceptos únicos en 126.000 imágenes/vídeos
  • 50× más conceptos que los benchmarks existentes (p. ej., LVIS tiene ~4K conceptos)
  • Anotación triple en SA-Co/Gold para medir los límites del rendimiento humano

Esta escala y diversidad masivas permiten la generalización superior de cero disparos de SAM 3 a través de conceptos de vocabulario abierto.

¿Cómo se compara SAM 3 con YOLO11 para la segmentación?

SAM 3 y YOLO11 sirven para diferentes casos de uso:

SAM 3 Ventajas:

  • Vocabulario abierto: segmenta cualquier concepto a través de indicaciones de texto sin entrenamiento
  • Zero-shot: Funciona en nuevas categorías inmediatamente
  • Interactivo: El refinamiento basado en ejemplares se generaliza a objetos similares
  • Basado en conceptos: Encuentra automáticamente todas las instancias de una categoría
  • Precisión: 47.0 AP en segmentación de instancias zero-shot en LVIS

Ventajas de YOLO11:

  • Velocidad: Inferencia 10-15 veces más rápida (2-3 ms frente a 30 ms por imagen)
  • Eficiencia: modelos 576 veces más pequeños (5,9 MB frente a 3,4 GB)
  • Amigable con los recursos: Se ejecuta en dispositivos edge y móviles
  • Tiempo real: Optimizado para implementaciones de producción

Recomendación:

  • Utilice SAM 3 para una segmentación flexible y de vocabulario abierto donde necesite encontrar todas las instancias de conceptos descritos por texto o ejemplos
  • Utilice YOLO11 para implementaciones de producción de alta velocidad donde las categorías se conocen de antemano
  • Utilice SAM 2 para la segmentación interactiva de un solo objeto con indicaciones geométricas

¿Puede SAM 3 manejar consultas de lenguaje complejas?

SAM 3 está diseñado para frases nominales simples (por ejemplo, "manzana roja", "persona con sombrero"). Para consultas complejas que requieren razonamiento, combine SAM 3 con un MLLM como Agente SAM 3:

Consultas sencillas (SAM 3 nativo):

  • "Autobús escolar amarillo"
  • "Gato atigrado"
  • "Persona con sombrero rojo"

Consultas complejas (SAM 3 Agent con MLLM):

  • "Personas sentadas que no sostienen una caja de regalo"
  • "El perro más cercano a la cámara sin collar"
  • "Objetos rojos más grandes que la mano de la persona"

El Agente SAM 3 logra 76.0 gIoU en la validación de ReasonSeg (vs 65.0, la mejor anterior, +16.9% de mejora) al combinar la segmentación de SAM 3 con las capacidades de razonamiento de MLLM.

¿Qué precisión tiene SAM 3 en comparación con el rendimiento humano?

En el benchmark SA-Co/Gold con triple anotación humana:

  • Límite inferior humano: 74.2 CGF1 (anotador más conservador)
  • SAM 3 rendimiento: 65.0 CGF1
  • Logro: 88% del límite inferior humano estimado
  • Límite superior humano: 81.4 CGF1 (anotador más liberal)

SAM 3 logra un sólido rendimiento que se acerca a la precisión del nivel humano en la segmentación de conceptos de vocabulario abierto, con la diferencia principalmente en conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").



📅 Creado hace 2 meses ✏️ Actualizado hace 1 día
glenn-jocherY-T-GKayselmecnunRizwanMunawarLaughing-q

Comentarios