Ir al contenido

SAM 3: Segmentar cualquier cosa con conceptos

Próximamente ⚠️

Los modelos SAM 3 aún no han sido publicados por Meta. La información que figura a continuación se basa en el documento de investigación presentado a ICLR 2026. Las descargas de los modelos y las evaluaciones comparativas finales estarán disponibles tras la publicación oficial por parte de Meta.

SAM 3 Visión general

SAM 3 (Segment Anything Model 3) representa el modelo básico de próxima generación de Meta para la Segmentación de Conceptos por Indicaciones (PCS). Basado en SAM 2, SAM 3 introduce una capacidad fundamentalmente nueva: detectar, segmentar y rastrear todas las instancias de un concepto visual especificado por instrucciones de texto, ejemplos de imágenes o ambos. A diferencia de las versiones anteriores de SAM , que segmentan objetos individuales por instrucción, SAM 3 puede encontrar y segmentar todas las apariciones de un concepto en cualquier lugar de las imágenes o vídeos, en línea con los objetivos de vocabulario abierto de la segmentación moderna de instancias.

Visión general

SAM 3 consigue multiplicar por 2 el rendimiento de los sistemas existentes en la segmentación de conceptos mediante preguntas, al tiempo que mantiene y mejora las capacidades de SAM 2 para la segmentación visual interactiva. El modelo destaca en la segmentación de vocabulario abierto, lo que permite a los usuarios especificar conceptos utilizando frases simples (por ejemplo, "autobús escolar amarillo", "gato a rayas") o proporcionando imágenes de ejemplo del objeto de destino. Estas funciones complementan los procesos de producción que se basan en flujos de trabajo optimizados de predicción y seguimiento.

SAM 3 Segmentación

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

La tarea PCS toma un concepto como entrada y devuelve máscaras de segmentación con identidades únicas para todos los objetos coincidentes. Los conceptos pueden ser:

  • Texto: Frases sustantivales sencillas como "manzana roja" o "persona con sombrero", similares al aprendizaje de tiro cero.
  • Ejemplares de imágenes: Cuadros delimitadores alrededor de objetos ejemplares (positivos o negativos) para una generalización rápida.
  • Combinados: Ejemplares de texto e imagen juntos para un control preciso

Esto difiere de las indicaciones visuales tradicionales (puntos, recuadros, máscaras) que segmentan sólo una instancia de objeto específica, como popularizó la familiaSAM original.

Métricas clave de rendimiento

Métrica Logros de SAM 3
LVIS Zero-Shot Máscara AP 47,0 (frente a la mejor marca anterior de 38,5, +22% de mejora)
Referencia SA-Co 2 veces mejor que los sistemas actuales
Velocidad de inferencia ( GPU H200) 30 ms por imagen con más de 100 objetos detectados
Actuación en vídeo Casi en tiempo real para ~5 objetos simultáneos
Evaluación comparativa de MOSEv2 VOS 60,1 J&F (+25,5% sobre SAM 2.1, +17% sobre SOTA anterior)
Refinamiento interactivo +18,6 Mejora del CGF1 tras 3 indicaciones de ejemplo
Brecha en el rendimiento humano Alcanza el 88% del límite inferior estimado para SA-Co/Oro

Para conocer el contexto de las métricas de los modelos y las compensaciones en la producción, consulte las perspectivas de evaluación de modelos y las métricas de rendimientoYOLO .

Arquitectura

SAM 3 consta de un detector y un rastreador que comparten una columna vertebral de visión Perception Encoder (PE). Este diseño desacoplado evita conflictos de tareas al tiempo que permite tanto la detección a nivel de imagen como el seguimiento a nivel de vídeo, con una interfaz compatible conel uso dePython y CLI Ultralytics .

Componentes centrales

  • Detector: Arquitectura basada en DETR para la detección de conceptos a nivel de imagen

    • Codificador de texto para frases nominales
    • Codificador de ejemplos para avisos basados en imágenes
    • Codificador de fusión para condicionar las características de la imagen a las indicaciones
    • Novedosa cabeza de presencia que desvincula el reconocimiento ("qué") de la localización ("dónde")
    • Cabezal de máscara para generar máscaras de segmentación de instancias
  • Rastreador: Segmentación de vídeo basada en memoria heredada de SAM 2

    • Codificador de avisos, descodificador de máscaras, codificador de memoria
    • Banco de memoria para almacenar el aspecto de los objetos en los distintos fotogramas
    • Desambiguación temporal asistida por técnicas como un filtro de Kalman en entornos multiobjeto
  • Token de presencia: Un token global aprendido que predice si el concepto objetivo está presente en la imagen/fotograma, mejorando la detección al separar el reconocimiento de la localización.

Arquitectura SAM 3

Innovaciones clave

  1. Reconocimiento y localización desacoplados: La cabeza de presencia predice la presencia del concepto globalmente, mientras que las consultas de la propuesta se centran sólo en la localización, evitando objetivos contradictorios.
  2. Concepto unificado y avisos visuales: Admite tanto PCS (indicaciones conceptuales) como PVS (indicaciones visuales como los clics/cuadros de SAM 2) en un único modelo.
  3. Perfeccionamiento interactivo de ejemplos: Los usuarios pueden añadir ejemplos de imágenes positivas o negativas para refinar los resultados de forma iterativa, de modo que el modelo generalice a objetos similares en lugar de limitarse a corregir instancias individuales.
  4. Desambiguación temporal: Utiliza puntuaciones de detección de enmascaramiento y repreguntas periódicas para manejar oclusiones, escenas abarrotadas y fallos de seguimiento en vídeo, alineándose con las mejores prácticas de segmentación y seguimiento de instancias.

Conjunto de datos SA-Co

SAM 3 se entrena con Segment Anything with Concepts (SA-Co), el mayor y más diverso conjunto de datos de segmentación de Meta hasta la fecha, que va más allá de las referencias comunes como COCO y LVIS.

Datos de formación

Conjunto de datos Componente Descripción Escala
SA-Co/Cuartel general Datos de imágenes de alta calidad anotados por humanos a partir de un motor de datos de 4 fases 5,2 millones de imágenes, 4 millones de frases nominales únicas
SA-Co/SYN Conjunto de datos sintéticos etiquetados por la IA sin intervención humana 38M de frases sustantivas, 1,4B de máscaras
SA-Co/EXT 15 conjuntos de datos externos enriquecidos con negativos duros Varía según la fuente
SA-Co/VIDEO Anotaciones de vídeo con seguimiento temporal 52,5K vídeos, 24,8K frases sustantivas únicas

Datos de referencia

La evaluación comparativa SA-Co contiene 214.000 frases únicas en 126.000 imágenes y vídeos, lo que supone más de 50 veces más conceptos que las evaluaciones comparativas existentes. Incluye:

  • SA-Co/Gold: 7 dominios, triplemente anotados para medir los límites del rendimiento humano.
  • SA-Co/Plata: 10 dominios, una sola anotación humana
  • SA-Co/Bronce y SA-Co/Bio: 9 conjuntos de datos existentes adaptados para la segmentación de conceptos
  • SA-Co/VEval: evaluación comparativa de vídeo con 3 dominios (SA-V, YT-Temporal-1B, SmartGlasses)

Innovaciones en motores de datos

El motor de datos escalable y basado en modelos de SAM 3 consigue un rendimiento de anotación 2 veces superior:

  1. Anotadores de IA: Los modelos basados en llamas proponen diversas frases sustantivas, incluidas las negativas duras
  2. Verificadores de IA: Los LLM multimodales verifican la calidad y la exhaustividad de las máscaras con un rendimiento casi humano.
  3. Minería activa: Centra el esfuerzo humano en los casos de fallo difíciles en los que la IA tiene dificultades.
  4. Basado en ontologías: Aprovecha una amplia ontología basada en Wikidata para la cobertura de conceptos.

Instalación

SAM 3 será compatible de forma nativa con el paquete Ultralytics en el momento de su lanzamiento:

pip install ultralytics

Los modelos se descargarán automáticamente cuando se utilicen por primera vez. A continuación, puede utilizar el modo de predicción estándar y exportar posteriormente los modelos a formatos como ONNX y TensorRT para su despliegue.

Cómo utilizar SAM 3: versatilidad en la segmentación por conceptos

Vista previa de la API - Sujeto a cambios

Los siguientes ejemplos de código muestran los patrones de uso previstos basados en el documento de investigación. La API real estará disponible más adelante:

  1. Meta abre las pesas del modelo SAM 3
  2. Ultralytics integra SAM 3 en el paquete

La sintaxis y los parámetros pueden diferir en la implementación final. Estos ejemplos sirven como vista previa de la funcionalidad esperada.

Tareas y modelos compatibles

SAM 3 es compatible con las tareas de Segmentación Conceptual Preguntable (PCS) y Segmentación Visual Preguntable (PVS):

Tipo de tarea Tipos de pregunta Salida
Segmentación de conceptos (PCS) Texto (frases sustantivas), ejemplos de imágenes Todas las instancias que coincidan con el concepto
Segmentación visual (PVS) Puntos, cajas, máscaras Instancia de objeto únicoSAM estiloSAM 2)
Refinamiento interactivo Añadir/eliminar ejemplos o clics de forma iterativa Segmentación refinada con mayor precisión

Ejemplos de segmentación por conceptos

Segmento con mensajes de texto

Segmentación de conceptos basada en texto

Encuentra y segmenta todas las instancias de un concepto utilizando una descripción de texto.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .

Segmento con ejemplos de imágenes

Segmentación basada en ejemplos de imágenes

Utilice uno o varios objetos de ejemplo para encontrar todos los casos similares.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .

Refinamiento interactivo

Perfeccionamiento iterativo con ejemplares

Mejore progresivamente los resultados añadiendo ejemplos basados en los resultados iniciales.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .

Segmentación de conceptos de vídeo

Conceptos de pista a través del vídeo

Detecta y rastrea todas las instancias de un concepto a lo largo de un vídeo.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .

Para configuraciones más amplias de streaming y producción, consulte Seguimiento de objetos y visualización de resultados en terminal.

Avisos visualesSAM compatibilidad conSAM 2)

SAM 3 mantiene una compatibilidad total con los avisos visuales de SAM 2:

Instrucciones visuales de estilo SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .

Métricas de rendimiento

Segmentación de imágenes

SAM 3 obtiene los mejores resultados en múltiples pruebas comparativas, incluidos conjuntos de datos reales como LVIS y COCO para segmentación:

Benchmark Métrica SAM 3 Mejor anterior Mejora
LVIS (disparo cero) Máscara AP 47.0 38.5 +22.1%
SA-Co/Oro CGF1 65.0 34,3 (OWLv2) +89.5%
COCO (disparo cero) Caja AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (seg semántico) mIoU 14.7 9,2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Paisajes urbanos (semantic seg) mIoU 65.1 44,2 (APE-D) +47.3%

Explore las opciones de conjuntos de datos para una experimentación rápida en los conjuntos de datosUltralytics .

Rendimiento de la segmentación de vídeo

SAM 3 muestra mejoras significativas con respecto a SAM 2 y al estado de la técnica anterior en pruebas de referencia de vídeo como DAVIS 2017 y YouTube-VOS:

Benchmark Métrica SAM 3 SAM 2.1 L Mejora
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Adaptación de pocas tomas

SAM 3 destaca en la adaptación a nuevos dominios con ejemplos mínimos, relevantes para los flujos de trabajo de IA centrados en datos:

Benchmark 0-disparo AP 10 disparos AP Mejor anterior (10 disparos)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Eficacia del perfeccionamiento interactivo

Las instrucciones basadas en conceptos con ejemplos de SAM convergen mucho más rápido que las instrucciones visuales:

Avisos añadidos Puntuación CGF1 Ganancia frente a sólo texto Ganancia frente a PVS de referencia
Sólo texto 46.4 línea de base línea de base
+1 ejemplar 57.6 +11.2 +6.7
+2 ejemplares 62.2 +15.8 +9.7
+3 ejemplares 65.0 +18.6 +11.2
+4 ejemplares 65.7 +19.3 +11,5 (meseta)

Precisión en el recuento de objetos

SAM 3 proporciona un recuento preciso mediante la segmentación de todas las instancias, un requisito habitual en el recuento de objetos:

Benchmark Precisión MAE vs Mejor MLLM
CountBench 95.6% 0.11 92,4% (Gemini 2.5)
PixMo-Count 87.3% 0.22 88,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparación

Aquí comparamos las capacidades de SAM 3 con las de SAM 2 y YOLO11 :

Capacidad SAM 3 SAM 2 YOLO11n-seg
Segmentación de conceptos ✅ Todas las instancias del texto/ejemplares ❌ No compatible ❌ No compatible
Segmentación visual Instancia únicaSAM compatible conSAM 2) Instancia única ✅ Todas las instancias
Capacidad de disparo cero ✅ Vocabulario abierto ✅ Indicaciones geométricas ❌ Conjunto cerrado
Refinamiento interactivo ✅ Ejemplares + clics ✅ Sólo clics ❌ No compatible
Seguimiento en vídeo ✅ Multiobjeto con identidades ✅ Multiobjeto ✅ Multiobjeto
Máscara LVIS AP (disparo cero) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
Velocidad de inferencia (H200) 30 ms (más de 100 objetos) ~23 ms (por objeto) 2-3 ms (imagen)
Tamaño del modelo Grande (~400+ MB esperados) 162 MB (base) 5,9 MB

Principales conclusiones:

  • SAM 3: mejor para la segmentación de conceptos de vocabulario abierto, para encontrar todos los casos de un concepto con texto o ejemplos.
  • SAM 2: lo mejor para la segmentación interactiva de objetos individuales en imágenes y vídeos con indicaciones geométricas
  • YOLO11: Lo mejor para la segmentación en tiempo real y a alta velocidad en implantaciones con recursos limitados utilizando canalizaciones de exportación eficientes como ONNX y TensorRT

Métricas de evaluación

SAM 3 introduce nuevas métricas diseñadas para la tarea PCS, que complementan medidas conocidas como la puntuación F1, la precisión y la recuperación.

Clasificación F1 (CGF1)

La métrica principal que combina localización y clasificación:

CGF1 = 100 × pmF1 × IL_MCC

Dónde:

  • pmF1 (Macro F1 positiva): Mide la calidad de la localización en ejemplos positivos
  • IL_MCC (Coeficiente de correlación de Matthews a nivel de imagen): Mide la precisión de la clasificación binaria ("¿está presente el concepto?")

¿Por qué estas métricas?

Las métricas AP tradicionales no tienen en cuenta la calibración, lo que dificulta el uso de los modelos en la práctica. Al evaluar solo las predicciones por encima de 0,5 de confianza, las métricas de SAM 3 imponen una buena calibración e imitan los patrones de uso del mundo real en los bucles interactivos de predicción y seguimiento.

Ablicaciones e ideas clave

Impacto de la presencia Cabeza

El cabezal de presencia desvincula el reconocimiento de la localización, lo que aporta mejoras significativas:

Configuración CGF1 IL_MCC pmF1
Sin presencia 57.6 0.77 74.7
Con presencia 63.3 0.82 77.1

La cabeza de presencia proporciona un aumento de +5,7 CGF1 (+9,9%), mejorando principalmente la capacidad de reconocimiento (IL_MCC +6,5%).

Efecto de los negativos duros

Negativos duros/Imagen CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Los negativos duros son cruciales para el reconocimiento de vocabulario abierto, mejorando IL_MCC en un 54,5% (0,44 → 0,68).

Escalado de datos de formación

Fuentes de datos CGF1 IL_MCC pmF1
Sólo exterior 30.9 0.46 66.3
Exterior + Sintético 39.7 0.57 70.6
Exterior + Sede 51.8 0.71 73.2
Los tres 54.3 0.74 73.5

Las anotaciones humanas de alta calidad ofrecen grandes ventajas sobre los datos sintéticos o externos por sí solos. Para más información sobre prácticas de calidad de datos, véase recopilación y anotación de datos.

Aplicaciones

La capacidad de segmentación de conceptos de SAM 3 permite nuevos casos de uso:

  • Moderación de contenidos: Encuentre todas las instancias de tipos de contenido específicos en las mediatecas.
  • Comercio electrónico: Segmente todos los productos de un determinado tipo en las imágenes del catálogo, admitiendo la anotación automática.
  • Imágenes médicas: Identificar todas las apariciones de tipos de tejidos o anomalías específicas.
  • Sistemas autónomos: Seguimiento de todas las instancias de señales de tráfico, peatones o vehículos por categoría.
  • Análisis de vídeo: Cuente y rastree a todas las personas que lleven ropa específica o realicen acciones
  • Anotación de conjuntos de datos: Anote rápidamente todos los casos de categorías de objetos poco comunes.
  • Investigación científica: Cuantificar y analizar todos los especímenes que respondan a criterios específicos.

Agente SAM 3: Razonamiento lingüístico ampliado

SAM 3 puede combinarse con grandes modelos lingüísticos multimodales (MLLM) para gestionar consultas complejas que requieran razonamiento, de forma similar a los sistemas de vocabulario abierto como OWLv2 y T-Rex.

Rendimiento en tareas de razonamiento

Benchmark Métrica Agente SAM 3 (Gemini 2.5 Pro) Mejor anterior
ReasonSeg (validación) gIoU 76.0 65,0 (SoTA)
ReasonSeg (prueba) gIoU 73.8 61,3 (SoTA)
OmniLabel (validación) AP 46.7 36,5 (REAL)
RefCOCO+ Acc 91.2 89,3 (LISA)

Ejemplo de consulta compleja

El agente SAM 3 puede realizar consultas que requieran razonamiento:

  • "Gente sentada pero sin una caja de regalo en la mano"
  • "El perro más cercano a la cámara que no lleve collar"
  • "Objetos rojos más grandes que la mano de la persona"

El MLLM propone consultas simples de frases sustantivas a SAM 3, analiza las máscaras devueltas e itera hasta que se satisfacen.

Limitaciones

Aunque SAM 3 representa un gran avance, tiene ciertas limitaciones:

  • Complejidad de la frase: Más adecuado para frases sustantivales sencillas; las expresiones de referencia largas o los razonamientos complejos pueden requerir la integración de MLLM.
  • Tratamiento de la ambigüedad: Algunos conceptos siguen siendo intrínsecamente ambiguos (por ejemplo, "ventana pequeña", "habitación acogedora").
  • Requisitos computacionales: Mayor y más lento que los modelos de detección especializados como YOLO
  • Alcance del vocabulario: Centrado en conceptos visuales atómicos; el razonamiento compositivo es limitado sin la ayuda de MLLM.
  • Conceptos raros: El rendimiento puede disminuir en el caso de conceptos extremadamente raros o precisos que no estén bien representados en los datos de entrenamiento.

Cita

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Preguntas frecuentes

¿Cuándo saldrá a la venta SAM 3?

SAM 3 se está revisando actualmente en ICLR 2026 (conferencia en 2026, revisión en 2025). Tras el proceso de revisión, probablemente en 2026, se publicarán los modelos oficiales, las ponderaciones y los puntos de referencia. Ultralytics proporcionará soporte inmediato para la integración de SAM 3 tras la publicación de Meta y documentará el uso en modo predicción y en modo seguimiento.

¿Se integrará SAM 3 en Ultralytics?

Sí, SAM 3 será compatible con el paquetePython Ultralytics en el momento de su lanzamiento, e incluirá segmentación de conceptos, avisos visuales al estilo de SAM 2 y seguimiento de vídeo multiobjeto. Podrá exportar a formatos como ONNX y TensorRT para su despliegue, con Python y CLI flujos de trabajo.

Calendario de aplicación

Los ejemplos de código de esta documentación son versiones preliminares que muestran los patrones de uso previstos. La implementación real estará disponible después de que Meta lance SAM 3 pesos y Ultralytics complete la integración.

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o vídeo. A diferencia de la segmentación tradicional, que se centra en una instancia específica de un objeto, PCS encuentra todas las apariciones de una categoría. Por ejemplo:

  • Indicación de texto: "autobús escolar amarillo" → segmenta todos los autobuses escolares amarillos de la escena.
  • Ejemplar de imagen: Recuadro alrededor de un perro → segmenta todos los perros de la imagen.
  • Combinado: "gato a rayas" + casilla ejemplar → segmenta todos los gatos a rayas que coincidan con el ejemplo.

Véanse los antecedentes relacionados con la detección de objetos y la segmentación de instancias.

¿En qué se diferencia SAM 3 de SAM 2?

Característica SAM 2 SAM 3
Tarea Un solo objeto por pregunta Todas las instancias de un concepto
Tipos de pregunta Puntos, cajas, máscaras + Frases de texto, ejemplos de imágenes
Capacidad de detección Requiere detector externo Detector de vocabulario abierto integrado
Reconocimiento Sólo basado en la geometría Reconocimiento textual y visual
Arquitectura Sólo rastreador Detector + Rastreador con cabeza de presencia
Rendimiento Zero-Shot N/A (requiere indicaciones visuales) 47,0 AP en LVIS, 2× mejor en SA-Co
Refinamiento interactivo Sólo clics Clics + generalización de ejemplos

SAM 3 mantiene la compatibilidad con SAM 2 y añade funciones basadas en conceptos.

¿Qué conjuntos de datos se utilizan para entrenar SAM 3?

SAM 3 se entrena con el conjunto de datos Segment Anything with Concepts (SA-Co):

Datos de entrenamiento:

  • 5,2 millones de imágenes con 4 millones de frases nominales únicas (SA-Co/HQ) - anotaciones humanas de alta calidad
  • 52,5K vídeos con 24,8K frases nominales únicas (SA-Co/VIDEO)
  • 1,4 mil millones de máscaras sintéticas en 38 millones de frases sustantivas (SA-Co/SYN)
  • 15 conjuntos de datos externos enriquecidos con negativos duros (SA-Co/EXT)

Datos de referencia:

  • 214.000 conceptos únicos en 126.000 imágenes/vídeos
  • 50 veces más conceptos que las referencias existentes (por ejemplo, LVIS tiene ~4.000 conceptos).
  • Anotación triple en SA-Co/Gold para medir los límites del rendimiento humano

Esta escala y diversidad masivas permiten a SAM 3 una generalización superior de cero disparos a través de conceptos de vocabulario abierto.

¿Cómo se compara SAM 3 con YOLO11 en cuanto a segmentación?

SAM 3 y YOLO11 tienen usos diferentes:

VentajasSAM 3:

  • Vocabulario abierto: Segmenta cualquier concepto mediante mensajes de texto sin necesidad de formación.
  • Cero disparos: Funciona en nuevas categorías inmediatamente
  • Interactivo: El perfeccionamiento basado en ejemplos se generaliza a objetos similares
  • Basado en conceptos: Encuentra automáticamente todos los casos de una categoría
  • Precisión: 47,0 AP en la segmentación de instancias sin disparo LVIS

VentajasYOLO11 :

  • Velocidad: inferencia 10-15 veces más rápida (2-3 ms frente a 30 ms por imagen)
  • Eficacia: modelos 70 veces más pequeños (5,9 MB frente a los ~400 MB previstos).
  • Respetuoso con los recursos: Funciona en dispositivos periféricos y móviles
  • En tiempo real: Optimizado para implantaciones de producción

Recomendación:

  • Utilice SAM 3 para una segmentación flexible de vocabulario abierto en la que necesite encontrar todos los casos de conceptos descritos por texto o ejemplos.
  • Utilice YOLO11 para implantaciones de producción a alta velocidad en las que las categorías se conocen de antemano.
  • Utilice SAM 2 para la segmentación interactiva de objetos individuales con indicaciones geométricas

¿Puede SAM 3 gestionar consultas lingüísticas complejas?

SAM 3 está diseñado para frases sustantivales sencillas (por ejemplo, "manzana roja", "persona con sombrero"). Para consultas complejas que requieran razonamiento, combine SAM 3 con un MLLM como AgenteSAM 3:

Consultas sencillas ( SAM 3 nativo):

  • "autobús escolar amarillo"
  • "gato a rayas"
  • "persona con sombrero rojo"

Consultas complejas (AgenteSAM 3 con MLLM):

  • "Gente sentada pero sin caja de regalo"
  • "El perro más cercano a la cámara sin collar"
  • "Objetos rojos más grandes que la mano de la persona"

El agente SAM 3 consigue 76,0 gIoU en la validación ReasonSeg (frente a los 65,0 de la mejor versión anterior, lo que supone una mejora del 16,9%) al combinar la segmentación de SAM 3 con las capacidades de razonamiento MLLM.

¿Cuál es la precisión de SAM 3 en comparación con el rendimiento humano?

Sobre la referencia SA-Co/Gold con triple anotación humana:

  • Límite inferior humano: 74,2 CGF1 (anotador más conservador)
  • RendimientoSAM 3: 65,0 CGF1
  • Logro: 88% del límite inferior humano estimado
  • Límite superior humano: 81,4 CGF1 (anotador más liberal)

SAM 3 consigue un gran rendimiento que se aproxima a la precisión humana en la segmentación de conceptos de vocabulario abierto, con una brecha principalmente en los conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").



📅 Creado hace 0 días ✏️ Actualizado hace 0 días

Comentarios