Ir al contenido

SAM 3: Segmentar cualquier cosa con conceptos

Publicado - Integración de Ultralytics en curso

Meta lanzó SAM el 20 de noviembre de 2025. Ultralytics está integrando los modelos ahora y enviará una actualización del paquete con soporte nativo pronto. Mientras tanto, puedes seguir los pasos del README oficial de SAM 3 para probar la versión upstream.

SAM 3 Visión general

SAM 3 (Segment Anything Model 3) es el modelo básico de Meta para la segmentación de conceptos mediante instrucciones (PCS). Basado en SAM 2, SAM 3 introduce una capacidad fundamentalmente nueva: detectar, segmentar y rastrear todas las instancias de un concepto visual especificado por instrucciones de texto, ejemplos de imágenes o ambos. A diferencia de las versiones anteriores de SAM , que segment objetos individuales por instrucción, SAM 3 puede encontrar y segment todas las apariciones de un concepto en cualquier lugar de las imágenes o vídeos, en línea con los objetivos de vocabulario abierto de la segmentación moderna de instancias.

Ultralytics está integrando activamente SAM en la ultralytics paquete. Hasta que llegue esa versión, puedes experimentar con la implementación de Meta siguiendo los pasos oficiales de instalación y uso que se indican a continuación.

Visión general

SAM 3 consigue multiplicar por 2 el rendimiento de los sistemas existentes en la segmentación de conceptos mediante preguntas, al tiempo que mantiene y mejora las capacidades de SAM 2 para la segmentación visual interactiva. El modelo destaca en la segmentación de vocabulario abierto, lo que permite a los usuarios especificar conceptos utilizando frases simples (por ejemplo, "autobús escolar amarillo", "gato a rayas") o proporcionando imágenes de ejemplo del objeto de destino. Estas funciones complementan los procesos de producción que se basan en la predicción y el track flujos de trabajo.

SAM 3 Segmentación

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

La tarea PCS toma un concepto como entrada y devuelve máscaras de segmentación con identidades únicas para todos los objetos coincidentes. Los conceptos pueden ser:

  • Texto: Frases sustantivales sencillas como "manzana roja" o "persona con sombrero", similares al aprendizaje de tiro cero.
  • Ejemplares de imágenes: Cuadros delimitadores alrededor de objetos ejemplares (positivos o negativos) para una generalización rápida.
  • Combinados: Ejemplares de texto e imagen juntos para un control preciso

Esto difiere de las indicaciones visuales tradicionales (puntos, recuadros, máscaras) que segment sólo una instancia de objeto específica, como popularizó la familiaSAM original.

Métricas clave de rendimiento

MétricaLogros de SAM 3
LVIS Zero-Shot Máscara AP47,0 (frente a la mejor marca anterior de 38,5, +22% de mejora)
Referencia SA-Co2 veces mejor que los sistemas actuales
Velocidad de inferencia ( GPU H200)30 ms por imagen con más de 100 objetos detectados
Actuación en vídeoCasi en tiempo real para ~5 objetos simultáneos
Evaluación comparativa de MOSEv2 VOS60,1 J&F (+25,5% sobre SAM 2.1, +17% sobre SOTA anterior)
Refinamiento interactivo+18,6 Mejora del CGF1 tras 3 indicaciones de ejemplo
Brecha en el rendimiento humanoAlcanza el 88% del límite inferior estimado para SA-Co/Oro

Para conocer el contexto de las métricas de los modelos y las compensaciones en la producción, consulte las perspectivas de evaluación de modelos y las métricas de rendimientoYOLO .

Arquitectura

SAM 3 consta de un detector y un rastreador que comparten una columna vertebral de visión Perception Encoder (PE). Este diseño desacoplado evita conflictos de tareas al tiempo que permite tanto la detección a nivel de imagen como el seguimiento a nivel de vídeo, con una interfaz compatible conel uso dePython y CLI Ultralytics .

Componentes centrales

  • Detector: Arquitectura basada en DETR para la detección de conceptos a nivel de imagen

    • Codificador de texto para frases nominales
    • Codificador de ejemplos para avisos basados en imágenes
    • Codificador de fusión para condicionar las características de la imagen a las indicaciones
    • Novedosa cabeza de presencia que desvincula el reconocimiento ("qué") de la localización ("dónde")
    • Cabezal de máscara para generar máscaras de segmentación de instancias
  • Rastreador: Segmentación de vídeo basada en memoria heredada de SAM 2

    • Codificador de avisos, descodificador de máscaras, codificador de memoria
    • Banco de memoria para almacenar el aspecto de los objetos en los distintos fotogramas
    • Desambiguación temporal asistida por técnicas como un filtro de Kalman en entornos multiobjeto
  • Token de presencia: Un token global aprendido que predice si el concepto objetivo está presente en la imagen/fotograma, mejorando la detección al separar el reconocimiento de la localización.

Arquitectura SAM 3

Innovaciones clave

  1. Reconocimiento y localización desacoplados: La cabeza de presencia predice la presencia del concepto globalmente, mientras que las consultas de la propuesta se centran sólo en la localización, evitando objetivos contradictorios.
  2. Concepto unificado y avisos visuales: Admite tanto PCS (indicaciones conceptuales) como PVS (indicaciones visuales como los clics/cuadros de SAM 2) en un único modelo.
  3. Perfeccionamiento interactivo de ejemplos: Los usuarios pueden añadir ejemplos de imágenes positivas o negativas para refinar los resultados de forma iterativa, de modo que el modelo generalice a objetos similares en lugar de limitarse a corregir instancias individuales.
  4. Desambiguación temporal: Utiliza puntuaciones de detección de enmascaramiento y repreguntas periódicas para manejar oclusiones, escenas abarrotadas y fallos de seguimiento en vídeo, alineándose con las mejores prácticas de segmentación y seguimiento de instancias.

Conjunto de datos SA-Co

SAM 3 se entrena con Segment Anything with Concepts (SA-Co), el mayor y más diverso conjunto de datos de segmentación de Meta hasta la fecha, que va más allá de las referencias comunes como COCO y LVIS.

Datos de formación

Conjunto de datos ComponenteDescripciónEscala
SA-Co/Cuartel generalDatos de imágenes de alta calidad anotados por humanos a partir de un motor de datos de 4 fases5,2 millones de imágenes, 4 millones de frases nominales únicas
SA-Co/SYNConjunto de datos sintéticos etiquetados por la IA sin intervención humana38M de frases sustantivas, 1,4B de máscaras
SA-Co/EXT15 conjuntos de datos externos enriquecidos con negativos durosVaría según la fuente
SA-Co/VIDEOAnotaciones de vídeo con seguimiento temporal52,5K vídeos, 24,8K frases sustantivas únicas

Datos de referencia

La evaluación comparativa SA-Co contiene 214.000 frases únicas en 126.000 imágenes y vídeos, lo que supone más de 50 veces más conceptos que las evaluaciones comparativas existentes. Incluye:

  • SA-Co/Gold: 7 dominios, triplemente anotados para medir los límites del rendimiento humano.
  • SA-Co/Plata: 10 dominios, una sola anotación humana
  • SA-Co/Bronce y SA-Co/Bio: 9 conjuntos de datos existentes adaptados para la segmentación de conceptos
  • SA-Co/VEval: evaluación comparativa de vídeo con 3 dominios (SA-V, YT-Temporal-1B, SmartGlasses)

Innovaciones en motores de datos

El motor de datos escalable y basado en modelos de SAM 3 consigue un rendimiento de anotación 2 veces superior:

  1. Anotadores de IA: Los modelos basados en llamas proponen diversas frases sustantivas, incluidas las negativas duras
  2. Verificadores de IA: Los LLM multimodales verifican la calidad y la exhaustividad de las máscaras con un rendimiento casi humano.
  3. Minería activa: Centra el esfuerzo humano en los casos de fallo difíciles en los que la IA tiene dificultades.
  4. Basado en ontologías: Aprovecha una amplia ontología basada en Wikidata para la cobertura de conceptos.

Instalación

SAM 3 estará disponible directamente en el paquete Ultralytics una vez aterrice la integración. Se mantendrá la instalación:

pip install ultralytics

Los modelos se descargarán automáticamente cuando se utilicen por primera vez. A continuación, puede utilizar el modo de predicción estándar y exportar posteriormente los modelos a formatos como ONNX y TensorRT para su despliegue. Pronto se actualizará el paquete con los pesos y la configuración SAM.

Cómo utilizar SAM 3: versatilidad en la segmentación por conceptos

Vista previa de la API Ultralytics

Los siguientes ejemplos muestran la API Ultralytics prevista una vez que SAM 3 desembarque en el paquete. Hasta que aterrice la integración, los detalles pueden cambiar.

Tareas y modelos compatibles

SAM 3 es compatible con las tareas de Segmentación Conceptual Preguntable (PCS) y Segmentación Visual Preguntable (PVS):

Tipo de tareaTipos de preguntaSalida
Segmentación de conceptos (PCS)Texto (frases sustantivas), ejemplos de imágenesTodas las instancias que coincidan con el concepto
Segmentación visual (PVS)Puntos, cajas, máscarasInstancia de objeto únicoSAM estiloSAM 2)
Refinamiento interactivoAñadir/eliminar ejemplos o clics de forma iterativaSegmentación refinada con mayor precisión

Ejemplos de segmentación por conceptos

Segmento con mensajes de texto

Segmentación de conceptos basada en texto

Encuentra y segment todas las instancias de un concepto utilizando una descripción de texto.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Segmento con ejemplos de imágenes

Segmentación basada en ejemplos de imágenes

Utilice uno o varios objetos de ejemplo para encontrar todos los casos similares.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Refinamiento interactivo

Perfeccionamiento iterativo con ejemplares

Mejore progresivamente los resultados añadiendo ejemplos basados en los resultados iniciales.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Segmentación de conceptos de vídeo

Conceptos de pista a través del vídeo

Detecta y track todas las instancias de un concepto a lo largo de un vídeo.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Para configuraciones más amplias de streaming y producción, consulte Seguimiento de objetos y visualización de resultados en terminal.

Avisos visualesSAM compatibilidad conSAM 2)

SAM 3 mantiene una compatibilidad total con los avisos visuales de SAM 2:

Instrucciones visuales de estilo SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Métricas de rendimiento

Segmentación de imágenes

SAM 3 obtiene los mejores resultados en múltiples pruebas comparativas, incluidos conjuntos de datos reales como LVIS y COCO para segmentación:

BenchmarkMétricaSAM 3Mejor anteriorMejora
LVIS (disparo cero)Máscara AP47.038.5+22.1%
SA-Co/OroCGF165.034,3 (OWLv2)+89.5%
COCO (disparo cero)Caja AP53.552,2 (T-Rex2)+2.5%
ADE-847 (seg semántico)mIoU14.79,2 (APE-D)+59.8%
PascalConcept-59mIoU59.458,5 (APE-D)+1.5%
Paisajes urbanos (semantic seg)mIoU65.144,2 (APE-D)+47.3%

Explore las opciones de conjuntos de datos para una experimentación rápida en los conjuntos de datosUltralytics .

Rendimiento de la segmentación de vídeo

SAM 3 muestra mejoras significativas con respecto a SAM 2 y al estado de la técnica anterior en pruebas de referencia de vídeo como DAVIS 2017 y YouTube-VOS:

BenchmarkMétricaSAM 3SAM 2.1 LMejora
MOSEv2J&F60.147.9+25.5%
DAVIS 2017J&F92.090.7+1.4%
LVOSv2J&F88.279.6+10.8%
SA-VJ&F84.678.4+7.9%
YTVOS19J&F89.689.3+0.3%

Adaptación de pocas tomas

SAM 3 destaca en la adaptación a nuevos dominios con ejemplos mínimos, relevantes para los flujos de trabajo de IA centrados en datos:

Benchmark0-disparo AP10 disparos APMejor anterior (10 disparos)
ODinW1359.971.667,9 (gDino1.5-Pro)
RF100-VL14.335.733,7 (gDino-T)

Eficacia del perfeccionamiento interactivo

Las instrucciones basadas en conceptos con ejemplos de SAM convergen mucho más rápido que las instrucciones visuales:

Avisos añadidosPuntuación CGF1Ganancia frente a sólo textoGanancia frente a PVS de referencia
Sólo texto46.4línea de baselínea de base
+1 ejemplar57.6+11.2+6.7
+2 ejemplares62.2+15.8+9.7
+3 ejemplares65.0+18.6+11.2
+4 ejemplares65.7+19.3+11,5 (meseta)

Precisión en el recuento de objetos

SAM 3 proporciona un recuento preciso mediante la segmentación de todas las instancias, un requisito habitual en el recuento de objetos:

BenchmarkPrecisiónMAEvs Mejor MLLM
CountBench95.6%0.1192,4% (Gemini 2.5)
PixMo-Count87.3%0.2288,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparación

Aquí comparamos las capacidades de SAM 3 con las de SAM 2 y YOLO11 :

CapacidadSAM 3SAM 2YOLO11n-seg
Segmentación de conceptos✅ Todas las instancias del texto/ejemplares❌ No compatible❌ No compatible
Segmentación visualInstancia únicaSAM compatible conSAM 2)Instancia única✅ Todas las instancias
Capacidad de disparo cero✅ Vocabulario abierto✅ Indicaciones geométricas❌ Conjunto cerrado
Refinamiento interactivo✅ Ejemplares + clics✅ Sólo clics❌ No compatible
Seguimiento en vídeo✅ Multiobjeto con identidades✅ Multiobjeto✅ Multiobjeto
Máscara LVIS AP (disparo cero)47.0N/AN/A
MOSEv2 J&F60.147.9N/A
Velocidad de inferencia (H200)30 ms (más de 100 objetos)~23 ms (por objeto)2-3 ms (imagen)
Tamaño del modeloGrande (~400+ MB esperados)162 MB (base)5,9 MB

Principales conclusiones:

  • SAM 3: mejor para la segmentación de conceptos de vocabulario abierto, para encontrar todos los casos de un concepto con texto o ejemplos.
  • SAM 2: lo mejor para la segmentación interactiva de objetos individuales en imágenes y vídeos con indicaciones geométricas
  • YOLO11: Lo mejor para la segmentación en tiempo real y a alta velocidad en implantaciones con recursos limitados utilizando canalizaciones de exportación eficientes como ONNX y TensorRT

Métricas de evaluación

SAM 3 introduce nuevas métricas diseñadas para la tarea PCS, que complementan medidas conocidas como la puntuación F1, la precisión y la recuperación.

Clasificación F1 (CGF1)

La métrica principal que combina localización y clasificación:

CGF1 = 100 × pmF1 × IL_MCC

Dónde:

  • pmF1 (Macro F1 positiva): Mide la calidad de la localización en ejemplos positivos
  • IL_MCC (Coeficiente de correlación de Matthews a nivel de imagen): Mide la precisión de la clasificación binaria ("¿está presente el concepto?")

¿Por qué estas métricas?

Las métricas AP tradicionales no tienen en cuenta la calibración, lo que dificulta el uso de los modelos en la práctica. Al evaluar sólo las predicciones por encima del 0,5 de confianza, las métricas de SAM 3 imponen una buena calibración e imitan los patrones de uso del mundo real en la predicción interactiva y el track interactivos.

Ablicaciones e ideas clave

Impacto de la presencia Cabeza

El cabezal de presencia desvincula el reconocimiento de la localización, lo que aporta mejoras significativas:

ConfiguraciónCGF1IL_MCCpmF1
Sin presencia57.60.7774.7
Con presencia63.30.8277.1

La cabeza de presencia proporciona un aumento de +5,7 CGF1 (+9,9%), mejorando principalmente la capacidad de reconocimiento (IL_MCC +6,5%).

Efecto de los negativos duros

Negativos duros/ImagenCGF1IL_MCCpmF1
031.80.4470.2
544.80.6271.9
3049.20.6872.3

Los negativos duros son cruciales para el reconocimiento de vocabulario abierto, mejorando IL_MCC en un 54,5% (0,44 → 0,68).

Escalado de datos de formación

Fuentes de datosCGF1IL_MCCpmF1
Sólo exterior30.90.4666.3
Exterior + Sintético39.70.5770.6
Exterior + Sede51.80.7173.2
Los tres54.30.7473.5

Las anotaciones humanas de alta calidad ofrecen grandes ventajas sobre los datos sintéticos o externos por sí solos. Para más información sobre prácticas de calidad de datos, véase recopilación y anotación de datos.

Aplicaciones

La capacidad de segmentación de conceptos de SAM 3 permite nuevos casos de uso:

  • Moderación de contenidos: Encuentre todas las instancias de tipos de contenido específicos en las mediatecas.
  • Comercio electrónico: Segmente todos los productos de un determinado tipo en las imágenes del catálogo, admitiendo la anotación automática.
  • Imágenes médicas: Identificar todas las apariciones de tipos de tejidos o anomalías específicas.
  • Sistemas autónomos: Seguimiento de todas las instancias de señales de tráfico, peatones o vehículos por categoría.
  • Análisis de vídeo: Cuente y track a todas las personas que lleven ropa específica o realicen acciones
  • Anotación de conjuntos de datos: Anote rápidamente todos los casos de categorías de objetos poco comunes.
  • Investigación científica: Cuantificar y analizar todos los especímenes que respondan a criterios específicos.

Agente SAM 3: Razonamiento lingüístico ampliado

SAM 3 puede combinarse con grandes modelos lingüísticos multimodales (MLLM) para gestionar consultas complejas que requieran razonamiento, de forma similar a los sistemas de vocabulario abierto como OWLv2 y T-Rex.

Rendimiento en tareas de razonamiento

BenchmarkMétricaAgente SAM 3 (Gemini 2.5 Pro)Mejor anterior
ReasonSeg (validación)gIoU76.065,0 (SoTA)
ReasonSeg (prueba)gIoU73.861,3 (SoTA)
OmniLabel (validación)AP46.736,5 (REAL)
RefCOCO+Acc91.289,3 (LISA)

Ejemplo de consulta compleja

El agente SAM 3 puede realizar consultas que requieran razonamiento:

  • "Gente sentada pero sin una caja de regalo en la mano"
  • "El perro más cercano a la cámara que no lleve collar"
  • "Objetos rojos más grandes que la mano de la persona"

El MLLM propone consultas simples de frases sustantivas a SAM 3, analiza las máscaras devueltas e itera hasta que se satisfacen.

Limitaciones

Aunque SAM 3 representa un gran avance, tiene ciertas limitaciones:

  • Complejidad de la frase: Más adecuado para frases sustantivales sencillas; las expresiones de referencia largas o los razonamientos complejos pueden requerir la integración de MLLM.
  • Tratamiento de la ambigüedad: Algunos conceptos siguen siendo intrínsecamente ambiguos (por ejemplo, "ventana pequeña", "habitación acogedora").
  • Requisitos computacionales: Mayor y más lento que los modelos de detección especializados como YOLO
  • Alcance del vocabulario: Centrado en conceptos visuales atómicos; el razonamiento compositivo es limitado sin la ayuda de MLLM.
  • Conceptos raros: El rendimiento puede disminuir en el caso de conceptos extremadamente raros o precisos que no estén bien representados en los datos de entrenamiento.

Cita

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Preguntas frecuentes

¿Cuándo saldrá a la venta SAM 3?

SAM 3 fue lanzado por Meta el 20 de noviembre de 2025. La compatibilidad con Ultralytics está en curso y se incluirá en una próxima actualización del paquete con documentación completa para el modo de predicción y el modo detrack .

¿Se integrará SAM 3 en Ultralytics?

Sí, SAM 3 será compatible con el paquetePython Ultralytics en el momento de su lanzamiento, e incluirá segmentación de conceptos, avisos visuales al estilo de SAM 2 y seguimiento de vídeo multiobjeto. Podrá exportar a formatos como ONNX y TensorRT para su despliegue, con Python y CLI flujos de trabajo.

Calendario de aplicación

Los ejemplos de código de esta documentación son versiones preliminares que muestran los patrones de uso previstos. La implementación real estará disponible una vez que Ultralytics complete la integración.

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o vídeo. A diferencia de la segmentación tradicional, que se centra en una instancia específica de un objeto, PCS encuentra todas las apariciones de una categoría. Por ejemplo:

  • Indicación de texto: "autobús escolar amarillo" → segmenta todos los autobuses escolares amarillos de la escena.
  • Ejemplar de imagen: Recuadro alrededor de un perro → segmenta todos los perros de la imagen.
  • Combinado: "gato a rayas" + casilla ejemplar → segmenta todos los gatos a rayas que coincidan con el ejemplo.

Véanse los antecedentes relacionados con la detección de objetos y la segmentación de instancias.

¿En qué se diferencia SAM 3 de SAM 2?

CaracterísticaSAM 2SAM 3
TareaUn solo objeto por preguntaTodas las instancias de un concepto
Tipos de preguntaPuntos, cajas, máscaras+ Frases de texto, ejemplos de imágenes
Capacidad de detecciónRequiere detector externoDetector de vocabulario abierto integrado
ReconocimientoSólo basado en la geometríaReconocimiento textual y visual
ArquitecturaSólo rastreadorDetector + Rastreador con cabeza de presencia
Rendimiento Zero-ShotN/A (requiere indicaciones visuales)47,0 AP en LVIS, 2× mejor en SA-Co
Refinamiento interactivoSólo clicsClics + generalización de ejemplos

SAM 3 mantiene la compatibilidad con SAM 2 y añade funciones basadas en conceptos.

¿Qué conjuntos de datos se utilizan para entrenar SAM 3?

SAM 3 se entrena con el conjunto de datos Segment Anything with Concepts (SA-Co):

Datos de entrenamiento:

  • 5,2 millones de imágenes con 4 millones de frases nominales únicas (SA-Co/HQ) - anotaciones humanas de alta calidad
  • 52,5K vídeos con 24,8K frases nominales únicas (SA-Co/VIDEO)
  • 1,4 mil millones de máscaras sintéticas en 38 millones de frases sustantivas (SA-Co/SYN)
  • 15 conjuntos de datos externos enriquecidos con negativos duros (SA-Co/EXT)

Datos de referencia:

  • 214.000 conceptos únicos en 126.000 imágenes/vídeos
  • 50 veces más conceptos que las referencias existentes (por ejemplo, LVIS tiene ~4.000 conceptos).
  • Anotación triple en SA-Co/Gold para medir los límites del rendimiento humano

Esta escala y diversidad masivas permiten a SAM 3 una generalización superior de cero disparos a través de conceptos de vocabulario abierto.

¿Cómo se compara SAM 3 con YOLO11 en cuanto a segmentación?

SAM 3 y YOLO11 tienen usos diferentes:

VentajasSAM 3:

  • Vocabulario abierto: Segmenta cualquier concepto mediante mensajes de texto sin necesidad de formación.
  • Cero disparos: Funciona en nuevas categorías inmediatamente
  • Interactivo: El perfeccionamiento basado en ejemplos se generaliza a objetos similares
  • Basado en conceptos: Encuentra automáticamente todos los casos de una categoría
  • Precisión: 47,0 AP en la segmentación de instancias sin disparo LVIS

VentajasYOLO11 :

  • Velocidad: inferencia 10-15 veces más rápida (2-3 ms frente a 30 ms por imagen)
  • Eficacia: modelos 70 veces más pequeños (5,9 MB frente a los ~400 MB previstos).
  • Respetuoso con los recursos: Funciona en dispositivos periféricos y móviles
  • En tiempo real: Optimizado para implantaciones de producción

Recomendación:

  • Utilice SAM 3 para una segmentación flexible de vocabulario abierto en la que necesite encontrar todos los casos de conceptos descritos por texto o ejemplos.
  • Utilice YOLO11 para implantaciones de producción a alta velocidad en las que las categorías se conocen de antemano.
  • Utilice SAM 2 para la segmentación interactiva de objetos individuales con indicaciones geométricas

¿Puede SAM 3 gestionar consultas lingüísticas complejas?

SAM 3 está diseñado para frases sustantivales sencillas (por ejemplo, "manzana roja", "persona con sombrero"). Para consultas complejas que requieran razonamiento, combine SAM 3 con un MLLM como AgenteSAM 3:

Consultas sencillas ( SAM 3 nativo):

  • "autobús escolar amarillo"
  • "gato a rayas"
  • "persona con sombrero rojo"

Consultas complejas (AgenteSAM 3 con MLLM):

  • "Gente sentada pero sin caja de regalo"
  • "El perro más cercano a la cámara sin collar"
  • "Objetos rojos más grandes que la mano de la persona"

El agente SAM 3 consigue 76,0 gIoU en la validación ReasonSeg (frente a los 65,0 de la mejor versión anterior, lo que supone una mejora del 16,9%) al combinar la segmentación de SAM 3 con las capacidades de razonamiento MLLM.

¿Cuál es la precisión de SAM 3 en comparación con el rendimiento humano?

Sobre la referencia SA-Co/Gold con triple anotación humana:

  • Límite inferior humano: 74,2 CGF1 (anotador más conservador)
  • RendimientoSAM 3: 65,0 CGF1
  • Logro: 88% del límite inferior humano estimado
  • Límite superior humano: 81,4 CGF1 (anotador más liberal)

SAM 3 consigue un gran rendimiento que se aproxima a la precisión humana en la segmentación de conceptos de vocabulario abierto, con una brecha principalmente en los conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").



Creado hace 1 mes ✏️ Actualizado hace 1 día
glenn-jocherY-T-G

Comentarios