SAM 3: Segmentar cualquier cosa con conceptos

Q: When Will SAM 3 Be Released?

SAM 3 fue lanzado por Meta el 20 de noviembre de 2025. La compatibilidad con Ultralytics está en curso y se incluirá en una próxima actualización del paquete con documentación completa para el modo de predicción y el modo de track .

Q: Will SAM 3 Be Integrated Into Ultralytics?

Sí, SAM 3 será compatible con el paquetePython Ultralytics desde su lanzamiento, incluida la segmentación de conceptos, los avisos visuales al estilo de SAM 2 y el seguimiento de vídeo multiobjeto. Podrá exportar a formatos como ONNX y TensorRT para su despliegue, con flujos de trabajo simplificados Python y CLI .

Q: What Is Promptable Concept Segmentation (PCS)?

PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o vídeo. A diferencia de la segmentación tradicional, que se centra en una instancia específica de un objeto, PCS encuentra todas las apariciones de una categoría. Por ejemplo: Consulte los antecedentes relacionados con la detección de objetos y la segmentación de instancias.

Q: What datasets are used to train SAM 3?

SAM 3 se entrena con el conjunto de datos Segment Anything with Concepts (SA-Co): Datos de entrenamiento: Datos de referencia: Esta escala y diversidad masivas permiten a SAM 3 una generalización superior de cero disparos a través de conceptos de vocabulario abierto.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 y YOLO11 sirven para casos de uso diferentes: SAM 3 Ventajas: YOLO11 Ventajas: Recomendación:

Q: How accurate is SAM 3 compared to human performance?

En la prueba de referencia SA-Co/Gold con triple anotación humana: SAM 3 logra un rendimiento sólido que se acerca a la precisión de nivel humano en la segmentación de conceptos de vocabulario abierto, con la brecha principalmente en conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").

Publicado - Integración de Ultralytics en curso

Meta lanzó SAM el 20 de noviembre de 2025. Ultralytics está integrando los modelos ahora y enviará una actualización del paquete con soporte nativo pronto. Mientras tanto, puedes seguir los pasos del README oficial de SAM 3 para probar la versión upstream.

SAM 3 Visión general

SAM 3 (Segment Anything Model 3) es el modelo básico de Meta para la segmentación de conceptos mediante instrucciones (PCS). Basado en SAM 2, SAM 3 introduce una capacidad fundamentalmente nueva: detectar, segmentar y rastrear todas las instancias de un concepto visual especificado por instrucciones de texto, ejemplos de imágenes o ambos. A diferencia de las versiones anteriores de SAM , que segment objetos individuales por instrucción, SAM 3 puede encontrar y segment todas las apariciones de un concepto en cualquier lugar de las imágenes o vídeos, en línea con los objetivos de vocabulario abierto de la segmentación moderna de instancias.

Ultralytics está integrando activamente SAM en la ultralytics paquete. Hasta que llegue esa versión, puedes experimentar con la implementación de Meta siguiendo los pasos oficiales de instalación y uso que se indican a continuación.

Visión general

SAM 3 consigue multiplicar por 2 el rendimiento de los sistemas existentes en la segmentación de conceptos mediante preguntas, al tiempo que mantiene y mejora las capacidades de SAM 2 para la segmentación visual interactiva. El modelo destaca en la segmentación de vocabulario abierto, lo que permite a los usuarios especificar conceptos utilizando frases simples (por ejemplo, "autobús escolar amarillo", "gato a rayas") o proporcionando imágenes de ejemplo del objeto de destino. Estas funciones complementan los procesos de producción que se basan en la predicción y el track flujos de trabajo.

SAM 3 Segmentación

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

La tarea PCS toma un concepto como entrada y devuelve máscaras de segmentación con identidades únicas para todos los objetos coincidentes. Los conceptos pueden ser:

Texto: Frases sustantivales sencillas como "manzana roja" o "persona con sombrero", similares al aprendizaje de tiro cero.
Ejemplares de imágenes: Cuadros delimitadores alrededor de objetos ejemplares (positivos o negativos) para una generalización rápida.
Combinados: Ejemplares de texto e imagen juntos para un control preciso

Esto difiere de las indicaciones visuales tradicionales (puntos, recuadros, máscaras) que segment sólo una instancia de objeto específica, como popularizó la familiaSAM original.

Métricas clave de rendimiento

Métrica	Logros de SAM 3
LVIS Zero-Shot Máscara AP	47,0 (frente a la mejor marca anterior de 38,5, +22% de mejora)
Referencia SA-Co	2 veces mejor que los sistemas actuales
Velocidad de inferencia ( GPU H200)	30 ms por imagen con más de 100 objetos detectados
Actuación en vídeo	Casi en tiempo real para ~5 objetos simultáneos
Evaluación comparativa de MOSEv2 VOS	60,1 J&F (+25,5% sobre SAM 2.1, +17% sobre SOTA anterior)
Refinamiento interactivo	+18,6 Mejora del CGF1 tras 3 indicaciones de ejemplo
Brecha en el rendimiento humano	Alcanza el 88% del límite inferior estimado para SA-Co/Oro

Para conocer el contexto de las métricas de los modelos y las compensaciones en la producción, consulte las perspectivas de evaluación de modelos y las métricas de rendimientoYOLO .

Arquitectura

SAM 3 consta de un detector y un rastreador que comparten una columna vertebral de visión Perception Encoder (PE). Este diseño desacoplado evita conflictos de tareas al tiempo que permite tanto la detección a nivel de imagen como el seguimiento a nivel de vídeo, con una interfaz compatible conel uso dePython y CLI Ultralytics .

Componentes centrales

Detector: Arquitectura basada en DETR para la detección de conceptos a nivel de imagen
- Codificador de texto para frases nominales
- Codificador de ejemplos para avisos basados en imágenes
- Codificador de fusión para condicionar las características de la imagen a las indicaciones
- Novedosa cabeza de presencia que desvincula el reconocimiento ("qué") de la localización ("dónde")
- Cabezal de máscara para generar máscaras de segmentación de instancias
Rastreador: Segmentación de vídeo basada en memoria heredada de SAM 2
- Codificador de avisos, descodificador de máscaras, codificador de memoria
- Banco de memoria para almacenar el aspecto de los objetos en los distintos fotogramas
- Desambiguación temporal asistida por técnicas como un filtro de Kalman en entornos multiobjeto
Token de presencia: Un token global aprendido que predice si el concepto objetivo está presente en la imagen/fotograma, mejorando la detección al separar el reconocimiento de la localización.

Arquitectura SAM 3

Innovaciones clave

Reconocimiento y localización desacoplados: La cabeza de presencia predice la presencia del concepto globalmente, mientras que las consultas de la propuesta se centran sólo en la localización, evitando objetivos contradictorios.
Concepto unificado y avisos visuales: Admite tanto PCS (indicaciones conceptuales) como PVS (indicaciones visuales como los clics/cuadros de SAM 2) en un único modelo.
Perfeccionamiento interactivo de ejemplos: Los usuarios pueden añadir ejemplos de imágenes positivas o negativas para refinar los resultados de forma iterativa, de modo que el modelo generalice a objetos similares en lugar de limitarse a corregir instancias individuales.
Desambiguación temporal: Utiliza puntuaciones de detección de enmascaramiento y repreguntas periódicas para manejar oclusiones, escenas abarrotadas y fallos de seguimiento en vídeo, alineándose con las mejores prácticas de segmentación y seguimiento de instancias.

Conjunto de datos SA-Co

SAM 3 se entrena con Segment Anything with Concepts (SA-Co), el mayor y más diverso conjunto de datos de segmentación de Meta hasta la fecha, que va más allá de las referencias comunes como COCO y LVIS.

Datos de formación

Conjunto de datos Componente	Descripción	Escala
SA-Co/Cuartel general	Datos de imágenes de alta calidad anotados por humanos a partir de un motor de datos de 4 fases	5,2 millones de imágenes, 4 millones de frases nominales únicas
SA-Co/SYN	Conjunto de datos sintéticos etiquetados por la IA sin intervención humana	38M de frases sustantivas, 1,4B de máscaras
SA-Co/EXT	15 conjuntos de datos externos enriquecidos con negativos duros	Varía según la fuente
SA-Co/VIDEO	Anotaciones de vídeo con seguimiento temporal	52,5K vídeos, 24,8K frases sustantivas únicas

Datos de referencia

La evaluación comparativa SA-Co contiene 214.000 frases únicas en 126.000 imágenes y vídeos, lo que supone más de 50 veces más conceptos que las evaluaciones comparativas existentes. Incluye:

SA-Co/Gold: 7 dominios, triplemente anotados para medir los límites del rendimiento humano.
SA-Co/Plata: 10 dominios, una sola anotación humana
SA-Co/Bronce y SA-Co/Bio: 9 conjuntos de datos existentes adaptados para la segmentación de conceptos
SA-Co/VEval: evaluación comparativa de vídeo con 3 dominios (SA-V, YT-Temporal-1B, SmartGlasses)

Innovaciones en motores de datos

El motor de datos escalable y basado en modelos de SAM 3 consigue un rendimiento de anotación 2 veces superior:

Anotadores de IA: Los modelos basados en llamas proponen diversas frases sustantivas, incluidas las negativas duras
Verificadores de IA: Los LLM multimodales verifican la calidad y la exhaustividad de las máscaras con un rendimiento casi humano.
Minería activa: Centra el esfuerzo humano en los casos de fallo difíciles en los que la IA tiene dificultades.
Basado en ontologías: Aprovecha una amplia ontología basada en Wikidata para la cobertura de conceptos.

Instalación

SAM 3 estará disponible directamente en el paquete Ultralytics una vez aterrice la integración. Se mantendrá la instalación:

pip install ultralytics

Los modelos se descargarán automáticamente cuando se utilicen por primera vez. A continuación, puede utilizar el modo de predicción estándar y exportar posteriormente los modelos a formatos como ONNX y TensorRT para su despliegue. Pronto se actualizará el paquete con los pesos y la configuración SAM.

Cómo utilizar SAM 3: versatilidad en la segmentación por conceptos

Vista previa de la API Ultralytics

Los siguientes ejemplos muestran la API Ultralytics prevista una vez que SAM 3 desembarque en el paquete. Hasta que aterrice la integración, los detalles pueden cambiar.

Tareas y modelos compatibles

SAM 3 es compatible con las tareas de Segmentación Conceptual Preguntable (PCS) y Segmentación Visual Preguntable (PVS):

Tipo de tarea	Tipos de pregunta	Salida
Segmentación de conceptos (PCS)	Texto (frases sustantivas), ejemplos de imágenes	Todas las instancias que coincidan con el concepto
Segmentación visual (PVS)	Puntos, cajas, máscaras	Instancia de objeto únicoSAM estiloSAM 2)
Refinamiento interactivo	Añadir/eliminar ejemplos o clics de forma iterativa	Segmentación refinada con mayor precisión

Ejemplos de segmentación por conceptos

Segmento con mensajes de texto

Segmentación de conceptos basada en texto

Encuentra y segment todas las instancias de un concepto utilizando una descripción de texto.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Segmento con ejemplos de imágenes

Segmentación basada en ejemplos de imágenes

Utilice uno o varios objetos de ejemplo para encontrar todos los casos similares.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Perfeccionamiento iterativo con ejemplares

Mejore progresivamente los resultados añadiendo ejemplos basados en los resultados iniciales.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Segmentación de conceptos de vídeo

Conceptos de pista a través del vídeo

Detecta y track todas las instancias de un concepto a lo largo de un vídeo.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Para configuraciones más amplias de streaming y producción, consulte Seguimiento de objetos y visualización de resultados en terminal.

Avisos visualesSAM compatibilidad conSAM 2)

SAM 3 mantiene una compatibilidad total con los avisos visuales de SAM 2:

Instrucciones visuales de estilo SAM 2

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Vista previa de la API

Este ejemplo muestra el uso previsto. La implementación real está pendiente de la integración Ultralytics .

Métricas de rendimiento

Segmentación de imágenes

SAM 3 obtiene los mejores resultados en múltiples pruebas comparativas, incluidos conjuntos de datos reales como LVIS y COCO para segmentación:

Benchmark	Métrica	SAM 3	Mejor anterior	Mejora
LVIS (disparo cero)	Máscara AP	47.0	38.5	+22.1%
SA-Co/Oro	CGF1	65.0	34,3 (OWLv2)	+89.5%
COCO (disparo cero)	Caja AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (seg semántico)	mIoU	14.7	9,2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Paisajes urbanos (semantic seg)	mIoU	65.1	44,2 (APE-D)	+47.3%

Explore las opciones de conjuntos de datos para una experimentación rápida en los conjuntos de datosUltralytics .

Rendimiento de la segmentación de vídeo

SAM 3 muestra mejoras significativas con respecto a SAM 2 y al estado de la técnica anterior en pruebas de referencia de vídeo como DAVIS 2017 y YouTube-VOS:

Benchmark	Métrica	SAM 3	SAM 2.1 L	Mejora
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Adaptación de pocas tomas

SAM 3 destaca en la adaptación a nuevos dominios con ejemplos mínimos, relevantes para los flujos de trabajo de IA centrados en datos:

Benchmark	0-disparo AP	10 disparos AP	Mejor anterior (10 disparos)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (gDino-T)

Las instrucciones basadas en conceptos con ejemplos de SAM convergen mucho más rápido que las instrucciones visuales:

Avisos añadidos	Puntuación CGF1	Ganancia frente a sólo texto	Ganancia frente a PVS de referencia
Sólo texto	46.4	línea de base	línea de base
+1 ejemplar	57.6	+11.2	+6.7
+2 ejemplares	62.2	+15.8	+9.7
+3 ejemplares	65.0	+18.6	+11.2
+4 ejemplares	65.7	+19.3	+11,5 (meseta)

Precisión en el recuento de objetos

SAM 3 proporciona un recuento preciso mediante la segmentación de todas las instancias, un requisito habitual en el recuento de objetos:

Benchmark	Precisión	MAE	vs Mejor MLLM
CountBench	95.6%	0.11	92,4% (Gemini 2.5)
PixMo-Count	87.3%	0.22	88,8% (Molmo-72B)

SAM 3 vs SAM 2 vs YOLO Comparación

Aquí comparamos las capacidades de SAM 3 con las de SAM 2 y YOLO11 :

Capacidad	SAM 3	SAM 2	YOLO11n-seg
Segmentación de conceptos	✅ Todas las instancias del texto/ejemplares	❌ No compatible	❌ No compatible
Segmentación visual	Instancia únicaSAM compatible conSAM 2)	Instancia única	✅ Todas las instancias
Capacidad de disparo cero	✅ Vocabulario abierto	✅ Indicaciones geométricas	❌ Conjunto cerrado
Refinamiento interactivo	✅ Ejemplares + clics	✅ Sólo clics	❌ No compatible
Seguimiento en vídeo	✅ Multiobjeto con identidades	✅ Multiobjeto	✅ Multiobjeto
Máscara LVIS AP (disparo cero)	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
Velocidad de inferencia (H200)	30 ms (más de 100 objetos)	~23 ms (por objeto)	2-3 ms (imagen)
Tamaño del modelo	Grande (~400+ MB esperados)	162 MB (base)	5,9 MB

Principales conclusiones:

SAM 3: mejor para la segmentación de conceptos de vocabulario abierto, para encontrar todos los casos de un concepto con texto o ejemplos.
SAM 2: lo mejor para la segmentación interactiva de objetos individuales en imágenes y vídeos con indicaciones geométricas
YOLO11: Lo mejor para la segmentación en tiempo real y a alta velocidad en implantaciones con recursos limitados utilizando canalizaciones de exportación eficientes como ONNX y TensorRT

Métricas de evaluación

SAM 3 introduce nuevas métricas diseñadas para la tarea PCS, que complementan medidas conocidas como la puntuación F1, la precisión y la recuperación.

Clasificación F1 (CGF1)

La métrica principal que combina localización y clasificación:

CGF1 = 100 × pmF1 × IL_MCC

Dónde:

pmF1 (Macro F1 positiva): Mide la calidad de la localización en ejemplos positivos
IL_MCC (Coeficiente de correlación de Matthews a nivel de imagen): Mide la precisión de la clasificación binaria ("¿está presente el concepto?")

¿Por qué estas métricas?

Las métricas AP tradicionales no tienen en cuenta la calibración, lo que dificulta el uso de los modelos en la práctica. Al evaluar sólo las predicciones por encima del 0,5 de confianza, las métricas de SAM 3 imponen una buena calibración e imitan los patrones de uso del mundo real en la predicción interactiva y el track interactivos.

Ablicaciones e ideas clave

Impacto de la presencia Cabeza

El cabezal de presencia desvincula el reconocimiento de la localización, lo que aporta mejoras significativas:

Configuración	CGF1	IL_MCC	pmF1
Sin presencia	57.6	0.77	74.7
Con presencia	63.3	0.82	77.1

La cabeza de presencia proporciona un aumento de +5,7 CGF1 (+9,9%), mejorando principalmente la capacidad de reconocimiento (IL_MCC +6,5%).

Efecto de los negativos duros

Negativos duros/Imagen	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Los negativos duros son cruciales para el reconocimiento de vocabulario abierto, mejorando IL_MCC en un 54,5% (0,44 → 0,68).

Escalado de datos de formación

Fuentes de datos	CGF1	IL_MCC	pmF1
Sólo exterior	30.9	0.46	66.3
Exterior + Sintético	39.7	0.57	70.6
Exterior + Sede	51.8	0.71	73.2
Los tres	54.3	0.74	73.5

Las anotaciones humanas de alta calidad ofrecen grandes ventajas sobre los datos sintéticos o externos por sí solos. Para más información sobre prácticas de calidad de datos, véase recopilación y anotación de datos.

Aplicaciones

La capacidad de segmentación de conceptos de SAM 3 permite nuevos casos de uso:

Moderación de contenidos: Encuentre todas las instancias de tipos de contenido específicos en las mediatecas.
Comercio electrónico: Segmente todos los productos de un determinado tipo en las imágenes del catálogo, admitiendo la anotación automática.
Imágenes médicas: Identificar todas las apariciones de tipos de tejidos o anomalías específicas.
Sistemas autónomos: Seguimiento de todas las instancias de señales de tráfico, peatones o vehículos por categoría.
Análisis de vídeo: Cuente y track a todas las personas que lleven ropa específica o realicen acciones
Anotación de conjuntos de datos: Anote rápidamente todos los casos de categorías de objetos poco comunes.
Investigación científica: Cuantificar y analizar todos los especímenes que respondan a criterios específicos.

Agente SAM 3: Razonamiento lingüístico ampliado

SAM 3 puede combinarse con grandes modelos lingüísticos multimodales (MLLM) para gestionar consultas complejas que requieran razonamiento, de forma similar a los sistemas de vocabulario abierto como OWLv2 y T-Rex.

Rendimiento en tareas de razonamiento

Benchmark	Métrica	Agente SAM 3 (Gemini 2.5 Pro)	Mejor anterior
ReasonSeg (validación)	gIoU	76.0	65,0 (SoTA)
ReasonSeg (prueba)	gIoU	73.8	61,3 (SoTA)
OmniLabel (validación)	AP	46.7	36,5 (REAL)
RefCOCO+	Acc	91.2	89,3 (LISA)

Ejemplo de consulta compleja

El agente SAM 3 puede realizar consultas que requieran razonamiento:

"Gente sentada pero sin una caja de regalo en la mano"
"El perro más cercano a la cámara que no lleve collar"
"Objetos rojos más grandes que la mano de la persona"

El MLLM propone consultas simples de frases sustantivas a SAM 3, analiza las máscaras devueltas e itera hasta que se satisfacen.

Limitaciones

Aunque SAM 3 representa un gran avance, tiene ciertas limitaciones:

Complejidad de la frase: Más adecuado para frases sustantivales sencillas; las expresiones de referencia largas o los razonamientos complejos pueden requerir la integración de MLLM.
Tratamiento de la ambigüedad: Algunos conceptos siguen siendo intrínsecamente ambiguos (por ejemplo, "ventana pequeña", "habitación acogedora").
Requisitos computacionales: Mayor y más lento que los modelos de detección especializados como YOLO
Alcance del vocabulario: Centrado en conceptos visuales atómicos; el razonamiento compositivo es limitado sin la ayuda de MLLM.
Conceptos raros: El rendimiento puede disminuir en el caso de conceptos extremadamente raros o precisos que no estén bien representados en los datos de entrenamiento.

Cita

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

Preguntas frecuentes

¿Cuándo saldrá a la venta SAM 3?

SAM 3 fue lanzado por Meta el 20 de noviembre de 2025. La compatibilidad con Ultralytics está en curso y se incluirá en una próxima actualización del paquete con documentación completa para el modo de predicción y el modo detrack .

¿Se integrará SAM 3 en Ultralytics?

Sí, SAM 3 será compatible con el paquetePython Ultralytics en el momento de su lanzamiento, e incluirá segmentación de conceptos, avisos visuales al estilo de SAM 2 y seguimiento de vídeo multiobjeto. Podrá exportar a formatos como ONNX y TensorRT para su despliegue, con Python y CLI flujos de trabajo.

Calendario de aplicación

Los ejemplos de código de esta documentación son versiones preliminares que muestran los patrones de uso previstos. La implementación real estará disponible una vez que Ultralytics complete la integración.

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o vídeo. A diferencia de la segmentación tradicional, que se centra en una instancia específica de un objeto, PCS encuentra todas las apariciones de una categoría. Por ejemplo:

Indicación de texto: "autobús escolar amarillo" → segmenta todos los autobuses escolares amarillos de la escena.
Ejemplar de imagen: Recuadro alrededor de un perro → segmenta todos los perros de la imagen.
Combinado: "gato a rayas" + casilla ejemplar → segmenta todos los gatos a rayas que coincidan con el ejemplo.

Véanse los antecedentes relacionados con la detección de objetos y la segmentación de instancias.

¿En qué se diferencia SAM 3 de SAM 2?

Característica	SAM 2	SAM 3
Tarea	Un solo objeto por pregunta	Todas las instancias de un concepto
Tipos de pregunta	Puntos, cajas, máscaras	+ Frases de texto, ejemplos de imágenes
Capacidad de detección	Requiere detector externo	Detector de vocabulario abierto integrado
Reconocimiento	Sólo basado en la geometría	Reconocimiento textual y visual
Arquitectura	Sólo rastreador	Detector + Rastreador con cabeza de presencia
Rendimiento Zero-Shot	N/A (requiere indicaciones visuales)	47,0 AP en LVIS, 2× mejor en SA-Co
Refinamiento interactivo	Sólo clics	Clics + generalización de ejemplos

SAM 3 mantiene la compatibilidad con SAM 2 y añade funciones basadas en conceptos.

¿Qué conjuntos de datos se utilizan para entrenar SAM 3?

SAM 3 se entrena con el conjunto de datos Segment Anything with Concepts (SA-Co):

Datos de entrenamiento:

5,2 millones de imágenes con 4 millones de frases nominales únicas (SA-Co/HQ) - anotaciones humanas de alta calidad
52,5K vídeos con 24,8K frases nominales únicas (SA-Co/VIDEO)
1,4 mil millones de máscaras sintéticas en 38 millones de frases sustantivas (SA-Co/SYN)
15 conjuntos de datos externos enriquecidos con negativos duros (SA-Co/EXT)

Datos de referencia:

214.000 conceptos únicos en 126.000 imágenes/vídeos
50 veces más conceptos que las referencias existentes (por ejemplo, LVIS tiene ~4.000 conceptos).
Anotación triple en SA-Co/Gold para medir los límites del rendimiento humano

Esta escala y diversidad masivas permiten a SAM 3 una generalización superior de cero disparos a través de conceptos de vocabulario abierto.

¿Cómo se compara SAM 3 con YOLO11 en cuanto a segmentación?

SAM 3 y YOLO11 tienen usos diferentes:

VentajasSAM 3:

Vocabulario abierto: Segmenta cualquier concepto mediante mensajes de texto sin necesidad de formación.
Cero disparos: Funciona en nuevas categorías inmediatamente
Interactivo: El perfeccionamiento basado en ejemplos se generaliza a objetos similares
Basado en conceptos: Encuentra automáticamente todos los casos de una categoría
Precisión: 47,0 AP en la segmentación de instancias sin disparo LVIS

VentajasYOLO11 :

Velocidad: inferencia 10-15 veces más rápida (2-3 ms frente a 30 ms por imagen)
Eficacia: modelos 70 veces más pequeños (5,9 MB frente a los ~400 MB previstos).
Respetuoso con los recursos: Funciona en dispositivos periféricos y móviles
En tiempo real: Optimizado para implantaciones de producción

Recomendación:

Utilice SAM 3 para una segmentación flexible de vocabulario abierto en la que necesite encontrar todos los casos de conceptos descritos por texto o ejemplos.
Utilice YOLO11 para implantaciones de producción a alta velocidad en las que las categorías se conocen de antemano.
Utilice SAM 2 para la segmentación interactiva de objetos individuales con indicaciones geométricas

¿Puede SAM 3 gestionar consultas lingüísticas complejas?

SAM 3 está diseñado para frases sustantivales sencillas (por ejemplo, "manzana roja", "persona con sombrero"). Para consultas complejas que requieran razonamiento, combine SAM 3 con un MLLM como AgenteSAM 3:

Consultas sencillas ( SAM 3 nativo):

"autobús escolar amarillo"
"gato a rayas"
"persona con sombrero rojo"

Consultas complejas (AgenteSAM 3 con MLLM):

"Gente sentada pero sin caja de regalo"
"El perro más cercano a la cámara sin collar"
"Objetos rojos más grandes que la mano de la persona"

El agente SAM 3 consigue 76,0 gIoU en la validación ReasonSeg (frente a los 65,0 de la mejor versión anterior, lo que supone una mejora del 16,9%) al combinar la segmentación de SAM 3 con las capacidades de razonamiento MLLM.

¿Cuál es la precisión de SAM 3 en comparación con el rendimiento humano?

Sobre la referencia SA-Co/Gold con triple anotación humana:

Límite inferior humano: 74,2 CGF1 (anotador más conservador)
RendimientoSAM 3: 65,0 CGF1
Logro: 88% del límite inferior humano estimado
Límite superior humano: 81,4 CGF1 (anotador más liberal)

SAM 3 consigue un gran rendimiento que se aproxima a la precisión humana en la segmentación de conceptos de vocabulario abierto, con una brecha principalmente en los conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").

Creado hace 1 mes ✏️ Actualizado hace 1 día

SAM 3: Segmentar cualquier cosa con conceptos

Visión general

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

Métricas clave de rendimiento

Arquitectura

Componentes centrales

Innovaciones clave

Conjunto de datos SA-Co

Datos de formación

Datos de referencia

Innovaciones en motores de datos

Instalación

Cómo utilizar SAM 3: versatilidad en la segmentación por conceptos

Tareas y modelos compatibles

Ejemplos de segmentación por conceptos

Segmento con mensajes de texto

Segmento con ejemplos de imágenes

Refinamiento interactivo

Segmentación de conceptos de vídeo

Avisos visualesSAM compatibilidad conSAM 2)

Métricas de rendimiento

Segmentación de imágenes

Rendimiento de la segmentación de vídeo

Adaptación de pocas tomas

Eficacia del perfeccionamiento interactivo

Precisión en el recuento de objetos

SAM 3 vs SAM 2 vs YOLO Comparación

Métricas de evaluación

Clasificación F1 (CGF1)

¿Por qué estas métricas?

Ablicaciones e ideas clave

Impacto de la presencia Cabeza

Efecto de los negativos duros

Escalado de datos de formación

Aplicaciones

Agente SAM 3: Razonamiento lingüístico ampliado

Rendimiento en tareas de razonamiento

Ejemplo de consulta compleja

Limitaciones

Cita

Preguntas frecuentes

¿Cuándo saldrá a la venta SAM 3?

¿Se integrará SAM 3 en Ultralytics?

¿Qué es la Segmentación Conceptual Preguntable (PCS)?

¿En qué se diferencia SAM 3 de SAM 2?

¿Qué conjuntos de datos se utilizan para entrenar SAM 3?

¿Cómo se compara SAM 3 con YOLO11 en cuanto a segmentación?

¿Puede SAM 3 gestionar consultas lingüísticas complejas?

¿Cuál es la precisión de SAM 3 en comparación con el rendimiento humano?

Comentarios