SAM 3: Segmentar cualquier cosa con conceptos
Próximamente ⚠️
Los modelos SAM 3 aún no han sido publicados por Meta. La información que figura a continuación se basa en el documento de investigación presentado a ICLR 2026. Las descargas de los modelos y las evaluaciones comparativas finales estarán disponibles tras la publicación oficial por parte de Meta.
SAM 3 (Segment Anything Model 3) representa el modelo básico de próxima generación de Meta para la Segmentación de Conceptos por Indicaciones (PCS). Basado en SAM 2, SAM 3 introduce una capacidad fundamentalmente nueva: detectar, segmentar y rastrear todas las instancias de un concepto visual especificado por instrucciones de texto, ejemplos de imágenes o ambos. A diferencia de las versiones anteriores de SAM , que segmentan objetos individuales por instrucción, SAM 3 puede encontrar y segmentar todas las apariciones de un concepto en cualquier lugar de las imágenes o vídeos, en línea con los objetivos de vocabulario abierto de la segmentación moderna de instancias.
Visión general
SAM 3 consigue multiplicar por 2 el rendimiento de los sistemas existentes en la segmentación de conceptos mediante preguntas, al tiempo que mantiene y mejora las capacidades de SAM 2 para la segmentación visual interactiva. El modelo destaca en la segmentación de vocabulario abierto, lo que permite a los usuarios especificar conceptos utilizando frases simples (por ejemplo, "autobús escolar amarillo", "gato a rayas") o proporcionando imágenes de ejemplo del objeto de destino. Estas funciones complementan los procesos de producción que se basan en flujos de trabajo optimizados de predicción y seguimiento.
¿Qué es la Segmentación Conceptual Preguntable (PCS)?
La tarea PCS toma un concepto como entrada y devuelve máscaras de segmentación con identidades únicas para todos los objetos coincidentes. Los conceptos pueden ser:
- Texto: Frases sustantivales sencillas como "manzana roja" o "persona con sombrero", similares al aprendizaje de tiro cero.
- Ejemplares de imágenes: Cuadros delimitadores alrededor de objetos ejemplares (positivos o negativos) para una generalización rápida.
- Combinados: Ejemplares de texto e imagen juntos para un control preciso
Esto difiere de las indicaciones visuales tradicionales (puntos, recuadros, máscaras) que segmentan sólo una instancia de objeto específica, como popularizó la familiaSAM original.
Métricas clave de rendimiento
Métrica | Logros de SAM 3 |
---|---|
LVIS Zero-Shot Máscara AP | 47,0 (frente a la mejor marca anterior de 38,5, +22% de mejora) |
Referencia SA-Co | 2 veces mejor que los sistemas actuales |
Velocidad de inferencia ( GPU H200) | 30 ms por imagen con más de 100 objetos detectados |
Actuación en vídeo | Casi en tiempo real para ~5 objetos simultáneos |
Evaluación comparativa de MOSEv2 VOS | 60,1 J&F (+25,5% sobre SAM 2.1, +17% sobre SOTA anterior) |
Refinamiento interactivo | +18,6 Mejora del CGF1 tras 3 indicaciones de ejemplo |
Brecha en el rendimiento humano | Alcanza el 88% del límite inferior estimado para SA-Co/Oro |
Para conocer el contexto de las métricas de los modelos y las compensaciones en la producción, consulte las perspectivas de evaluación de modelos y las métricas de rendimientoYOLO .
Arquitectura
SAM 3 consta de un detector y un rastreador que comparten una columna vertebral de visión Perception Encoder (PE). Este diseño desacoplado evita conflictos de tareas al tiempo que permite tanto la detección a nivel de imagen como el seguimiento a nivel de vídeo, con una interfaz compatible conel uso dePython y CLI Ultralytics .
Componentes centrales
-
Detector: Arquitectura basada en DETR para la detección de conceptos a nivel de imagen
- Codificador de texto para frases nominales
- Codificador de ejemplos para avisos basados en imágenes
- Codificador de fusión para condicionar las características de la imagen a las indicaciones
- Novedosa cabeza de presencia que desvincula el reconocimiento ("qué") de la localización ("dónde")
- Cabezal de máscara para generar máscaras de segmentación de instancias
-
Rastreador: Segmentación de vídeo basada en memoria heredada de SAM 2
- Codificador de avisos, descodificador de máscaras, codificador de memoria
- Banco de memoria para almacenar el aspecto de los objetos en los distintos fotogramas
- Desambiguación temporal asistida por técnicas como un filtro de Kalman en entornos multiobjeto
-
Token de presencia: Un token global aprendido que predice si el concepto objetivo está presente en la imagen/fotograma, mejorando la detección al separar el reconocimiento de la localización.
Innovaciones clave
- Reconocimiento y localización desacoplados: La cabeza de presencia predice la presencia del concepto globalmente, mientras que las consultas de la propuesta se centran sólo en la localización, evitando objetivos contradictorios.
- Concepto unificado y avisos visuales: Admite tanto PCS (indicaciones conceptuales) como PVS (indicaciones visuales como los clics/cuadros de SAM 2) en un único modelo.
- Perfeccionamiento interactivo de ejemplos: Los usuarios pueden añadir ejemplos de imágenes positivas o negativas para refinar los resultados de forma iterativa, de modo que el modelo generalice a objetos similares en lugar de limitarse a corregir instancias individuales.
- Desambiguación temporal: Utiliza puntuaciones de detección de enmascaramiento y repreguntas periódicas para manejar oclusiones, escenas abarrotadas y fallos de seguimiento en vídeo, alineándose con las mejores prácticas de segmentación y seguimiento de instancias.
Conjunto de datos SA-Co
SAM 3 se entrena con Segment Anything with Concepts (SA-Co), el mayor y más diverso conjunto de datos de segmentación de Meta hasta la fecha, que va más allá de las referencias comunes como COCO y LVIS.
Datos de formación
Conjunto de datos Componente | Descripción | Escala |
---|---|---|
SA-Co/Cuartel general | Datos de imágenes de alta calidad anotados por humanos a partir de un motor de datos de 4 fases | 5,2 millones de imágenes, 4 millones de frases nominales únicas |
SA-Co/SYN | Conjunto de datos sintéticos etiquetados por la IA sin intervención humana | 38M de frases sustantivas, 1,4B de máscaras |
SA-Co/EXT | 15 conjuntos de datos externos enriquecidos con negativos duros | Varía según la fuente |
SA-Co/VIDEO | Anotaciones de vídeo con seguimiento temporal | 52,5K vídeos, 24,8K frases sustantivas únicas |
Datos de referencia
La evaluación comparativa SA-Co contiene 214.000 frases únicas en 126.000 imágenes y vídeos, lo que supone más de 50 veces más conceptos que las evaluaciones comparativas existentes. Incluye:
- SA-Co/Gold: 7 dominios, triplemente anotados para medir los límites del rendimiento humano.
- SA-Co/Plata: 10 dominios, una sola anotación humana
- SA-Co/Bronce y SA-Co/Bio: 9 conjuntos de datos existentes adaptados para la segmentación de conceptos
- SA-Co/VEval: evaluación comparativa de vídeo con 3 dominios (SA-V, YT-Temporal-1B, SmartGlasses)
Innovaciones en motores de datos
El motor de datos escalable y basado en modelos de SAM 3 consigue un rendimiento de anotación 2 veces superior:
- Anotadores de IA: Los modelos basados en llamas proponen diversas frases sustantivas, incluidas las negativas duras
- Verificadores de IA: Los LLM multimodales verifican la calidad y la exhaustividad de las máscaras con un rendimiento casi humano.
- Minería activa: Centra el esfuerzo humano en los casos de fallo difíciles en los que la IA tiene dificultades.
- Basado en ontologías: Aprovecha una amplia ontología basada en Wikidata para la cobertura de conceptos.
Instalación
SAM 3 será compatible de forma nativa con el paquete Ultralytics en el momento de su lanzamiento:
pip install ultralytics
Los modelos se descargarán automáticamente cuando se utilicen por primera vez. A continuación, puede utilizar el modo de predicción estándar y exportar posteriormente los modelos a formatos como ONNX y TensorRT para su despliegue.
Cómo utilizar SAM 3: versatilidad en la segmentación por conceptos
Vista previa de la API - Sujeto a cambios
Los siguientes ejemplos de código muestran los patrones de uso previstos basados en el documento de investigación. La API real estará disponible más adelante:
- Meta abre las pesas del modelo SAM 3
- Ultralytics integra SAM 3 en el paquete
La sintaxis y los parámetros pueden diferir en la implementación final. Estos ejemplos sirven como vista previa de la funcionalidad esperada.
Tareas y modelos compatibles
SAM 3 es compatible con las tareas de Segmentación Conceptual Preguntable (PCS) y Segmentación Visual Preguntable (PVS):
Tipo de tarea | Tipos de pregunta | Salida |
---|---|---|
Segmentación de conceptos (PCS) | Texto (frases sustantivas), ejemplos de imágenes | Todas las instancias que coincidan con el concepto |
Segmentación visual (PVS) | Puntos, cajas, máscaras | Instancia de objeto únicoSAM estiloSAM 2) |
Refinamiento interactivo | Añadir/eliminar ejemplos o clics de forma iterativa | Segmentación refinada con mayor precisión |
Ejemplos de segmentación por conceptos
Segmento con mensajes de texto
Segmentación de conceptos basada en texto
Encuentra y segmenta todas las instancias de un concepto utilizando una descripción de texto.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
Vista previa de la API
Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .
Segmento con ejemplos de imágenes
Segmentación basada en ejemplos de imágenes
Utilice uno o varios objetos de ejemplo para encontrar todos los casos similares.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
Vista previa de la API
Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .
Refinamiento interactivo
Perfeccionamiento iterativo con ejemplares
Mejore progresivamente los resultados añadiendo ejemplos basados en los resultados iniciales.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
Vista previa de la API
Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .
Segmentación de conceptos de vídeo
Conceptos de pista a través del vídeo
Detecta y rastrea todas las instancias de un concepto a lo largo de un vídeo.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
Vista previa de la API
Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .
Para configuraciones más amplias de streaming y producción, consulte Seguimiento de objetos y visualización de resultados en terminal.
Avisos visualesSAM compatibilidad conSAM 2)
SAM 3 mantiene una compatibilidad total con los avisos visuales de SAM 2:
Instrucciones visuales de estilo SAM 2
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
Vista previa de la API
Este ejemplo muestra el uso previsto. La implementación real está pendiente del lanzamiento de Meta y de la integración de Ultralytics .
Métricas de rendimiento
Segmentación de imágenes
SAM 3 obtiene los mejores resultados en múltiples pruebas comparativas, incluidos conjuntos de datos reales como LVIS y COCO para segmentación:
Benchmark | Métrica | SAM 3 | Mejor anterior | Mejora |
---|---|---|---|---|
LVIS (disparo cero) | Máscara AP | 47.0 | 38.5 | +22.1% |
SA-Co/Oro | CGF1 | 65.0 | 34,3 (OWLv2) | +89.5% |
COCO (disparo cero) | Caja AP | 53.5 | 52,2 (T-Rex2) | +2.5% |
ADE-847 (seg semántico) | mIoU | 14.7 | 9,2 (APE-D) | +59.8% |
PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Paisajes urbanos (semantic seg) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Explore las opciones de conjuntos de datos para una experimentación rápida en los conjuntos de datosUltralytics .
Rendimiento de la segmentación de vídeo
SAM 3 muestra mejoras significativas con respecto a SAM 2 y al estado de la técnica anterior en pruebas de referencia de vídeo como DAVIS 2017 y YouTube-VOS:
Benchmark | Métrica | SAM 3 | SAM 2.1 L | Mejora |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Adaptación de pocas tomas
SAM 3 destaca en la adaptación a nuevos dominios con ejemplos mínimos, relevantes para los flujos de trabajo de IA centrados en datos:
Benchmark | 0-disparo AP | 10 disparos AP | Mejor anterior (10 disparos) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
Eficacia del perfeccionamiento interactivo
Las instrucciones basadas en conceptos con ejemplos de SAM convergen mucho más rápido que las instrucciones visuales:
Avisos añadidos | Puntuación CGF1 | Ganancia frente a sólo texto | Ganancia frente a PVS de referencia |
---|---|---|---|
Sólo texto | 46.4 | línea de base | línea de base |
+1 ejemplar | 57.6 | +11.2 | +6.7 |
+2 ejemplares | 62.2 | +15.8 | +9.7 |
+3 ejemplares | 65.0 | +18.6 | +11.2 |
+4 ejemplares | 65.7 | +19.3 | +11,5 (meseta) |
Precisión en el recuento de objetos
SAM 3 proporciona un recuento preciso mediante la segmentación de todas las instancias, un requisito habitual en el recuento de objetos:
Benchmark | Precisión | MAE | vs Mejor MLLM |
---|---|---|---|
CountBench | 95.6% | 0.11 | 92,4% (Gemini 2.5) |
PixMo-Count | 87.3% | 0.22 | 88,8% (Molmo-72B) |
SAM 3 vs SAM 2 vs YOLO Comparación
Aquí comparamos las capacidades de SAM 3 con las de SAM 2 y YOLO11 :
Capacidad | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Segmentación de conceptos | ✅ Todas las instancias del texto/ejemplares | ❌ No compatible | ❌ No compatible |
Segmentación visual | Instancia únicaSAM compatible conSAM 2) | Instancia única | ✅ Todas las instancias |
Capacidad de disparo cero | ✅ Vocabulario abierto | ✅ Indicaciones geométricas | ❌ Conjunto cerrado |
Refinamiento interactivo | ✅ Ejemplares + clics | ✅ Sólo clics | ❌ No compatible |
Seguimiento en vídeo | ✅ Multiobjeto con identidades | ✅ Multiobjeto | ✅ Multiobjeto |
Máscara LVIS AP (disparo cero) | 47.0 | N/A | N/A |
MOSEv2 J&F | 60.1 | 47.9 | N/A |
Velocidad de inferencia (H200) | 30 ms (más de 100 objetos) | ~23 ms (por objeto) | 2-3 ms (imagen) |
Tamaño del modelo | Grande (~400+ MB esperados) | 162 MB (base) | 5,9 MB |
Principales conclusiones:
- SAM 3: mejor para la segmentación de conceptos de vocabulario abierto, para encontrar todos los casos de un concepto con texto o ejemplos.
- SAM 2: lo mejor para la segmentación interactiva de objetos individuales en imágenes y vídeos con indicaciones geométricas
- YOLO11: Lo mejor para la segmentación en tiempo real y a alta velocidad en implantaciones con recursos limitados utilizando canalizaciones de exportación eficientes como ONNX y TensorRT
Métricas de evaluación
SAM 3 introduce nuevas métricas diseñadas para la tarea PCS, que complementan medidas conocidas como la puntuación F1, la precisión y la recuperación.
Clasificación F1 (CGF1)
La métrica principal que combina localización y clasificación:
CGF1 = 100 × pmF1 × IL_MCC
Dónde:
- pmF1 (Macro F1 positiva): Mide la calidad de la localización en ejemplos positivos
- IL_MCC (Coeficiente de correlación de Matthews a nivel de imagen): Mide la precisión de la clasificación binaria ("¿está presente el concepto?")
¿Por qué estas métricas?
Las métricas AP tradicionales no tienen en cuenta la calibración, lo que dificulta el uso de los modelos en la práctica. Al evaluar solo las predicciones por encima de 0,5 de confianza, las métricas de SAM 3 imponen una buena calibración e imitan los patrones de uso del mundo real en los bucles interactivos de predicción y seguimiento.
Ablicaciones e ideas clave
Impacto de la presencia Cabeza
El cabezal de presencia desvincula el reconocimiento de la localización, lo que aporta mejoras significativas:
Configuración | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Sin presencia | 57.6 | 0.77 | 74.7 |
Con presencia | 63.3 | 0.82 | 77.1 |
La cabeza de presencia proporciona un aumento de +5,7 CGF1 (+9,9%), mejorando principalmente la capacidad de reconocimiento (IL_MCC +6,5%).
Efecto de los negativos duros
Negativos duros/Imagen | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
Los negativos duros son cruciales para el reconocimiento de vocabulario abierto, mejorando IL_MCC en un 54,5% (0,44 → 0,68).
Escalado de datos de formación
Fuentes de datos | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Sólo exterior | 30.9 | 0.46 | 66.3 |
Exterior + Sintético | 39.7 | 0.57 | 70.6 |
Exterior + Sede | 51.8 | 0.71 | 73.2 |
Los tres | 54.3 | 0.74 | 73.5 |
Las anotaciones humanas de alta calidad ofrecen grandes ventajas sobre los datos sintéticos o externos por sí solos. Para más información sobre prácticas de calidad de datos, véase recopilación y anotación de datos.
Aplicaciones
La capacidad de segmentación de conceptos de SAM 3 permite nuevos casos de uso:
- Moderación de contenidos: Encuentre todas las instancias de tipos de contenido específicos en las mediatecas.
- Comercio electrónico: Segmente todos los productos de un determinado tipo en las imágenes del catálogo, admitiendo la anotación automática.
- Imágenes médicas: Identificar todas las apariciones de tipos de tejidos o anomalías específicas.
- Sistemas autónomos: Seguimiento de todas las instancias de señales de tráfico, peatones o vehículos por categoría.
- Análisis de vídeo: Cuente y rastree a todas las personas que lleven ropa específica o realicen acciones
- Anotación de conjuntos de datos: Anote rápidamente todos los casos de categorías de objetos poco comunes.
- Investigación científica: Cuantificar y analizar todos los especímenes que respondan a criterios específicos.
Agente SAM 3: Razonamiento lingüístico ampliado
SAM 3 puede combinarse con grandes modelos lingüísticos multimodales (MLLM) para gestionar consultas complejas que requieran razonamiento, de forma similar a los sistemas de vocabulario abierto como OWLv2 y T-Rex.
Rendimiento en tareas de razonamiento
Benchmark | Métrica | Agente SAM 3 (Gemini 2.5 Pro) | Mejor anterior |
---|---|---|---|
ReasonSeg (validación) | gIoU | 76.0 | 65,0 (SoTA) |
ReasonSeg (prueba) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (validación) | AP | 46.7 | 36,5 (REAL) |
RefCOCO+ | Acc | 91.2 | 89,3 (LISA) |
Ejemplo de consulta compleja
El agente SAM 3 puede realizar consultas que requieran razonamiento:
- "Gente sentada pero sin una caja de regalo en la mano"
- "El perro más cercano a la cámara que no lleve collar"
- "Objetos rojos más grandes que la mano de la persona"
El MLLM propone consultas simples de frases sustantivas a SAM 3, analiza las máscaras devueltas e itera hasta que se satisfacen.
Limitaciones
Aunque SAM 3 representa un gran avance, tiene ciertas limitaciones:
- Complejidad de la frase: Más adecuado para frases sustantivales sencillas; las expresiones de referencia largas o los razonamientos complejos pueden requerir la integración de MLLM.
- Tratamiento de la ambigüedad: Algunos conceptos siguen siendo intrínsecamente ambiguos (por ejemplo, "ventana pequeña", "habitación acogedora").
- Requisitos computacionales: Mayor y más lento que los modelos de detección especializados como YOLO
- Alcance del vocabulario: Centrado en conceptos visuales atómicos; el razonamiento compositivo es limitado sin la ayuda de MLLM.
- Conceptos raros: El rendimiento puede disminuir en el caso de conceptos extremadamente raros o precisos que no estén bien representados en los datos de entrenamiento.
Cita
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
Preguntas frecuentes
¿Cuándo saldrá a la venta SAM 3?
SAM 3 se está revisando actualmente en ICLR 2026 (conferencia en 2026, revisión en 2025). Tras el proceso de revisión, probablemente en 2026, se publicarán los modelos oficiales, las ponderaciones y los puntos de referencia. Ultralytics proporcionará soporte inmediato para la integración de SAM 3 tras la publicación de Meta y documentará el uso en modo predicción y en modo seguimiento.
¿Se integrará SAM 3 en Ultralytics?
Sí, SAM 3 será compatible con el paquetePython Ultralytics en el momento de su lanzamiento, e incluirá segmentación de conceptos, avisos visuales al estilo de SAM 2 y seguimiento de vídeo multiobjeto. Podrá exportar a formatos como ONNX y TensorRT para su despliegue, con Python y CLI flujos de trabajo.
Calendario de aplicación
Los ejemplos de código de esta documentación son versiones preliminares que muestran los patrones de uso previstos. La implementación real estará disponible después de que Meta lance SAM 3 pesos y Ultralytics complete la integración.
¿Qué es la Segmentación Conceptual Preguntable (PCS)?
PCS es una nueva tarea introducida en SAM 3 que segmenta todas las instancias de un concepto visual en una imagen o vídeo. A diferencia de la segmentación tradicional, que se centra en una instancia específica de un objeto, PCS encuentra todas las apariciones de una categoría. Por ejemplo:
- Indicación de texto: "autobús escolar amarillo" → segmenta todos los autobuses escolares amarillos de la escena.
- Ejemplar de imagen: Recuadro alrededor de un perro → segmenta todos los perros de la imagen.
- Combinado: "gato a rayas" + casilla ejemplar → segmenta todos los gatos a rayas que coincidan con el ejemplo.
Véanse los antecedentes relacionados con la detección de objetos y la segmentación de instancias.
¿En qué se diferencia SAM 3 de SAM 2?
Característica | SAM 2 | SAM 3 |
---|---|---|
Tarea | Un solo objeto por pregunta | Todas las instancias de un concepto |
Tipos de pregunta | Puntos, cajas, máscaras | + Frases de texto, ejemplos de imágenes |
Capacidad de detección | Requiere detector externo | Detector de vocabulario abierto integrado |
Reconocimiento | Sólo basado en la geometría | Reconocimiento textual y visual |
Arquitectura | Sólo rastreador | Detector + Rastreador con cabeza de presencia |
Rendimiento Zero-Shot | N/A (requiere indicaciones visuales) | 47,0 AP en LVIS, 2× mejor en SA-Co |
Refinamiento interactivo | Sólo clics | Clics + generalización de ejemplos |
SAM 3 mantiene la compatibilidad con SAM 2 y añade funciones basadas en conceptos.
¿Qué conjuntos de datos se utilizan para entrenar SAM 3?
SAM 3 se entrena con el conjunto de datos Segment Anything with Concepts (SA-Co):
Datos de entrenamiento:
- 5,2 millones de imágenes con 4 millones de frases nominales únicas (SA-Co/HQ) - anotaciones humanas de alta calidad
- 52,5K vídeos con 24,8K frases nominales únicas (SA-Co/VIDEO)
- 1,4 mil millones de máscaras sintéticas en 38 millones de frases sustantivas (SA-Co/SYN)
- 15 conjuntos de datos externos enriquecidos con negativos duros (SA-Co/EXT)
Datos de referencia:
- 214.000 conceptos únicos en 126.000 imágenes/vídeos
- 50 veces más conceptos que las referencias existentes (por ejemplo, LVIS tiene ~4.000 conceptos).
- Anotación triple en SA-Co/Gold para medir los límites del rendimiento humano
Esta escala y diversidad masivas permiten a SAM 3 una generalización superior de cero disparos a través de conceptos de vocabulario abierto.
¿Cómo se compara SAM 3 con YOLO11 en cuanto a segmentación?
SAM 3 y YOLO11 tienen usos diferentes:
VentajasSAM 3:
- Vocabulario abierto: Segmenta cualquier concepto mediante mensajes de texto sin necesidad de formación.
- Cero disparos: Funciona en nuevas categorías inmediatamente
- Interactivo: El perfeccionamiento basado en ejemplos se generaliza a objetos similares
- Basado en conceptos: Encuentra automáticamente todos los casos de una categoría
- Precisión: 47,0 AP en la segmentación de instancias sin disparo LVIS
VentajasYOLO11 :
- Velocidad: inferencia 10-15 veces más rápida (2-3 ms frente a 30 ms por imagen)
- Eficacia: modelos 70 veces más pequeños (5,9 MB frente a los ~400 MB previstos).
- Respetuoso con los recursos: Funciona en dispositivos periféricos y móviles
- En tiempo real: Optimizado para implantaciones de producción
Recomendación:
- Utilice SAM 3 para una segmentación flexible de vocabulario abierto en la que necesite encontrar todos los casos de conceptos descritos por texto o ejemplos.
- Utilice YOLO11 para implantaciones de producción a alta velocidad en las que las categorías se conocen de antemano.
- Utilice SAM 2 para la segmentación interactiva de objetos individuales con indicaciones geométricas
¿Puede SAM 3 gestionar consultas lingüísticas complejas?
SAM 3 está diseñado para frases sustantivales sencillas (por ejemplo, "manzana roja", "persona con sombrero"). Para consultas complejas que requieran razonamiento, combine SAM 3 con un MLLM como AgenteSAM 3:
Consultas sencillas ( SAM 3 nativo):
- "autobús escolar amarillo"
- "gato a rayas"
- "persona con sombrero rojo"
Consultas complejas (AgenteSAM 3 con MLLM):
- "Gente sentada pero sin caja de regalo"
- "El perro más cercano a la cámara sin collar"
- "Objetos rojos más grandes que la mano de la persona"
El agente SAM 3 consigue 76,0 gIoU en la validación ReasonSeg (frente a los 65,0 de la mejor versión anterior, lo que supone una mejora del 16,9%) al combinar la segmentación de SAM 3 con las capacidades de razonamiento MLLM.
¿Cuál es la precisión de SAM 3 en comparación con el rendimiento humano?
Sobre la referencia SA-Co/Gold con triple anotación humana:
- Límite inferior humano: 74,2 CGF1 (anotador más conservador)
- RendimientoSAM 3: 65,0 CGF1
- Logro: 88% del límite inferior humano estimado
- Límite superior humano: 81,4 CGF1 (anotador más liberal)
SAM 3 consigue un gran rendimiento que se aproxima a la precisión humana en la segmentación de conceptos de vocabulario abierto, con una brecha principalmente en los conceptos ambiguos o subjetivos (por ejemplo, "ventana pequeña", "habitación acogedora").