Ir para o conteúdo

SAM 3: Segmentar qualquer coisa com conceitos

Brevemente ⚠️

Os modelos SAM 3 ainda não foram divulgados publicamente pela Meta. As informações abaixo baseiam-se no documento de investigação apresentado ao ICLR 2026. Os downloads dos modelos e as referências finais estarão disponíveis após o lançamento oficial do Meta.

Visão geral SAM 3

SAM 3 (Segment Anything Model 3) representa o modelo de base da próxima geração da Meta para a Segmentação de Conceitos Promptable (PCS). Com base no SAM 2, SAM 3 introduz uma capacidade fundamentalmente nova: detetar, segmentar e seguir todas as instâncias de um conceito visual especificado por mensagens de texto, exemplos de imagens ou ambos. Ao contrário das versões anteriores SAM , que segmentam objectos únicos por solicitação, SAM 3 pode encontrar e segmentar todas as ocorrências de um conceito que apareça em qualquer parte de imagens ou vídeos, alinhando-se com os objectivos de vocabulário aberto na segmentação moderna de instâncias.

Visão geral

SAM 3 consegue um ganho de desempenho de 2× em relação aos sistemas existentes na segmentação de conceitos com comando, mantendo e melhorando as capacidades do SAM 2 para a segmentação visual interactiva. O modelo é excelente na segmentação de vocabulário aberto, permitindo aos utilizadores especificar conceitos utilizando frases simples (por exemplo, "autocarro escolar amarelo", "gato às riscas") ou fornecendo imagens de exemplo do objeto alvo. Estas capacidades complementam os pipelines prontos para produção que dependem de fluxos de trabalho simplificados de previsão e controlo.

Segmentação SAM 3

O que é a Segmentação de Conceitos Promptable (PCS)?

A tarefa PCS recebe um pedido de conceito como entrada e devolve máscaras de segmentação com identidades únicas para todas as instâncias de objectos correspondentes. As solicitações de conceito podem ser:

  • Texto: Substantivos simples como "maçã vermelha" ou "pessoa que usa um chapéu", semelhante à aprendizagem zero-shot
  • Exemplos de imagens: Caixas delimitadoras em torno de objectos de exemplo (positivos ou negativos) para uma generalização rápida
  • Combinados: Exemplares de texto e imagem juntos para um controlo preciso

Isto difere dos avisos visuais tradicionais (pontos, caixas, máscaras) que segmentam apenas uma única instância de objeto específico, tal como popularizado pela famíliaSAM original.

Principais métricas de desempenho

Métrica SAM 3 Realização
Máscara LVIS Zero-Shot AP 47,0 (contra o melhor resultado anterior de 38,5, +22% de melhoria)
Referência SA-Co 2× melhor do que os sistemas existentes
Velocidade de inferência ( GPU H200) 30 ms por imagem com mais de 100 objectos detectados
Desempenho em vídeo Quase em tempo real para ~5 objectos em simultâneo
MOSEv2 VOS Benchmark 60,1 J&F (+25,5% em relação à SAM 2.1, +17% em relação à SOTA anterior)
Refinamento Interativo +18,6 Melhoria do CGF1 após 3 pedidos de exemplar
Lacuna de desempenho humano Atinge 88% do limite inferior estimado para o SA-Co/Gold

Para um contexto sobre métricas de modelos e compromissos na produção, consulte as informações de avaliação de modelos e as métricas de desempenhoYOLO .

Arquitetura

SAM 3 consiste num detetor e num seguidor que partilham uma espinha dorsal de visão Perception Encoder (PE). Esta conceção dissociada evita conflitos de tarefas, permitindo simultaneamente a deteção ao nível da imagem e o seguimento ao nível do vídeo, com uma interface compatível com autilização do Ultralytics Python e daCLI .

Componentes Essenciais

  • Detetor: Arquitetura baseada em DETR para deteção de conceitos ao nível da imagem

    • Codificador de texto para avisos de sintagmas nominais
    • Codificador de exemplares para avisos baseados em imagens
    • Codificador de fusão para condicionar caraterísticas de imagem em avisos
    • Nova cabeça de presença que separa o reconhecimento ("o quê") da localização ("onde")
    • Cabeça de máscara para gerar máscaras de segmentação de instâncias
  • Rastreador: Segmentação de vídeo baseada na memória herdada do SAM 2

    • Codificador de prompt, descodificador de máscara, codificador de memória
    • Banco de memória para armazenar o aspeto do objeto em todos os fotogramas
    • Desambiguação temporal auxiliada por técnicas como um filtro de Kalman em contextos multi-objeto
  • Token de presença: Um token global aprendido que prevê se o conceito alvo está presente na imagem/quadro, melhorando a deteção ao separar o reconhecimento da localização.

Arquitetura SAM 3

Principais inovações

  1. Reconhecimento e localização dissociados: A cabeça de presença prevê a presença do conceito globalmente, enquanto as consultas de proposta se concentram apenas na localização, evitando objectivos contraditórios.
  2. Conceito unificado e avisos visuais: Suporta tanto PCS (avisos de conceito) como PVS (avisos visuais como os cliques/caixas do SAM 2) num único modelo.
  3. Refinamento interativo de exemplos: Os utilizadores podem adicionar exemplos de imagens positivas ou negativas para refinar iterativamente os resultados, com o modelo a generalizar para objectos semelhantes em vez de apenas corrigir instâncias individuais.
  4. Desambiguação temporal: Utiliza pontuações de deteção de mascarilhas e repetições periódicas para lidar com oclusões, cenas com muita gente e falhas de rastreamento em vídeo, alinhando-se com as melhores práticas de segmentação e rastreamento de instâncias.

Conjunto de dados SA-Co

SAM 3 é treinado no Segment Anything with Concepts (SA-Co), o maior e mais diversificado conjunto de dados de segmentação do Meta até à data, expandindo-se para além de referências comuns como o COCO e o LVIS.

Dados de treino

Componente do conjunto de dados Descrição Escala
SA-Co/HQ Dados de imagem de alta qualidade anotados por humanos a partir de um motor de dados de 4 fases 5,2 milhões de imagens, 4 milhões de frases nominais únicas
SA-Co/SYN Conjunto de dados sintéticos rotulados pela IA sem envolvimento humano 38M frases nominais, 1.4B máscaras
SA-Co/EXT 15 conjuntos de dados externos enriquecidos com negativos duros Varia consoante a fonte
SA-Co/VÍDEO Anotações de vídeo com seguimento temporal 52,5 mil vídeos, 24,8 mil sintagmas nominais únicos

Dados de referência

A referência de avaliação SA-Co contém 214 mil frases únicas em 126 mil imagens e vídeos, fornecendo mais de 50 vezes mais conceitos do que as referências existentes. Inclui:

  • SA-Co/Gold: 7 domínios, com anotação tripla para medir os limites do desempenho humano
  • SA-Co/Silver: 10 domínios, anotação humana única
  • SA-Co/Bronze e SA-Co/Bio: 9 conjuntos de dados existentes adaptados para a segmentação de conceitos
  • SA-Co/VEval: Referência de vídeo com 3 domínios (SA-V, YT-Temporal-1B, SmartGlasses)

Inovações do motor de dados

O motor de dados escalável de humanos e modelos em circuito do SAM 3 atinge um rendimento de anotação de 2×:

  1. Anotadores de IA: Os modelos baseados em Llama propõem diversos sintagmas nominais, incluindo negativas fortes
  2. Verificadores de IA: Os LLMs multimodais de ajuste fino verificam a qualidade e a exaustividade da máscara com um desempenho quase humano
  3. Extração ativa: Concentra o esforço humano em casos de falha difíceis em que a IA tem dificuldades
  4. Orientado por ontologia: Utiliza uma grande ontologia baseada no Wikidata para cobertura de conceitos

Instalação

SAM 3 será suportado de forma nativa no pacote Ultralytics aquando do seu lançamento:

pip install ultralytics

Os modelos serão descarregados automaticamente quando forem utilizados pela primeira vez. Pode então utilizar o modo de previsão padrão e exportar posteriormente os modelos para formatos como ONNX e TensorRT para implantação.

Como utilizar SAM 3: Versatilidade na segmentação de conceitos

Pré-visualização da API - Sujeito a alterações

Os exemplos de código abaixo demonstram os padrões de utilização pretendidos com base no documento de investigação. A API atual estará disponível mais tarde:

  1. Meta open-sources SAM 3 model weights
  2. Ultralytics integra o SAM 3 no pacote

A sintaxe e os parâmetros podem diferir na implementação final. Estes exemplos servem como uma antevisão da funcionalidade esperada.

Tarefas e modelos suportados

SAM 3 suporta as tarefas de Segmentação de Conceito (PCS) e Segmentação Visual (PVS):

Tipo de tarefa Tipos de avisos Saída
Segmentação de conceitos (PCS) Texto (frases nominais), exemplos de imagens Todas as instâncias que correspondem ao conceito
Segmentação visual (PVS) Pontos, caixas, máscaras Instância de objeto únicoSAM estiloSAM 2)
Refinamento Interativo Adicionar/remover exemplares ou cliques iterativamente Segmentação refinada com maior precisão

Exemplos de segmentação de conceitos

Segmento com instruções de texto

Segmentação de conceitos com base em texto

Localizar e segmentar todas as instâncias de um conceito utilizando uma descrição de texto.

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Pré-visualização da API

Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .

Segmento com exemplos de imagens

Segmentação baseada em exemplos de imagens

Utilizar um ou mais objectos de exemplo para encontrar todas as instâncias semelhantes.

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Pré-visualização da API

Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .

Refinamento Interativo

Refinamento iterativo com exemplares

Melhorar progressivamente os resultados, adicionando sugestões de exemplo com base no resultado inicial.

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Pré-visualização da API

Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .

Segmentação de conceitos de vídeo

Conceitos de rastreio através do vídeo

Detetar e seguir todas as instâncias de um conceito ao longo de um vídeo.

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Pré-visualização da API

Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .

Para configurações de produção e streaming mais amplas, consulte rastreio de objectos e visualização de resultados no terminal.

Avisos visuaisSAM compatibilidade comSAM 2)

SAM 3 mantém total retrocompatibilidade com o comando visual do SAM 2:

Sugestões visuais do estilo SAM 2

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Pré-visualização da API

Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .

Benchmarks de Desempenho

Segmentação de imagens

SAM 3 alcança resultados de ponta em vários parâmetros de referência, incluindo conjuntos de dados do mundo real como o LVIS e o COCO para segmentação:

Benchmark Métrica SAM 3 Anterior Melhor Melhoria
LVIS (disparo zero) Máscara AP 47.0 38.5 +22.1%
SA-Co/Ouro CGF1 65.0 34.3 (OWLv2) +89.5%
COCO (disparo zero) Caixa AP 53.5 52,2 (T-Rex2) +2.5%
ADE-847 (seg. semântica) mIoU 14.7 9.2 (APE-D) +59.8%
PascalConcept-59 mIoU 59.4 58,5 (APE-D) +1.5%
Paisagens urbanas (seg. semântica) mIoU 65.1 44,2 (APE-D) +47.3%

Explorar opções de conjuntos de dados para uma experimentação rápida em conjuntos de dadosUltralytics .

Desempenho da segmentação de vídeo

SAM 3 apresenta melhorias significativas em relação ao SAM 2 e ao estado da arte anterior em parâmetros de referência de vídeo como o DAVIS 2017 e o YouTube-VOS:

Benchmark Métrica SAM 3 SAM 2.1 L Melhoria
MOSEv2 J&F 60.1 47.9 +25.5%
DAVIS 2017 J&F 92.0 90.7 +1.4%
LVOSv2 J&F 88.2 79.6 +10.8%
SA-V J&F 84.6 78.4 +7.9%
YTVOS19 J&F 89.6 89.3 +0.3%

Adaptação de poucas imagens

SAM 3 é excelente na adaptação a novos domínios com exemplos mínimos, relevantes para fluxos de trabalho de IA centrados em dados:

Benchmark PA de 0 tiros PA de 10 disparos Melhor anterior (10 tiros)
ODinW13 59.9 71.6 67,9 (gDino1.5-Pro)
RF100-VL 14.3 35.7 33,7 (gDino-T)

Eficácia do refinamento interativo

O estímulo baseado em conceitos do SAM 3 com exemplos converge muito mais rapidamente do que o estímulo visual:

Prompts adicionados Pontuação CGF1 Ganho vs Apenas texto Ganho vs. linha de base PVS
Apenas texto 46.4 linha de base linha de base
+1 exemplar 57.6 +11.2 +6.7
+2 exemplares 62.2 +15.8 +9.7
+3 exemplares 65.0 +18.6 +11.2
+4 exemplares 65.7 +19.3 +11,5 (patamar)

Precisão da contagem de objectos

SAM 3 fornece uma contagem precisa através da segmentação de todas as instâncias, um requisito comum na contagem de objectos:

Benchmark Exatidão MAE vs Melhor MLLM
CountBench 95.6% 0.11 92,4% (Gemini 2.5)
PixMo-Count 87.3% 0.22 88,8% (Molmo-72B)

Comparação SAM 3 vs SAM 2 vs YOLO

Comparamos aqui as capacidades do SAM 3 com as do SAM 2 e do YOLO11 modelos:

Capacidade SAM 3 SAM 2 YOLO11n-seg
Segmentação de conceitos Todas as instâncias do texto/exemplares Não suportado Não suportado
Segmentação visual Instância únicaSAM compatível comSAM 2) ✅ Instância única ✅ Todas as instâncias
Capacidade de disparo zero Vocabulário aberto Pontas geométricas ❌ Conjunto fechado
Refinamento Interativo ✅ Exemplares + cliques Apenas cliques Não suportado
Rastreio de vídeo Multi-objeto com identidades ✅ Multi-objeto ✅ Multi-objeto
Máscara LVIS AP (disparo zero) 47.0 N/A N/A
MOSEv2 J&F 60.1 47.9 N/A
Velocidade de inferência (H200) 30 ms (100+ objectos) ~23 ms (por objeto) 2-3 ms (imagem)
Tamanho do modelo Grande (~400+ MB esperados) 162 MB (base) 5.9 MB

Principais conclusões:

  • SAM 3: Melhor para a segmentação de conceitos de vocabulário aberto, encontrando todas as instâncias de um conceito com texto ou pedidos de exemplar
  • SAM 2: O melhor para a segmentação interactiva de um único objeto em imagens e vídeos com instruções geométricas
  • YOLO11: Melhor para segmentação em tempo real e de alta velocidade em implantações com recursos limitados usando pipelines de exportação eficientes como ONNX e TensorRT

Métricas de avaliação

SAM 3 introduz novas métricas concebidas para a tarefa PCS, complementando medidas familiares como a pontuação F1, a precisão e a recuperação.

F1 com classificação (CGF1)

A principal métrica que combina localização e classificação:

CGF1 = 100 × pmF1 × IL_MCC

Onde:

  • pmF1 (Positive Macro F1): Mede a qualidade da localização em exemplos positivos
  • IL_MCC (Coeficiente de correlação de Matthews ao nível da imagem): Mede a exatidão da classificação binária ("o conceito está presente?")

Porquê estas métricas?

As métricas tradicionais de AP não têm em conta a calibração, tornando os modelos difíceis de utilizar na prática. Ao avaliar apenas as previsões acima de 0,5 de confiança, as métricas do SAM 3 impõem uma boa calibração e imitam os padrões de utilização do mundo real em circuitos interactivos de previsão e seguimento.

Ablações e percepções importantes

Impacto da presença da cabeça

A cabeça de presença separa o reconhecimento da localização, proporcionando melhorias significativas:

Configuração CGF1 IL_MCC pmF1
Sem presença 57.6 0.77 74.7
Com presença 63.3 0.82 77.1

A cabeça de presença proporciona um aumento de +5,7 CGF1 (+9,9%), melhorando principalmente a capacidade de reconhecimento (IL_MCC +6,5%).

Efeito dos negativos duros

Negativos duros/Imagem CGF1 IL_MCC pmF1
0 31.8 0.44 70.2
5 44.8 0.62 71.9
30 49.2 0.68 72.3

Os negativos duros são cruciais para o reconhecimento de vocabulário aberto, melhorando o IL_MCC em 54,5% (0,44 → 0,68).

Escalonamento de dados de treino

Fontes de dados CGF1 IL_MCC pmF1
Apenas externo 30.9 0.46 66.3
Externo + Sintético 39.7 0.57 70.6
Externo + Sede 51.8 0.71 73.2
Os três 54.3 0.74 73.5

As anotações humanas de elevada qualidade proporcionam grandes ganhos em relação aos dados sintéticos ou externos isolados. Para mais informações sobre as práticas de qualidade dos dados, ver recolha e anotação de dados.

Aplicações

A capacidade de segmentação de conceitos do SAM 3 permite novos casos de utilização:

  • Moderação de conteúdos: Encontrar todas as instâncias de tipos de conteúdo específicos nas bibliotecas multimédia
  • Comércio eletrónico: Segmentar todos os produtos de um determinado tipo em imagens de catálogo, suportando a anotação automática
  • Imagiologia médica: Identificar todas as ocorrências de tipos de tecidos específicos ou anomalias
  • Sistemas autónomos: Monitorizar todas as ocorrências de sinais de trânsito, peões ou veículos por categoria
  • Análise de vídeo: Contar e seguir todas as pessoas que usam roupas específicas ou realizam acções
  • Anotação de conjuntos de dados: Anotar rapidamente todas as instâncias de categorias de objectos raros
  • Investigação científica: Quantificar e analisar todos os espécimes que correspondam a critérios específicos

Agente SAM 3: Raciocínio linguístico alargado

SAM 3 pode ser combinado com Modelos de Linguagem Multimodal de Grande Dimensão (MLLM) para tratar consultas complexas que exijam raciocínio, semelhante em espírito aos sistemas de vocabulário aberto como o OWLv2 e o T-Rex.

Desempenho em tarefas de raciocínio

Benchmark Métrica Agente SAM 3 (Gemini 2.5 Pro) Anterior Melhor
ReasonSeg (validação) gIoU 76.0 65,0 (SoTA)
ReasonSeg (teste) gIoU 73.8 61,3 (SoTA)
OmniLabel (validação) AP 46.7 36,5 (REAL)
RefCOCO+ Acc 91.2 89,3 (LISA)

Exemplo de consultas complexas

SAM 3 O agente pode tratar consultas que exijam raciocínio:

  • "Pessoas sentadas, mas sem segurar uma caixa de presente nas mãos"
  • "O cão mais próximo da câmara que não esteja a usar coleira"
  • "Objectos vermelhos maiores do que a mão da pessoa"

O MLLM propõe consultas simples de frases nominais ao SAM 3, analisa as máscaras devolvidas e repete até ficar satisfeito.

Limitações

Embora SAM 3 represente um grande avanço, tem algumas limitações:

  • Complexidade da frase: Mais adequado para sintagmas nominais simples; expressões de referência longas ou raciocínios complexos podem exigir a integração de MLLM
  • Tratamento da ambiguidade: Alguns conceitos permanecem inerentemente ambíguos (por exemplo, "janela pequena", "quarto acolhedor")
  • Requisitos computacionais: Maiores e mais lentos do que os modelos de deteção especializados como YOLO
  • Âmbito do vocabulário: Focado em conceitos visuais atómicos; o raciocínio composicional é limitado sem a assistência do MLLM
  • Conceitos raros: O desempenho pode degradar-se em conceitos extremamente raros ou finos que não estejam bem representados nos dados de treino

Citação

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quando é que SAM 3 será lançado?

SAM 3 está atualmente a ser revisto no ICLR 2026 (conferência em 2026, revisão em 2025). Os modelos oficiais, as ponderações e os valores de referência serão divulgados publicamente após o processo de revisão, provavelmente em 2026. Ultralytics fornecerá suporte imediato para a integração do SAM 3 aquando do lançamento do Meta e documentará a utilização no modo de previsão e no modo de rastreio.

SAM 3 será integrado no Ultralytics?

Sim. SAM 3 será suportado no pacote Ultralytics Python aquando do lançamento, incluindo a segmentação de conceitos, os avisos visuais ao estilo do SAM 2 e o rastreio de vídeo de vários objectos. Será possível exportar para formatos como ONNX e TensorRT para implantação, com o Python e CLI fluxos de trabalho.

Cronograma de implementação

Os exemplos de código nesta documentação são versões de pré-visualização que mostram os padrões de utilização pretendidos. A implementação efectiva estará disponível depois de o Meta lançar os pesos SAM 3 e de Ultralytics concluir a integração.

O que é a Segmentação de Conceitos Promptable (PCS)?

O PCS é uma nova tarefa introduzida no SAM 3 que segmenta todas as instâncias de um conceito visual numa imagem ou vídeo. Ao contrário da segmentação tradicional que visa uma instância específica de um objeto, o PCS encontra todas as ocorrências de uma categoria. Por exemplo:

  • Texto de apoio: "autocarro escolar amarelo" → segmenta todos os autocarros escolares amarelos na cena
  • Imagem exemplar: Caixa à volta de um cão → segmenta todos os cães da imagem
  • Combinado: "gato às riscas" + caixa de exemplo → segmenta todos os gatos às riscas que correspondem ao exemplo

Ver antecedentes relacionados com a deteção de objectos e segmentação de instâncias.

Em que é que SAM 3 difere do SAM 2?

Caraterística SAM 2 SAM 3
Tarefa Um único objeto por prompt Todas as instâncias de um conceito
Tipos de avisos Pontos, caixas, máscaras + Frases de texto, exemplos de imagens
Capacidade de deteção Necessita de um detetor externo Detetor de vocabulário aberto incorporado
Reconhecimento Apenas com base na geometria Reconhecimento de texto e visual
Arquitetura Apenas rastreador Detetor + Seguidor com cabeça de presença
Desempenho de tiro zero N/A (requer instruções visuais) 47,0 AP em LVIS, 2× melhor em SA-Co
Refinamento Interativo Apenas cliques Cliques + generalização de exemplos

SAM 3 mantém a retrocompatibilidade com o SAM 2 e acrescenta capacidades baseadas em conceitos.

Que conjuntos de dados são utilizados para treinar o SAM 3?

SAM 3 é treinado no conjunto de dados Segment Anything with Concepts (SA-Co):

Dados de treino:

  • 5,2 milhões de imagens com 4 milhões de frases nominais únicas (SA-Co/HQ) - anotações humanas de alta qualidade
  • 52,5K vídeos com 24,8K frases nominais únicas (SA-Co/VIDEO)
  • 1.4B máscaras sintéticas em 38M frases nominais (SA-Co/SYN)
  • 15 conjuntos de dados externos enriquecidos com negativos duros (SA-Co/EXT)

Dados de referência:

  • 214K conceitos únicos em 126K imagens/vídeos
  • 50× mais conceitos do que as referências existentes (por exemplo, o LVIS tem ~4K conceitos)
  • Anotação tripla em SA-Co/Gold para medir os limites do desempenho humano

Esta escala e diversidade maciças permitem a generalização superior do SAM 3 em conceitos de vocabulário aberto.

Como é que SAM 3 se compara ao YOLO11 para a segmentação?

SAM 3 e YOLO11 servem casos de utilização diferentes:

VantagensSAM 3:

  • Vocabulário aberto: Segmenta qualquer conceito através de mensagens de texto sem formação
  • Zero-shot: Funciona imediatamente em novas categorias
  • Interativo: O refinamento baseado em exemplos generaliza-se a objectos semelhantes
  • Baseado em conceitos: Encontra automaticamente todas as instâncias de uma categoria
  • Precisão: 47,0 AP na segmentação de instâncias LVIS de disparo zero

YOLO11 Vantagens:

  • Velocidade: inferência 10-15× mais rápida (2-3ms vs 30ms por imagem)
  • Eficiência: modelos 70× mais pequenos (5,9MB vs ~400MB previstos)
  • Amigo dos recursos: Funciona em dispositivos periféricos e móveis
  • Em tempo real: Optimizado para implementações de produção

Recomendação:

  • Utilize SAM 3 para uma segmentação flexível de vocabulário aberto, onde é necessário encontrar todas as instâncias de conceitos descritos por texto ou exemplos
  • Utilização YOLO11 para implementações de produção de alta velocidade em que as categorias são conhecidas antecipadamente
  • Utilizar SAM 2 para segmentação interactiva de um único objeto com indicações geométricas

SAM 3 consegue processar consultas linguísticas complexas?

SAM 3 foi concebido para frases nominais simples (por exemplo, "maçã vermelha", "pessoa com chapéu"). Para consultas complexas que exijam raciocínio, combine SAM 3 com um MLLM como SAM 3 Agent:

Consultas simples ( SAM 3 nativo):

  • "autocarro escolar amarelo"
  • "gato às riscas"
  • "pessoa com chapéu vermelho"

Consultas complexas (agenteSAM 3 com MLLM):

  • "Pessoas sentadas mas que não têm uma caixa de presentes"
  • "O cão mais próximo da câmara sem coleira"
  • "Objectos vermelhos maiores do que a mão da pessoa"

O agente SAM 3 alcança 76,0 gIoU na validação ReasonSeg (contra 65,0 na melhor versão anterior, +16,9% de melhoria), combinando a segmentação do SAM 3 com as capacidades de raciocínio MLLM.

Qual é a exatidão do SAM 3 em comparação com o desempenho humano?

Sobre a referência SA-Co/Gold com anotação humana tripla:

  • Limite inferior humano: 74,2 CGF1 (anotador mais conservador)
  • DesempenhoSAM 3: 65,0 CGF1
  • Realização: 88% do limite inferior humano estimado
  • Limite superior humano: 81,4 CGF1 (anotador mais liberal)

SAM 3 consegue um bom desempenho, aproximando-se da precisão humana na segmentação de conceitos de vocabulário aberto, com a diferença principalmente em conceitos ambíguos ou subjectivos (por exemplo, "janela pequena", "quarto acolhedor").



📅 Criado há 0 dias ✏️ Atualizado há 0 dias

Comentários