SAM 3: Segmentar qualquer coisa com conceitos

Q: When Will SAM 3 Be Released?

SAM 3 foi lançado pela Meta a 20 de novembro de 2025. O suporte para Ultralytics está em curso e será lançado numa próxima atualização de pacote com documentos completos para o modo de previsão e o modo track .

Q: Will SAM 3 Be Integrated Into Ultralytics?

Sim. SAM 3 será suportado no pacote Ultralytics Python após o lançamento, incluindo segmentação de conceitos, prompts visuais ao estilo do SAM 2 e rastreio de vídeo de vários objectos. Será possível exportar para formatos como ONNX e TensorRT para implantação, com fluxos de trabalho Python e CLI simplificados.

Q: What Is Promptable Concept Segmentation (PCS)?

O PCS é uma nova tarefa introduzida no SAM 3 que segmenta todas as instâncias de um conceito visual numa imagem ou vídeo. Ao contrário da segmentação tradicional que visa uma instância específica de um objeto, o PCS encontra todas as ocorrências de uma categoria. Por exemplo: Ver antecedentes relacionados com a deteção de objectos e segmentação de instâncias.

Q: What datasets are used to train SAM 3?

SAM 3 é treinado no conjunto de dados Segment Anything with Concepts (SA-Co): Dados de treino: Dados de referência: Esta escala e diversidade maciças permitem a generalização superior do SAM 3 através de conceitos de vocabulário aberto.

Q: How does SAM 3 compare to YOLO11 for segmentation?

SAM 3 e YOLO11 servem casos de utilização diferentes: Vantagens SAM 3: Vantagens YOLO11 : Recomendação:

Q: How accurate is SAM 3 compared to human performance?

No teste de referência SA-Co/Gold com anotação humana tripla: SAM 3 alcança um forte desempenho, aproximando-se da precisão ao nível humano na segmentação de conceitos de vocabulário aberto, com a diferença principalmente em conceitos ambíguos ou subjectivos (por exemplo, "janela pequena", "quarto acolhedor").

Lançado - Integração Ultralytics em curso

A Meta lançou SAM em 20 de novembro de 2025. Ultralytics está a integrar os modelos agora e enviará uma atualização de pacote com suporte nativo em breve. Entretanto, pode seguir os passos oficiais SAM 3 README abaixo para experimentar a versão upstream.

Visão geral SAM 3

SAM 3 (Segment Anything Model 3) é o modelo de base lançado pela Meta para a Segmentação de Conceitos Promptable (PCS). Com base no SAM 2, SAM 3 introduz uma capacidade fundamentalmente nova: detetar, segmentar e seguir todas as instâncias de um conceito visual especificado por mensagens de texto, exemplos de imagens ou ambos. Ao contrário das versões anteriores SAM , que segment objectos únicos por solicitação, SAM 3 pode encontrar e segment todas as ocorrências de um conceito que apareça em qualquer parte das imagens ou vídeos, alinhando-se com os objectivos de vocabulário aberto na segmentação moderna de instâncias.

Ultralytics está a integrar ativamente SAM na ultralytics pacote. Até que essa versão seja lançada, pode experimentar a implementação do Meta upstream utilizando os passos oficiais de instalação e utilização abaixo.

Visão geral

SAM 3 obtém um ganho de desempenho de 2 vezes em relação aos sistemas existentes na segmentação de conceitos com comando, mantendo e melhorando as capacidades do SAM 2 para a segmentação visual interactiva. O modelo é excelente na segmentação de vocabulário aberto, permitindo aos utilizadores especificar conceitos utilizando frases simples (por exemplo, "autocarro escolar amarelo", "gato às riscas") ou fornecendo imagens de exemplo do objeto alvo. Estas capacidades complementam os pipelines prontos para a produção que dependem da previsão simplificada e do track fluxos de trabalho.

Segmentação SAM 3

O que é a Segmentação de Conceitos Promptable (PCS)?

A tarefa PCS recebe um pedido de conceito como entrada e devolve máscaras de segmentação com identidades únicas para todas as instâncias de objectos correspondentes. As solicitações de conceito podem ser:

Texto: Substantivos simples como "maçã vermelha" ou "pessoa que usa um chapéu", semelhante à aprendizagem zero-shot
Exemplos de imagens: Caixas delimitadoras em torno de objectos de exemplo (positivos ou negativos) para uma generalização rápida
Combinados: Exemplares de texto e imagem juntos para um controlo preciso

Isto difere dos avisos visuais tradicionais (pontos, caixas, máscaras) que segment apenas uma única instância de objeto específico, tal como popularizado pela famíliaSAM original.

Principais métricas de desempenho

Métrica	SAM 3 Realização
Máscara LVIS Zero-Shot AP	47,0 (contra o melhor resultado anterior de 38,5, +22% de melhoria)
Referência SA-Co	2× melhor do que os sistemas existentes
Velocidade de inferência ( GPU H200)	30 ms por imagem com mais de 100 objectos detectados
Desempenho em vídeo	Quase em tempo real para ~5 objectos em simultâneo
MOSEv2 VOS Benchmark	60,1 J&F (+25,5% em relação à SAM 2.1, +17% em relação à SOTA anterior)
Refinamento Interativo	+18,6 Melhoria do CGF1 após 3 pedidos de exemplar
Lacuna de desempenho humano	Atinge 88% do limite inferior estimado para o SA-Co/Gold

Para um contexto sobre métricas de modelos e compromissos na produção, consulte as informações de avaliação de modelos e as métricas de desempenhoYOLO .

Arquitetura

SAM 3 consiste num detetor e num seguidor que partilham uma espinha dorsal de visão Perception Encoder (PE). Esta conceção dissociada evita conflitos de tarefas, permitindo simultaneamente a deteção ao nível da imagem e o seguimento ao nível do vídeo, com uma interface compatível com autilização do Ultralytics Python e daCLI .

Componentes Essenciais

Detetor: Arquitetura baseada em DETR para deteção de conceitos ao nível da imagem
- Codificador de texto para avisos de sintagmas nominais
- Codificador de exemplares para avisos baseados em imagens
- Codificador de fusão para condicionar caraterísticas de imagem em avisos
- Nova cabeça de presença que separa o reconhecimento ("o quê") da localização ("onde")
- Cabeça de máscara para gerar máscaras de segmentação de instâncias
Rastreador: Segmentação de vídeo baseada na memória herdada do SAM 2
- Codificador de prompt, descodificador de máscara, codificador de memória
- Banco de memória para armazenar o aspeto do objeto em todos os fotogramas
- Desambiguação temporal auxiliada por técnicas como um filtro de Kalman em contextos multi-objeto
Token de presença: Um token global aprendido que prevê se o conceito alvo está presente na imagem/quadro, melhorando a deteção ao separar o reconhecimento da localização.

Arquitetura SAM 3

Principais inovações

Reconhecimento e localização dissociados: A cabeça de presença prevê a presença do conceito globalmente, enquanto as consultas de proposta se concentram apenas na localização, evitando objectivos contraditórios.
Conceito unificado e avisos visuais: Suporta tanto PCS (avisos de conceito) como PVS (avisos visuais como os cliques/caixas do SAM 2) num único modelo.
Refinamento interativo de exemplos: Os utilizadores podem adicionar exemplos de imagens positivas ou negativas para refinar iterativamente os resultados, com o modelo a generalizar para objectos semelhantes em vez de apenas corrigir instâncias individuais.
Desambiguação temporal: Utiliza pontuações de deteção de mascarilhas e repetições periódicas para lidar com oclusões, cenas com muita gente e falhas de rastreamento em vídeo, alinhando-se com as melhores práticas de segmentação e rastreamento de instâncias.

Conjunto de dados SA-Co

SAM 3 é treinado com o Segment Anything with Concepts (SA-Co), o maior e mais diversificado conjunto de dados de segmentação do Meta até à data, que vai além de referências comuns como COCO e LVIS.

Dados de treino

Componente do conjunto de dados	Descrição	Escala
SA-Co/HQ	Dados de imagem de alta qualidade anotados por humanos a partir de um motor de dados de 4 fases	5,2 milhões de imagens, 4 milhões de frases nominais únicas
SA-Co/SYN	Conjunto de dados sintéticos rotulados pela IA sem envolvimento humano	38M frases nominais, 1.4B máscaras
SA-Co/EXT	15 conjuntos de dados externos enriquecidos com negativos duros	Varia consoante a fonte
SA-Co/VÍDEO	Anotações de vídeo com seguimento temporal	52,5 mil vídeos, 24,8 mil sintagmas nominais únicos

Dados de referência

A referência de avaliação SA-Co contém 214 mil frases únicas em 126 mil imagens e vídeos, fornecendo mais de 50 vezes mais conceitos do que as referências existentes. Inclui:

SA-Co/Gold: 7 domínios, com anotação tripla para medir os limites do desempenho humano
SA-Co/Silver: 10 domínios, anotação humana única
SA-Co/Bronze e SA-Co/Bio: 9 conjuntos de dados existentes adaptados para a segmentação de conceitos
SA-Co/VEval: Referência de vídeo com 3 domínios (SA-V, YT-Temporal-1B, SmartGlasses)

Inovações do motor de dados

O motor de dados escalável de humanos e modelos em circuito do SAM 3 atinge um rendimento de anotação de 2×:

Anotadores de IA: Os modelos baseados em Llama propõem diversos sintagmas nominais, incluindo negativas fortes
Verificadores de IA: Os LLMs multimodais de ajuste fino verificam a qualidade e a exaustividade da máscara com um desempenho quase humano
Extração ativa: Concentra o esforço humano em casos de falha difíceis em que a IA tem dificuldades
Orientado por ontologia: Utiliza uma grande ontologia baseada no Wikidata para cobertura de conceitos

Instalação

SAM 3 estará disponível diretamente no pacote Ultralytics assim que a integração for concluída. A instalação manter-se-á:

pip install ultralytics

Os modelos serão descarregados automaticamente quando forem utilizados pela primeira vez. Pode então utilizar o modo de previsão padrão e exportar posteriormente os modelos para formatos como ONNX e TensorRT para implantação. Aguarde uma atualização do pacote com pesos e configurações SAM em breve.

Como utilizar SAM 3: Versatilidade na segmentação de conceitos

Pré-visualização da API Ultralytics

Os exemplos que se seguem mostram a API Ultralytics pretendida assim que SAM 3 for lançado no pacote. Até à integração, os pormenores podem mudar.

Tarefas e modelos suportados

SAM 3 suporta as tarefas de Segmentação de Conceito (PCS) e Segmentação Visual (PVS):

Tipo de tarefa	Tipos de avisos	Saída
Segmentação de conceitos (PCS)	Texto (frases nominais), exemplos de imagens	Todas as instâncias que correspondem ao conceito
Segmentação visual (PVS)	Pontos, caixas, máscaras	Instância de objeto únicoSAM estiloSAM 2)
Refinamento Interativo	Adicionar/remover exemplares ou cliques iterativamente	Segmentação refinada com maior precisão

Exemplos de segmentação de conceitos

Segmento com instruções de texto

Segmentação de conceitos com base em texto

Localizar e segment todas as instâncias de um conceito utilizando uma descrição de texto.

PythonCLI

from ultralytics import SAM

# Load SAM 3 model
model = SAM("sam3.pt")

# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")

# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")

# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")

# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"

Pré-visualização da API

Este exemplo mostra a utilização pretendida. A implementação efectiva está pendente da integração Ultralytics .

Segmento com exemplos de imagens

Segmentação baseada em exemplos de imagens

Utilizar um ou mais objectos de exemplo para encontrar todas as instâncias semelhantes.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])

# Add negative examples to exclude certain instances
results = model(
    "path/to/image.jpg",
    bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]],  # Two boxes
    labels=[1, 0],  # First is positive, second is negative
)

# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])

Pré-visualização da API

Este exemplo mostra a utilização pretendida. A implementação efectiva está pendente da integração Ultralytics .

Refinamento iterativo com exemplares

Melhorar progressivamente os resultados, adicionando sugestões de exemplo com base no resultado inicial.

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")

# If some cars are missed, add a positive exemplar
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[missed_car_box],
    labels=[1],  # Positive example
)

# If false positives appear, add negative exemplars
results = model(
    "path/to/image.jpg",
    prompt="car",
    bboxes=[false_positive_box],
    labels=[0],  # Negative example
)

Pré-visualização da API

Este exemplo mostra a utilização pretendida. A implementação efectiva está pendente da integração Ultralytics .

Segmentação de conceitos de vídeo

Conceitos de rastreio através do vídeo

Detetar e track todas as instâncias de um conceito ao longo de um vídeo.

Python

from ultralytics.models.sam import SAM3VideoPredictor

# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)

# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")

# Combine text with exemplar for precision
results = predictor(
    source="video.mp4",
    prompt="kangaroo",
    bboxes=[initial_box],  # Exemplar from first frame
    labels=[1],
)

Pré-visualização da API

Este exemplo mostra a utilização pretendida. A implementação efectiva está pendente da integração Ultralytics .

Para configurações de produção e streaming mais amplas, consulte rastreio de objectos e visualização de resultados no terminal.

Avisos visuaisSAM compatibilidade comSAM 2)

SAM 3 mantém total retrocompatibilidade com o comando visual do SAM 2:

Sugestões visuais do estilo SAM 2

Python

from ultralytics import SAM

model = SAM("sam3.pt")

# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])

# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Box prompt
results = model(bboxes=[100, 150, 300, 400])

Pré-visualização da API

Este exemplo mostra a utilização pretendida. A implementação efectiva está pendente da integração Ultralytics .

Benchmarks de Desempenho

Segmentação de imagens

SAM 3 alcança resultados de ponta em vários parâmetros de referência, incluindo conjuntos de dados do mundo real como o LVIS e COCO para segmentação:

Benchmark	Métrica	SAM 3	Anterior Melhor	Melhoria
LVIS (disparo zero)	Máscara AP	47.0	38.5	+22.1%
SA-Co/Ouro	CGF1	65.0	34.3 (OWLv2)	+89.5%
COCO (disparo zero)	Caixa AP	53.5	52,2 (T-Rex2)	+2.5%
ADE-847 (seg. semântica)	mIoU	14.7	9.2 (APE-D)	+59.8%
PascalConcept-59	mIoU	59.4	58,5 (APE-D)	+1.5%
Paisagens urbanas (seg. semântica)	mIoU	65.1	44,2 (APE-D)	+47.3%

Explorar opções de conjuntos de dados para uma experimentação rápida em conjuntos de dadosUltralytics .

Desempenho da segmentação de vídeo

SAM 3 apresenta melhorias significativas em relação ao SAM 2 e ao estado da arte anterior em parâmetros de referência de vídeo como o DAVIS 2017 e o YouTube-VOS:

Benchmark	Métrica	SAM 3	SAM 2.1 L	Melhoria
MOSEv2	J&F	60.1	47.9	+25.5%
DAVIS 2017	J&F	92.0	90.7	+1.4%
LVOSv2	J&F	88.2	79.6	+10.8%
SA-V	J&F	84.6	78.4	+7.9%
YTVOS19	J&F	89.6	89.3	+0.3%

Adaptação de poucas imagens

SAM 3 é excelente na adaptação a novos domínios com exemplos mínimos, relevantes para fluxos de trabalho de IA centrados em dados:

Benchmark	AP de 0 tiros	AP de 10 disparos	Melhor anterior (10 tiros)
ODinW13	59.9	71.6	67,9 (gDino1.5-Pro)
RF100-VL	14.3	35.7	33,7 (gDino-T)

O estímulo baseado em conceitos do SAM 3 com exemplos converge muito mais rapidamente do que o estímulo visual:

Prompts adicionados	Pontuação CGF1	Ganho vs Apenas texto	Ganho vs. linha de base PVS
Apenas texto	46.4	linha de base	linha de base
+1 exemplar	57.6	+11.2	+6.7
+2 exemplares	62.2	+15.8	+9.7
+3 exemplares	65.0	+18.6	+11.2
+4 exemplares	65.7	+19.3	+11,5 (patamar)

Precisão da contagem de objectos

SAM 3 fornece uma contagem precisa através da segmentação de todas as instâncias, um requisito comum na contagem de objectos:

Benchmark	Exatidão	MAE	vs Melhor MLLM
CountBench	95.6%	0.11	92,4% (Gemini 2.5)
PixMo-Count	87.3%	0.22	88,8% (Molmo-72B)

Comparação SAM 3 vs SAM 2 vs YOLO

Comparamos aqui as capacidades do SAM 3 com as do SAM 2 e do YOLO11 modelos:

Capacidade	SAM 3	SAM 2	YOLO11n-seg
Segmentação de conceitos	Todas as instâncias do texto/exemplares	Não suportado	Não suportado
Segmentação visual	Instância únicaSAM compatível comSAM 2)	✅ Instância única	✅ Todas as instâncias
Capacidade de disparo zero	Vocabulário aberto	Pontas geométricas	❌ Conjunto fechado
Refinamento Interativo	✅ Exemplares + cliques	Apenas cliques	Não suportado
Rastreio de vídeo	Multi-objeto com identidades	✅ Multi-objeto	✅ Multi-objeto
Máscara LVIS AP (disparo zero)	47.0	N/A	N/A
MOSEv2 J&F	60.1	47.9	N/A
Velocidade de inferência (H200)	30 ms (100+ objectos)	~23 ms (por objeto)	2-3 ms (imagem)
Tamanho do modelo	Grande (~400+ MB esperados)	162 MB (base)	5.9 MB

Principais conclusões:

SAM 3: Melhor para a segmentação de conceitos de vocabulário aberto, encontrando todas as instâncias de um conceito com texto ou pedidos de exemplar
SAM 2: O melhor para a segmentação interactiva de um único objeto em imagens e vídeos com instruções geométricas
YOLO11: Melhor para segmentação em tempo real e de alta velocidade em implantações com recursos limitados usando pipelines de exportação eficientes como ONNX e TensorRT

Métricas de avaliação

SAM 3 introduz novas métricas concebidas para a tarefa PCS, complementando medidas familiares como a pontuação F1, a precisão e a recuperação.

F1 com classificação (CGF1)

A principal métrica que combina localização e classificação:

CGF1 = 100 × pmF1 × IL_MCC

Onde:

pmF1 (Positive Macro F1): Mede a qualidade da localização em exemplos positivos
IL_MCC (Coeficiente de correlação de Matthews ao nível da imagem): Mede a exatidão da classificação binária ("o conceito está presente?")

Porquê estas métricas?

As métricas tradicionais de AP não têm em conta a calibração, tornando os modelos difíceis de utilizar na prática. Ao avaliar apenas as previsões acima de 0,5 de confiança, as métricas do SAM 3 impõem uma boa calibração e imitam os padrões de utilização do mundo real em modelos interactivos de previsão e track interactivos.

Ablações e percepções importantes

Impacto da presença da cabeça

A cabeça de presença separa o reconhecimento da localização, proporcionando melhorias significativas:

Configuração	CGF1	IL_MCC	pmF1
Sem presença	57.6	0.77	74.7
Com presença	63.3	0.82	77.1

A cabeça de presença proporciona um aumento de +5,7 CGF1 (+9,9%), melhorando principalmente a capacidade de reconhecimento (IL_MCC +6,5%).

Efeito dos negativos duros

Negativos duros/Imagem	CGF1	IL_MCC	pmF1
0	31.8	0.44	70.2
5	44.8	0.62	71.9
30	49.2	0.68	72.3

Os negativos duros são cruciais para o reconhecimento de vocabulário aberto, melhorando o IL_MCC em 54,5% (0,44 → 0,68).

Escalonamento de dados de treino

Fontes de dados	CGF1	IL_MCC	pmF1
Apenas externo	30.9	0.46	66.3
Externo + Sintético	39.7	0.57	70.6
Externo + Sede	51.8	0.71	73.2
Os três	54.3	0.74	73.5

As anotações humanas de elevada qualidade proporcionam grandes ganhos em relação aos dados sintéticos ou externos isolados. Para mais informações sobre as práticas de qualidade dos dados, ver recolha e anotação de dados.

Aplicações

A capacidade de segmentação de conceitos do SAM 3 permite novos casos de utilização:

Moderação de conteúdos: Encontrar todas as instâncias de tipos de conteúdo específicos nas bibliotecas multimédia
Comércio eletrónico: Segmentar todos os produtos de um determinado tipo em imagens de catálogo, suportando a anotação automática
Imagiologia médica: Identificar todas as ocorrências de tipos de tecidos específicos ou anomalias
Sistemas autónomos: Monitorizar todas as ocorrências de sinais de trânsito, peões ou veículos por categoria
Análise de vídeo: Contar e track todas as pessoas que usam roupas específicas ou realizam acções
Anotação de conjuntos de dados: Anotar rapidamente todas as instâncias de categorias de objectos raros
Investigação científica: Quantificar e analisar todos os espécimes que correspondam a critérios específicos

Agente SAM 3: Raciocínio linguístico alargado

SAM 3 pode ser combinado com Modelos de Linguagem Multimodal de Grande Dimensão (MLLM) para tratar consultas complexas que exijam raciocínio, semelhante em espírito aos sistemas de vocabulário aberto como o OWLv2 e o T-Rex.

Desempenho em tarefas de raciocínio

Benchmark	Métrica	Agente SAM 3 (Gemini 2.5 Pro)	Anterior Melhor
ReasonSeg (validação)	gIoU	76.0	65,0 (SoTA)
ReasonSeg (teste)	gIoU	73.8	61,3 (SoTA)
OmniLabel (validação)	AP	46.7	36,5 (REAL)
RefCOCO+	Acc	91.2	89,3 (LISA)

Exemplo de consultas complexas

SAM 3 O agente pode tratar consultas que exijam raciocínio:

"Pessoas sentadas, mas sem segurar uma caixa de presente nas mãos"
"O cão mais próximo da câmara que não esteja a usar coleira"
"Objectos vermelhos maiores do que a mão da pessoa"

O MLLM propõe consultas simples de frases nominais ao SAM 3, analisa as máscaras devolvidas e repete até ficar satisfeito.

Limitações

Embora SAM 3 represente um grande avanço, tem algumas limitações:

Complexidade da frase: Mais adequado para sintagmas nominais simples; expressões de referência longas ou raciocínios complexos podem exigir a integração de MLLM
Tratamento da ambiguidade: Alguns conceitos permanecem inerentemente ambíguos (por exemplo, "janela pequena", "quarto acolhedor")
Requisitos computacionais: Maiores e mais lentos do que os modelos de deteção especializados como YOLO
Âmbito do vocabulário: Focado em conceitos visuais atómicos; o raciocínio composicional é limitado sem a assistência do MLLM
Conceitos raros: O desempenho pode degradar-se em conceitos extremamente raros ou finos que não estejam bem representados nos dados de treino

Citação

BibTeX

@inproceedings{sam3_2025,
  title     = {SAM 3: Segment Anything with Concepts},
  author    = {Anonymous authors},
  booktitle = {Submitted to ICLR 2026},
  year      = {2025},
  url       = {https://openreview.net/forum?id=r35clVtGzw},
  note      = {Paper ID: 4183, under double-blind review}
}

FAQ

Quando é que SAM 3 será lançado?

SAM 3 foi lançado pela Meta a 20 de novembro de 2025. O suporte para Ultralytics está em curso e será lançado numa próxima atualização de pacote com documentos completos para o modo de previsão e o modotrack .

SAM 3 será integrado no Ultralytics?

Sim. SAM 3 será suportado no pacote Ultralytics Python aquando do lançamento, incluindo a segmentação de conceitos, os avisos visuais ao estilo do SAM 2 e o rastreio de vídeo de vários objectos. Será possível exportar para formatos como ONNX e TensorRT para implantação, com o Python e CLI fluxos de trabalho.

Cronograma de implementação

Os exemplos de código nesta documentação são versões de pré-visualização que mostram os padrões de utilização pretendidos. A implementação efectiva estará disponível depois de Ultralytics concluir a integração.

O que é a Segmentação de Conceitos Promptable (PCS)?

O PCS é uma nova tarefa introduzida no SAM 3 que segmenta todas as instâncias de um conceito visual numa imagem ou vídeo. Ao contrário da segmentação tradicional que visa uma instância específica de um objeto, o PCS encontra todas as ocorrências de uma categoria. Por exemplo:

Texto de apoio: "autocarro escolar amarelo" → segmenta todos os autocarros escolares amarelos na cena
Imagem exemplar: Caixa à volta de um cão → segmenta todos os cães da imagem
Combinado: "gato às riscas" + caixa de exemplo → segmenta todos os gatos às riscas que correspondem ao exemplo

Ver antecedentes relacionados com a deteção de objectos e segmentação de instâncias.

Em que é que SAM 3 difere do SAM 2?

Caraterística	SAM 2	SAM 3
Tarefa	Um único objeto por prompt	Todas as instâncias de um conceito
Tipos de avisos	Pontos, caixas, máscaras	+ Frases de texto, exemplos de imagens
Capacidade de deteção	Necessita de um detetor externo	Detetor de vocabulário aberto incorporado
Reconhecimento	Apenas com base na geometria	Reconhecimento de texto e visual
Arquitetura	Apenas rastreador	Detetor + Seguidor com cabeça de presença
Desempenho de tiro zero	N/A (requer instruções visuais)	47,0 AP em LVIS, 2× melhor em SA-Co
Refinamento Interativo	Apenas cliques	Cliques + generalização de exemplos

SAM 3 mantém a retrocompatibilidade com o SAM 2 e acrescenta capacidades baseadas em conceitos.

Que conjuntos de dados são utilizados para treinar o SAM 3?

SAM 3 é treinado no conjunto de dados Segment Anything with Concepts (SA-Co):

Dados de treino:

5,2 milhões de imagens com 4 milhões de frases nominais únicas (SA-Co/HQ) - anotações humanas de alta qualidade
52,5K vídeos com 24,8K frases nominais únicas (SA-Co/VIDEO)
1.4B máscaras sintéticas em 38M frases nominais (SA-Co/SYN)
15 conjuntos de dados externos enriquecidos com negativos duros (SA-Co/EXT)

Dados de referência:

214K conceitos únicos em 126K imagens/vídeos
50× mais conceitos do que as referências existentes (por exemplo, o LVIS tem ~4K conceitos)
Anotação tripla em SA-Co/Gold para medir os limites do desempenho humano

Esta escala e diversidade maciças permitem a generalização superior do SAM 3 em conceitos de vocabulário aberto.

Como é que SAM 3 se compara ao YOLO11 para a segmentação?

SAM 3 e YOLO11 servem casos de utilização diferentes:

VantagensSAM 3:

Vocabulário aberto: Segmenta qualquer conceito através de mensagens de texto sem formação
Zero-shot: Funciona imediatamente em novas categorias
Interativo: O refinamento baseado em exemplos generaliza-se a objectos semelhantes
Baseado em conceitos: Encontra automaticamente todas as instâncias de uma categoria
Precisão: 47,0 AP na segmentação de instâncias LVIS de disparo zero

YOLO11 Vantagens:

Velocidade: inferência 10-15× mais rápida (2-3ms vs 30ms por imagem)
Eficiência: modelos 70× mais pequenos (5,9MB vs ~400MB previstos)
Amigo dos recursos: Funciona em dispositivos periféricos e móveis
Em tempo real: Optimizado para implementações de produção

Recomendação:

Utilize SAM 3 para uma segmentação flexível de vocabulário aberto, onde é necessário encontrar todas as instâncias de conceitos descritos por texto ou exemplos
Utilização YOLO11 para implementações de produção de alta velocidade em que as categorias são conhecidas antecipadamente
Utilizar SAM 2 para segmentação interactiva de um único objeto com indicações geométricas

SAM 3 consegue processar consultas linguísticas complexas?

SAM 3 foi concebido para frases nominais simples (por exemplo, "maçã vermelha", "pessoa com chapéu"). Para consultas complexas que exijam raciocínio, combine SAM 3 com um MLLM como SAM 3 Agent:

Consultas simples ( SAM 3 nativo):

"autocarro escolar amarelo"
"gato às riscas"
"pessoa com chapéu vermelho"

Consultas complexas (agenteSAM 3 com MLLM):

"Pessoas sentadas mas que não têm uma caixa de presentes"
"O cão mais próximo da câmara sem coleira"
"Objectos vermelhos maiores do que a mão da pessoa"

O agente SAM 3 alcança 76,0 gIoU na validação ReasonSeg (contra 65,0 na melhor versão anterior, +16,9% de melhoria), combinando a segmentação do SAM 3 com as capacidades de raciocínio MLLM.

Qual é a exatidão do SAM 3 em comparação com o desempenho humano?

Sobre a referência SA-Co/Gold com anotação humana tripla:

Limite inferior humano: 74,2 CGF1 (anotador mais conservador)
DesempenhoSAM 3: 65,0 CGF1
Realização: 88% do limite inferior humano estimado
Limite superior humano: 81,4 CGF1 (anotador mais liberal)

SAM 3 consegue um bom desempenho, aproximando-se da precisão humana na segmentação de conceitos de vocabulário aberto, com a diferença principalmente em conceitos ambíguos ou subjectivos (por exemplo, "janela pequena", "quarto acolhedor").

📅C riado há 1 mês ✏️ Atualizado há 1 dia

SAM 3: Segmentar qualquer coisa com conceitos

Visão geral

O que é a Segmentação de Conceitos Promptable (PCS)?

Principais métricas de desempenho

Arquitetura

Componentes Essenciais

Principais inovações

Conjunto de dados SA-Co

Dados de treino

Dados de referência

Inovações do motor de dados

Instalação

Como utilizar SAM 3: Versatilidade na segmentação de conceitos

Tarefas e modelos suportados

Exemplos de segmentação de conceitos

Segmento com instruções de texto

Segmento com exemplos de imagens

Refinamento Interativo

Segmentação de conceitos de vídeo

Avisos visuaisSAM compatibilidade comSAM 2)

Benchmarks de Desempenho

Segmentação de imagens

Desempenho da segmentação de vídeo

Adaptação de poucas imagens

Eficácia do refinamento interativo

Precisão da contagem de objectos

Comparação SAM 3 vs SAM 2 vs YOLO

Métricas de avaliação

F1 com classificação (CGF1)

Porquê estas métricas?

Ablações e percepções importantes

Impacto da presença da cabeça

Efeito dos negativos duros

Escalonamento de dados de treino

Aplicações

Agente SAM 3: Raciocínio linguístico alargado

Desempenho em tarefas de raciocínio

Exemplo de consultas complexas

Limitações

Citação

FAQ

Quando é que SAM 3 será lançado?

SAM 3 será integrado no Ultralytics?

O que é a Segmentação de Conceitos Promptable (PCS)?

Em que é que SAM 3 difere do SAM 2?

Que conjuntos de dados são utilizados para treinar o SAM 3?

Como é que SAM 3 se compara ao YOLO11 para a segmentação?

SAM 3 consegue processar consultas linguísticas complexas?

Qual é a exatidão do SAM 3 em comparação com o desempenho humano?

Comentários