SAM 3: Segmentar qualquer coisa com conceitos
Brevemente ⚠️
Os modelos SAM 3 ainda não foram divulgados publicamente pela Meta. As informações abaixo baseiam-se no documento de investigação apresentado ao ICLR 2026. Os downloads dos modelos e as referências finais estarão disponíveis após o lançamento oficial do Meta.
SAM 3 (Segment Anything Model 3) representa o modelo de base da próxima geração da Meta para a Segmentação de Conceitos Promptable (PCS). Com base no SAM 2, SAM 3 introduz uma capacidade fundamentalmente nova: detetar, segmentar e seguir todas as instâncias de um conceito visual especificado por mensagens de texto, exemplos de imagens ou ambos. Ao contrário das versões anteriores SAM , que segmentam objectos únicos por solicitação, SAM 3 pode encontrar e segmentar todas as ocorrências de um conceito que apareça em qualquer parte de imagens ou vídeos, alinhando-se com os objectivos de vocabulário aberto na segmentação moderna de instâncias.
Visão geral
SAM 3 consegue um ganho de desempenho de 2× em relação aos sistemas existentes na segmentação de conceitos com comando, mantendo e melhorando as capacidades do SAM 2 para a segmentação visual interactiva. O modelo é excelente na segmentação de vocabulário aberto, permitindo aos utilizadores especificar conceitos utilizando frases simples (por exemplo, "autocarro escolar amarelo", "gato às riscas") ou fornecendo imagens de exemplo do objeto alvo. Estas capacidades complementam os pipelines prontos para produção que dependem de fluxos de trabalho simplificados de previsão e controlo.
O que é a Segmentação de Conceitos Promptable (PCS)?
A tarefa PCS recebe um pedido de conceito como entrada e devolve máscaras de segmentação com identidades únicas para todas as instâncias de objectos correspondentes. As solicitações de conceito podem ser:
- Texto: Substantivos simples como "maçã vermelha" ou "pessoa que usa um chapéu", semelhante à aprendizagem zero-shot
- Exemplos de imagens: Caixas delimitadoras em torno de objectos de exemplo (positivos ou negativos) para uma generalização rápida
- Combinados: Exemplares de texto e imagem juntos para um controlo preciso
Isto difere dos avisos visuais tradicionais (pontos, caixas, máscaras) que segmentam apenas uma única instância de objeto específico, tal como popularizado pela famíliaSAM original.
Principais métricas de desempenho
Métrica | SAM 3 Realização |
---|---|
Máscara LVIS Zero-Shot AP | 47,0 (contra o melhor resultado anterior de 38,5, +22% de melhoria) |
Referência SA-Co | 2× melhor do que os sistemas existentes |
Velocidade de inferência ( GPU H200) | 30 ms por imagem com mais de 100 objectos detectados |
Desempenho em vídeo | Quase em tempo real para ~5 objectos em simultâneo |
MOSEv2 VOS Benchmark | 60,1 J&F (+25,5% em relação à SAM 2.1, +17% em relação à SOTA anterior) |
Refinamento Interativo | +18,6 Melhoria do CGF1 após 3 pedidos de exemplar |
Lacuna de desempenho humano | Atinge 88% do limite inferior estimado para o SA-Co/Gold |
Para um contexto sobre métricas de modelos e compromissos na produção, consulte as informações de avaliação de modelos e as métricas de desempenhoYOLO .
Arquitetura
SAM 3 consiste num detetor e num seguidor que partilham uma espinha dorsal de visão Perception Encoder (PE). Esta conceção dissociada evita conflitos de tarefas, permitindo simultaneamente a deteção ao nível da imagem e o seguimento ao nível do vídeo, com uma interface compatível com autilização do Ultralytics Python e daCLI .
Componentes Essenciais
-
Detetor: Arquitetura baseada em DETR para deteção de conceitos ao nível da imagem
- Codificador de texto para avisos de sintagmas nominais
- Codificador de exemplares para avisos baseados em imagens
- Codificador de fusão para condicionar caraterísticas de imagem em avisos
- Nova cabeça de presença que separa o reconhecimento ("o quê") da localização ("onde")
- Cabeça de máscara para gerar máscaras de segmentação de instâncias
-
Rastreador: Segmentação de vídeo baseada na memória herdada do SAM 2
- Codificador de prompt, descodificador de máscara, codificador de memória
- Banco de memória para armazenar o aspeto do objeto em todos os fotogramas
- Desambiguação temporal auxiliada por técnicas como um filtro de Kalman em contextos multi-objeto
-
Token de presença: Um token global aprendido que prevê se o conceito alvo está presente na imagem/quadro, melhorando a deteção ao separar o reconhecimento da localização.
Principais inovações
- Reconhecimento e localização dissociados: A cabeça de presença prevê a presença do conceito globalmente, enquanto as consultas de proposta se concentram apenas na localização, evitando objectivos contraditórios.
- Conceito unificado e avisos visuais: Suporta tanto PCS (avisos de conceito) como PVS (avisos visuais como os cliques/caixas do SAM 2) num único modelo.
- Refinamento interativo de exemplos: Os utilizadores podem adicionar exemplos de imagens positivas ou negativas para refinar iterativamente os resultados, com o modelo a generalizar para objectos semelhantes em vez de apenas corrigir instâncias individuais.
- Desambiguação temporal: Utiliza pontuações de deteção de mascarilhas e repetições periódicas para lidar com oclusões, cenas com muita gente e falhas de rastreamento em vídeo, alinhando-se com as melhores práticas de segmentação e rastreamento de instâncias.
Conjunto de dados SA-Co
SAM 3 é treinado no Segment Anything with Concepts (SA-Co), o maior e mais diversificado conjunto de dados de segmentação do Meta até à data, expandindo-se para além de referências comuns como o COCO e o LVIS.
Dados de treino
Componente do conjunto de dados | Descrição | Escala |
---|---|---|
SA-Co/HQ | Dados de imagem de alta qualidade anotados por humanos a partir de um motor de dados de 4 fases | 5,2 milhões de imagens, 4 milhões de frases nominais únicas |
SA-Co/SYN | Conjunto de dados sintéticos rotulados pela IA sem envolvimento humano | 38M frases nominais, 1.4B máscaras |
SA-Co/EXT | 15 conjuntos de dados externos enriquecidos com negativos duros | Varia consoante a fonte |
SA-Co/VÍDEO | Anotações de vídeo com seguimento temporal | 52,5 mil vídeos, 24,8 mil sintagmas nominais únicos |
Dados de referência
A referência de avaliação SA-Co contém 214 mil frases únicas em 126 mil imagens e vídeos, fornecendo mais de 50 vezes mais conceitos do que as referências existentes. Inclui:
- SA-Co/Gold: 7 domínios, com anotação tripla para medir os limites do desempenho humano
- SA-Co/Silver: 10 domínios, anotação humana única
- SA-Co/Bronze e SA-Co/Bio: 9 conjuntos de dados existentes adaptados para a segmentação de conceitos
- SA-Co/VEval: Referência de vídeo com 3 domínios (SA-V, YT-Temporal-1B, SmartGlasses)
Inovações do motor de dados
O motor de dados escalável de humanos e modelos em circuito do SAM 3 atinge um rendimento de anotação de 2×:
- Anotadores de IA: Os modelos baseados em Llama propõem diversos sintagmas nominais, incluindo negativas fortes
- Verificadores de IA: Os LLMs multimodais de ajuste fino verificam a qualidade e a exaustividade da máscara com um desempenho quase humano
- Extração ativa: Concentra o esforço humano em casos de falha difíceis em que a IA tem dificuldades
- Orientado por ontologia: Utiliza uma grande ontologia baseada no Wikidata para cobertura de conceitos
Instalação
SAM 3 será suportado de forma nativa no pacote Ultralytics aquando do seu lançamento:
pip install ultralytics
Os modelos serão descarregados automaticamente quando forem utilizados pela primeira vez. Pode então utilizar o modo de previsão padrão e exportar posteriormente os modelos para formatos como ONNX e TensorRT para implantação.
Como utilizar SAM 3: Versatilidade na segmentação de conceitos
Pré-visualização da API - Sujeito a alterações
Os exemplos de código abaixo demonstram os padrões de utilização pretendidos com base no documento de investigação. A API atual estará disponível mais tarde:
- Meta open-sources SAM 3 model weights
- Ultralytics integra o SAM 3 no pacote
A sintaxe e os parâmetros podem diferir na implementação final. Estes exemplos servem como uma antevisão da funcionalidade esperada.
Tarefas e modelos suportados
SAM 3 suporta as tarefas de Segmentação de Conceito (PCS) e Segmentação Visual (PVS):
Tipo de tarefa | Tipos de avisos | Saída |
---|---|---|
Segmentação de conceitos (PCS) | Texto (frases nominais), exemplos de imagens | Todas as instâncias que correspondem ao conceito |
Segmentação visual (PVS) | Pontos, caixas, máscaras | Instância de objeto únicoSAM estiloSAM 2) |
Refinamento Interativo | Adicionar/remover exemplares ou cliques iterativamente | Segmentação refinada com maior precisão |
Exemplos de segmentação de conceitos
Segmento com instruções de texto
Segmentação de conceitos com base em texto
Localizar e segmentar todas as instâncias de um conceito utilizando uma descrição de texto.
from ultralytics import SAM
# Load SAM 3 model
model = SAM("sam3.pt")
# Segment all instances of a concept
results = model("path/to/image.jpg", prompt="yellow school bus")
# Works with descriptive phrases
results = model("path/to/image.jpg", prompt="person wearing a red hat")
# Or simple object names
results = model("path/to/image.jpg", prompt="striped cat")
# Segment all matching concepts in an image
yolo segment model=sam3.pt source=path/to/image.jpg prompt="yellow school bus"
Pré-visualização da API
Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .
Segmento com exemplos de imagens
Segmentação baseada em exemplos de imagens
Utilizar um ou mais objectos de exemplo para encontrar todas as instâncias semelhantes.
from ultralytics import SAM
model = SAM("sam3.pt")
# Provide a positive example box - finds all similar objects
results = model("path/to/image.jpg", bboxes=[100, 150, 300, 400], labels=[1])
# Add negative examples to exclude certain instances
results = model(
"path/to/image.jpg",
bboxes=[[100, 150, 300, 400], [500, 200, 600, 350]], # Two boxes
labels=[1, 0], # First is positive, second is negative
)
# Combine text and image exemplars for precision
results = model("path/to/image.jpg", prompt="dog", bboxes=[100, 150, 300, 400], labels=[1])
Pré-visualização da API
Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .
Refinamento Interativo
Refinamento iterativo com exemplares
Melhorar progressivamente os resultados, adicionando sugestões de exemplo com base no resultado inicial.
from ultralytics import SAM
model = SAM("sam3.pt")
# Initial segmentation with text
results = model("path/to/image.jpg", prompt="car")
# If some cars are missed, add a positive exemplar
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[missed_car_box],
labels=[1], # Positive example
)
# If false positives appear, add negative exemplars
results = model(
"path/to/image.jpg",
prompt="car",
bboxes=[false_positive_box],
labels=[0], # Negative example
)
Pré-visualização da API
Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .
Segmentação de conceitos de vídeo
Conceitos de rastreio através do vídeo
Detetar e seguir todas as instâncias de um conceito ao longo de um vídeo.
from ultralytics.models.sam import SAM3VideoPredictor
# Create video predictor
predictor = SAM3VideoPredictor(model="sam3.pt", imgsz=1024, conf=0.25)
# Track all instances of a concept
results = predictor(source="video.mp4", prompt="person wearing blue shirt")
# Combine text with exemplar for precision
results = predictor(
source="video.mp4",
prompt="kangaroo",
bboxes=[initial_box], # Exemplar from first frame
labels=[1],
)
Pré-visualização da API
Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .
Para configurações de produção e streaming mais amplas, consulte rastreio de objectos e visualização de resultados no terminal.
Avisos visuaisSAM compatibilidade comSAM 2)
SAM 3 mantém total retrocompatibilidade com o comando visual do SAM 2:
Sugestões visuais do estilo SAM 2
from ultralytics import SAM
model = SAM("sam3.pt")
# Single point prompt (SAM 2 style)
results = model(points=[900, 370], labels=[1])
# Multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])
# Box prompt
results = model(bboxes=[100, 150, 300, 400])
Pré-visualização da API
Este exemplo mostra a utilização prevista. A implementação efectiva está pendente do lançamento do Meta e da integração Ultralytics .
Benchmarks de Desempenho
Segmentação de imagens
SAM 3 alcança resultados de ponta em vários parâmetros de referência, incluindo conjuntos de dados do mundo real como o LVIS e o COCO para segmentação:
Benchmark | Métrica | SAM 3 | Anterior Melhor | Melhoria |
---|---|---|---|---|
LVIS (disparo zero) | Máscara AP | 47.0 | 38.5 | +22.1% |
SA-Co/Ouro | CGF1 | 65.0 | 34.3 (OWLv2) | +89.5% |
COCO (disparo zero) | Caixa AP | 53.5 | 52,2 (T-Rex2) | +2.5% |
ADE-847 (seg. semântica) | mIoU | 14.7 | 9.2 (APE-D) | +59.8% |
PascalConcept-59 | mIoU | 59.4 | 58,5 (APE-D) | +1.5% |
Paisagens urbanas (seg. semântica) | mIoU | 65.1 | 44,2 (APE-D) | +47.3% |
Explorar opções de conjuntos de dados para uma experimentação rápida em conjuntos de dadosUltralytics .
Desempenho da segmentação de vídeo
SAM 3 apresenta melhorias significativas em relação ao SAM 2 e ao estado da arte anterior em parâmetros de referência de vídeo como o DAVIS 2017 e o YouTube-VOS:
Benchmark | Métrica | SAM 3 | SAM 2.1 L | Melhoria |
---|---|---|---|---|
MOSEv2 | J&F | 60.1 | 47.9 | +25.5% |
DAVIS 2017 | J&F | 92.0 | 90.7 | +1.4% |
LVOSv2 | J&F | 88.2 | 79.6 | +10.8% |
SA-V | J&F | 84.6 | 78.4 | +7.9% |
YTVOS19 | J&F | 89.6 | 89.3 | +0.3% |
Adaptação de poucas imagens
SAM 3 é excelente na adaptação a novos domínios com exemplos mínimos, relevantes para fluxos de trabalho de IA centrados em dados:
Benchmark | PA de 0 tiros | PA de 10 disparos | Melhor anterior (10 tiros) |
---|---|---|---|
ODinW13 | 59.9 | 71.6 | 67,9 (gDino1.5-Pro) |
RF100-VL | 14.3 | 35.7 | 33,7 (gDino-T) |
Eficácia do refinamento interativo
O estímulo baseado em conceitos do SAM 3 com exemplos converge muito mais rapidamente do que o estímulo visual:
Prompts adicionados | Pontuação CGF1 | Ganho vs Apenas texto | Ganho vs. linha de base PVS |
---|---|---|---|
Apenas texto | 46.4 | linha de base | linha de base |
+1 exemplar | 57.6 | +11.2 | +6.7 |
+2 exemplares | 62.2 | +15.8 | +9.7 |
+3 exemplares | 65.0 | +18.6 | +11.2 |
+4 exemplares | 65.7 | +19.3 | +11,5 (patamar) |
Precisão da contagem de objectos
SAM 3 fornece uma contagem precisa através da segmentação de todas as instâncias, um requisito comum na contagem de objectos:
Benchmark | Exatidão | MAE | vs Melhor MLLM |
---|---|---|---|
CountBench | 95.6% | 0.11 | 92,4% (Gemini 2.5) |
PixMo-Count | 87.3% | 0.22 | 88,8% (Molmo-72B) |
Comparação SAM 3 vs SAM 2 vs YOLO
Comparamos aqui as capacidades do SAM 3 com as do SAM 2 e do YOLO11 modelos:
Capacidade | SAM 3 | SAM 2 | YOLO11n-seg |
---|---|---|---|
Segmentação de conceitos | Todas as instâncias do texto/exemplares | Não suportado | Não suportado |
Segmentação visual | Instância únicaSAM compatível comSAM 2) | ✅ Instância única | ✅ Todas as instâncias |
Capacidade de disparo zero | Vocabulário aberto | Pontas geométricas | ❌ Conjunto fechado |
Refinamento Interativo | ✅ Exemplares + cliques | Apenas cliques | Não suportado |
Rastreio de vídeo | Multi-objeto com identidades | ✅ Multi-objeto | ✅ Multi-objeto |
Máscara LVIS AP (disparo zero) | 47.0 | N/A | N/A |
MOSEv2 J&F | 60.1 | 47.9 | N/A |
Velocidade de inferência (H200) | 30 ms (100+ objectos) | ~23 ms (por objeto) | 2-3 ms (imagem) |
Tamanho do modelo | Grande (~400+ MB esperados) | 162 MB (base) | 5.9 MB |
Principais conclusões:
- SAM 3: Melhor para a segmentação de conceitos de vocabulário aberto, encontrando todas as instâncias de um conceito com texto ou pedidos de exemplar
- SAM 2: O melhor para a segmentação interactiva de um único objeto em imagens e vídeos com instruções geométricas
- YOLO11: Melhor para segmentação em tempo real e de alta velocidade em implantações com recursos limitados usando pipelines de exportação eficientes como ONNX e TensorRT
Métricas de avaliação
SAM 3 introduz novas métricas concebidas para a tarefa PCS, complementando medidas familiares como a pontuação F1, a precisão e a recuperação.
F1 com classificação (CGF1)
A principal métrica que combina localização e classificação:
CGF1 = 100 × pmF1 × IL_MCC
Onde:
- pmF1 (Positive Macro F1): Mede a qualidade da localização em exemplos positivos
- IL_MCC (Coeficiente de correlação de Matthews ao nível da imagem): Mede a exatidão da classificação binária ("o conceito está presente?")
Porquê estas métricas?
As métricas tradicionais de AP não têm em conta a calibração, tornando os modelos difíceis de utilizar na prática. Ao avaliar apenas as previsões acima de 0,5 de confiança, as métricas do SAM 3 impõem uma boa calibração e imitam os padrões de utilização do mundo real em circuitos interactivos de previsão e seguimento.
Ablações e percepções importantes
Impacto da presença da cabeça
A cabeça de presença separa o reconhecimento da localização, proporcionando melhorias significativas:
Configuração | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Sem presença | 57.6 | 0.77 | 74.7 |
Com presença | 63.3 | 0.82 | 77.1 |
A cabeça de presença proporciona um aumento de +5,7 CGF1 (+9,9%), melhorando principalmente a capacidade de reconhecimento (IL_MCC +6,5%).
Efeito dos negativos duros
Negativos duros/Imagem | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
0 | 31.8 | 0.44 | 70.2 |
5 | 44.8 | 0.62 | 71.9 |
30 | 49.2 | 0.68 | 72.3 |
Os negativos duros são cruciais para o reconhecimento de vocabulário aberto, melhorando o IL_MCC em 54,5% (0,44 → 0,68).
Escalonamento de dados de treino
Fontes de dados | CGF1 | IL_MCC | pmF1 |
---|---|---|---|
Apenas externo | 30.9 | 0.46 | 66.3 |
Externo + Sintético | 39.7 | 0.57 | 70.6 |
Externo + Sede | 51.8 | 0.71 | 73.2 |
Os três | 54.3 | 0.74 | 73.5 |
As anotações humanas de elevada qualidade proporcionam grandes ganhos em relação aos dados sintéticos ou externos isolados. Para mais informações sobre as práticas de qualidade dos dados, ver recolha e anotação de dados.
Aplicações
A capacidade de segmentação de conceitos do SAM 3 permite novos casos de utilização:
- Moderação de conteúdos: Encontrar todas as instâncias de tipos de conteúdo específicos nas bibliotecas multimédia
- Comércio eletrónico: Segmentar todos os produtos de um determinado tipo em imagens de catálogo, suportando a anotação automática
- Imagiologia médica: Identificar todas as ocorrências de tipos de tecidos específicos ou anomalias
- Sistemas autónomos: Monitorizar todas as ocorrências de sinais de trânsito, peões ou veículos por categoria
- Análise de vídeo: Contar e seguir todas as pessoas que usam roupas específicas ou realizam acções
- Anotação de conjuntos de dados: Anotar rapidamente todas as instâncias de categorias de objectos raros
- Investigação científica: Quantificar e analisar todos os espécimes que correspondam a critérios específicos
Agente SAM 3: Raciocínio linguístico alargado
SAM 3 pode ser combinado com Modelos de Linguagem Multimodal de Grande Dimensão (MLLM) para tratar consultas complexas que exijam raciocínio, semelhante em espírito aos sistemas de vocabulário aberto como o OWLv2 e o T-Rex.
Desempenho em tarefas de raciocínio
Benchmark | Métrica | Agente SAM 3 (Gemini 2.5 Pro) | Anterior Melhor |
---|---|---|---|
ReasonSeg (validação) | gIoU | 76.0 | 65,0 (SoTA) |
ReasonSeg (teste) | gIoU | 73.8 | 61,3 (SoTA) |
OmniLabel (validação) | AP | 46.7 | 36,5 (REAL) |
RefCOCO+ | Acc | 91.2 | 89,3 (LISA) |
Exemplo de consultas complexas
SAM 3 O agente pode tratar consultas que exijam raciocínio:
- "Pessoas sentadas, mas sem segurar uma caixa de presente nas mãos"
- "O cão mais próximo da câmara que não esteja a usar coleira"
- "Objectos vermelhos maiores do que a mão da pessoa"
O MLLM propõe consultas simples de frases nominais ao SAM 3, analisa as máscaras devolvidas e repete até ficar satisfeito.
Limitações
Embora SAM 3 represente um grande avanço, tem algumas limitações:
- Complexidade da frase: Mais adequado para sintagmas nominais simples; expressões de referência longas ou raciocínios complexos podem exigir a integração de MLLM
- Tratamento da ambiguidade: Alguns conceitos permanecem inerentemente ambíguos (por exemplo, "janela pequena", "quarto acolhedor")
- Requisitos computacionais: Maiores e mais lentos do que os modelos de deteção especializados como YOLO
- Âmbito do vocabulário: Focado em conceitos visuais atómicos; o raciocínio composicional é limitado sem a assistência do MLLM
- Conceitos raros: O desempenho pode degradar-se em conceitos extremamente raros ou finos que não estejam bem representados nos dados de treino
Citação
@inproceedings{sam3_2025,
title = {SAM 3: Segment Anything with Concepts},
author = {Anonymous authors},
booktitle = {Submitted to ICLR 2026},
year = {2025},
url = {https://openreview.net/forum?id=r35clVtGzw},
note = {Paper ID: 4183, under double-blind review}
}
FAQ
Quando é que SAM 3 será lançado?
SAM 3 está atualmente a ser revisto no ICLR 2026 (conferência em 2026, revisão em 2025). Os modelos oficiais, as ponderações e os valores de referência serão divulgados publicamente após o processo de revisão, provavelmente em 2026. Ultralytics fornecerá suporte imediato para a integração do SAM 3 aquando do lançamento do Meta e documentará a utilização no modo de previsão e no modo de rastreio.
SAM 3 será integrado no Ultralytics?
Sim. SAM 3 será suportado no pacote Ultralytics Python aquando do lançamento, incluindo a segmentação de conceitos, os avisos visuais ao estilo do SAM 2 e o rastreio de vídeo de vários objectos. Será possível exportar para formatos como ONNX e TensorRT para implantação, com o Python e CLI fluxos de trabalho.
Cronograma de implementação
Os exemplos de código nesta documentação são versões de pré-visualização que mostram os padrões de utilização pretendidos. A implementação efectiva estará disponível depois de o Meta lançar os pesos SAM 3 e de Ultralytics concluir a integração.
O que é a Segmentação de Conceitos Promptable (PCS)?
O PCS é uma nova tarefa introduzida no SAM 3 que segmenta todas as instâncias de um conceito visual numa imagem ou vídeo. Ao contrário da segmentação tradicional que visa uma instância específica de um objeto, o PCS encontra todas as ocorrências de uma categoria. Por exemplo:
- Texto de apoio: "autocarro escolar amarelo" → segmenta todos os autocarros escolares amarelos na cena
- Imagem exemplar: Caixa à volta de um cão → segmenta todos os cães da imagem
- Combinado: "gato às riscas" + caixa de exemplo → segmenta todos os gatos às riscas que correspondem ao exemplo
Ver antecedentes relacionados com a deteção de objectos e segmentação de instâncias.
Em que é que SAM 3 difere do SAM 2?
Caraterística | SAM 2 | SAM 3 |
---|---|---|
Tarefa | Um único objeto por prompt | Todas as instâncias de um conceito |
Tipos de avisos | Pontos, caixas, máscaras | + Frases de texto, exemplos de imagens |
Capacidade de deteção | Necessita de um detetor externo | Detetor de vocabulário aberto incorporado |
Reconhecimento | Apenas com base na geometria | Reconhecimento de texto e visual |
Arquitetura | Apenas rastreador | Detetor + Seguidor com cabeça de presença |
Desempenho de tiro zero | N/A (requer instruções visuais) | 47,0 AP em LVIS, 2× melhor em SA-Co |
Refinamento Interativo | Apenas cliques | Cliques + generalização de exemplos |
SAM 3 mantém a retrocompatibilidade com o SAM 2 e acrescenta capacidades baseadas em conceitos.
Que conjuntos de dados são utilizados para treinar o SAM 3?
SAM 3 é treinado no conjunto de dados Segment Anything with Concepts (SA-Co):
Dados de treino:
- 5,2 milhões de imagens com 4 milhões de frases nominais únicas (SA-Co/HQ) - anotações humanas de alta qualidade
- 52,5K vídeos com 24,8K frases nominais únicas (SA-Co/VIDEO)
- 1.4B máscaras sintéticas em 38M frases nominais (SA-Co/SYN)
- 15 conjuntos de dados externos enriquecidos com negativos duros (SA-Co/EXT)
Dados de referência:
- 214K conceitos únicos em 126K imagens/vídeos
- 50× mais conceitos do que as referências existentes (por exemplo, o LVIS tem ~4K conceitos)
- Anotação tripla em SA-Co/Gold para medir os limites do desempenho humano
Esta escala e diversidade maciças permitem a generalização superior do SAM 3 em conceitos de vocabulário aberto.
Como é que SAM 3 se compara ao YOLO11 para a segmentação?
SAM 3 e YOLO11 servem casos de utilização diferentes:
VantagensSAM 3:
- Vocabulário aberto: Segmenta qualquer conceito através de mensagens de texto sem formação
- Zero-shot: Funciona imediatamente em novas categorias
- Interativo: O refinamento baseado em exemplos generaliza-se a objectos semelhantes
- Baseado em conceitos: Encontra automaticamente todas as instâncias de uma categoria
- Precisão: 47,0 AP na segmentação de instâncias LVIS de disparo zero
YOLO11 Vantagens:
- Velocidade: inferência 10-15× mais rápida (2-3ms vs 30ms por imagem)
- Eficiência: modelos 70× mais pequenos (5,9MB vs ~400MB previstos)
- Amigo dos recursos: Funciona em dispositivos periféricos e móveis
- Em tempo real: Optimizado para implementações de produção
Recomendação:
- Utilize SAM 3 para uma segmentação flexível de vocabulário aberto, onde é necessário encontrar todas as instâncias de conceitos descritos por texto ou exemplos
- Utilização YOLO11 para implementações de produção de alta velocidade em que as categorias são conhecidas antecipadamente
- Utilizar SAM 2 para segmentação interactiva de um único objeto com indicações geométricas
SAM 3 consegue processar consultas linguísticas complexas?
SAM 3 foi concebido para frases nominais simples (por exemplo, "maçã vermelha", "pessoa com chapéu"). Para consultas complexas que exijam raciocínio, combine SAM 3 com um MLLM como SAM 3 Agent:
Consultas simples ( SAM 3 nativo):
- "autocarro escolar amarelo"
- "gato às riscas"
- "pessoa com chapéu vermelho"
Consultas complexas (agenteSAM 3 com MLLM):
- "Pessoas sentadas mas que não têm uma caixa de presentes"
- "O cão mais próximo da câmara sem coleira"
- "Objectos vermelhos maiores do que a mão da pessoa"
O agente SAM 3 alcança 76,0 gIoU na validação ReasonSeg (contra 65,0 na melhor versão anterior, +16,9% de melhoria), combinando a segmentação do SAM 3 com as capacidades de raciocínio MLLM.
Qual é a exatidão do SAM 3 em comparação com o desempenho humano?
Sobre a referência SA-Co/Gold com anotação humana tripla:
- Limite inferior humano: 74,2 CGF1 (anotador mais conservador)
- DesempenhoSAM 3: 65,0 CGF1
- Realização: 88% do limite inferior humano estimado
- Limite superior humano: 81,4 CGF1 (anotador mais liberal)
SAM 3 consegue um bom desempenho, aproximando-se da precisão humana na segmentação de conceitos de vocabulário aberto, com a diferença principalmente em conceitos ambíguos ou subjectivos (por exemplo, "janela pequena", "quarto acolhedor").