SAM 2.1

Acabámos de suportar o modelo mais preciso SAM2.1. Experimente-o!

SAM 2: Segmento Qualquer Modelo 2

Q: How does SAM 2 compare to other segmentation models like YOLOv8?

SAM 2 e Ultralytics YOLOv8 servem objectivos diferentes e destacam-se em áreas diferentes. Enquanto o SAM 2 foi concebido para uma segmentação abrangente de objectos com funcionalidades avançadas, como a generalização de zero disparos e o desempenho em tempo real, o YOLOv8 foi optimizado para velocidade e eficiência em tarefas de deteção e segmentação de objectos. Aqui está uma comparação: Para mais detalhes, consulte a secção SAM 2 comparison vs YOLOv8 .

SAM 2, o sucessor do Segment Anything Model da Meta (SAM), é uma ferramenta de ponta concebida para uma segmentação abrangente de objectos em imagens e vídeos. Destaca-se no tratamento de dados visuais complexos através de uma arquitetura de modelo unificada e pronta a usar que suporta o processamento em tempo real e a generalização sem disparos.

SAM 2 Exemplo de resultados

Caraterísticas principais

Ver: Como executar a inferência com o Meta's SAM2 utilizando Ultralytics | Guia passo-a-passo 🎉

Arquitetura do modelo unificado

SAM 2 combina as capacidades de segmentação de imagem e vídeo num único modelo. Esta unificação simplifica a implementação e permite um desempenho consistente em diferentes tipos de media. Utiliza uma interface flexível baseada em comandos, permitindo aos utilizadores especificar objectos de interesse através de vários tipos de comandos, tais como pontos, caixas delimitadoras ou máscaras.

Desempenho em tempo real

O modelo atinge velocidades de inferência em tempo real, processando aproximadamente 44 quadros por segundo. Isto torna o SAM 2 adequado para aplicações que requerem feedback imediato, como a edição de vídeo e a realidade aumentada.

Generalização Zero-Shot

SAM 2 pode segmentar objectos que nunca encontrou antes, demonstrando uma forte generalização de zero-shot. Isto é particularmente útil em domínios visuais diversos ou em evolução, onde as categorias pré-definidas podem não abranger todos os objectos possíveis.

Os utilizadores podem refinar os resultados da segmentação de forma iterativa, fornecendo avisos adicionais, permitindo um controlo preciso dos resultados. Esta interatividade é essencial para afinar os resultados em aplicações como anotação de vídeo ou imagiologia médica.

Tratamento avançado de desafios visuais

SAM 2 inclui mecanismos para gerir desafios comuns de segmentação de vídeo, como a oclusão e reaparecimento de objectos. Utiliza um mecanismo de memória sofisticado para manter o registo dos objectos ao longo dos fotogramas, garantindo a continuidade mesmo quando os objectos são temporariamente ocultados ou saem e voltam a entrar na cena.

Para uma compreensão mais aprofundada da arquitetura e das capacidades do SAM 2, consulte o documento de investigaçãoSAM 2.

Desempenho e pormenores técnicos

SAM 2 estabelece uma nova referência no domínio, superando os modelos anteriores em vários parâmetros:

Métrica	SAM 2	Anterior SOTA
Segmentação de vídeo interativo	Melhor	-
Interações humanas necessárias	3x menos	Linha de base
Precisão da segmentação de imagens	Melhorado	SAM
Velocidade de inferência	6x mais rápido	SAM

Arquitetura de modelos

Componentes principais

Codificador de imagem e vídeo: Utiliza uma arquitetura baseada em transformadores para extrair caraterísticas de alto nível de imagens e fotogramas de vídeo. Este componente é responsável por compreender o conteúdo visual em cada passo de tempo.
Codificador de prompts: Processa os avisos fornecidos pelo utilizador (pontos, caixas, máscaras) para orientar a tarefa de segmentação. Isto permite que o SAM 2 se adapte à entrada do utilizador e vise objectos específicos dentro de uma cena.
Mecanismo de memória: Inclui um codificador de memória, um banco de memória e um módulo de atenção à memória. Estes componentes armazenam e utilizam coletivamente informações de fotogramas anteriores, permitindo que o modelo mantenha um seguimento consistente do objeto ao longo do tempo.
Descodificador de máscaras: Gera as máscaras de segmentação finais com base nas caraterísticas da imagem codificada e nos avisos. No vídeo, também utiliza o contexto da memória para garantir um seguimento exato dos fotogramas.

SAM 2 Diagrama de arquitetura

Mecanismo de memória e tratamento de oclusão

O mecanismo de memória permite ao SAM 2 tratar as dependências temporais e as oclusões nos dados de vídeo. À medida que os objectos se movem e interagem, o SAM 2 regista as suas caraterísticas num banco de memória. Quando um objeto fica ocluído, o modelo pode basear-se nesta memória para prever a sua posição e aparência quando reaparece. A cabeça de oclusão lida especificamente com cenários em que os objectos não são visíveis, prevendo a probabilidade de um objeto ser ocluído.

Resolução de Ambiguidades Multi-Máscara

Em situações de ambiguidade (por exemplo, objectos sobrepostos), o SAM 2 pode gerar previsões de máscaras múltiplas. Esta caraterística é crucial para representar com precisão cenas complexas em que uma única máscara pode não descrever suficientemente as nuances da cena.

Conjunto de dados SA-V

O conjunto de dados SA-V, desenvolvido para a formação do SAM 2, é um dos maiores e mais diversificados conjuntos de dados de segmentação de vídeo disponíveis. Inclui:

Mais de 51.000 vídeos: Capturados em 47 países, proporcionando uma vasta gama de cenários do mundo real.
Mais de 600.000 anotações de máscara: Anotações de máscara espácio-temporais detalhadas, designadas por "masklets", que abrangem objectos inteiros e partes.
Escala do conjunto de dados: Apresenta 4,5 vezes mais vídeos e 53 vezes mais anotações do que os maiores conjuntos de dados anteriores, oferecendo uma diversidade e complexidade sem precedentes.

Referências

Segmentação de objectos de vídeo

SAM 2 demonstrou um desempenho superior nas principais referências de segmentação de vídeo:

Conjunto de dados	J&AMP;F	J	F
DAVIS 2017	82.5	79.8	85.2
YouTube-VOS	81.2	78.9	83.5

Segmentação interactiva

Em tarefas de segmentação interactiva, SAM 2 mostra uma eficiência e precisão significativas:

Conjunto de dados	NoC@90	AUC
DAVIS Interativo	1.54	0.872

Instalação

Para instalar o SAM 2, utilize o seguinte comando. Todos os modelos do SAM 2 serão transferidos automaticamente na primeira utilização.

pip install ultralytics

Como utilizar SAM 2: Versatilidade na segmentação de imagens e vídeos

A tabela seguinte apresenta em pormenor os modelos disponíveis em SAM 2, os seus pesos pré-treinados, as tarefas suportadas e a compatibilidade com diferentes modos de funcionamento, como Inferência, Validação, Treino e Exportação.

Tipo de modelo	Pesos pré-treinados	Tarefas suportadas	Inferência	Validação	Formação	Exportação
SAM 2 minúsculos	sam2_t.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2 pequenos	sam2_s.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2 base	sam2_b.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2 grandes	sam2_l.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2.1 minúsculo	sam2.1_t.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2.1 pequeno	sam2.1_s.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2.1 base	sam2.1_b.pt	Segmentação de instâncias	✅	❌	❌	❌
SAM 2.1 grandes	sam2.1_l.pt	Segmentação de instâncias	✅	❌	❌	❌

SAM 2 Exemplos de previsão

SAM 2 pode ser utilizado num vasto espetro de tarefas, incluindo edição de vídeo em tempo real, imagiologia médica e sistemas autónomos. A sua capacidade de segmentar dados visuais estáticos e dinâmicos torna-o uma ferramenta versátil para investigadores e programadores.

Segmento com prompts

Utilizar avisos para segmentar objectos específicos em imagens ou vídeos.

Python

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference with bboxes prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Run inference with single point
results = model(points=[900, 370], labels=[1])

# Run inference with multiple points
results = model(points=[[400, 370], [900, 370]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = model(points=[[[400, 370], [900, 370]]], labels=[[1, 0]])

Segmento Tudo

Segmentar todo o conteúdo da imagem ou do vídeo sem avisos específicos.

PythonCLI

from ultralytics import SAM

# Load a model
model = SAM("sam2.1_b.pt")

# Display model information (optional)
model.info()

# Run inference
model("path/to/video.mp4")

# Run inference with a SAM 2 model
yolo predict model=sam2.1_b.pt source=path/to/video.mp4

Segmentar vídeo e localizar objectos

Segmento de vídeo

Segmentar todo o conteúdo do vídeo com avisos específicos e objectos de rastreio.

Python

from ultralytics.models.sam import SAM2VideoPredictor

# Create SAM2VideoPredictor
overrides = dict(conf=0.25, task="segment", mode="predict", imgsz=1024, model="sam2_b.pt")
predictor = SAM2VideoPredictor(overrides=overrides)

# Run inference with single point
results = predictor(source="test.mp4", points=[920, 470], labels=1)

# Run inference with multiple points
results = predictor(source="test.mp4", points=[[920, 470], [909, 138]], labels=[1, 1])

# Run inference with multiple points prompt per object
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 1]])

# Run inference with negative points prompt
results = predictor(source="test.mp4", points=[[[920, 470], [909, 138]]], labels=[[1, 0]])

Este exemplo demonstra como SAM 2 pode ser utilizado para segmentar todo o conteúdo de uma imagem ou vídeo se não forem fornecidos avisos (bboxes/pontos/máscaras).

SAM 2 comparação vs YOLOv8

Aqui comparamos o modelo mais pequeno do Meta SAM 2, SAM2-t, com o modelo de segmentação mais pequeno do Ultralytics , YOLOv8n-seg:

Modelo	Tamanho ^(MB)	Parâmetros ^(M)	Velocidade (CPU) ^(ms/im)
Meta SAM-b	375	93.7	161440
Meta SAM2-b	162	80.8	121923
Meta SAM2-t	78.1	38.9	85155
MobileSAM	40.7	10.1	98543
FastSAM-s com YOLOv8 backbone	23.7	11.8	140
Ultralytics YOLOv8n-seg	6,7 (11,7x mais pequeno)	3,4 (menos 11,4x)	79,5 (1071x mais rápido)

Esta comparação mostra as diferenças de ordem de grandeza nas dimensões e velocidades dos modelos. Embora o SAM apresente capacidades únicas para segmentação automática, não é um concorrente direto dos modelos de segmento do YOLOv8 , que são mais pequenos, mais rápidos e mais eficientes.

Testes efectuados num Macbook Apple M2 de 2023 com 16 GB de RAM, utilizando torch==2.3.1 e ultralytics==8.3.82. Para reproduzir este teste:

Exemplo

Python

from ultralytics import ASSETS, SAM, YOLO, FastSAM

# Profile SAM2-t, SAM2-b, SAM-b, MobileSAM
for file in ["sam_b.pt", "sam2_b.pt", "sam2_t.pt", "mobile_sam.pt"]:
    model = SAM(file)
    model.info()
    model(ASSETS)

# Profile FastSAM-s
model = FastSAM("FastSAM-s.pt")
model.info()
model(ASSETS)

# Profile YOLOv8n-seg
model = YOLO("yolov8n-seg.pt")
model.info()
model(ASSETS)

Anotação automática: Criação eficiente de conjuntos de dados

A anotação automática é uma caraterística poderosa do SAM 2, permitindo aos utilizadores gerar conjuntos de dados de segmentação de forma rápida e precisa, tirando partido de modelos pré-treinados. Esta capacidade é particularmente útil para criar conjuntos de dados grandes e de alta qualidade sem grande esforço manual.

Como fazer anotações automáticas com SAM 2

Ver: Anotação automática com o modelo Meta's Segment Anything 2 utilizando Ultralytics | Etiquetagem de dados

Para anotar automaticamente o seu conjunto de dados utilizando SAM 2, siga este exemplo:

Exemplo de anotação automática

from ultralytics.data.annotator import auto_annotate

auto_annotate(data="path/to/images", det_model="yolo11x.pt", sam_model="sam2_b.pt")

Argumento	Tipo	Predefinição	Descrição
`data`	`str`	required	Path to directory containing target images/videos for annotation or segmentation.
`det_model`	`str`	`"yolo11x.pt"`	YOLO detection model path for initial object detection.
`sam_model`	`str`	`"sam2_b.pt"`	SAM2 model path for segmentation (supports t/s/b/l variants and SAM2.1 models).
`device`	`str`	`""`	Computation device (e.g., 'cuda:0', 'cpu', or '' for automatic device detection).
`conf`	`float`	`0.25`	YOLO detection confidence threshold for filtering weak detections.
`iou`	`float`	`0.45`	IoU threshold for Non-Maximum Suppression to filter overlapping boxes.
`imgsz`	`int`	`640`	Input size for resizing images (must be multiple of 32).
`max_det`	`int`	`300`	Maximum number of detections per image for memory efficiency.
`classes`	`list[int]`	`None`	List of class indices to detect (e.g., `[0, 1]` for person & bicycle).
`output_dir`	`str`	`None`	Save directory for annotations (defaults to './labels' relative to data path).

Esta função facilita a criação rápida de conjuntos de dados de segmentação de alta qualidade, ideal para investigadores e programadores que pretendem acelerar os seus projectos.

Limitações

Apesar dos seus pontos fortes, o SAM 2 tem algumas limitações:

Estabilidade de seguimento: SAM 2 pode perder o seguimento de objectos durante sequências longas ou mudanças significativas de ponto de vista.
Confusão de objectos: O modelo pode por vezes confundir objectos de aspeto semelhante, especialmente em cenas com muita gente.
Eficiência com múltiplos objectos: A eficiência da segmentação diminui quando se processam vários objectos em simultâneo devido à falta de comunicação entre objectos.
Precisão de detalhes: Pode falhar detalhes finos, especialmente com objectos em movimento rápido. Os avisos adicionais podem resolver parcialmente este problema, mas a suavidade temporal não é garantida.

Citações e agradecimentos

Se a SAM 2 for uma parte crucial do seu trabalho de investigação ou desenvolvimento, cite-a utilizando a seguinte referência:

BibTeX

@article{ravi2024sam2,
  title={SAM 2: Segment Anything in Images and Videos},
  author={Ravi, Nikhila and Gabeur, Valentin and Hu, Yuan-Ting and Hu, Ronghang and Ryali, Chaitanya and Ma, Tengyu and Khedr, Haitham and R{\"a}dle, Roman and Rolland, Chloe and Gustafson, Laura and Mintun, Eric and Pan, Junting and Alwala, Kalyan Vasudev and Carion, Nicolas and Wu, Chao-Yuan and Girshick, Ross and Doll{\'a}r, Piotr and Feichtenhofer, Christoph},
  journal={arXiv preprint},
  year={2024}
}

Agradecemos à Meta AI a sua contribuição para a comunidade de IA com este modelo e conjunto de dados inovadores.

FAQ

O que é SAM 2 e como é que melhora o modelo original Segment Anything Model (SAM)?

SAM 2, o sucessor do Segment Anything Model da Meta (SAM), é uma ferramenta de ponta concebida para uma segmentação abrangente de objectos em imagens e vídeos. Destaca-se no tratamento de dados visuais complexos através de uma arquitetura de modelo unificada e pronta a usar que suporta o processamento em tempo real e a generalização sem disparos. SAM O 2 oferece várias melhorias em relação ao original SAM, incluindo:

Arquitetura de modelo unificado: Combina capacidades de segmentação de imagem e vídeo num único modelo.
Desempenho em tempo real: Processa aproximadamente 44 quadros por segundo, tornando-o adequado para aplicações que exigem feedback imediato.
Generalização Zero-Shot: Segmenta objectos que nunca encontrou antes, útil em diversos domínios visuais.
Refinamento interativo: Permite que os utilizadores refinem iterativamente os resultados da segmentação, fornecendo avisos adicionais.
Tratamento avançado de desafios visuais: Gerencia os desafios comuns de segmentação de vídeo, como oclusão e reaparecimento de objetos.

Para mais informações sobre a arquitetura e as capacidades do SAM 2, consulte o documento de investigaçãoSAM 2.

Como posso utilizar SAM 2 para segmentação de vídeo em tempo real?

SAM 2 pode ser utilizado para a segmentação de vídeo em tempo real, tirando partido da sua interface de resposta rápida e das suas capacidades de inferência em tempo real. Eis um exemplo básico:

Segmento com prompts

Utilizar avisos para segmentar objectos específicos em imagens ou vídeos.

Python

from ultralytics import SAM

# Load a model
model = SAM("sam2_b.pt")

# Display model information (optional)
model.info()

# Segment with bounding box prompt
results = model("path/to/image.jpg", bboxes=[100, 100, 200, 200])

# Segment with point prompt
results = model("path/to/image.jpg", points=[150, 150], labels=[1])

Para uma utilização mais abrangente, consulte a secção Como utilizar o SAM 2.

Que conjuntos de dados são utilizados para treinar SAM 2 e como é que melhoram o seu desempenho?

SAM 2 é treinado no conjunto de dados SA-V, um dos maiores e mais diversificados conjuntos de dados de segmentação de vídeo disponíveis. O conjunto de dados SA-V inclui:

Mais de 51.000 vídeos: Capturados em 47 países, proporcionando uma vasta gama de cenários do mundo real.
Mais de 600.000 anotações de máscara: Anotações de máscara espácio-temporais detalhadas, designadas por "masklets", que abrangem objectos inteiros e partes.
Escala do conjunto de dados: Apresenta 4,5 vezes mais vídeos e 53 vezes mais anotações do que os maiores conjuntos de dados anteriores, oferecendo diversidade e complexidade sem precedentes.

Este extenso conjunto de dados permite que o SAM 2 atinja um desempenho superior nos principais benchmarks de segmentação de vídeo e melhora as suas capacidades de generalização de zero-shot. Para mais informações, consulte a secção Conjunto de dados SA-V.

Como é que o SAM 2 lida com oclusões e reaparecimentos de objectos na segmentação de vídeo?

SAM 2 inclui um mecanismo de memória sofisticado para gerir as dependências temporais e as oclusões nos dados de vídeo. O mecanismo de memória consiste em:

Codificador de memória e banco de memória: Armazena caraterísticas de fotogramas anteriores.
Módulo de atenção à memória: Utiliza a informação armazenada para manter um seguimento consistente do objeto ao longo do tempo.
Cabeça de oclusão: lida especificamente com cenários em que os objectos não são visíveis, prevendo a probabilidade de um objeto ser ocluído.

Este mecanismo assegura a continuidade mesmo quando os objectos são temporariamente obscurecidos ou saem e voltam a entrar na cena. Para mais detalhes, consulte a secção Mecanismo de memória e tratamento de oclusão.

Como é que SAM 2 se compara a outros modelos de segmentação como YOLOv8?

SAM 2 e Ultralytics YOLOv8 servem diferentes objectivos e destacam-se em diferentes áreas. Enquanto o SAM 2 foi concebido para uma segmentação abrangente de objectos com funcionalidades avançadas, como a generalização de zero disparos e o desempenho em tempo real, o YOLOv8 foi optimizado para velocidade e eficiência em tarefas de deteção e segmentação de objectos. Aqui está uma comparação:

Modelo	Tamanho ^(MB)	Parâmetros ^(M)	Velocidade (CPU) ^(ms/im)
Meta SAM-b	375	93.7	161440
Meta SAM2-b	162	80.8	121923
Meta SAM2-t	78.1	38.9	85155
MobileSAM	40.7	10.1	98543
FastSAM-s com YOLOv8 backbone	23.7	11.8	140
Ultralytics YOLOv8n-seg	6,7 (11,7x mais pequeno)	3,4 (menos 11,4x)	79,5 (1071x mais rápido)

Para mais informações, consulte a secção SAM 2 comparison vs YOLOv8.

📅 Created 5 months ago ✏️ Updated 16 days ago

SAM 2: Segmento Qualquer Modelo 2

Caraterísticas principais

Arquitetura do modelo unificado

Desempenho em tempo real

Generalização Zero-Shot

Refinamento interativo

Tratamento avançado de desafios visuais

Desempenho e pormenores técnicos

Arquitetura de modelos

Componentes principais

Mecanismo de memória e tratamento de oclusão

Resolução de Ambiguidades Multi-Máscara

Conjunto de dados SA-V

Referências

Segmentação de objectos de vídeo

Segmentação interactiva

Instalação

Como utilizar SAM 2: Versatilidade na segmentação de imagens e vídeos

SAM 2 Exemplos de previsão

Segmento com prompts

Segmento Tudo

Segmentar vídeo e localizar objectos

SAM 2 comparação vs YOLOv8

Anotação automática: Criação eficiente de conjuntos de dados

Como fazer anotações automáticas com SAM 2

Limitações

Citações e agradecimentos

FAQ

O que é SAM 2 e como é que melhora o modelo original Segment Anything Model (SAM)?

Como posso utilizar SAM 2 para segmentação de vídeo em tempo real?

Que conjuntos de dados são utilizados para treinar SAM 2 e como é que melhoram o seu desempenho?

Como é que o SAM 2 lida com oclusões e reaparecimentos de objectos na segmentação de vídeo?

Como é que SAM 2 se compara a outros modelos de segmentação como YOLOv8?

Comentários