Link to this sectionVisão geral dos conjuntos de dados de segmentação semântica#

Q: Qual valor de pixel é ignorado durante o treinamento?

O valor de pixel 255 é usado como rótulo de ignorar. Esses pixels são pulados durante o cálculo de perda e métrica, o que é útil para regiões vazias, pixels não rotulados ou classes fora do conjunto de rótulos de treinamento.

Q: Posso usar IDs de rótulo de conjunto de dados original diretamente?

Sim, se eles já corresponderem aos seus IDs de classe em names. Se o conjunto de dados de origem usar IDs não contíguos ou incluir rótulos que devem ser ignorados, adicione uma seção label_mapping para converter os valores de pixel de origem em IDs de treinamento.

A segmentação semântica atribui um rótulo de classe a cada pixel em uma imagem. Ao contrário da segmentação de instância, a segmentação semântica não separa objetos individuais da mesma classe. O objetivo do treinamento é um mapa de classes denso, onde cada pixel armazena um ID de classe.

Este guia explica o formato de conjunto de dados utilizado pelos modelos de segmentação semântica do Ultralytics YOLO e lista as configurações de conjunto de dados integradas disponíveis para treinamento e validação.

Link to this sectionFormatos de dataset suportados#

Dois formatos de rótulo são suportados. O carregador de conjuntos de dados seleciona máscaras PNG quando o YAML do conjunto de dados define uma chave masks_dir, ou quando uma pasta masks/ já existe ao lado de suas imagens na raiz do conjunto de dados; caso contrário, ele recorre aos rótulos de polígono YOLO.

Link to this sectionFormato de máscara PNG#

Os conjuntos de dados de segmentação semântica utilizam um arquivo de imagem e um arquivo de máscara por amostra. A máscara é uma imagem de canal único, geralmente PNG, onde cada valor de pixel é o índice de classe para o pixel de imagem correspondente.

Os valores de pixel 0, 1, 2, ... representam IDs de classe do mapeamento names do conjunto de dados.
O valor de pixel 255 é tratado como o rótulo de ignorar e é excluído do cálculo de perda e métricas.
Os arquivos de máscara devem usar o mesmo nome base que o arquivo de imagem correspondente, por exemplo frankfurt_000000_000294.png.
As máscaras são resolvidas como .png por padrão; se estiverem ausentes, outras extensões de imagem suportadas também são aceitas. Use formatos sem perdas, como .png ou .tiff, já que a compressão com perdas (ex: .jpg) corrompe os valores de pixel de ID de classe.

O layout padrão mantém imagens e máscaras em pastas paralelas. O valor masks_dir do YAML do conjunto de dados substitui o componente de caminho images para encontrar as máscaras.

dataset/
├── images/
│   ├── train/
│   └── val/
└── masks/
    ├── train/
    └── val/

Por exemplo, uma imagem em images/train/aachen_000000_000019.png é pareada com uma máscara em masks/train/aachen_000000_000019.png quando masks_dir: masks.

Link to this sectionFormato de rótulo de polígono YOLO#

Se o seu conjunto de dados já possui rótulos de polígono do Ultralytics YOLO (um .txt por imagem com linhas <class-index> <x1> <y1> <x2> <y2> ...), você pode treinar a segmentação semântica diretamente a partir deles — sem necessidade de conversão para máscara PNG. Consulte o formato de conjunto de dados de segmentação de instância para o layout em nível de linha.

Este caminho é selecionado automaticamente quando o YAML do conjunto de dados omite masks_dir e nenhuma pasta masks/ existe ao lado de suas imagens na raiz do conjunto de dados — remova ou renomeie qualquer pasta masks/ remanescente, ou o carregador voltará para o modo de máscara PNG e procurará por máscaras lá em vez disso. Comportamento:

Os polígonos são convertidos em uma máscara semântica por imagem no momento do carregamento, classificados por área para que objetos menores substituam os maiores em regiões de sobreposição.
Multi-classe (N > 1 em names): uma classe background adicional é anexada após as suas classes declaradas para pixels não cobertos por qualquer polígono. O modelo é construído com N + 1 canais de saída e o último canal é o background.
Classe única (N == 1 em names): ainda treinado como 1 classe. A máscara é binária, com sua classe declarada mostrada como 1 e pixels não cobertos por qualquer polígono como 0. Nenhuma classe de background extra é adicionada a names.
Pixels adicionados por preenchimento de aumento (ex: recorte aleatório) ainda usam 255 como rótulo de ignorar.

Use este caminho quando seus dados já estiverem rotulados como polígonos de instância e você quiser um modelo de segmentação semântica a partir dos mesmos arquivos.

Link to this sectionFormato YAML de conjunto de dados#

Conjuntos de dados de segmentação semântica são configurados com arquivos YAML. Os campos principais são:

Chave	Descrição
`path`	Diretório raiz do conjunto de dados.
`train`	Caminho da imagem de treinamento relativo a `path`, ou um caminho absoluto.
`val`	Caminho da imagem de validação relativo a `path`, ou um caminho absoluto.
`test`	Caminho opcional de imagem de teste.
`masks_dir`	Nome do diretório usado para máscaras semânticas. Omita esta chave (sem uma pasta `masks/` na raiz do conjunto de dados) para mudar para o formato de rótulo de polígono YOLO.
`names`	Mapeamento de ID de classe para nome de classe.
`label_mapping`	Mapeamento opcional de IDs do conjunto de dados de origem para IDs de treinamento ou `ignore_label`.

ultralytics/cfg/datasets/cityscapes8.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Cityscapes semantic segmentation dataset (19 classes)
# Documentation: https://docs.ultralytics.com/datasets/semantic/cityscapes8
# Example usage: yolo semantic train data=cityscapes8.yaml model=yolo26n-sem.pt
# parent
# ├── ultralytics
# └── datasets
#     └── cityscapes8 ← downloads here (small subset)
#         └── images
#         └── masks

# Dataset root directory
path: cityscapes8 # dataset root dir
train: images/train # train images (relative to 'path') 4 images
val: images/val # val images (relative to 'path') 4 images

masks_dir: masks # semantic mask directory

# Cityscapes 19-class labels
names:
  0: road
  1: sidewalk
  2: building
  3: wall
  4: fence
  5: pole
  6: traffic light
  7: traffic sign
  8: vegetation
  9: terrain
  10: sky
  11: person
  12: rider
  13: car
  14: truck
  15: bus
  16: train
  17: motorcycle
  18: bicycle

# Map source label IDs to train IDs; ignore_label is converted to 255.
label_mapping:
  -1: ignore_label
  0: ignore_label
  1: ignore_label
  2: ignore_label
  3: ignore_label
  4: ignore_label
  5: ignore_label
  6: ignore_label
  7: 0
  8: 1
  9: ignore_label
  10: ignore_label
  11: 2
  12: 3
  13: 4
  14: ignore_label
  15: ignore_label
  16: ignore_label
  17: 5
  18: ignore_label
  19: 6
  20: 7
  21: 8
  22: 9
  23: 10
  24: 11
  25: 12
  26: 13
  27: 14
  28: 15
  29: ignore_label
  30: ignore_label
  31: 16
  32: 17
  33: 18

# Download URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/cityscapes8.zip

Use label_mapping quando os IDs da máscara de origem não corresponderem aos IDs de classe de treinamento contíguos. Cityscapes e ADE20K incluem mapeamentos que convertem IDs de rótulo originais em IDs de treino de segmentação semântica do YOLO e ignoram rótulos não utilizados.

Link to this sectionUso#

Treine um modelo de segmentação semântica YOLO26 com Python ou CLI:

Exemplo

from ultralytics import YOLO

# Load a pretrained semantic segmentation model
model = YOLO("yolo26n-sem.pt")

# Train on the Cityscapes8 semantic segmentation dataset
results = model.train(data="cityscapes8.yaml", epochs=100, imgsz=1024)

Link to this sectionDatasets suportados#

A Ultralytics fornece arquivos YAML de conjunto de dados de segmentação semântica para esses conjuntos de dados. Consulte a página de tarefas de segmentação semântica para a tabela completa de benchmark de modelos pré-treinados.

Cityscapes: Conjunto de dados de segmentação semântica de cena urbana de rua com 19 classes de treino.
Cityscapes8: Um subconjunto de Cityscapes de 8 imagens para testes rápidos e verificações de CI.
ADE20K: Conjunto de dados de análise de cena com 150 classes semânticas.

Link to this sectionAdicionando seu próprio conjunto de dados#

Link to this sectionOpção A — Máscaras PNG#

Salve suas imagens em pastas de divisão como images/train e images/val.
Salve uma máscara de canal único por imagem nas pastas de máscara espelhadas, como masks/train e masks/val.
Certifique-se de que os valores de pixel da máscara sejam IDs de classe. Use 255 para pixels que devem ser ignorados.
Crie um YAML de conjunto de dados com path, train, val, masks_dir e names.
Adicione label_mapping apenas quando seus IDs de máscara precisarem de conversão para IDs de treino contíguos.

path: path/to/my-semantic-dataset
train: images/train
val: images/val
masks_dir: masks

names:
    0: background
    1: road
    2: building

Link to this sectionOpção B — Rótulos de polígono#

Organize as imagens e arquivos de polígono .txt exatamente como para segmentação de instância.
Crie um YAML de conjunto de dados com path, train, val e names — omita masks_dir.
Certifique-se de que nenhuma pasta masks/ exista ao lado de suas imagens na raiz do conjunto de dados — sua simples presença alterna o carregador para o modo de máscara PNG, mesmo sem masks_dir no YAML.
Não adicione uma entrada "background" em names. Para conjuntos de dados multi-classe, o carregador anexa uma automaticamente; para conjuntos de dados de classe única, o treinamento permanece em 1 classe — sua classe declarada torna-se 1 na máscara e pixels descobertos tornam-se 0.

path: path/to/my-polygon-dataset
train: images/train
val: images/val

names:
    0: person
    1: car

A Plataforma Ultralytics oferece uma ferramenta de anotação de polígonos para a tarefa semântica, além de anotação inteligente assistida por SAM — anote diretamente no navegador e exporte ou treine no conjunto de dados resultante com rótulos de polígono sem configurar este layout manualmente.

Link to this sectionFAQ#

Link to this sectionQual a diferença entre máscaras de segmentação semântica e rótulos de segmentação de instância?#

Máscaras de segmentação semântica são mapas de pixels densos. Cada pixel armazena um ID de classe e existe uma imagem de máscara por imagem de treinamento. Os rótulos de segmentação de instância no Ultralytics YOLO usam arquivos de texto com coordenadas de polígono, uma linha por instância de objeto.

Link to this sectionQual valor de pixel é ignorado durante o treinamento?#

O valor de pixel 255 é usado como rótulo de ignorar. Esses pixels são pulados durante o cálculo de perda e métrica, o que é útil para regiões vazias, pixels não rotulados ou classes fora do conjunto de rótulos de treinamento.

Link to this sectionOs nomes dos arquivos de máscara precisam corresponder aos nomes dos arquivos de imagem?#

Sim. Cada máscara semântica deve ter o mesmo nome de arquivo que a imagem correspondente. O carregador de conjuntos de dados substitui o componente do diretório images por masks_dir e procura por arquivos de máscara correspondentes, recorrendo a outras extensões de imagem suportadas (.jpg, .tiff, etc.) se uma máscara .png não for encontrada — embora apenas formatos sem perdas sejam recomendados, já que o fallback não aplica isso.

Link to this sectionPosso usar IDs de rótulo de conjunto de dados original diretamente?#

Sim, se eles já corresponderem aos seus IDs de classe em names. Se o conjunto de dados de origem usar IDs não contíguos ou incluir rótulos que devem ser ignorados, adicione uma seção label_mapping para converter os valores de pixel de origem em IDs de treinamento.

Link to this sectionPosso usar meu conjunto de dados de segmentação de instância para treinar segmentação semântica?#

Sim. Conjuntos de dados de segmentação de instâncias usam rótulos de polígono YOLO da Ultralytics (um arquivo .txt por imagem com linhas <class-index> <x1> <y1> <x2> <y2> ...), e os mesmos arquivos podem ser reutilizados para segmentação semântica — apenas omita masks_dir do YAML do conjunto de dados e certifique-se de que nenhuma pasta masks/ exista ao lado de suas imagens na raiz do conjunto de dados (sua simples presença aciona o modo de máscara PNG mesmo sem masks_dir definido). O carregador então converte polígonos em máscaras por imagem em tempo real. Para conjuntos de dados com múltiplas classes (N > 1), uma classe background extra é anexada e o modelo é construído com N + 1 canais de saída. Para conjuntos de dados de classe única (N == 1), o treinamento permanece em 1 classe — a máscara mostra sua classe declarada como 1 e pixels não cobertos como 0.

Link to this sectionQuais conjuntos de dados acompanham a Ultralytics para segmentação semântica?#

A Ultralytics inclui arquivos YAML de conjunto de dados prontos para uso para Cityscapes (19 classes de cenas urbanas), o subconjunto leve Cityscapes8 para teste de pipeline, e ADE20K (150 classes de análise de cena). Cada página documenta a lista exata de classes, etapas de download e um exemplo de treinamento verificado.

Contribuidores

RAraimbekovm¹ MImiles-deans-ultralytics¹ GLglenn-jocher¹ LALaughing-q¹

Criado há 2 mesesAtualizado há 6 dias