Dataset ADE20K
O dataset ADE20K é um benchmark de larga escala para segmentação semântica e análise de cena lançado pelo MIT CSAIL. Ele fornece imagens densamente anotadas cobrindo uma ampla variedade de categorias de interiores, exteriores, objetos e coisas, tornando-o um recurso essencial para pesquisadores e desenvolvedores que trabalham em tarefas de compreensão densa de cenas com modelos Ultralytics YOLO.
Principais Recursos
- O ADE20K contém 20.210 imagens de treinamento, 2.000 imagens de validação e 3.352 imagens de teste.
- O dataset cobre 150 classes semânticas abrangendo categorias de interiores, exteriores, objetos e coisas.
- As anotações são máscaras de segmentação ao nível do pixel adequadas para análise densa de cenas.
Estrutura do conjunto de dados
A configuração da Ultralytics espera o layout oficial do ADEChallengeData2016:
ADEChallengeData2016/
├── images/
│ ├── training/
│ └── validation/
└── annotations/
├── training/
└── validation/O campo masks_dir é definido como annotations, portanto, cada imagem em images/ é pareada com sua máscara correspondente em annotations/. As máscaras originais do ADE20K usam IDs de rótulo de origem onde 0 é ignorado, e a seção label_mapping converte rótulos válidos de 1 a 150 para IDs de treino contíguos de 0 a 149, mapeando pixels ignorados para 255.
Aplicações
O ADE20K é amplamente utilizado para treinar e avaliar modelos de deep learning em segmentação semântica e análise de cena. Seu conjunto diversificado de categorias e cenas complexas o torna valioso para aplicações como navegação autônoma, robótica, realidade aumentada e edição de imagem.
A amplitude de cenas internas e externas também torna o ADE20K um benchmark robusto para avaliar a generalização de modelos entre domínios.
YAML do conjunto de dados
Um arquivo YAML de dataset define os caminhos, classes, diretório de máscaras e mapeamento de rótulos do ADE20K. O arquivo ade20k.yaml é mantido em https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/ade20k.yaml.
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# ADE20K semantic segmentation dataset (150 classes)
# Documentation: https://docs.ultralytics.com/datasets/semantic/ade20k/
# Example usage: yolo semantic train data=ade20k.yaml model=yolo26n-sem.pt
# parent
# ├── ultralytics
# └── datasets
# └── ADEChallengeData2016 ← downloads here (1 GB)
# └── images
# └── annotations
# Dataset root directory
path: ADEChallengeData2016
train: images/training
val: images/validation
masks_dir: annotations # semantic mask directory
# ADE20K 150-class labels
names:
0: wall
1: building
2: sky
3: floor
4: tree
5: ceiling
6: road
7: bed
8: windowpane
9: grass
10: cabinet
11: sidewalk
12: person
13: earth
14: door
15: table
16: mountain
17: plant
18: curtain
19: chair
20: car
21: water
22: painting
23: sofa
24: shelf
25: house
26: sea
27: mirror
28: rug
29: field
30: armchair
31: seat
32: fence
33: desk
34: rock
35: wardrobe
36: lamp
37: bathtub
38: railing
39: cushion
40: base
41: box
42: column
43: signboard
44: chest of drawers
45: counter
46: sand
47: sink
48: skyscraper
49: fireplace
50: refrigerator
51: grandstand
52: path
53: stairs
54: runway
55: case
56: pool table
57: pillow
58: screen door
59: stairway
60: river
61: bridge
62: bookcase
63: blind
64: coffee table
65: toilet
66: flower
67: book
68: hill
69: bench
70: countertop
71: stove
72: palm
73: kitchen island
74: computer
75: swivel chair
76: boat
77: bar
78: arcade machine
79: hovel
80: bus
81: towel
82: light
83: truck
84: tower
85: chandelier
86: awning
87: streetlight
88: booth
89: television receiver
90: airplane
91: dirt track
92: apparel
93: pole
94: land
95: bannister
96: escalator
97: ottoman
98: bottle
99: buffet
100: poster
101: stage
102: van
103: ship
104: fountain
105: conveyor belt
106: canopy
107: washer
108: plaything
109: swimming pool
110: stool
111: barrel
112: basket
113: waterfall
114: tent
115: bag
116: minibike
117: cradle
118: oven
119: ball
120: food
121: step
122: tank
123: trade name
124: microwave
125: pot
126: animal
127: bicycle
128: lake
129: dishwasher
130: screen
131: blanket
132: sculpture
133: hood
134: sconce
135: vase
136: traffic light
137: tray
138: ashcan
139: fan
140: pier
141: crt screen
142: plate
143: monitor
144: bulletin board
145: shower
146: radiator
147: glass
148: clock
149: flag
# Map source label IDs to train IDs; ignore_label is converted to 255.
label_mapping:
0: ignore_label
1: 0
2: 1
3: 2
4: 3
5: 4
6: 5
7: 6
8: 7
9: 8
10: 9
11: 10
12: 11
13: 12
14: 13
15: 14
16: 15
17: 16
18: 17
19: 18
20: 19
21: 20
22: 21
23: 22
24: 23
25: 24
26: 25
27: 26
28: 27
29: 28
30: 29
31: 30
32: 31
33: 32
34: 33
35: 34
36: 35
37: 36
38: 37
39: 38
40: 39
41: 40
42: 41
43: 42
44: 43
45: 44
46: 45
47: 46
48: 47
49: 48
50: 49
51: 50
52: 51
53: 52
54: 53
55: 54
56: 55
57: 56
58: 57
59: 58
60: 59
61: 60
62: 61
63: 62
64: 63
65: 64
66: 65
67: 66
68: 67
69: 68
70: 69
71: 70
72: 71
73: 72
74: 73
75: 74
76: 75
77: 76
78: 77
79: 78
80: 79
81: 80
82: 81
83: 82
84: 83
85: 84
86: 85
87: 86
88: 87
89: 88
90: 89
91: 90
92: 91
93: 92
94: 93
95: 94
96: 95
97: 96
98: 97
99: 98
100: 99
101: 100
102: 101
103: 102
104: 103
105: 104
106: 105
107: 106
108: 107
109: 108
110: 109
111: 110
112: 111
113: 112
114: 113
115: 114
116: 115
117: 116
118: 117
119: 118
120: 119
121: 120
122: 121
123: 122
124: 123
125: 124
126: 125
127: 126
128: 127
129: 128
130: 129
131: 130
132: 131
133: 132
134: 133
135: 134
136: 135
137: 136
138: 137
139: 138
140: 139
141: 140
142: 141
143: 142
144: 143
145: 144
146: 145
147: 146
148: 147
149: 148
150: 149
# Download URL (manual): http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zipUso
Para treinar um modelo YOLO26n-sem no dataset ADE20K por 100 epochs com um tamanho de imagem de 512, podes usar os seguintes trechos de código. Para uma lista completa de argumentos disponíveis, consulta a página de Treinamento do modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)Citações e Agradecimentos
Se usares o dataset ADE20K no teu trabalho de pesquisa ou desenvolvimento, por favor cita o seguinte artigo:
@inproceedings{zhou2017scene,
title={Scene Parsing through ADE20K Dataset},
author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}Gostaríamos de agradecer ao Grupo de Visão Computacional do MIT CSAIL por criar e manter este recurso valioso para a comunidade de visão computacional. Para mais informações sobre o dataset ADE20K e seus criadores, visita o site do dataset ADE20K.
Perguntas Frequentes
O que é o dataset ADE20K e por que é importante para a visão computacional?
O dataset ADE20K é um benchmark de análise de cena em larga escala usado para segmentação semântica. Ele contém 25.562 imagens densamente anotadas em 150 categorias cobrindo classes de interiores, exteriores, objetos e coisas. Pesquisadores usam o ADE20K devido às suas cenas diversas, conjunto de categorias refinado e métricas de avaliação padronizadas, como a Intersection over Union média (mIoU), que o tornam ideal para fazer benchmarking de modelos de predição densa.
Como posso treinar um modelo YOLO usando o dataset ADE20K?
Para treinar um modelo YOLO26n-sem no dataset ADE20K por 100 epochs com um tamanho de imagem de 512, podes usar os seguintes trechos de código. Para uma lista detalhada de argumentos disponíveis, consulta a página de Treinamento do modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)Como o dataset ADE20K é estruturado?
O dataset ADE20K segue o layout oficial do ADEChallengeData2016, com imagens organizadas em images/training/ e images/validation/, e as máscaras correspondentes em annotations/training/ e annotations/validation/. O arquivo YAML da Ultralytics pareia cada imagem com sua máscara através do campo masks_dir: annotations e usa label_mapping para converter IDs de rótulo de origem de 1 a 150 em IDs de treino contíguos de 0 a 149, mapeando o rótulo de ignorar para 255.
Por que o ADE20K usa label_mapping?
As máscaras de anotação do ADE20K armazenam IDs de rótulo de origem onde 0 denota a classe de ignorar ou fundo. A seção label_mapping mapeia rótulos válidos de 1 a 150 para IDs de treino contíguos de 0 a 149 e atribui 255 aos pixels ignorados, para que sejam excluídos da perda e das métricas durante o treinamento e a validação.