Датасет ADE20K
Датасет ADE20K — это крупномасштабный бенчмарк для семантической сегментации и семантического анализа сцен, выпущенный MIT CSAIL. Он предоставляет плотно аннотированные изображения, охватывающие широкое разнообразие категорий интерьеров, экстерьеров, объектов и фоновых элементов, что делает его важным ресурсом для исследователей и разработчиков, работающих над задачами плотного понимания сцен с моделями Ultralytics YOLO.
Ключевые особенности
- ADE20K содержит 20 210 обучающих изображений, 2 000 валидационных и 3 352 тестовых изображения.
- Датасет охватывает 150 семантических классов, распределенных по категориям интерьеров, экстерьеров, объектов и фоновых элементов.
- Аннотации представляют собой маски сегментации на уровне пикселей, подходящие для плотного анализа сцен.
Структура набора данных
Конфигурация Ultralytics ожидает структуру ADEChallengeData2016:
ADEChallengeData2016/
├── images/
│ ├── training/
│ └── validation/
└── annotations/
├── training/
└── validation/Поле masks_dir установлено как annotations, поэтому каждое изображение в директории images/ сопоставляется с соответствующей маской в annotations/. Оригинальные маски ADE20K используют исходные ID меток, где 0 игнорируется, а секция label_mapping преобразует валидные метки от 1 до 150 в последовательные train ID от 0 до 149, отображая игнорируемые пиксели в 255.
Применение
ADE20K широко используется для обучения и оценки моделей глубокого обучения в задачах семантической сегментации и анализа сцен. Его разнообразный набор категорий и сложные сцены делают его ценным для таких приложений, как автономная навигация, робототехника, дополненная реальность и редактирование изображений.
Широкий спектр сцен интерьеров и экстерьеров также делает ADE20K сильным бенчмарком для оценки обобщающей способности моделей в разных доменах.
YAML набора данных
YAML-файл датасета определяет пути к ADE20K, классы, директорию масок и сопоставление меток. Файл ade20k.yaml поддерживается по адресу https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/ade20k.yaml.
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# ADE20K semantic segmentation dataset (150 classes)
# Documentation: https://docs.ultralytics.com/datasets/semantic/ade20k/
# Example usage: yolo semantic train data=ade20k.yaml model=yolo26n-sem.pt
# parent
# ├── ultralytics
# └── datasets
# └── ADEChallengeData2016 ← downloads here (1 GB)
# └── images
# └── annotations
# Dataset root directory
path: ADEChallengeData2016
train: images/training
val: images/validation
masks_dir: annotations # semantic mask directory
# ADE20K 150-class labels
names:
0: wall
1: building
2: sky
3: floor
4: tree
5: ceiling
6: road
7: bed
8: windowpane
9: grass
10: cabinet
11: sidewalk
12: person
13: earth
14: door
15: table
16: mountain
17: plant
18: curtain
19: chair
20: car
21: water
22: painting
23: sofa
24: shelf
25: house
26: sea
27: mirror
28: rug
29: field
30: armchair
31: seat
32: fence
33: desk
34: rock
35: wardrobe
36: lamp
37: bathtub
38: railing
39: cushion
40: base
41: box
42: column
43: signboard
44: chest of drawers
45: counter
46: sand
47: sink
48: skyscraper
49: fireplace
50: refrigerator
51: grandstand
52: path
53: stairs
54: runway
55: case
56: pool table
57: pillow
58: screen door
59: stairway
60: river
61: bridge
62: bookcase
63: blind
64: coffee table
65: toilet
66: flower
67: book
68: hill
69: bench
70: countertop
71: stove
72: palm
73: kitchen island
74: computer
75: swivel chair
76: boat
77: bar
78: arcade machine
79: hovel
80: bus
81: towel
82: light
83: truck
84: tower
85: chandelier
86: awning
87: streetlight
88: booth
89: television receiver
90: airplane
91: dirt track
92: apparel
93: pole
94: land
95: bannister
96: escalator
97: ottoman
98: bottle
99: buffet
100: poster
101: stage
102: van
103: ship
104: fountain
105: conveyor belt
106: canopy
107: washer
108: plaything
109: swimming pool
110: stool
111: barrel
112: basket
113: waterfall
114: tent
115: bag
116: minibike
117: cradle
118: oven
119: ball
120: food
121: step
122: tank
123: trade name
124: microwave
125: pot
126: animal
127: bicycle
128: lake
129: dishwasher
130: screen
131: blanket
132: sculpture
133: hood
134: sconce
135: vase
136: traffic light
137: tray
138: ashcan
139: fan
140: pier
141: crt screen
142: plate
143: monitor
144: bulletin board
145: shower
146: radiator
147: glass
148: clock
149: flag
# Map source label IDs to train IDs; ignore_label is converted to 255.
label_mapping:
0: ignore_label
1: 0
2: 1
3: 2
4: 3
5: 4
6: 5
7: 6
8: 7
9: 8
10: 9
11: 10
12: 11
13: 12
14: 13
15: 14
16: 15
17: 16
18: 17
19: 18
20: 19
21: 20
22: 21
23: 22
24: 23
25: 24
26: 25
27: 26
28: 27
29: 28
30: 29
31: 30
32: 31
33: 32
34: 33
35: 34
36: 35
37: 36
38: 37
39: 38
40: 39
41: 40
42: 41
43: 42
44: 43
45: 44
46: 45
47: 46
48: 47
49: 48
50: 49
51: 50
52: 51
53: 52
54: 53
55: 54
56: 55
57: 56
58: 57
59: 58
60: 59
61: 60
62: 61
63: 62
64: 63
65: 64
66: 65
67: 66
68: 67
69: 68
70: 69
71: 70
72: 71
73: 72
74: 73
75: 74
76: 75
77: 76
78: 77
79: 78
80: 79
81: 80
82: 81
83: 82
84: 83
85: 84
86: 85
87: 86
88: 87
89: 88
90: 89
91: 90
92: 91
93: 92
94: 93
95: 94
96: 95
97: 96
98: 97
99: 98
100: 99
101: 100
102: 101
103: 102
104: 103
105: 104
106: 105
107: 106
108: 107
109: 108
110: 109
111: 110
112: 111
113: 112
114: 113
115: 114
116: 115
117: 116
118: 117
119: 118
120: 119
121: 120
122: 121
123: 122
124: 123
125: 124
126: 125
127: 126
128: 127
129: 128
130: 129
131: 130
132: 131
133: 132
134: 133
135: 134
136: 135
137: 136
138: 137
139: 138
140: 139
141: 140
142: 141
143: 142
144: 143
145: 144
146: 145
147: 146
148: 147
149: 148
150: 149
# Download URL (manual): http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zipИспользование
Чтобы обучить модель YOLO26n-sem на датасете ADE20K в течение 100 эпох с размером изображения 512, ты можешь использовать следующие фрагменты кода. Полный список доступных аргументов смотри на странице обучения модели.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)Цитирование и благодарности
Если ты используешь датасет ADE20K в своей исследовательской или проектной работе, пожалуйста, сошлися на следующую статью:
@inproceedings{zhou2017scene,
title={Scene Parsing through ADE20K Dataset},
author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}Мы хотели бы поблагодарить MIT CSAIL Computer Vision Group за создание и поддержку этого ценного ресурса для сообщества компьютерного зрения. Для получения дополнительной информации о датасете ADE20K и его создателях посети веб-сайт датасета ADE20K.
Часто задаваемые вопросы (FAQ)
Что такое датасет ADE20K и почему он важен для компьютерного зрения?
Датасет ADE20K — это крупномасштабный бенчмарк для семантического анализа сцен, используемый для семантической сегментации. Он содержит 25 562 плотно аннотированных изображения по 150 категориям, охватывающим интерьеры, экстерьеры, объекты и фоновые элементы. Исследователи используют ADE20K из-за разнообразия сцен, детализированного набора категорий и стандартизированных метрик оценки, таких как среднее пересечение по объединению (mIoU), что делает его идеальным для бенчмаркинга моделей плотного прогнозирования.
Как я могу обучить модель YOLO, используя датасет ADE20K?
Чтобы обучить модель YOLO26n-sem на датасете ADE20K в течение 100 эпох с размером изображения 512, ты можешь использовать следующие фрагменты кода. Детальный список доступных аргументов можно найти на странице обучения модели.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)Как структурирован датасет ADE20K?
Датасет ADE20K следует официальной структуре ADEChallengeData2016, где изображения организованы в images/training/ и images/validation/, а соответствующие маски — в annotations/training/ и annotations/validation/. YAML-файл Ultralytics сопоставляет каждое изображение с его маской через поле masks_dir: annotations и использует label_mapping для преобразования исходных ID меток 1–150 в последовательные train ID 0–149, при этом метка игнорирования отображается в 255.
Зачем ADE20K использует label_mapping?
Маски аннотаций ADE20K содержат исходные ID меток, где 0 обозначает игнорируемый или фоновый класс. Секция label_mapping отображает валидные метки от 1 до 150 в последовательные train ID от 0 до 149, а игнорируемым пикселям присваивает 255, чтобы они исключались из потерь и метрик во время обучения и валидации.