ADE20K データセット
ADE20K データセットは、MIT CSAIL が公開した大規模なセマンティックセグメンテーションおよびシーン解析のベンチマークです。屋内、屋外、オブジェクト、スタッフ(素材など)といった幅広いカテゴリをカバーする詳細なアノテーション付き画像を提供しており、Ultralytics YOLO モデルを用いた高密度なシーン理解タスクに取り組む研究者や開発者にとって不可欠なリソースとなっています。
主な機能
- ADE20K には、トレーニング用画像 20,210 枚、検証用画像 2,000 枚、テスト用画像 3,352 枚が含まれています。
- このデータセットは、屋内、屋外、オブジェクト、スタッフのカテゴリにわたる 150 のセマンティッククラスをカバーしています。
- アノテーションは、高密度なシーン解析に適したピクセルレベルのセグメンテーションマスクです。
データセット構造
Ultralytics の設定では、公式の ADEChallengeData2016 レイアウトを想定しています。
ADEChallengeData2016/
├── images/
│ ├── training/
│ └── validation/
└── annotations/
├── training/
└── validation/masks_dir フィールドは annotations に設定されており、images/ 以下の各画像は annotations/ 以下の対応するマスクとペアになっています。元の ADE20K マスクは 0 が無視されるソースラベル ID を使用しており、label_mapping セクションは有効なラベル 1 から 150 を連続するトレーニング ID 0 から 149 に変換し、無視されるピクセルを 255 にマッピングします。
アプリケーション
ADE20K は、セマンティックセグメンテーションやシーン解析におけるディープラーニングモデルのトレーニングと評価に広く使用されています。その多様なカテゴリセットと複雑なシーンは、自律航法、ロボティクス、拡張現実(AR)、画像編集などのアプリケーションにとって価値があります。
また、屋内と屋外のシーンが豊富であるため、ADE20K はドメイン間でのモデルの汎化性能を評価するための強力なベンチマークにもなっています。
データセットYAML
データセットの YAML ファイルには、ADE20K のパス、クラス、マスクディレクトリ、ラベルマッピングが定義されています。ade20k.yaml ファイルは https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/ade20k.yaml で管理されています。
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# ADE20K semantic segmentation dataset (150 classes)
# Documentation: https://docs.ultralytics.com/datasets/semantic/ade20k/
# Example usage: yolo semantic train data=ade20k.yaml model=yolo26n-sem.pt
# parent
# ├── ultralytics
# └── datasets
# └── ADEChallengeData2016 ← downloads here (1 GB)
# └── images
# └── annotations
# Dataset root directory
path: ADEChallengeData2016
train: images/training
val: images/validation
masks_dir: annotations # semantic mask directory
# ADE20K 150-class labels
names:
0: wall
1: building
2: sky
3: floor
4: tree
5: ceiling
6: road
7: bed
8: windowpane
9: grass
10: cabinet
11: sidewalk
12: person
13: earth
14: door
15: table
16: mountain
17: plant
18: curtain
19: chair
20: car
21: water
22: painting
23: sofa
24: shelf
25: house
26: sea
27: mirror
28: rug
29: field
30: armchair
31: seat
32: fence
33: desk
34: rock
35: wardrobe
36: lamp
37: bathtub
38: railing
39: cushion
40: base
41: box
42: column
43: signboard
44: chest of drawers
45: counter
46: sand
47: sink
48: skyscraper
49: fireplace
50: refrigerator
51: grandstand
52: path
53: stairs
54: runway
55: case
56: pool table
57: pillow
58: screen door
59: stairway
60: river
61: bridge
62: bookcase
63: blind
64: coffee table
65: toilet
66: flower
67: book
68: hill
69: bench
70: countertop
71: stove
72: palm
73: kitchen island
74: computer
75: swivel chair
76: boat
77: bar
78: arcade machine
79: hovel
80: bus
81: towel
82: light
83: truck
84: tower
85: chandelier
86: awning
87: streetlight
88: booth
89: television receiver
90: airplane
91: dirt track
92: apparel
93: pole
94: land
95: bannister
96: escalator
97: ottoman
98: bottle
99: buffet
100: poster
101: stage
102: van
103: ship
104: fountain
105: conveyor belt
106: canopy
107: washer
108: plaything
109: swimming pool
110: stool
111: barrel
112: basket
113: waterfall
114: tent
115: bag
116: minibike
117: cradle
118: oven
119: ball
120: food
121: step
122: tank
123: trade name
124: microwave
125: pot
126: animal
127: bicycle
128: lake
129: dishwasher
130: screen
131: blanket
132: sculpture
133: hood
134: sconce
135: vase
136: traffic light
137: tray
138: ashcan
139: fan
140: pier
141: crt screen
142: plate
143: monitor
144: bulletin board
145: shower
146: radiator
147: glass
148: clock
149: flag
# Map source label IDs to train IDs; ignore_label is converted to 255.
label_mapping:
0: ignore_label
1: 0
2: 1
3: 2
4: 3
5: 4
6: 5
7: 6
8: 7
9: 8
10: 9
11: 10
12: 11
13: 12
14: 13
15: 14
16: 15
17: 16
18: 17
19: 18
20: 19
21: 20
22: 21
23: 22
24: 23
25: 24
26: 25
27: 26
28: 27
29: 28
30: 29
31: 30
32: 31
33: 32
34: 33
35: 34
36: 35
37: 36
38: 37
39: 38
40: 39
41: 40
42: 41
43: 42
44: 43
45: 44
46: 45
47: 46
48: 47
49: 48
50: 49
51: 50
52: 51
53: 52
54: 53
55: 54
56: 55
57: 56
58: 57
59: 58
60: 59
61: 60
62: 61
63: 62
64: 63
65: 64
66: 65
67: 66
68: 67
69: 68
70: 69
71: 70
72: 71
73: 72
74: 73
75: 74
76: 75
77: 76
78: 77
79: 78
80: 79
81: 80
82: 81
83: 82
84: 83
85: 84
86: 85
87: 86
88: 87
89: 88
90: 89
91: 90
92: 91
93: 92
94: 93
95: 94
96: 95
97: 96
98: 97
99: 98
100: 99
101: 100
102: 101
103: 102
104: 103
105: 104
106: 105
107: 106
108: 107
109: 108
110: 109
111: 110
112: 111
113: 112
114: 113
115: 114
116: 115
117: 116
118: 117
119: 118
120: 119
121: 120
122: 121
123: 122
124: 123
125: 124
126: 125
127: 126
128: 127
129: 128
130: 129
131: 130
132: 131
133: 132
134: 133
135: 134
136: 135
137: 136
138: 137
139: 138
140: 139
141: 140
142: 141
143: 142
144: 143
145: 144
146: 145
147: 146
148: 147
149: 148
150: 149
# Download URL (manual): http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip使用方法
ADE20K データセットで YOLO26n-sem モデルを画像サイズ 512 で 100 エポック分トレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルのトレーニングページを参照してください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)引用と謝辞
研究や開発において ADE20K データセットを使用する場合は、以下の論文を引用してください。
@inproceedings{zhou2017scene,
title={Scene Parsing through ADE20K Dataset},
author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
year={2017}
}コンピュータビジョンコミュニティのためにこの貴重なリソースを作成・維持してくださった MIT CSAIL Computer Vision Group に感謝いたします。ADE20K データセットとその作成者に関する詳細については、ADE20K データセットのウェブサイトをご覧ください。
FAQ
ADE20K データセットとは何か、そしてなぜそれがコンピュータビジョンにとって重要なのでしょうか?
ADE20K データセットは、セマンティックセグメンテーションに使用される大規模なシーン解析ベンチマークです。これには、屋内、屋外、オブジェクト、スタッフクラスを網羅した 150 カテゴリ、合計 25,562 枚の詳細なアノテーション付き画像が含まれています。研究者が ADE20K を使用する理由は、その多様なシーン、きめ細かいカテゴリセット、そして mean Intersection over Union (mIoU) のような標準化された評価指標にあり、高密度予測モデルのベンチマークに最適だからです。
ADE20K データセットを使用して YOLO モデルをトレーニングするにはどうすればよいですか?
ADE20K データセットで YOLO26n-sem モデルを画像サイズ 512 で 100 エポック分トレーニングするには、以下のコードスニペットを使用できます。利用可能な引数の詳細なリストについては、モデルのトレーニングページを参照してください。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-sem.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)ADE20K データセットはどのように構成されていますか?
ADE20K データセットは公式の ADEChallengeData2016 レイアウトに従っており、画像は images/training/ および images/validation/ に整理され、対応するマスクは annotations/training/ および annotations/validation/ に格納されています。Ultralytics の YAML ファイルは masks_dir: annotations フィールドを介して各画像とマスクをペアにし、label_mapping を使用してソースラベル ID 1~150 を連続するトレーニング ID 0~149 に変換し、無視ラベルを 255 にマッピングします。
なぜ ADE20K は label_mapping を使用するのですか?
ADE20K のアノテーションマスクはソースラベル ID を保持しており、0 は無視または背景クラスを示します。label_mapping セクションは、有効なラベル 1 から 150 を連続するトレーニング ID 0 から 149 にマッピングし、無視されるピクセルに 255 を割り当てることで、トレーニングや検証中の損失計算や評価指標から除外されるようにしています。