Link to this sectionConjunto de datos ADE20K#

Name: Dataset de segmentación ADE20K
Creator: MIT CSAIL
License: https://ade20k.csail.mit.edu/terms
Keywords: Conjunto de datos ADE20K, segmentación semántica, análisis de escenas, Ultralytics YOLO, YOLO26, ADEChallengeData2016, computer vision, deep learning

El conjunto de datos ADE20K es un benchmark de segmentación semántica a gran escala de MIT CSAIL con 20.210 imágenes de entrenamiento y 2.000 de validación anotadas densamente en 150 categorías de interiores, exteriores, objetos y elementos. Es un recurso estándar para entrenar y evaluar modelos de comprensión de escenas densas con Ultralytics YOLO.

Link to this sectionCaracterísticas clave#

El benchmark SceneParsing completo de ADE20K suma un total de 25.562 imágenes: 20.210 para entrenamiento, 2.000 para validación y 3.352 para pruebas. Las anotaciones de las imágenes de prueba no se publican, por lo que el archivo descargable ADEChallengeData2016 y el archivo de configuración ade20k.yaml de Ultralytics solo utilizan las divisiones de entrenamiento y validación.
El conjunto de datos cubre 150 clases semánticas que abarcan categorías de interiores, exteriores, objetos y elementos.
Las anotaciones son máscaras de segmentación densa a nivel de píxel adecuadas para el análisis de escenas.

Link to this sectionEstructura del dataset#

La configuración de Ultralytics espera el diseño oficial de ADEChallengeData2016:

ADEChallengeData2016/
├── images/
│   ├── training/
│   └── validation/
└── annotations/
    ├── training/
    └── validation/

Descarga manual necesaria

ADE20K no tiene un script de descarga automática. Descarga el archivo ADEChallengeData2016.zip de ~1 GB y extráelo directamente en tu carpeta datasets/. La carpeta de nivel superior del propio archivo ya se llama ADEChallengeData2016/, por lo que esto crea datasets/ADEChallengeData2016/ que coincide con el diseño anterior; no crees tú mismo una carpeta ADEChallengeData2016 para extraerlo dentro, o terminarás con un directorio anidado datasets/ADEChallengeData2016/ADEChallengeData2016/ que el YAML no encontrará.

El campo masks_dir está establecido en annotations, por lo que cada imagen en images/ se empareja con su máscara correspondiente en annotations/. Las máscaras originales de ADE20K utilizan IDs de etiquetas de origen donde 0 se ignora, y la sección label_mapping convierte las etiquetas válidas de 1 a 150 en IDs de entrenamiento contiguos de 0 a 149, asignando los píxeles ignorados a 255.

Link to this sectionAplicaciones#

ADE20K se utiliza ampliamente para entrenar y evaluar modelos de deep learning en segmentación semántica y análisis de escenas. Su conjunto diverso de categorías y escenas complejas lo hacen valioso para aplicaciones como navegación autónoma, robótica, realidad aumentada y edición de imágenes.

La amplitud de escenas de interior y exterior también hace de ADE20K un benchmark sólido para evaluar la generalización de modelos entre dominios. Los modelos de segmentación semántica preentrenados YOLO26 alcanzan hasta 51,5 mIoU en el conjunto de validación de ADE20K; consulta la página de modelos de segmentación semántica para ver la tabla comparativa completa. Los conjuntos de datos en formato ADE20K también son totalmente compatibles con Ultralytics Platform para la gestión de conjuntos de datos y el entrenamiento.

Link to this sectionYAML del dataset#

Un archivo YAML del conjunto de datos define las rutas, clases, directorio de máscaras y asignación de etiquetas de ADE20K. El archivo ade20k.yaml se mantiene en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/ade20k.yaml.

ultralytics/cfg/datasets/ade20k.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# ADE20K semantic segmentation dataset (150 classes)
# Documentation: https://docs.ultralytics.com/datasets/semantic/ade20k
# Example usage: yolo semantic train data=ade20k.yaml model=yolo26n-sem.pt
# parent
# ├── ultralytics
# └── datasets
#     └── ADEChallengeData2016 ← downloads here (1 GB)
#         └── images
#         └── annotations

# Dataset root directory
path: ADEChallengeData2016
train: images/training
val: images/validation

masks_dir: annotations # semantic mask directory

# ADE20K 150-class labels
names:
  0: wall
  1: building
  2: sky
  3: floor
  4: tree
  5: ceiling
  6: road
  7: bed
  8: windowpane
  9: grass
  10: cabinet
  11: sidewalk
  12: person
  13: earth
  14: door
  15: table
  16: mountain
  17: plant
  18: curtain
  19: chair
  20: car
  21: water
  22: painting
  23: sofa
  24: shelf
  25: house
  26: sea
  27: mirror
  28: rug
  29: field
  30: armchair
  31: seat
  32: fence
  33: desk
  34: rock
  35: wardrobe
  36: lamp
  37: bathtub
  38: railing
  39: cushion
  40: base
  41: box
  42: column
  43: signboard
  44: chest of drawers
  45: counter
  46: sand
  47: sink
  48: skyscraper
  49: fireplace
  50: refrigerator
  51: grandstand
  52: path
  53: stairs
  54: runway
  55: case
  56: pool table
  57: pillow
  58: screen door
  59: stairway
  60: river
  61: bridge
  62: bookcase
  63: blind
  64: coffee table
  65: toilet
  66: flower
  67: book
  68: hill
  69: bench
  70: countertop
  71: stove
  72: palm
  73: kitchen island
  74: computer
  75: swivel chair
  76: boat
  77: bar
  78: arcade machine
  79: hovel
  80: bus
  81: towel
  82: light
  83: truck
  84: tower
  85: chandelier
  86: awning
  87: streetlight
  88: booth
  89: television receiver
  90: airplane
  91: dirt track
  92: apparel
  93: pole
  94: land
  95: bannister
  96: escalator
  97: ottoman
  98: bottle
  99: buffet
  100: poster
  101: stage
  102: van
  103: ship
  104: fountain
  105: conveyor belt
  106: canopy
  107: washer
  108: plaything
  109: swimming pool
  110: stool
  111: barrel
  112: basket
  113: waterfall
  114: tent
  115: bag
  116: minibike
  117: cradle
  118: oven
  119: ball
  120: food
  121: step
  122: tank
  123: trade name
  124: microwave
  125: pot
  126: animal
  127: bicycle
  128: lake
  129: dishwasher
  130: screen
  131: blanket
  132: sculpture
  133: hood
  134: sconce
  135: vase
  136: traffic light
  137: tray
  138: ashcan
  139: fan
  140: pier
  141: crt screen
  142: plate
  143: monitor
  144: bulletin board
  145: shower
  146: radiator
  147: glass
  148: clock
  149: flag

# Map source label IDs to train IDs; ignore_label is converted to 255.
label_mapping:
  0: ignore_label
  1: 0
  2: 1
  3: 2
  4: 3
  5: 4
  6: 5
  7: 6
  8: 7
  9: 8
  10: 9
  11: 10
  12: 11
  13: 12
  14: 13
  15: 14
  16: 15
  17: 16
  18: 17
  19: 18
  20: 19
  21: 20
  22: 21
  23: 22
  24: 23
  25: 24
  26: 25
  27: 26
  28: 27
  29: 28
  30: 29
  31: 30
  32: 31
  33: 32
  34: 33
  35: 34
  36: 35
  37: 36
  38: 37
  39: 38
  40: 39
  41: 40
  42: 41
  43: 42
  44: 43
  45: 44
  46: 45
  47: 46
  48: 47
  49: 48
  50: 49
  51: 50
  52: 51
  53: 52
  54: 53
  55: 54
  56: 55
  57: 56
  58: 57
  59: 58
  60: 59
  61: 60
  62: 61
  63: 62
  64: 63
  65: 64
  66: 65
  67: 66
  68: 67
  69: 68
  70: 69
  71: 70
  72: 71
  73: 72
  74: 73
  75: 74
  76: 75
  77: 76
  78: 77
  79: 78
  80: 79
  81: 80
  82: 81
  83: 82
  84: 83
  85: 84
  86: 85
  87: 86
  88: 87
  89: 88
  90: 89
  91: 90
  92: 91
  93: 92
  94: 93
  95: 94
  96: 95
  97: 96
  98: 97
  99: 98
  100: 99
  101: 100
  102: 101
  103: 102
  104: 103
  105: 104
  106: 105
  107: 106
  108: 107
  109: 108
  110: 109
  111: 110
  112: 111
  113: 112
  114: 113
  115: 114
  116: 115
  117: 116
  118: 117
  119: 118
  120: 119
  121: 120
  122: 121
  123: 122
  124: 123
  125: 124
  126: 125
  127: 126
  128: 127
  129: 128
  130: 129
  131: 130
  132: 131
  133: 132
  134: 133
  135: 134
  136: 135
  137: 136
  138: 137
  139: 138
  140: 139
  141: 140
  142: 141
  143: 142
  144: 143
  145: 144
  146: 145
  147: 146
  148: 147
  149: 148
  150: 149
# Download URL (manual): http://data.csail.mit.edu/places/ADEchallenge/ADEChallengeData2016.zip

Link to this sectionUso#

Para entrenar un modelo YOLO26n-sem en el conjunto de datos ADE20K durante 100 epochs con un tamaño de imagen de 512, puedes usar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de entrenamiento del modelo.

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)

Link to this sectionCitas, Licencia y Agradecimientos#

Las imágenes de ADE20K se publican solo para uso académico y de investigación no comercial; el software de anotación del conjunto de datos tiene una licencia independiente BSD-3. El uso comercial requiere permiso de MIT CSAIL.

Si utilizas el conjunto de datos ADE20K en tu investigación o trabajo de desarrollo, cita el siguiente artículo:

Cita

@inproceedings{zhou2017scene,
  title={Scene Parsing through ADE20K Dataset},
  author={Zhou, Bolei and Zhao, Hang and Puig, Xavier and Fidler, Sanja and Barriuso, Adela and Torralba, Antonio},
  booktitle={Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition},
  year={2017}
}

Nos gustaría agradecer al Grupo de Visión Artificial del MIT CSAIL por crear y mantener este valioso recurso para la comunidad de visión artificial. Para obtener más información sobre el conjunto de datos ADE20K y sus creadores, visita el sitio web del conjunto de datos ADE20K.

Link to this sectionFAQ#

Link to this section¿Qué es el conjunto de datos ADE20K y por qué es importante para la visión artificial?#

El conjunto de datos ADE20K es un benchmark de análisis de escenas a gran escala utilizado para la segmentación semántica, con 20.210 imágenes de entrenamiento y 2.000 de validación publicadas en 150 categorías que cubren clases de interiores, exteriores, objetos y elementos. Los investigadores utilizan ADE20K por sus escenas diversas, su conjunto de categorías detalladas y sus métricas de evaluación estandarizadas como la media de la intersección sobre la unión (mIoU), lo que lo hace ideal para evaluar modelos de predicción densa.

Link to this section¿Cómo puedo entrenar un modelo YOLO usando el conjunto de datos ADE20K?#

Para entrenar un modelo YOLO26n-sem en el conjunto de datos ADE20K durante 100 epochs con un tamaño de imagen de 512, puedes usar los siguientes fragmentos de código. Para obtener una lista detallada de los argumentos disponibles, consulta la página de entrenamiento del modelo.

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-sem.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="ade20k.yaml", epochs=100, imgsz=512)

Link to this section¿Cómo está estructurado el conjunto de datos ADE20K?#

El conjunto de datos ADE20K sigue el diseño oficial de ADEChallengeData2016, con imágenes organizadas en images/training/ e images/validation/, y las máscaras correspondientes en annotations/training/ y annotations/validation/. El archivo YAML de Ultralytics empareja cada imagen con su máscara mediante el campo masks_dir: annotations y utiliza label_mapping para convertir los IDs de etiquetas de origen del 1 al 150 en IDs de entrenamiento contiguos del 0 al 149, asignando la etiqueta de ignorar a 255.

Link to this section¿Debo descargar ADE20K manualmente?#

Sí. Descarga el archivo ADEChallengeData2016.zip (~1 GB) y extráelo directamente en tu carpeta datasets/ antes de entrenar; la carpeta de nivel superior del archivo ya se llama ADEChallengeData2016/, por lo que extraerlo allí (no en una carpeta ADEChallengeData2016 distinta que crees tú mismo) genera el diseño de images/ y annotations/ que espera ade20k.yaml.

Link to this section¿Por qué ADE20K utiliza `label_mapping`?#

Las máscaras de anotación de ADE20K almacenan IDs de etiquetas de origen donde 0 denota la clase de ignorar o fondo. La sección label_mapping asigna las etiquetas válidas de 1 a 150 a IDs de entrenamiento contiguos de 0 a 149, y asigna 255 a los píxeles ignorados para que se excluyan de la pérdida y las métricas durante el entrenamiento y la validación.

Link to this section¿Es el conjunto de datos ADE20K gratuito para uso comercial?#

No. Las imágenes de ADE20K se publican bajo términos que restringen su uso a la investigación no comercial y la educación; el software de anotación complementario tiene una licencia independiente BSD-3. Contacta con MIT CSAIL para conocer las opciones de licencia comercial.

Colaboradores

GLglenn-jocher³ RAraimbekovm² LALaughing-q¹

Creado hace 2 mesesActualizado hace 3 días