Ir al contenido

Conjunto de datos de COV

El conjunto de datos PASCAL VOC (Visual Object Classes) es un conocido conjunto de datos de detección, segmentación y clasificación de objetos. Está diseñado para fomentar la investigación sobre una amplia variedad de categorías de objetos y se utiliza habitualmente para la evaluación comparativa de modelos de visión por ordenador. Se trata de un conjunto de datos esencial para investigadores y desarrolladores que trabajan en tareas de detección, segmentación y clasificación de objetos.

Características principales

  • El conjunto de datos VOC incluye dos retos principales: VOC2007 y VOC2012.
  • El conjunto de datos comprende 20 categorías de objetos, incluidos objetos comunes como coches, bicicletas y animales, así como categorías más específicas como barcos, sofás y mesas de comedor.
  • Las anotaciones incluyen cuadros delimitadores de objetos y etiquetas de clase para las tareas de detección y clasificación de objetos, y máscaras de segmentación para las tareas de segmentación.
  • VOC proporciona métricas de evaluación estandarizadas como la precisión media (mAP) para la detección y clasificación de objetos, lo que la hace adecuada para comparar el rendimiento de los modelos.

Estructura del conjunto de datos

El conjunto de datos VOC se divide en tres subconjuntos:

  1. Entrenamiento: Este subconjunto contiene imágenes para entrenar los modelos de detección, segmentación y clasificación de objetos.
  2. Validación: Este subconjunto tiene imágenes utilizadas con fines de validación durante el entrenamiento del modelo.
  3. Prueba: Este subconjunto consiste en imágenes utilizadas para probar y evaluar los modelos entrenados. Las anotaciones de la verdad sobre el terreno para este subconjunto no están disponibles públicamente, y los resultados se envían al servidor de evaluación PASCAL VOC para evaluar el rendimiento.

Aplicaciones

El conjunto de datos VOC se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en detección de objetos (como YOLO, Faster R-CNN y SSD), segmentación de instancias (como Mask R-CNN) y clasificación de imágenes. La diversidad de categorías de objetos del conjunto de datos, el gran número de imágenes anotadas y las métricas de evaluación estandarizadas lo convierten en un recurso esencial para los investigadores y profesionales de la visión por ordenador.

Conjunto de datos YAML

Para definir la configuración del conjunto de datos se utiliza un archivo YAML (Yet Another Markup Language). Contiene información sobre las rutas del conjunto de datos, las clases y otra información relevante. En el caso del conjunto de datos COV, el archivo VOC.yaml se mantiene en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/VOC.yaml.

ultralytics/cfg/datasets/VOC.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# PASCAL VOC dataset http://host.robots.ox.ac.uk/pascal/VOC by University of Oxford
# Documentation: # Documentation: https://docs.ultralytics.com/datasets/detect/voc/
# Example usage: yolo train data=VOC.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── VOC  ← downloads here (2.8 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/VOC
train: # train images (relative to 'path')  16551 images
  - images/train2012
  - images/train2007
  - images/val2012
  - images/val2007
val: # val images (relative to 'path')  4952 images
  - images/test2007
test: # test images (optional)
  - images/test2007

# Classes
names:
  0: aeroplane
  1: bicycle
  2: bird
  3: boat
  4: bottle
  5: bus
  6: car
  7: cat
  8: chair
  9: cow
  10: diningtable
  11: dog
  12: horse
  13: motorbike
  14: person
  15: pottedplant
  16: sheep
  17: sofa
  18: train
  19: tvmonitor

# Download script/URL (optional) ---------------------------------------------------------------------------------------
download: |
  import xml.etree.ElementTree as ET

  from tqdm import tqdm
  from ultralytics.utils.downloads import download
  from pathlib import Path

  def convert_label(path, lb_path, year, image_id):
      def convert_box(size, box):
          dw, dh = 1. / size[0], 1. / size[1]
          x, y, w, h = (box[0] + box[1]) / 2.0 - 1, (box[2] + box[3]) / 2.0 - 1, box[1] - box[0], box[3] - box[2]
          return x * dw, y * dh, w * dw, h * dh

      in_file = open(path / f'VOC{year}/Annotations/{image_id}.xml')
      out_file = open(lb_path, 'w')
      tree = ET.parse(in_file)
      root = tree.getroot()
      size = root.find('size')
      w = int(size.find('width').text)
      h = int(size.find('height').text)

      names = list(yaml['names'].values())  # names list
      for obj in root.iter('object'):
          cls = obj.find('name').text
          if cls in names and int(obj.find('difficult').text) != 1:
              xmlbox = obj.find('bndbox')
              bb = convert_box((w, h), [float(xmlbox.find(x).text) for x in ('xmin', 'xmax', 'ymin', 'ymax')])
              cls_id = names.index(cls)  # class id
              out_file.write(" ".join(str(a) for a in (cls_id, *bb)) + '\n')


  # Download
  dir = Path(yaml['path'])  # dataset root dir
  url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
  urls = [f'{url}VOCtrainval_06-Nov-2007.zip',  # 446MB, 5012 images
          f'{url}VOCtest_06-Nov-2007.zip',  # 438MB, 4953 images
          f'{url}VOCtrainval_11-May-2012.zip']  # 1.95GB, 17126 images
  download(urls, dir=dir / 'images', curl=True, threads=3, exist_ok=True)  # download and unzip over existing paths (required)

  # Convert
  path = dir / 'images/VOCdevkit'
  for year, image_set in ('2012', 'train'), ('2012', 'val'), ('2007', 'train'), ('2007', 'val'), ('2007', 'test'):
      imgs_path = dir / 'images' / f'{image_set}{year}'
      lbs_path = dir / 'labels' / f'{image_set}{year}'
      imgs_path.mkdir(exist_ok=True, parents=True)
      lbs_path.mkdir(exist_ok=True, parents=True)

      with open(path / f'VOC{year}/ImageSets/Main/{image_set}.txt') as f:
          image_ids = f.read().strip().split()
      for id in tqdm(image_ids, desc=f'{image_set}{year}'):
          f = path / f'VOC{year}/JPEGImages/{id}.jpg'  # old img path
          lb_path = (lbs_path / f.name).with_suffix('.txt')  # new label path
          f.rename(imgs_path / f.name)  # move image
          convert_label(path, lb_path, year, id)  # convert labels to YOLO format

Utilización

Para entrenar un modelo YOLO11n en el conjunto de datos VOC durante 100 épocas con un tamaño de imagen de 640, puede utilizar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulte la página de entrenamiento del modelo.

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="VOC.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=VOC.yaml model=yolo11n.pt epochs=100 imgsz=640

Ejemplos de imágenes y anotaciones

El conjunto de datos VOC contiene un variado conjunto de imágenes con diversas categorías de objetos y escenas complejas. A continuación se muestran algunos ejemplos de imágenes del conjunto de datos, junto con sus correspondientes anotaciones:

Imagen de muestra del conjunto de datos

  • Imagen en mosaico: Esta imagen muestra un lote de entrenamiento compuesto por imágenes del conjunto de datos en mosaico. El mosaico es una técnica utilizada durante el entrenamiento que combina varias imágenes en una sola para aumentar la variedad de objetos y escenas dentro de cada lote de entrenamiento. Esto ayuda a mejorar la capacidad del modelo para generalizar a diferentes tamaños de objetos, relaciones de aspecto y contextos.

El ejemplo muestra la variedad y complejidad de las imágenes del conjunto de datos VOC y las ventajas de utilizar mosaicos durante el proceso de formación.

Citas y agradecimientos

Si utiliza el conjunto de datos VOC en su trabajo de investigación o desarrollo, cite el siguiente documento:

@misc{everingham2010pascal,
      title={The PASCAL Visual Object Classes (VOC) Challenge},
      author={Mark Everingham and Luc Van Gool and Christopher K. I. Williams and John Winn and Andrew Zisserman},
      year={2010},
      eprint={0909.5206},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Queremos agradecer al Consorcio PASCAL VOC la creación y el mantenimiento de este valioso recurso para la comunidad de visión por ordenador. Para más información sobre el conjunto de datos VOC y sus creadores, visite el sitio web del conjunto de datos PASCAL VOC.

PREGUNTAS FRECUENTES

¿Qué es el conjunto de datos PASCAL VOC y por qué es importante para las tareas de visión por ordenador?

El conjunto de datos PASCAL VOC (Visual Object Classes) es una referencia reconocida para la detección, segmentación y clasificación de objetos en visión por ordenador. Incluye anotaciones exhaustivas como cuadros delimitadores, etiquetas de clase y máscaras de segmentación de 20 categorías de objetos diferentes. Los investigadores lo utilizan ampliamente para evaluar el rendimiento de modelos como Faster R-CNN, YOLO y Mask R-CNN gracias a sus métricas de evaluación estandarizadas, como la precisión media (mAP).

¿Cómo se entrena un modelo YOLO11 utilizando el conjunto de datos VOC?

Para entrenar un modelo YOLO11 con el conjunto de datos VOC, necesita la configuración del conjunto de datos en un archivo YAML. Este es un ejemplo para empezar a entrenar un modelo YOLO11n para 100 épocas con un tamaño de imagen de 640:

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="VOC.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=VOC.yaml model=yolo11n.pt epochs=100 imgsz=640

¿Cuáles son los principales retos incluidos en el conjunto de datos VOC?

El conjunto de datos VOC incluye dos retos principales: VOC2007 y VOC2012. Estos retos ponen a prueba la detección, segmentación y clasificación de objetos en 20 categorías diferentes. Cada imagen está meticulosamente anotada con cuadros delimitadores, etiquetas de clase y máscaras de segmentación. Los retos proporcionan métricas estandarizadas, como mAP, que facilitan la comparación y la evaluación comparativa de distintos modelos de visión por ordenador.

¿Cómo mejora el conjunto de datos PASCAL VOC la evaluación comparativa de modelos?

El conjunto de datos PASCAL VOC mejora la evaluación comparativa de modelos gracias a sus anotaciones detalladas y métricas estandarizadas como la precisión media (mAP). Estas métricas son cruciales para evaluar el rendimiento de los modelos de detección y clasificación de objetos. Las diversas y complejas imágenes del conjunto de datos garantizan una evaluación exhaustiva de los modelos en diversos escenarios del mundo real.

¿Cómo se utiliza el conjunto de datos VOC para la segmentación semántica en los modelos YOLO ?

Para utilizar el conjunto de datos VOC en tareas de segmentación semántica con modelos YOLO , es necesario configurarlo adecuadamente en un archivo YAML. El archivo YAML define las rutas y clases necesarias para el entrenamiento de los modelos de segmentación. Consulte el archivo de configuración YAML del conjunto de datos VOC en VOC.yaml para obtener una configuración detallada.

Creado hace 1 año ✏️ Actualizado hace 3 meses

Comentarios