Ir al contenido

Conjunto de Datos Dog-Pose

Introducción

El conjunto de datos Dog-pose de Ultralytics es un conjunto de datos extenso y de alta calidad, creado específicamente para la estimación de puntos clave en perros. Con 6773 imágenes de entrenamiento y 1703 imágenes de prueba, este conjunto de datos proporciona una base sólida para entrenar modelos robustos de estimación de poses.



Ver: Cómo entrenar Ultralytics YOLO11 en el conjunto de datos de estimación de poses de perros de Stanford | Tutorial paso a paso 🚀

Cada imagen anotada incluye 24 puntos clave con 3 dimensiones por punto clave (x, y, visibilidad), lo que la convierte en un recurso valioso para la investigación y el desarrollo avanzados en visión artificial.

Imagen de visualización de la pose de perro de Ultralytics

Este conjunto de datos está destinado a ser utilizado con HUB y YOLO11 de Ultralytics.

YAML del conjunto de datos

Se utiliza un archivo YAML (Yet Another Markup Language) para definir la configuración del conjunto de datos. Incluye rutas, detalles de puntos clave y otra información relevante. En el caso del conjunto de datos Dog-pose, el dog-pose.yaml está disponible en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml.

ultralytics/cfg/datasets/dog-pose.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── dog-pose ← downloads here (337 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images

# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)

# Classes
names:
  0: dog

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip

Uso

Para entrenar un modelo YOLO11n-pose en el conjunto de datos Dog-pose durante 100 épocas con un tamaño de imagen de 640, puede utilizar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulte la página de Entrenamiento del modelo.

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

sample_images y anotaciones

Aquí hay algunos ejemplos de imágenes del conjunto de datos Dog-pose, junto con sus correspondientes anotaciones:

Imagen de muestra del conjunto de datos

  • Imagen en mosaico: Esta imagen muestra un lote de entrenamiento compuesto por imágenes en mosaico del conjunto de datos. El mosaico es una técnica utilizada durante el entrenamiento que combina varias imágenes en una sola imagen para aumentar la variedad de objetos y escenas dentro de cada lote de entrenamiento. Esto ayuda a mejorar la capacidad del modelo para generalizar a diferentes tamaños de objetos, relaciones de aspecto y contextos.

El ejemplo muestra la variedad y complejidad de las imágenes en el conjunto de datos Dog-pose y los beneficios de usar mosaicos durante el proceso de entrenamiento.

Citas y agradecimientos

Si utiliza el conjunto de datos Dog-pose en su trabajo de investigación o desarrollo, cite el siguiente artículo:

@inproceedings{khosla2011fgvc,
  title={Novel dataset for Fine-Grained Image Categorization},
  author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
  booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2011}
}
@inproceedings{deng2009imagenet,
  title={ImageNet: A Large-Scale Hierarchical Image Database},
  author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
  booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
  year={2009}
}

Nos gustaría reconocer al equipo de Stanford por crear y mantener este valioso recurso para la comunidad de visión artificial. Para obtener más información sobre el conjunto de datos Dog-pose y sus creadores, visite el sitio web del Conjunto de Datos de Perros de Stanford.

Preguntas frecuentes

¿Qué es el conjunto de datos Dog-pose y cómo se utiliza con Ultralytics YOLO11?

El conjunto de datos Dog-Pose presenta 6773 imágenes de entrenamiento y 1703 imágenes de prueba anotadas con 24 puntos clave para la estimación de la pose del perro. Está diseñado para entrenar y validar modelos con Ultralytics YOLO11, lo que respalda aplicaciones como el análisis del comportamiento animal, el monitoreo de mascotas y los estudios veterinarios. Las anotaciones completas del conjunto de datos lo hacen ideal para desarrollar modelos precisos de estimación de la pose para caninos.

¿Cómo entreno un modelo YOLO11 usando el conjunto de datos Dog-pose en Ultralytics?

Para entrenar un modelo YOLO11n-pose en el conjunto de datos Dog-pose durante 100 épocas con un tamaño de imagen de 640, siga estos ejemplos:

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)
yolo pose train data=dog-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

Para obtener una lista completa de los argumentos de entrenamiento, consulta la página de Entrenamiento del modelo.

¿Cuáles son los beneficios de usar el conjunto de datos Dog-pose?

El conjunto de datos Dog-pose ofrece varios beneficios:

Conjunto de datos grande y diverso: Con más de 8400 imágenes, proporciona datos sustanciales que cubren una amplia gama de poses, razas y contextos de perros, lo que permite una evaluación y un entrenamiento sólidos del modelo.

Anotaciones Detalladas de Puntos Clave: Cada imagen incluye 24 puntos clave con 3 dimensiones por punto clave (x, y, visibilidad), ofreciendo anotaciones precisas para entrenar modelos de detección de poses precisos.

Escenarios del mundo real: Incluye imágenes de diversos entornos, lo que mejora la capacidad del modelo para generalizar a aplicaciones del mundo real como el monitoreo de mascotas y el análisis del comportamiento.

Ventaja del aprendizaje por transferencia: El conjunto de datos funciona bien con técnicas de aprendizaje por transferencia, lo que permite que los modelos pre-entrenados en conjuntos de datos de pose humana se adapten a las características específicas de los perros.

Para obtener más información sobre sus características y uso, consulta la sección Introducción al conjunto de datos.

¿Cómo beneficia el mosaico al proceso de entrenamiento de YOLO11 utilizando el conjunto de datos Dog-pose?

La técnica de mosaico, como se ilustra en las imágenes de ejemplo del conjunto de datos Dog-pose, fusiona varias imágenes en una sola composición, enriqueciendo la diversidad de objetos y escenas en cada lote de entrenamiento. Esta técnica ofrece varias ventajas:

  • Aumenta la variedad de poses, tamaños y fondos de perros en cada lote
  • Mejora la capacidad del modelo para detectar perros en diferentes contextos y escalas
  • Mejora la generalización al exponer el modelo a patrones visuales más diversos
  • Reduce el sobreajuste creando combinaciones novedosas de ejemplos de entrenamiento

Este enfoque conduce a modelos más robustos que funcionan mejor en escenarios del mundo real. Para ver imágenes de ejemplo, consulte la sección Sample Images and Annotations.

¿Dónde puedo encontrar el archivo YAML del conjunto de datos Dog-pose y cómo lo uso?

El archivo YAML del conjunto de datos Dog-pose se puede encontrar en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml. Este archivo define la configuración del conjunto de datos, incluyendo rutas, clases, detalles de puntos clave y otra información relevante. El YAML especifica 24 puntos clave con 3 dimensiones por punto clave, lo que lo hace adecuado para tareas detalladas de estimación de poses.

Para utilizar este archivo con los scripts de entrenamiento de YOLO11, simplemente haga referencia a él en su comando de entrenamiento como se muestra en la sección de Uso. El conjunto de datos se descargará automáticamente la primera vez que se utilice, lo que facilita la configuración.

Para obtener más preguntas frecuentes y documentación detallada, visita la Documentación de Ultralytics.



📅 Creado hace 9 meses ✏️ Actualizado hace 2 meses

Comentarios