Dataset Dog-Pose
Introducción
El dataset Dog-Pose de Ultralytics es un conjunto de datos extenso y de alta calidad, diseñado específicamente para la estimación de puntos clave en perros. Con 6.773 imágenes de entrenamiento y 1.703 imágenes de prueba, este dataset proporciona una base sólida para entrenar modelos robustos de estimación de pose.
Watch: How to Train Ultralytics YOLO26 on the Stanford Dog Pose Estimation Dataset | Step-by-Step Tutorial
Cada imagen anotada incluye 24 puntos clave con 3 dimensiones por punto clave (x, y, visibilidad), lo que lo convierte en un recurso valioso para la investigación y el desarrollo avanzados en visión artificial.
Este conjunto de datos está diseñado para su uso con Ultralytics Platform y YOLO26.
Estructura del conjunto de datos
-
División: 6.773 imágenes de entrenamiento / 1.703 de prueba con archivos de etiquetas en formato YOLO correspondientes.
-
Keypoints: 24 per dog with
(x, y, visibility)triplets. -
Diseño:
datasets/dog-pose/ ├── images/{train,test} └── labels/{train,test}
YAML del conjunto de datos
Se utiliza un archivo YAML (Yet Another Markup Language) para definir la configuración del dataset. Incluye rutas, detalles de los puntos clave y otra información relevante. En el caso del dataset Dog-pose, el archivo dog-pose.yaml está disponible en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml.
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license
# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── dog-pose ← downloads here (337 MB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images
# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
# Classes
names:
0: dog
# Keypoint names per class
kpt_names:
0:
- front_left_paw
- front_left_knee
- front_left_elbow
- rear_left_paw
- rear_left_knee
- rear_left_elbow
- front_right_paw
- front_right_knee
- front_right_elbow
- rear_right_paw
- rear_right_knee
- rear_right_elbow
- tail_start
- tail_end
- left_ear_base
- right_ear_base
- nose
- chin
- left_ear_tip
- right_ear_tip
- left_eye
- right_eye
- withers
- throat
# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zipUso
Para entrenar un modelo YOLO26n-pose con el dataset Dog-pose durante 100 épocas con un tamaño de imagen de 640, puedes usar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de entrenamiento del modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-pose.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)Imágenes y anotaciones de muestra
Aquí tienes algunos ejemplos de imágenes del dataset Dog-pose, junto con sus correspondientes anotaciones:
- Imagen en mosaico: esta imagen muestra un lote de entrenamiento compuesto por imágenes en mosaico del conjunto de datos. El mosaico es una técnica utilizada durante el entrenamiento que combina múltiples imágenes en una sola para aumentar la variedad de objetos y escenas dentro de cada lote de entrenamiento. Esto ayuda a mejorar la capacidad del modelo para generalizar a diferentes tamaños de objeto, relaciones de aspecto y contextos.
El ejemplo muestra la variedad y complejidad de las imágenes en el dataset Dog-pose y los beneficios de usar mosaico durante el proceso de entrenamiento.
Citas y reconocimientos
Si utilizas el dataset Dog-pose en tu trabajo de investigación o desarrollo, por favor cita el siguiente artículo:
@inproceedings{khosla2011fgvc,
title={Novel dataset for Fine-Grained Image Categorization},
author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year={2011}
}
@inproceedings{deng2009imagenet,
title={ImageNet: A Large-Scale Hierarchical Image Database},
author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
year={2009}
}Queremos agradecer al equipo de Stanford por crear y mantener este valioso recurso para la comunidad de visión artificial. Para obtener más información sobre el dataset Dog-pose y sus creadores, visita el sitio web del Stanford Dogs Dataset.
Preguntas frecuentes
¿Qué es el dataset Dog-pose y cómo se utiliza con Ultralytics YOLO26?
El dataset Dog-Pose contiene 6.773 imágenes de entrenamiento y 1.703 de prueba anotadas con 24 puntos clave para la estimación de la pose canina. Está diseñado para entrenar y validar modelos con Ultralytics YOLO26, soportando aplicaciones como el análisis del comportamiento animal, el monitoreo de mascotas y estudios veterinarios. Las anotaciones exhaustivas del dataset lo hacen ideal para desarrollar modelos precisos de estimación de pose para perros.
¿Cómo entreno un modelo YOLO26 utilizando el dataset Dog-pose en Ultralytics?
Para entrenar un modelo YOLO26n-pose con el dataset Dog-pose durante 100 épocas con un tamaño de imagen de 640, sigue estos ejemplos:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-pose.pt")
# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)Para obtener una lista completa de los argumentos de entrenamiento, consulta la página de Entrenamiento del modelo.
¿Cuáles son los beneficios de utilizar el dataset Dog-pose?
El dataset Dog-pose ofrece varios beneficios:
Dataset grande y diverso: Con más de 8.400 imágenes, proporciona datos sustanciales que cubren una amplia gama de poses, razas y contextos caninos, lo que permite un entrenamiento y evaluación robustos del modelo.
Anotaciones detalladas de puntos clave: Cada imagen incluye 24 puntos clave con 3 dimensiones por punto (x, y, visibilidad), ofreciendo anotaciones precisas para entrenar modelos exactos de detección de pose.
Escenarios del mundo real: Incluye imágenes de entornos variados, lo que mejora la capacidad del modelo para generalizar en aplicaciones del mundo real como el monitoreo de mascotas y el análisis de comportamiento.
Ventaja del aprendizaje por transferencia: El dataset funciona bien con técnicas de aprendizaje por transferencia, permitiendo que los modelos preentrenados en datasets de pose humana se adapten a las características específicas de los perros.
Para obtener más información sobre sus características y uso, consulta la sección Introducción al conjunto de datos.
¿Cómo beneficia el mosaico al proceso de entrenamiento de YOLO26 utilizando el dataset Dog-pose?
El mosaico, como se ilustra en las imágenes de muestra del dataset Dog-pose, combina varias imágenes en una sola composición, enriqueciendo la diversidad de objetos y escenas en cada lote de entrenamiento. Esta técnica ofrece varios beneficios:
- Aumenta la variedad de poses, tamaños y fondos de perros en cada lote
- Mejora la capacidad del modelo para detectar perros en diferentes contextos y escalas
- Mejora la generalización al exponer al modelo a patrones visuales más diversos
- Reduce el sobreajuste al crear combinaciones novedosas de ejemplos de entrenamiento
Este enfoque conduce a modelos más robustos que funcionan mejor en escenarios del mundo real. Para ver imágenes de ejemplo, consulta la sección Imágenes de muestra y anotaciones.
¿Dónde puedo encontrar el archivo YAML del dataset Dog-pose y cómo lo uso?
El archivo YAML del dataset Dog-pose se encuentra en https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml. Este archivo define la configuración del dataset, incluyendo rutas, clases, detalles de puntos clave y otra información relevante. El YAML especifica 24 puntos clave con 3 dimensiones por punto, lo que lo hace adecuado para tareas detalladas de estimación de pose.
Para usar este archivo con los scripts de entrenamiento de YOLO26, simplemente haz referencia a él en tu comando de entrenamiento como se muestra en la sección Uso. El dataset se descargará automáticamente la primera vez que se utilice, haciendo que la configuración sea sencilla.
Para obtener más preguntas frecuentes y documentación detallada, visita la Documentación de Ultralytics.