Dataset ImageNet10

El dataset ImageNet10 es un subconjunto a pequeña escala de la base de datos ImageNet, desarrollado por Ultralytics y diseñado para pruebas de CI, comprobaciones de integridad y pruebas rápidas de pipelines de entrenamiento. Este dataset está compuesto por la primera imagen del conjunto de entrenamiento y la primera imagen del conjunto de validación de las 10 primeras clases de ImageNet. Aunque es significativamente más pequeño, conserva la estructura y la diversidad del dataset ImageNet original.

Características clave

  • ImageNet10 es una versión compacta de ImageNet, con 20 imágenes que representan las 10 primeras clases del dataset original.
  • El dataset está organizado según la jerarquía de WordNet, reflejando la estructura del dataset ImageNet completo.
  • Es ideal para pruebas de CI, comprobaciones de integridad y pruebas rápidas de pipelines de entrenamiento en tareas de visión por ordenador.
  • Aunque no está diseñado para el benchmarking de modelos, puede proporcionar una indicación rápida de la funcionalidad básica y la corrección de un modelo.

Estructura del conjunto de datos

El dataset ImageNet10, al igual que el ImageNet original, está organizado utilizando la jerarquía de WordNet. Cada una de las 10 clases en ImageNet10 está descrita por un synset (una colección de términos sinónimos). Las imágenes en ImageNet10 están anotadas con uno o más synsets, proporcionando un recurso compacto para probar modelos en el reconocimiento de varios objetos y sus relaciones.

Aplicaciones

El dataset ImageNet10 es útil para probar y depurar rápidamente modelos y pipelines de visión por ordenador. Su pequeño tamaño permite una iteración rápida, lo que lo hace ideal para pruebas de integración continua y comprobaciones de integridad. También puede utilizarse para pruebas preliminares rápidas de nuevos modelos o cambios en modelos existentes antes de pasar a pruebas a gran escala con el dataset ImageNet completo.

Uso

Para probar un modelo de deep learning en el dataset ImageNet10 con un tamaño de imagen de 224x224, puedes utilizar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de entrenamiento del modelo.

Ejemplo de prueba
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

Imágenes y anotaciones de muestra

El dataset ImageNet10 contiene un subconjunto de imágenes del dataset ImageNet original. Estas imágenes se eligen para representar las 10 primeras clases del dataset, proporcionando un dataset diverso pero compacto para pruebas y evaluaciones rápidas.

Imágenes de muestra del dataset de clasificación ImageNet-10

El ejemplo muestra la variedad y complejidad de las imágenes en el dataset ImageNet10, destacando su utilidad para comprobaciones de integridad y pruebas rápidas de modelos de visión por ordenador.

Citas y reconocimientos

Si utilizas el dataset ImageNet10 en tu trabajo de investigación o desarrollo, por favor cita el artículo original de ImageNet:

Cita
@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nos gustaría agradecer al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el dataset ImageNet. El dataset ImageNet10, aunque es un subconjunto compacto, es un recurso valioso para pruebas y depuración rápidas en la comunidad de investigación de machine learning y visión por ordenador. Para obtener más información sobre el dataset ImageNet y sus creadores, visita el sitio web de ImageNet.

Preguntas frecuentes

¿Qué es el dataset ImageNet10 y en qué se diferencia del dataset ImageNet completo?

El dataset ImageNet10 es un subconjunto compacto de la base de datos ImageNet original, creado por Ultralytics para pruebas de CI rápidas, comprobaciones de integridad y evaluaciones de pipelines de entrenamiento. ImageNet10 comprende solo 20 imágenes, que representan la primera imagen en los conjuntos de entrenamiento y validación de las 10 primeras clases en ImageNet. A pesar de su pequeño tamaño, mantiene la estructura y diversidad del dataset completo, lo que lo hace ideal para pruebas rápidas, pero no para realizar benchmarking de modelos.

¿Cómo puedo utilizar el dataset ImageNet10 para probar mi modelo de deep learning?

Para probar tu modelo de deep learning en el dataset ImageNet10 con un tamaño de imagen de 224x224, utiliza los siguientes fragmentos de código.

Ejemplo de prueba
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

Consulta la página de Entrenamiento para obtener una lista completa de los argumentos disponibles.

¿Por qué debería utilizar el dataset ImageNet10 para pruebas de CI y comprobaciones de integridad?

El dataset ImageNet10 está diseñado específicamente para pruebas de CI, comprobaciones de integridad y evaluaciones rápidas en pipelines de deep learning. Su pequeño tamaño permite una iteración y pruebas rápidas, lo que lo hace perfecto para procesos de integración continua donde la velocidad es crucial. Al mantener la complejidad estructural y la diversidad del dataset ImageNet original, ImageNet10 proporciona una indicación fiable de la funcionalidad básica y la corrección de un modelo sin la sobrecarga de procesar un dataset grande.

¿Cuáles son las características principales del dataset ImageNet10?

El dataset ImageNet10 tiene varias características clave:

  • Tamaño compacto: Con solo 20 imágenes, permite realizar pruebas y depuraciones rápidas.
  • Organización estructurada: Sigue la jerarquía de WordNet, de forma similar al dataset ImageNet completo.
  • CI y comprobaciones de integridad: Ideal para pruebas de integración continua y comprobaciones de integridad.
  • No apto para benchmarking: Aunque es útil para evaluaciones rápidas de modelos, no está diseñado para un benchmarking exhaustivo.

¿Cómo se compara ImageNet10 con otros datasets pequeños como ImageNette?

Aunque tanto ImageNet10 como ImageNette son subconjuntos de ImageNet, sirven para propósitos diferentes. ImageNet10 contiene solo 20 imágenes (2 por clase) de las 10 primeras clases de ImageNet, lo que lo hace extremadamente ligero para pruebas de CI y comprobaciones de integridad rápidas. En cambio, ImageNette contiene miles de imágenes en 10 clases fácilmente distinguibles, lo que lo hace más adecuado para el entrenamiento y desarrollo real de modelos. ImageNet10 está diseñado para la verificación de la funcionalidad del pipeline, mientras que ImageNette es mejor para experimentos de entrenamiento significativos pero más rápidos que el ImageNet completo.

Comentarios