Conjunto de datos ImageNet

ImageNet es una base de datos a gran escala de imágenes anotadas diseñadas para su uso en la investigación del reconocimiento visual de objetos. Contiene más de 14 millones de imágenes, y cada imagen está anotada utilizando synsets de WordNet, lo que la convierte en uno de los recursos más extensos disponibles para entrenar modelos de aprendizaje profundo en tareas de visión artificial.

Modelos preentrenados de ImageNet

Modelo	tamaño ^(píxeles)	acc ^top1	acc ^top5	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	parámetros ^(M)	FLOPs ^{(B) a 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Características clave

ImageNet contiene más de 14 millones de imágenes de alta resolución que abarcan miles de categorías de objetos.
El conjunto de datos está organizado según la jerarquía de WordNet, con cada synset representando una categoría.
ImageNet se utiliza ampliamente para el entrenamiento y la evaluación comparativa en el campo de la visión artificial, en particular para las tareas de clasificación de imágenes y detección de objetos.
El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual ha sido fundamental para el avance de la investigación en visión artificial.

Estructura del conjunto de datos

El conjunto de datos ImageNet está organizado utilizando la jerarquía de WordNet. Cada nodo de la jerarquía representa una categoría, y cada categoría se describe mediante un synset (una colección de términos sinónimos). Las imágenes de ImageNet están anotadas con uno o más synsets, lo que proporciona un valioso recurso para entrenar modelos para reconocer varios objetos y sus relaciones.

Desafío de reconocimiento visual a gran escala de ImageNet (ILSVRC)

El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual ha sido un evento importante en el campo de la visión artificial. Ha proporcionado una plataforma para que investigadores y desarrolladores evalúen sus algoritmos y modelos en un conjunto de datos a gran escala con métricas de evaluación estandarizadas. El ILSVRC ha conducido a avances significativos en el desarrollo de modelos de aprendizaje profundo para la clasificación de imágenes, la detección de objetos y otras tareas de visión artificial.

Aplicaciones

El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en diversas tareas de visión artificial, como la clasificación de imágenes, la detección de objetos y la localización de objetos. Algunas arquitecturas populares de aprendizaje profundo, como AlexNet, VGG y ResNet, se desarrollaron y evaluaron utilizando el conjunto de datos ImageNet.

Uso

Para entrenar un modelo de aprendizaje profundo en el conjunto de datos ImageNet durante 100 epochs con un tamaño de imagen de 224x224, puedes usar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de Entrenamiento del modelo.

Ejemplo de entrenamiento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

sample_images y anotaciones

El conjunto de datos ImageNet contiene imágenes de alta resolución que abarcan miles de categorías de objetos, lo que proporciona un conjunto de datos diverso y extenso para el entrenamiento y la evaluación de modelos de visión artificial. Aquí hay algunos ejemplos de imágenes del conjunto de datos:

sample_images del conjunto de datos de clasificación ImageNet

El ejemplo muestra la variedad y complejidad de las imágenes en el conjunto de datos ImageNet, destacando la importancia de un conjunto de datos diverso para entrenar modelos robustos de visión artificial.

Citas y agradecimientos

Si utiliza el dataset ImageNet en su trabajo de investigación o desarrollo, cite el siguiente artículo:

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nos gustaría agradecer al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el conjunto de datos ImageNet como un valioso recurso para la comunidad de investigación de aprendizaje automático y visión artificial. Para obtener más información sobre el conjunto de datos ImageNet y sus creadores, visite el sitio web de ImageNet.

Preguntas frecuentes

¿Qué es el conjunto de datos ImageNet y cómo se utiliza en la visión artificial?

El conjunto de datos ImageNet es una base de datos a gran escala que consta de más de 14 millones de imágenes de alta resolución categorizadas utilizando synsets de WordNet. Se utiliza ampliamente en la investigación de reconocimiento visual de objetos, incluida la clasificación de imágenes y la detección de objetos. Las anotaciones del conjunto de datos y su gran volumen proporcionan un rico recurso para entrenar modelos de aprendizaje profundo. En particular, modelos como AlexNet, VGG y ResNet se han entrenado y evaluado utilizando ImageNet, lo que demuestra su papel en el avance de la visión artificial.

¿Cómo puedo utilizar un modelo YOLO preentrenado para la clasificación de imágenes en el dataset ImageNet?

Para utilizar un modelo Ultralytics YOLO preentrenado para la clasificación de imágenes en el conjunto de datos ImageNet, sigue estos pasos:

Ejemplo de entrenamiento

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo26n-cls.pt epochs=100 imgsz=224

Para obtener instrucciones de entrenamiento más detalladas, consulta nuestra página de Entrenamiento.

¿Por qué debería usar los modelos preentrenados Ultralytics YOLO26 para mis proyectos de conjuntos de datos ImageNet?

Los modelos preentrenados Ultralytics YOLO26 ofrecen un rendimiento de vanguardia en términos de velocidad y precisión para diversas tareas de visión por computadora. Por ejemplo, el modelo YOLO26n-cls, con una precisión top-1 del 70.0% y una precisión top-5 del 89.4%, está optimizado para aplicaciones en tiempo real. Los modelos preentrenados reducen los recursos computacionales necesarios para entrenar desde cero y aceleran los ciclos de desarrollo. Obtenga más información sobre las métricas de rendimiento de los modelos YOLO26 en la sección de Modelos Preentrenados de ImageNet.

¿Cómo está estructurado el conjunto de datos ImageNet y por qué es importante?

El conjunto de datos ImageNet está organizado utilizando la jerarquía de WordNet, donde cada nodo de la jerarquía representa una categoría descrita por un synset (una colección de términos sinónimos). Esta estructura permite realizar anotaciones detalladas, lo que la hace ideal para entrenar modelos para reconocer una amplia variedad de objetos. La diversidad y la riqueza de anotaciones de ImageNet lo convierten en un valioso conjunto de datos para desarrollar modelos de aprendizaje profundo robustos y generalizables. Puede encontrar más información sobre esta organización en la sección Estructura del conjunto de datos.

¿Qué papel juega el Desafío de Reconocimiento Visual a Gran Escala ImageNet (ILSVRC) en la visión artificial?

El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual ha sido fundamental para impulsar los avances en la visión artificial al proporcionar una plataforma competitiva para evaluar algoritmos en un conjunto de datos estandarizado a gran escala. Ofrece métricas de evaluación estandarizadas, fomentando la innovación y el desarrollo en áreas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes. El desafío ha superado continuamente los límites de lo que es posible con el aprendizaje profundo y las tecnologías de visión artificial.

📅 Creado hace 2 años ✏️ Actualizado hace 3 meses