Link to this sectionConjunto de datos ImageNet#

Name: Conjunto de datos de clasificación de imágenes ImageNet
Creator: ImageNet
License: https://www.image-net.org/download.php
Keywords: ImageNet, ILSVRC-2012, clasificación de imágenes, deep learning, computer vision, modelos preentrenados, YOLO, conjunto de datos, WordNet

El conjunto de datos Ultralytics ImageNet (data="imagenet") es el subconjunto ImageNet-1k / ILSVRC-2012 utilizado para entrenar y evaluar modelos de clasificación de imágenes. Contiene 1.000 clases de objetos con 1.281.167 imágenes de entrenamiento y 50.000 imágenes de validación a un tamaño de imagen de 224x224, y supone una descarga de aproximadamente 144 GB de datos. La base de datos ImageNet más amplia es mucho mayor (más de 14 millones de imágenes de alta resolución anotadas con synsets de WordNet en más de 20.000 categorías), pero Ultralytics entrena con el subconjunto estandarizado de 1.000 clases ILSVRC que se convirtió en el estándar de referencia para el aprendizaje profundo en visión artificial.

Link to this sectionModelos preentrenados de ImageNet#

Modelo	tamaño ^(píxeles)	acc ^top1	acc ^top5	Velocidad ^{CPU ONNX (ms)}	Velocidad ^{T4 TensorRT10 (ms)}	params ^(M)	FLOPs ^{(B) at 224}
YOLO26n-cls	224	71.4	90.1	5.0 ± 0.3	1.1 ± 0.0	2.8	0.5
YOLO26s-cls	224	76.0	92.9	7.9 ± 0.2	1.3 ± 0.0	6.7	1.6
YOLO26m-cls	224	78.1	94.2	17.2 ± 0.4	2.0 ± 0.0	11.6	4.9
YOLO26l-cls	224	79.0	94.6	23.2 ± 0.3	2.8 ± 0.0	14.1	6.2
YOLO26x-cls	224	79.9	95.0	41.4 ± 0.9	3.8 ± 0.0	29.6	13.6

Link to this sectionCaracterísticas clave#

El conjunto de datos Ultralytics imagenet proporciona 1.000 clases con 1.281.167 imágenes de entrenamiento y 50.000 de validación (ILSVRC-2012), el estándar de referencia de preentrenamiento para la clasificación de imágenes.
Las clases están organizadas según la jerarquía de WordNet, donde cada clase corresponde a un synset (un conjunto de términos sinónimos).
Las imágenes se entrenan a 224x224, y el conjunto de datos completo es una descarga grande de ~144 GB.
El reto anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido fundamental para hacer avanzar la investigación en computer vision.

Link to this sectionEstructura del dataset#

El conjunto de datos Ultralytics ImageNet utiliza la partición ILSVRC-2012:

Split	Imágenes	Clases
Entrenar	1.281.167	1.000
Validación	50.000	1.000

Las imágenes se almacenan en carpetas por clase nombradas según el ID de synset de WordNet (por ejemplo, n01440764), el formato que espera el entrenamiento de clasificación de Ultralytics. Cada una de las 1.000 clases se asigna a un synset de WordNet, y no hay una partición de prueba separada, por lo que el conjunto de validación de 50.000 imágenes se utiliza para medir la precisión.

Tamaño de descarga

ImageNet-1k es una descarga de ~144 GB, así que asegúrate de tener suficiente espacio en disco antes de entrenar. Para experimentos rápidos, los subconjuntos más pequeños ImageNette e ImageNet10 utilizan el mismo formato de carpeta y se entrenan en una fracción del tiempo.

Link to this sectionImageNet Large Scale Visual Recognition Challenge (ILSVRC)#

El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual permitió a los investigadores evaluar algoritmos en un conjunto de datos estandarizado y a gran escala con métricas de evaluación consistentes. Impulsó avances importantes en el aprendizaje profundo para la clasificación de imágenes, la detección de objetos y otras tareas de visión; destaca especialmente la victoria de AlexNet en 2012, que ayudó a iniciar la era moderna del aprendizaje profundo.

Link to this sectionAplicaciones#

El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo para la clasificación de imágenes, detección de objetos y localización de objetos. Arquitecturas emblemáticas como AlexNet, VGG y ResNet fueron desarrolladas y evaluadas en ImageNet, y los pesos preentrenados en ImageNet siguen siendo un punto de partida común para el aprendizaje por transferencia en tareas de visión.

Link to this sectionUso#

Para entrenar un modelo de clasificación YOLO en ImageNet durante 100 épocas a un tamaño de imagen de 224x224, utiliza los fragmentos de código a continuación. Para obtener una lista completa de los argumentos disponibles, consulta la página de Entrenamiento del modelo.

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

También puedes gestionar conjuntos de datos de clasificación y ejecutar el entrenamiento en la nube con Ultralytics Platform.

Link to this sectionMuestras de imágenes y anotaciones#

El conjunto de datos ImageNet abarca las 1.000 clases de ILSVRC-2012, proporcionando un recurso diverso y extenso para entrenar y evaluar modelos de visión artificial. Aquí tienes algunas imágenes de ejemplo del conjunto de datos:

Imágenes de muestra del conjunto de datos de clasificación de ImageNet

Link to this sectionCitas y agradecimientos#

Si utilizas el conjunto de datos ImageNet en tu trabajo de investigación o desarrollo, por favor cita el siguiente artículo:

Cita

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Nos gustaría agradecer al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el conjunto de datos ImageNet como un recurso valioso para la comunidad de investigación de machine learning y computer vision. Para más información sobre el conjunto de datos ImageNet y sus creadores, visita el sitio web de ImageNet.

Link to this sectionFAQ#

Link to this section¿Qué es el conjunto de datos ImageNet y cómo se utiliza en computer vision?#

El conjunto de datos ImageNet es una base de datos de imágenes a gran escala cuya colección más amplia alberga más de 14 millones de imágenes de alta resolución anotadas con synsets de WordNet. En Ultralytics, data="imagenet" entrena con el subconjunto estandarizado de 1.000 clases ILSVRC-2012, que es el estándar de referencia para el preentrenamiento de clasificación de imágenes. Modelos emblemáticos como AlexNet, VGG y ResNet fueron entrenados y evaluados en ImageNet, subrayando su papel en el avance de la visión artificial.

Link to this section¿Cuántas clases e imágenes tiene el conjunto de datos ImageNet?#

El conjunto de datos Ultralytics imagenet utiliza el subconjunto ILSVRC-2012 con 1.000 clases, 1.281.167 imágenes de entrenamiento y 50.000 imágenes de validación a un tamaño de imagen de 224x224, para una descarga total de aproximadamente 144 GB. La base de datos completa de ImageNet es mucho más grande (más de 14 millones de imágenes en más de 20.000 synsets de WordNet), pero el subconjunto de 1.000 clases es el que se utiliza para el entrenamiento y la evaluación de clasificación.

Link to this section¿Cómo puedo entrenar un modelo YOLO para clasificación de imágenes en el conjunto de datos ImageNet?#

Para entrenar un modelo YOLO de Ultralytics en ImageNet, carga un modelo de clasificación preentrenado y apunta data a imagenet:

Ejemplo de entrenamiento

from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

Para obtener instrucciones de entrenamiento más detalladas, consulta nuestra página de Entrenamiento.

Link to this section¿Por qué debería usar los modelos preentrenados Ultralytics YOLO26 para mis proyectos con el conjunto de datos ImageNet?#

Los modelos preentrenados Ultralytics YOLO26 ofrecen un rendimiento de vanguardia en términos de velocidad y accuracy para diversas tareas de computer vision. Por ejemplo, el modelo YOLO26n-cls, con una precisión top-1 del 71,4% y una precisión top-5 del 90,1%, está optimizado para aplicaciones en tiempo real. Los modelos preentrenados reducen los recursos computacionales necesarios para entrenar desde cero y aceleran los ciclos de desarrollo. Aprende más sobre las métricas de rendimiento de los modelos YOLO26 en la sección de Modelos preentrenados de ImageNet.

Link to this section¿Qué papel desempeña el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en la computer vision?#

El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual impulsó avances en visión artificial al proporcionar una plataforma competitiva para evaluar algoritmos en un conjunto de datos estandarizado y a gran escala. Sus métricas de evaluación consistentes fomentaron la innovación en la clasificación de imágenes, detección de objetos y segmentación de imágenes, superando continuamente los límites del aprendizaje profundo y la visión artificial.

Colaboradores

GLglenn-jocher¹⁶ RIRizwanMunawar² RAraimbekovm¹ AMambitious-octopus¹ MAMatthewNoyce¹ JKjk4e¹

Creado 12 nov 2023Actualizado hace 4 días