Saltar al contenido

Conjunto de datos ImageNet

ImageNet es una base de datos a gran escala de imágenes anotadas diseñada para su uso en la investigación del reconocimiento visual de objetos. Contiene más de 14 millones de imágenes, cada una de ellas anotada utilizando synsets de WordNet, lo que la convierte en uno de los recursos más extensos disponibles para entrenar modelos de aprendizaje profundo en tareas de visión por ordenador.

Modelos preentrenados de ImageNet

Modelotamaño
(píxeles)
acc
top1
acc
top5
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
parámetros
(M)
FLOP
(B) a 640
YOLO11n-cls22470.089.45.0 ± 0.31.1 ± 0.01.63.3
YOLO11s-cls22475.492.77.9 ± 0.21.3 ± 0.05.512.1
YOLO11m-cls22477.393.917.2 ± 0.42.0 ± 0.010.439.3
YOLO11l-cls22478.394.323.2 ± 0.32.8 ± 0.012.949.4
YOLO11x-cls22479.594.941.4 ± 0.93.8 ± 0.028.4110.4

Características principales

  • ImageNet contiene más de 14 millones de imágenes de alta resolución que abarcan miles de categorías de objetos.
  • El conjunto de datos está organizado según la jerarquía WordNet, y cada synset representa una categoría.
  • ImageNet se utiliza ampliamente para el entrenamiento y la evaluación comparativa en el campo de la visión por ordenador, en particular para tareas de clasificación de imágenes y detección de objetos.
  • El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido decisivo para el avance de la investigación en visión por ordenador.

Estructura del conjunto de datos

El conjunto de datos ImageNet se organiza utilizando la jerarquía WordNet. Cada nodo de la jerarquía representa una categoría, y cada categoría se describe mediante un synset (una colección de términos sinónimos). Las imágenes de ImageNet están anotadas con uno o más synsets, lo que proporciona un rico recurso para entrenar modelos que reconozcan diversos objetos y sus relaciones.

Desafío ImageNet de Reconocimiento Visual a Gran Escala (ILSVRC)

El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido un acontecimiento importante en el campo de la visión por ordenador. Ha proporcionado una plataforma para que investigadores y desarrolladores evalúen sus algoritmos y modelos en un conjunto de datos a gran escala con métricas de evaluación estandarizadas. El ILSVRC ha dado lugar a avances significativos en el desarrollo de modelos de aprendizaje profundo para la clasificación de imágenes, la detección de objetos y otras tareas de visión por ordenador.

Aplicaciones

El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en diversas tareas de visión por ordenador, como la clasificación de imágenes, la detección de objetos y la localización de objetos. Algunas arquitecturas populares de aprendizaje profundo, como AlexNet, VGG y ResNet, se desarrollaron y evaluaron utilizando el conjunto de datos ImageNet.

Utilización

Para entrenar un modelo de aprendizaje profundo en el conjunto de datos ImageNet durante 100 épocas con un tamaño de imagen de 224x224, puedes utilizar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página Entrenamiento del modelo.

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Ejemplos de imágenes y anotaciones

El conjunto de datos ImageNet contiene imágenes de alta resolución que abarcan miles de categorías de objetos, lo que proporciona un conjunto de datos diverso y extenso para entrenar y evaluar modelos de visión por ordenador. Aquí tienes algunos ejemplos de imágenes del conjunto de datos:

Imágenes de muestra del conjunto de datos

El ejemplo muestra la variedad y complejidad de las imágenes del conjunto de datos ImageNet, lo que pone de relieve la importancia de un conjunto de datos diverso para entrenar modelos robustos de visión por ordenador.

Citas y agradecimientos

Si utilizas el conjunto de datos ImageNet en tu trabajo de investigación o desarrollo, cita el siguiente documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Queremos expresar nuestro reconocimiento al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el conjunto de datos ImageNet como un valioso recurso para la comunidad investigadora del aprendizaje automático y la visión por ordenador. Para más información sobre el conjunto de datos ImageNet y sus creadores, visita el sitio web de ImageNet.

PREGUNTAS FRECUENTES

¿Qué es el conjunto de datos ImageNet y cómo se utiliza en visión por ordenador?

El conjunto de datos ImageNet es una base de datos a gran escala formada por más de 14 millones de imágenes de alta resolución categorizadas mediante sinónimos de WordNet. Se utiliza ampliamente en la investigación del reconocimiento visual de objetos, incluida la clasificación de imágenes y la detección de objetos. Las anotaciones del conjunto de datos y su gran volumen proporcionan un rico recurso para entrenar modelos de aprendizaje profundo. En particular, modelos como AlexNet, VGG y ResNet se han entrenado y evaluado utilizando ImageNet, lo que demuestra su papel en el avance de la visión por ordenador.

¿Cómo puedo utilizar un modelo YOLO preentrenado para la clasificación de imágenes en el conjunto de datos ImageNet?

Para utilizar un modelo Ultralytics YOLO preentrenado para la clasificación de imágenes en el conjunto de datos ImageNet, sigue estos pasos:

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Para obtener instrucciones de formación más detalladas, consulta nuestra página de Formación.

¿Por qué debería utilizar los modelos preentrenados de Ultralytics YOLO11 para mis proyectos del conjunto de datos ImageNet?

Ultralytics Los modelos preentrenados de YOLO11 ofrecen un rendimiento de vanguardia en términos de velocidad y precisión para diversas tareas de visión por ordenador. Por ejemplo, el modelo YOLO11n-cls, con una precisión top-1 del 69,0% y una precisión top-5 del 88,3%, está optimizado para aplicaciones en tiempo real. Los modelos preentrenados reducen los recursos informáticos necesarios para el entrenamiento desde cero y aceleran los ciclos de desarrollo. Más información sobre las métricas de rendimiento de los modelos YOLO11 en la sección Modelos preentrenados de ImageNet.

¿Cómo está estructurado el conjunto de datos ImageNet y por qué es importante?

El conjunto de datos ImageNet se organiza utilizando la jerarquía WordNet, en la que cada nodo de la jerarquía representa una categoría descrita por un synset (una colección de términos sinónimos). Esta estructura permite anotaciones detalladas, por lo que es ideal para entrenar modelos que reconozcan una gran variedad de objetos. La diversidad y riqueza de anotaciones de ImageNet la convierten en un valioso conjunto de datos para desarrollar modelos de aprendizaje profundo robustos y generalizables. Puedes encontrar más información sobre esta organización en la sección Estructura del conjunto de datos.

¿Qué papel desempeña el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en la visión por ordenador?

El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido fundamental para impulsar los avances en visión por ordenador, ya que proporciona una plataforma competitiva para evaluar algoritmos en un conjunto de datos estandarizados a gran escala. Ofrece métricas de evaluación estandarizadas, fomentando la innovación y el desarrollo en áreas como la clasificación de imágenes, la detección de objetos y la segmentación de imágenes. El reto ha ampliado continuamente los límites de lo que es posible con el aprendizaje profundo y las tecnologías de visión por ordenador.

📅 C reado hace 1 año ✏️ Actualizado hace 1 mes

Comentarios