Saltar al contenido

Conjunto de datos ImageNet

ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.

Modelos preentrenados de ImageNet

Modelo tama帽o
(p铆xeles)
acc
top1
acc
top5
Velocidad
CPU ONNX
(ms)
Speed
T4 TensorRT10
(ms)
par谩metros
(M)
FLOPs
(B) a 640
YOLO11n-cls 224 70.0 89.4 5.0 卤 0.3 1.1 卤 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 卤 0.2 1.3 卤 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 卤 0.4 2.0 卤 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 卤 0.3 2.8 卤 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 卤 0.9 3.8 卤 0.0 28.4 110.4

Caracter铆sticas principales

  • ImageNet contiene m谩s de 14 millones de im谩genes de alta resoluci贸n que abarcan miles de categor铆as de objetos.
  • El conjunto de datos est谩 organizado seg煤n la jerarqu铆a WordNet, y cada synset representa una categor铆a.
  • ImageNet is widely used for training and benchmarking in the field of computer vision, particularly for image classification and object detection tasks.
  • El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido decisivo para el avance de la investigaci贸n en visi贸n por ordenador.

Estructura del conjunto de datos

El conjunto de datos ImageNet se organiza utilizando la jerarqu铆a WordNet. Cada nodo de la jerarqu铆a representa una categor铆a, y cada categor铆a se describe mediante un synset (una colecci贸n de t茅rminos sin贸nimos). Las im谩genes de ImageNet est谩n anotadas con uno o m谩s synsets, lo que proporciona un rico recurso para entrenar modelos que reconozcan diversos objetos y sus relaciones.

Desaf铆o ImageNet de Reconocimiento Visual a Gran Escala (ILSVRC)

El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido un acontecimiento importante en el campo de la visi贸n por ordenador. Ha proporcionado una plataforma para que investigadores y desarrolladores eval煤en sus algoritmos y modelos en un conjunto de datos a gran escala con m茅tricas de evaluaci贸n estandarizadas. El ILSVRC ha dado lugar a avances significativos en el desarrollo de modelos de aprendizaje profundo para la clasificaci贸n de im谩genes, la detecci贸n de objetos y otras tareas de visi贸n por ordenador.

Aplicaciones

El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en diversas tareas de visi贸n por ordenador, como la clasificaci贸n de im谩genes, la detecci贸n de objetos y la localizaci贸n de objetos. Algunas arquitecturas populares de aprendizaje profundo, como AlexNet, VGG y ResNet, se desarrollaron y evaluaron utilizando el conjunto de datos ImageNet.

Utilizaci贸n

To train a deep learning model on the ImageNet dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Ejemplos de im谩genes y anotaciones

El conjunto de datos ImageNet contiene im谩genes de alta resoluci贸n que abarcan miles de categor铆as de objetos, lo que proporciona un conjunto de datos diverso y extenso para entrenar y evaluar modelos de visi贸n por ordenador. Aqu铆 tienes algunos ejemplos de im谩genes del conjunto de datos:

Im谩genes de muestra del conjunto de datos

El ejemplo muestra la variedad y complejidad de las im谩genes del conjunto de datos ImageNet, lo que pone de relieve la importancia de un conjunto de datos diverso para entrenar modelos robustos de visi贸n por ordenador.

Citas y agradecimientos

Si utilizas el conjunto de datos ImageNet en tu trabajo de investigaci贸n o desarrollo, cita el siguiente documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

We would like to acknowledge the ImageNet team, led by Olga Russakovsky, Jia Deng, and Li Fei-Fei, for creating and maintaining the ImageNet dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageNet dataset and its creators, visit the ImageNet website.

PREGUNTAS FRECUENTES

驴Qu茅 es el conjunto de datos ImageNet y c贸mo se utiliza en visi贸n por ordenador?

El conjunto de datos ImageNet es una base de datos a gran escala formada por m谩s de 14 millones de im谩genes de alta resoluci贸n categorizadas mediante sin贸nimos de WordNet. Se utiliza ampliamente en la investigaci贸n del reconocimiento visual de objetos, incluida la clasificaci贸n de im谩genes y la detecci贸n de objetos. Las anotaciones del conjunto de datos y su gran volumen proporcionan un rico recurso para entrenar modelos de aprendizaje profundo. En particular, modelos como AlexNet, VGG y ResNet se han entrenado y evaluado utilizando ImageNet, lo que demuestra su papel en el avance de la visi贸n por ordenador.

驴C贸mo puedo utilizar un modelo YOLO preentrenado para la clasificaci贸n de im谩genes en el conjunto de datos ImageNet?

Para utilizar un modelo Ultralytics YOLO preentrenado para la clasificaci贸n de im谩genes en el conjunto de datos ImageNet, sigue estos pasos:

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Para obtener instrucciones de formaci贸n m谩s detalladas, consulta nuestra p谩gina de Formaci贸n.

Why should I use the Ultralytics YOLO11 pretrained models for my ImageNet dataset projects?

Ultralytics YOLO11 pretrained models offer state-of-the-art performance in terms of speed and accuracy for various computer vision tasks. For example, the YOLO11n-cls model, with a top-1 accuracy of 69.0% and a top-5 accuracy of 88.3%, is optimized for real-time applications. Pretrained models reduce the computational resources required for training from scratch and accelerate development cycles. Learn more about the performance metrics of YOLO11 models in the ImageNet Pretrained Models section.

驴C贸mo est谩 estructurado el conjunto de datos ImageNet y por qu茅 es importante?

El conjunto de datos ImageNet se organiza utilizando la jerarqu铆a WordNet, en la que cada nodo de la jerarqu铆a representa una categor铆a descrita por un synset (una colecci贸n de t茅rminos sin贸nimos). Esta estructura permite anotaciones detalladas, por lo que es ideal para entrenar modelos que reconozcan una gran variedad de objetos. La diversidad y riqueza de anotaciones de ImageNet la convierten en un valioso conjunto de datos para desarrollar modelos de aprendizaje profundo robustos y generalizables. Puedes encontrar m谩s informaci贸n sobre esta organizaci贸n en la secci贸n Estructura del conjunto de datos.

驴Qu茅 papel desempe帽a el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en la visi贸n por ordenador?

The annual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) has been pivotal in driving advancements in computer vision by providing a competitive platform for evaluating algorithms on a large-scale, standardized dataset. It offers standardized evaluation metrics, fostering innovation and development in areas such as image classification, object detection, and image segmentation. The challenge has continuously pushed the boundaries of what is possible with deep learning and computer vision technologies.


馃搮 Created 11 months ago 鉁忥笍 Updated 12 days ago

Comentarios