Ir al contenido

Conjunto de datos ImageNet

ImageNet es una base de datos a gran escala de im谩genes anotadas dise帽ada para su uso en la investigaci贸n del reconocimiento visual de objetos. Contiene m谩s de 14 millones de im谩genes, cada una de ellas anotada utilizando synsets de WordNet, lo que la convierte en uno de los recursos m谩s extensos disponibles para entrenar modelos de aprendizaje profundo en tareas de visi贸n por ordenador.

Modelos preentrenados de ImageNet

Modelo tama帽o
(p铆xeles)
acc
top1
acc
top5
Velocidad
CPU ONNX
(ms)
Velocidad
T4TensorRT10
(ms)
par谩metros
(M)
FLOPs
(B) a 640
YOLO11n-cls 224 70.0 89.4 5.0 卤 0.3 1.1 卤 0.0 1.6 3.3
YOLO11s-cls 224 75.4 92.7 7.9 卤 0.2 1.3 卤 0.0 5.5 12.1
YOLO11m-cls 224 77.3 93.9 17.2 卤 0.4 2.0 卤 0.0 10.4 39.3
YOLO11l-cls 224 78.3 94.3 23.2 卤 0.3 2.8 卤 0.0 12.9 49.4
YOLO11x-cls 224 79.5 94.9 41.4 卤 0.9 3.8 卤 0.0 28.4 110.4

Caracter铆sticas principales

  • ImageNet contiene m谩s de 14 millones de im谩genes de alta resoluci贸n que abarcan miles de categor铆as de objetos.
  • El conjunto de datos est谩 organizado seg煤n la jerarqu铆a de WordNet, y cada synset representa una categor铆a.
  • ImageNet se utiliza ampliamente para el entrenamiento y la evaluaci贸n comparativa en el campo de la visi贸n por ordenador, en particular para tareas de clasificaci贸n de im谩genes y detecci贸n de objetos.
  • El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido decisivo para el avance de la investigaci贸n en visi贸n por ordenador.

Estructura del conjunto de datos

El conjunto de datos ImageNet se organiza utilizando la jerarqu铆a WordNet. Cada nodo de la jerarqu铆a representa una categor铆a, y cada categor铆a se describe mediante un synset (una colecci贸n de t茅rminos sin贸nimos). Las im谩genes de ImageNet est谩n anotadas con uno o m谩s synsets, lo que proporciona un rico recurso para entrenar modelos que reconozcan diversos objetos y sus relaciones.

Reto de reconocimiento visual a gran escala de ImageNet (ILSVRC)

El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido un acontecimiento importante en el campo de la visi贸n por ordenador. Ha proporcionado una plataforma para que investigadores y desarrolladores eval煤en sus algoritmos y modelos en un conjunto de datos a gran escala con m茅tricas de evaluaci贸n estandarizadas. El ILSVRC ha dado lugar a avances significativos en el desarrollo de modelos de aprendizaje profundo para la clasificaci贸n de im谩genes, la detecci贸n de objetos y otras tareas de visi贸n por ordenador.

Aplicaciones

El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de aprendizaje profundo en diversas tareas de visi贸n por ordenador, como la clasificaci贸n de im谩genes, la detecci贸n de objetos y la localizaci贸n de objetos. Algunas arquitecturas de aprendizaje profundo populares, como AlexNet, VGG y ResNet, se desarrollaron y evaluaron mediante el conjunto de datos ImageNet.

Utilizaci贸n

Para entrenar un modelo de aprendizaje profundo en el conjunto de datos ImageNet durante 100 茅pocas con un tama帽o de imagen de 224x224, puede utilizar los siguientes fragmentos de c贸digo. Para obtener una lista completa de los argumentos disponibles, consulte la p谩gina de entrenamiento del modelo.

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Ejemplos de im谩genes y anotaciones

El conjunto de datos ImageNet contiene im谩genes de alta resoluci贸n que abarcan miles de categor铆as de objetos, lo que proporciona un conjunto de datos diverso y extenso para entrenar y evaluar modelos de visi贸n por ordenador. Estos son algunos ejemplos de im谩genes del conjunto de datos:

Im谩genes de muestra del conjunto de datos

El ejemplo muestra la variedad y complejidad de las im谩genes del conjunto de datos ImageNet, lo que pone de relieve la importancia de contar con un conjunto de datos diverso para entrenar modelos s贸lidos de visi贸n por ordenador.

Citas y agradecimientos

Si utiliza el conjunto de datos ImageNet en su trabajo de investigaci贸n o desarrollo, cite el siguiente documento:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

Queremos expresar nuestro agradecimiento al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el conjunto de datos ImageNet como un valioso recurso para la comunidad investigadora del aprendizaje autom谩tico y la visi贸n por ordenador. Para m谩s informaci贸n sobre el conjunto de datos ImageNet y sus creadores, visite el sitio web de ImageNet.

PREGUNTAS FRECUENTES

驴Qu茅 es el conjunto de datos ImageNet y c贸mo se utiliza en visi贸n por ordenador?

ImageNet es una base de datos a gran escala que contiene m谩s de 14 millones de im谩genes de alta resoluci贸n clasificadas mediante sin贸nimos de WordNet. Se utiliza ampliamente en la investigaci贸n del reconocimiento visual de objetos, incluida la clasificaci贸n de im谩genes y la detecci贸n de objetos. Las anotaciones del conjunto de datos y su gran volumen proporcionan un recurso muy valioso para entrenar modelos de aprendizaje profundo. En particular, modelos como AlexNet, VGG y ResNet se han entrenado y evaluado utilizando ImageNet, lo que demuestra su papel en el avance de la visi贸n por ordenador.

驴C贸mo puedo utilizar un modelo YOLO preentrenado para la clasificaci贸n de im谩genes en el conjunto de datos ImageNet?

Para utilizar un modelo Ultralytics YOLO preentrenado para la clasificaci贸n de im谩genes en el conjunto de datos ImageNet, siga estos pasos:

Ejemplo de tren

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Para obtener instrucciones de formaci贸n m谩s detalladas, consulte nuestra p谩gina de Formaci贸n.

驴Por qu茅 deber铆a utilizar los modelos preentrenados de Ultralytics YOLO11 para mis proyectos del conjunto de datos ImageNet?

Ultralytics YOLO11 Los modelos preentrenados ofrecen un rendimiento puntero en t茅rminos de velocidad y precisi贸n para diversas tareas de visi贸n computerizada. Por ejemplo, el modelo YOLO11n-cls, con una precisi贸n top-1 del 69,0% y top-5 del 88,3%, est谩 optimizado para aplicaciones en tiempo real. Los modelos preentrenados reducen los recursos inform谩ticos necesarios para el entrenamiento desde cero y aceleran los ciclos de desarrollo. Obtenga m谩s informaci贸n sobre las m茅tricas de rendimiento de los modelos de YOLO11 en la secci贸n Modelos preentrenados de ImageNet.

驴C贸mo est谩 estructurado el conjunto de datos ImageNet y por qu茅 es importante?

El conjunto de datos ImageNet se organiza utilizando la jerarqu铆a WordNet, donde cada nodo de la jerarqu铆a representa una categor铆a descrita por un synset (una colecci贸n de t茅rminos sin贸nimos). Esta estructura permite realizar anotaciones detalladas, por lo que resulta ideal para entrenar modelos de reconocimiento de una amplia variedad de objetos. La diversidad y riqueza de anotaciones de ImageNet lo convierten en un valioso conjunto de datos para desarrollar modelos de aprendizaje profundo robustos y generalizables. Encontrar谩 m谩s informaci贸n sobre esta organizaci贸n en la secci贸n Estructura del conjunto de datos.

驴Qu茅 papel desempe帽a el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en la visi贸n por ordenador?

El concurso anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido fundamental para impulsar los avances en visi贸n por ordenador al proporcionar una plataforma competitiva para evaluar algoritmos en un conjunto de datos estandarizado a gran escala. Ofrece m茅tricas de evaluaci贸n estandarizadas que fomentan la innovaci贸n y el desarrollo en 谩reas como la clasificaci贸n de im谩genes, la detecci贸n de objetos y la segmentaci贸n de im谩genes. El desaf铆o ha ampliado continuamente los l铆mites de lo que es posible con las tecnolog铆as de aprendizaje profundo y visi贸n por ordenador.

Creado hace 1 a帽o 鉁忥笍 Actualizado hace 3 meses

Comentarios