Conjunto de datos ImageNet
ImageNet es una base de datos a gran escala de imágenes anotadas diseñada para su uso en la investigación del reconocimiento visual de objetos. Contiene más de 14 millones de imágenes, cada una anotada mediante synsets de WordNet, lo que lo convierte en uno de los recursos más extensos disponibles para entrenar modelos de deep learning en tareas de computer vision.
Modelos preentrenados de ImageNet
| Modelo | tamaño (píxeles) | acc top1 | acc top5 | Velocidad CPU ONNX (ms) | Velocidad T4 TensorRT10 (ms) | params (M) | FLOPs (B) a 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Características clave
- ImageNet contiene más de 14 millones de imágenes de alta resolución que abarcan miles de categorías de objetos.
- El conjunto de datos está organizado según la jerarquía de WordNet, donde cada synset representa una categoría.
- ImageNet se utiliza ampliamente para el entrenamiento y la evaluación comparativa en el campo de la visión artificial, particularmente para tareas de image classification y object detection.
- El desafío anual ImageNet Large Scale Visual Recognition Challenge (ILSVRC) ha sido fundamental para avanzar en la investigación de la visión artificial.
Estructura del conjunto de datos
El conjunto de datos ImageNet está organizado utilizando la jerarquía de WordNet. Cada nodo en la jerarquía representa una categoría, y cada categoría está descrita por un synset (una colección de términos sinónimos). Las imágenes en ImageNet están anotadas con uno o más synsets, proporcionando un recurso rico para entrenar modelos a reconocer diversos objetos y sus relaciones.
ImageNet Large Scale Visual Recognition Challenge (ILSVRC)
El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual ha sido un evento importante en el campo de la visión artificial. Ha proporcionado una plataforma para que investigadores y desarrolladores evalúen sus algoritmos y modelos en un conjunto de datos a gran escala con métricas de evaluación estandarizadas. El ILSVRC ha conducido a avances significativos en el desarrollo de modelos de deep learning para la clasificación de imágenes, detección de objetos y otras tareas de visión artificial.
Aplicaciones
El conjunto de datos ImageNet se utiliza ampliamente para entrenar y evaluar modelos de deep learning en diversas tareas de visión artificial, como la clasificación de imágenes, la detección de objetos y la localización de objetos. Algunas arquitecturas populares de deep learning, como AlexNet, VGG y ResNet, fueron desarrolladas y evaluadas utilizando el conjunto de datos ImageNet.
Uso
Para entrenar un modelo de deep learning en el conjunto de datos ImageNet durante 100 epochs con un tamaño de imagen de 224x224, puedes utilizar los siguientes fragmentos de código. Para obtener una lista completa de los argumentos disponibles, consulta la página de Training del modelo.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Imágenes y anotaciones de muestra
El conjunto de datos ImageNet contiene imágenes de alta resolución que abarcan miles de categorías de objetos, proporcionando un conjunto de datos diverso y extenso para entrenar y evaluar modelos de visión artificial. Aquí tienes algunos ejemplos de imágenes del conjunto de datos:

El ejemplo muestra la variedad y complejidad de las imágenes en el conjunto de datos ImageNet, destacando la importancia de un conjunto de datos diverso para entrenar modelos de visión artificial robustos.
Citas y reconocimientos
Si utilizas el conjunto de datos ImageNet en tu trabajo de investigación o desarrollo, por favor cita el siguiente artículo:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}Queremos agradecer al equipo de ImageNet, dirigido por Olga Russakovsky, Jia Deng y Li Fei-Fei, por crear y mantener el conjunto de datos ImageNet como un recurso valioso para la comunidad de investigación en machine learning y visión artificial. Para obtener más información sobre el conjunto de datos ImageNet y sus creadores, visita el sitio web de ImageNet.
Preguntas frecuentes
¿Qué es el conjunto de datos ImageNet y cómo se utiliza en la visión artificial?
El conjunto de datos ImageNet es una base de datos a gran escala que consta de más de 14 millones de imágenes de alta resolución categorizadas utilizando synsets de WordNet. Se utiliza extensamente en la investigación del reconocimiento visual de objetos, incluyendo la clasificación de imágenes y la detección de objetos. Las anotaciones y el gran volumen del conjunto de datos proporcionan un recurso rico para entrenar modelos de deep learning. Cabe destacar que modelos como AlexNet, VGG y ResNet han sido entrenados y evaluados utilizando ImageNet, demostrando su papel en el avance de la visión artificial.
¿Cómo puedo usar un modelo YOLO preentrenado para la clasificación de imágenes en el conjunto de datos ImageNet?
Para usar un modelo Ultralytics YOLO preentrenado para la clasificación de imágenes en el conjunto de datos ImageNet, sigue estos pasos:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Para obtener instrucciones de entrenamiento más detalladas, consulta nuestra página de Training.
¿Por qué debería usar los modelos preentrenados Ultralytics YOLO26 para mis proyectos con el conjunto de datos ImageNet?
Los modelos preentrenados Ultralytics YOLO26 ofrecen un rendimiento de última generación en términos de velocidad y accuracy para diversas tareas de visión artificial. Por ejemplo, el modelo YOLO26n-cls, con una precisión top-1 del 70.0% y una precisión top-5 del 89.4%, está optimizado para aplicaciones en tiempo real. Los modelos preentrenados reducen los recursos computacionales necesarios para entrenar desde cero y aceleran los ciclos de desarrollo. Aprende más sobre las métricas de rendimiento de los modelos YOLO26 en la sección de Modelos preentrenados de ImageNet.
¿Cómo está estructurado el conjunto de datos ImageNet y por qué es importante?
El conjunto de datos ImageNet está organizado utilizando la jerarquía de WordNet, donde cada nodo en la jerarquía representa una categoría descrita por un synset (una colección de términos sinónimos). Esta estructura permite anotaciones detalladas, lo que lo hace ideal para entrenar modelos a reconocer una amplia variedad de objetos. La diversidad y la riqueza de las anotaciones de ImageNet lo convierten en un conjunto de datos valioso para desarrollar modelos de deep learning robustos y generalizables. Puedes encontrar más información sobre esta organización en la sección Dataset Structure.
¿Qué papel desempeña el ImageNet Large Scale Visual Recognition Challenge (ILSVRC) en la visión artificial?
El ImageNet Large Scale Visual Recognition Challenge (ILSVRC) anual ha sido fundamental para impulsar avances en la visión artificial al proporcionar una plataforma competitiva para evaluar algoritmos en un conjunto de datos estandarizado a gran escala. Ofrece métricas de evaluación estandarizadas, fomentando la innovación y el desarrollo en áreas como la clasificación de imágenes, la detección de objetos y la image segmentation. El desafío ha superado continuamente los límites de lo que es posible con las tecnologías de deep learning y visión artificial.