跳至内容

ImageNet 数据集

ImageNet是一个大规模的注释图像数据库,设计用于视觉对象识别研究。它包含 1400 多万张图像,每张图像都使用 WordNet synsets 进行注释,是计算机视觉任务中用于训练深度学习模型的最广泛的资源之一。

ImageNet 预训练模型

模型 尺寸
(像素)
acc
top1
acc
top5
速度
CPUONNX
(ms)
速度
A100 TensorRT
(毫秒)
params
(M)
FLOPs
(B) at 640
YOLOv8n-cls 224 69.0 88.3 12.9 0.31 2.7 4.3
YOLOv8s-cls 224 73.8 91.7 23.4 0.35 6.4 13.5
YOLOv8m-cls 224 76.8 93.5 85.4 0.62 17.0 42.7
YOLOv8l-cls 224 76.8 93.5 163.0 0.87 37.5 99.7
YOLOv8x-cls 224 79.0 94.6 232.0 1.01 57.4 154.8

主要功能

  • ImageNet 包含 1400 多万张高分辨率图像,涵盖数千个对象类别。
  • 该数据集按照 WordNet 层次结构组织,每个同义词集代表一个类别。
  • ImageNet 广泛用于计算机视觉领域的训练和基准测试,特别是图像分类和物体检测任务。
  • 一年一度的 ImageNet 大规模视觉识别挑战赛(ILSVRC)在推动计算机视觉研究方面发挥了重要作用。

数据集结构

ImageNet 数据集采用 WordNet 层次结构组织。层次结构中的每个节点代表一个类别,每个类别由一个同义词集(同义词的集合)来描述。ImageNet 中的图像都标注了一个或多个同义词集,为训练模型识别各种对象及其关系提供了丰富的资源。

ImageNet 大规模视觉识别挑战赛 (ILSVRC)

一年一度的ImageNet 大规模视觉识别挑战赛(ILSVRC)一直是计算机视觉领域的一项重要赛事。它为研究人员和开发人员提供了一个在大规模数据集上评估其算法和模型的平台,并采用标准化的评估指标。ILSVRC 在开发用于图像分类、物体检测和其他计算机视觉任务的深度学习模型方面取得了重大进展。

应用

ImageNet 数据集广泛用于训练和评估各种计算机视觉任务中的深度学习模型,如图像分类、物体检测和物体定位。一些流行的深度学习架构,如 AlexNet、VGG 和 ResNet,都是利用 ImageNet 数据集开发和基准测试的。

使用方法

要在图像大小为 224x224 的 ImageNet 数据集上训练深度学习模型 100 次,可以使用以下代码片段。有关可用参数的完整列表,请参阅模型训练页面。

列车示例

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

图片和注释示例

ImageNet 数据集包含跨越数千个对象类别的高分辨率图像,为计算机视觉模型的训练和评估提供了一个多样化和广泛的数据集。下面是该数据集中的一些图像示例:

数据集样本图像

该示例展示了 ImageNet 数据集中图像的多样性和复杂性,突出了多样化数据集对训练强大的计算机视觉模型的重要性。

引文和致谢

如果您在研究或开发工作中使用 ImageNet 数据集,请引用以下论文:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

我们要感谢由 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 领导的 ImageNet 团队创建并维护了 ImageNet 数据集,使其成为机器学习和计算机视觉研究界的宝贵资源。有关 ImageNet 数据集及其创建者的更多信息,请访问ImageNet 网站



创建于 2023-11-12,更新于 2024-05-18
作者:glenn-jocher(6)、RizwanMunawar(1)

评论