跳转至内容

ImageNet 数据集

ImageNet 是一个大规模的带注释图像数据库,专为视觉对象识别研究而设计。它包含超过 1400 万张图像,每张图像都使用 WordNet 同义词集进行注释,使其成为可用于在深度学习模型中训练计算机视觉任务的最广泛的资源之一。

ImageNet 预训练模型

模型 尺寸
(像素)
acc
top1
acc
top5
速度
CPU ONNX
(毫秒)
速度
T4 TensorRT10
(毫秒)
参数
(M)
FLOPs
(B) at 224
YOLO11n-cls 224 70.0 89.4 5.0 ± 0.3 1.1 ± 0.0 1.6 0.5
YOLO11s-cls 224 75.4 92.7 7.9 ± 0.2 1.3 ± 0.0 5.5 1.6
YOLO11m-cls 224 77.3 93.9 17.2 ± 0.4 2.0 ± 0.0 10.4 5.0
YOLO11l-cls 224 78.3 94.3 23.2 ± 0.3 2.8 ± 0.0 12.9 6.2
YOLO11x-cls 224 79.5 94.9 41.4 ± 0.9 3.8 ± 0.0 28.4 13.7

主要功能

  • ImageNet 包含超过 1400 万张高分辨率图像,涵盖数千个对象类别。
  • 该数据集按照 WordNet 层次结构进行组织,每个同义词集代表一个类别。
  • ImageNet 广泛应用于计算机视觉领域的训练和基准测试,尤其是在 图像分类对象检测 任务中。
  • 一年一度的 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在推动计算机视觉研究方面发挥了重要作用。

数据集结构

ImageNet 数据集使用 WordNet 层次结构进行组织。层次结构中的每个节点代表一个类别,每个类别由一个同义词集(一组同义词)描述。ImageNet 中的图像使用一个或多个同义词集进行注释,从而为训练模型以识别各种对象及其关系提供了丰富的资源。

ImageNet 大规模视觉识别挑战赛 (ILSVRC)

一年一度的 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是计算机视觉领域的一项重要赛事。它为研究人员和开发人员提供了一个平台,可以使用标准化评估指标,在大规模数据集上评估他们的算法和模型。ILSVRC 促使了用于图像分类、对象检测和其他计算机视觉任务的深度学习模型开发的重大进展。

应用

ImageNet数据集广泛用于训练和评估各种计算机视觉任务中的深度学习模型,例如图像分类、目标检测和目标定位。一些流行的深度学习架构,如AlexNetVGGResNet,都是使用ImageNet数据集开发和进行基准测试的。

用法

要在 ImageNet 数据集上训练深度学习模型 100 个 epochs,图像大小为 224x224,您可以使用以下代码片段。 有关可用参数的完整列表,请参阅模型训练页面。

训练示例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

Sample Images 和注释

ImageNet 数据集包含跨越数千个对象类别的高分辨率图像,为训练和评估计算机视觉模型提供了多样化且广泛的数据集。 以下是数据集中图像的一些示例:

数据集 sample_images

该示例展示了 ImageNet 数据集中图像的多样性和复杂性,突出了多样化数据集对于训练稳健的计算机视觉模型的重要性。

引用和致谢

如果您在研究或开发工作中使用 ImageNet 数据集,请引用以下论文:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

我们要感谢 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 领导的 ImageNet 团队,他们创建并维护了 ImageNet 数据集,使其成为机器学习和计算机视觉研究领域的重要资源。有关 ImageNet 数据集及其创建者的更多信息,请访问 ImageNet 网站

常见问题

什么是 ImageNet 数据集,它在计算机视觉中是如何使用的?

ImageNet 数据集是一个大规模数据库,包含超过 1400 万张使用 WordNet 同义词集进行分类的高分辨率图像。它广泛应用于视觉对象识别研究,包括图像分类和对象检测。该数据集的注释和庞大的数据量为训练深度学习模型提供了丰富的资源。值得注意的是,AlexNet、VGG 和 ResNet 等模型已经使用 ImageNet 进行了训练和基准测试,展示了其在推动计算机视觉发展中的作用。

如何在 ImageNet 数据集上使用预训练的 YOLO 模型进行图像分类?

要使用预训练的 Ultralytics YOLO 模型在 ImageNet 数据集上进行图像分类,请按照以下步骤操作:

训练示例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224

有关更深入的训练说明,请参阅我们的训练页面

为什么应该将 Ultralytics YOLO11 预训练模型用于我的 ImageNet 数据集项目?

Ultralytics YOLO11 预训练模型在速度和准确性方面为各种计算机视觉任务提供了最先进的性能。例如,YOLO11n-cls 模型,其 top-1 准确率为 70.0%,top-5 准确率为 89.4%,针对实时应用进行了优化。预训练模型减少了从头开始训练所需的计算资源,并加速了开发周期。在ImageNet 预训练模型部分了解更多关于 YOLO11 模型性能指标的信息。

ImageNet 数据集的结构如何,为什么它很重要?

ImageNet 数据集使用 WordNet 层次结构进行组织,其中层次结构中的每个节点代表一个由同义词集(同义词集合)描述的类别。这种结构允许进行详细的注释,使其非常适合训练模型以识别各种对象。ImageNet 的多样性和丰富的注释使其成为开发稳健且可泛化的深度学习模型的宝贵数据集。有关此组织的更多信息,请参见数据集结构部分。

ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在计算机视觉中扮演什么角色?

一年一度的ImageNet 大规模视觉识别挑战赛 (ILSVRC)通过提供一个竞争平台,用于评估大规模标准化数据集上的算法,从而在推动计算机视觉的进步方面发挥了关键作用。它提供了标准化的评估指标,促进了图像分类、对象检测和图像分割等领域的创新和发展。这项挑战不断突破深度学习和计算机视觉技术所能实现的界限。



📅 创建于 1 年前 ✏️ 更新于 5 个月前

评论