ImageNet10 数据集

ImageNet10 数据集是 ImageNet 数据库的一个小型子集,由 Ultralytics 开发,旨在用于 CI 测试、完整性检查以及训练管道的快速测试。该数据集由 ImageNet 前 10 个类别的训练集中的第一张图像和验证集中的第一张图像组成。尽管规模小得多,但它保留了原始 ImageNet 数据集的结构和多样性。

主要特性

  • ImageNet10 是 ImageNet 的精简版本,包含 20 张图像,代表了原始数据集的前 10 个类别。
  • 该数据集按照 WordNet 层级结构进行组织,反映了完整 ImageNet 数据集的结构。
  • 它非常适合用于 计算机视觉 任务中的 CI 测试、完整性检查以及训练管道的快速测试。
  • 虽然它不是为模型基准测试而设计的,但它可以提供关于模型基本功能和正确性的快速指示。

数据集结构

ImageNet10 数据集与原始 ImageNet 一样,使用 WordNet 层级结构进行组织。ImageNet10 中的 10 个类别中的每一个都由一个同义词集(synset,即同义词集合)描述。ImageNet10 中的图像使用一个或多个同义词集进行标注,为测试模型识别各种对象及其关系提供了一个紧凑的资源。

应用场景

ImageNet10 数据集对于快速测试和调试计算机视觉模型及管道非常有用。其体积小巧,允许快速迭代,因此非常适合用于 持续集成 测试和完整性检查。它还可用于在进行完整的 ImageNet 数据集 全规模测试之前,对新模型或现有模型的更改进行快速初步测试。

使用方法

要在 ImageNet10 数据集上以 224x224 的图像尺寸测试深度学习模型,你可以使用以下代码片段。有关可用参数的完整列表,请参考模型 训练 页面。

测试示例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

样本图像和标注

ImageNet10 数据集包含原始 ImageNet 数据集中的图像子集。这些图像经过精心挑选,代表了数据集中的前 10 个类别,为快速测试和评估提供了一个既多样化又紧凑的数据集。

ImageNet-10 分类数据集样本图像

该示例展示了 ImageNet10 数据集中图像的多样性和复杂性,突显了它在计算机视觉模型的完整性检查和快速测试中的用途。

引文与致谢

如果你在研究或开发工作中使用了 ImageNet10 数据集,请引用原始 ImageNet 论文:

引用
@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

我们衷心感谢由 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 领导的 ImageNet 团队创建并维护了 ImageNet 数据集。ImageNet10 数据集虽然只是一个精简的子集,却是 机器学习 和计算机视觉研究社区中用于快速测试和调试的宝贵资源。有关 ImageNet 数据集及其创建者的更多信息,请访问 ImageNet 网站

常见问题 (FAQ)

什么是 ImageNet10 数据集?它与完整的 ImageNet 数据集有何不同?

ImageNet10 数据集是原始 ImageNet 数据库的一个精简子集,由 Ultralytics 创建,用于快速 CI 测试、完整性检查和训练管道评估。ImageNet10 仅包含 20 张图像,代表了 ImageNet 中前 10 个类别的训练集和验证集中的第一张图像。尽管规模很小,但它保持了完整数据集的结构和多样性,使其非常适合快速测试,但不适用于模型基准测试。

如何使用 ImageNet10 数据集来测试我的深度学习模型?

要在 ImageNet10 数据集上以 224x224 的图像尺寸测试你的深度学习模型,请使用以下代码片段。

测试示例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet10", epochs=5, imgsz=224)

有关可用参数的完整列表,请参考 训练 页面。

为什么要使用 ImageNet10 数据集进行 CI 测试和完整性检查?

ImageNet10 数据集专为 深度学习 管道中的 CI 测试、完整性检查和快速评估而设计。其体积小巧,允许快速迭代和测试,因此非常适合对速度要求极高的持续集成过程。通过保持原始 ImageNet 数据集的结构复杂性和多样性,ImageNet10 无需处理大型数据集的开销,即可提供对模型基本功能和正确性的可靠指示。

ImageNet10 数据集的主要特点是什么?

ImageNet10 数据集具有几个关键特性:

  • 紧凑的尺寸:仅包含 20 张图像,便于快速测试和调试。
  • 结构化组织:遵循 WordNet 层级结构,与完整的 ImageNet 数据集类似。
  • CI 和完整性检查:非常适合持续集成测试和完整性检查。
  • 不适用于基准测试:虽然对快速模型评估很有用,但它并非为进行广泛的基准测试而设计。

ImageNet10 与 ImageNette 等其他小型数据集相比如何?

尽管 ImageNet10ImageNette 都是 ImageNet 的子集,但它们的用途不同。ImageNet10 仅包含来自 ImageNet 前 10 个类别的 20 张图像(每类 2 张),使其在 CI 测试和快速完整性检查方面极为轻量。相比之下,ImageNette 包含 10 个易于区分的类别中的数千张图像,更适合实际的模型训练和开发。ImageNet10 旨在验证管道功能,而 ImageNette 更适合进行有意义但比完整 ImageNet 训练更快速的实验。

评论