ImageNet数据集
ImageNet 是一个大规模的标注图像数据库,专为视觉对象识别研究而设计。它包含超过 1400 万张图像,每张图像都使用 WordNet 同义词集进行标注,使其成为训练深度学习模型执行计算机视觉任务的最广泛资源之一。
ImageNet 预训练模型
| 模型 | 尺寸 (像素) | acc top1 | acc top5 | 速度 CPU ONNX (毫秒) | 速度 T4 TensorRT10 (毫秒) | 参数 (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO11n-cls | 224 | 70.0 | 89.4 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO11s-cls | 224 | 75.4 | 92.7 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO11m-cls | 224 | 77.3 | 93.9 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO11l-cls | 224 | 78.3 | 94.3 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO11x-cls | 224 | 79.5 | 94.9 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
主要功能
- ImageNet包含超过1400万张高分辨率图像,涵盖数千个目标类别。
- 该数据集按照 WordNet 层次结构进行组织,每个同义词集代表一个类别。
- ImageNet 在计算机视觉领域被广泛用于训练和基准测试,特别是针对图像分类和目标检测任务。
- 年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在推动计算机视觉研究方面发挥了重要作用。
数据集结构
ImageNet 数据集使用 WordNet 层次结构进行组织。层次结构中的每个节点都代表一个类别,每个类别都由一个同义词集(一组同义词)描述。ImageNet 中的图像带有一个或多个同义词集标注,为训练模型识别各种物体及其关系提供了丰富的资源。
ImageNet 大规模视觉识别挑战赛 (ILSVRC)
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是计算机视觉领域的一项重要赛事。它为研究人员和开发人员提供了一个平台,用于在大规模数据集上使用标准化评估指标来评估其算法和模型。ILSVRC 推动了深度学习模型在图像分类、目标 detect 和其他计算机视觉任务方面取得重大进展。
应用
ImageNet 数据集广泛用于训练和评估各种计算机视觉任务中的深度学习模型,例如图像分类、目标检测和目标定位。一些流行的深度学习架构,例如AlexNet、VGG 和 ResNet,都是使用 ImageNet 数据集开发和基准测试的。
用法
要在 ImageNet 数据集上训练一个图像尺寸为 224x224、进行 100 个epoch的深度学习模型,您可以使用以下代码片段。有关可用参数的完整列表,请参阅模型训练页面。
训练示例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
Sample Images 和注释
ImageNet 数据集包含数千个物体类别的高分辨率图像,为训练和评估计算机视觉模型提供了多样化且广泛的数据集。以下是该数据集中的一些图像示例:

该示例展示了 ImageNet 数据集中图像的多样性和复杂性,强调了多样化数据集对于训练鲁棒计算机视觉模型的重要性。
引用和致谢
如果您在研究或开发工作中使用 ImageNet 数据集,请引用以下论文:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}
我们感谢由 Olga Russakovsky、贾登和李飞飞领导的 ImageNet 团队,他们创建并维护了 ImageNet 数据集,使其成为机器学习和计算机视觉研究社区的宝贵资源。有关 ImageNet 数据集及其创建者的更多信息,请访问 ImageNet 网站。
常见问题
什么是ImageNet数据集,它在计算机视觉中如何使用?
The ImageNet 数据集是一个大规模数据库,包含超过 1400 万张高分辨率图像,并使用 WordNet 词集进行分类。它广泛应用于视觉对象识别研究,包括图像分类和目标 detect。该数据集的注释和庞大数量为训练深度学习模型提供了丰富的资源。值得注意的是,AlexNet、VGG 和 ResNet 等模型都曾使用 ImageNet 进行训练和基准测试,展示了其在推动计算机视觉发展中的作用。
如何使用预训练的 YOLO 模型在 ImageNet 数据集上进行图像分类?
要将预训练的 Ultralytics YOLO 模型用于 ImageNet 数据集上的图像分类,请按照以下步骤操作:
训练示例
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagenet model=yolo11n-cls.pt epochs=100 imgsz=224
有关更深入的训练说明,请参阅我们的训练页面。
为什么我应该使用Ultralytics YOLO11预训练模型来处理我的ImageNet数据集项目?
Ultralytics YOLO11 预训练模型在速度和准确性方面为各种计算机视觉任务提供了最先进的性能。例如,YOLO11n-cls 模型具有 70.0% 的 Top-1 准确率和 89.4% 的 Top-5 准确率,并针对实时应用进行了优化。预训练模型减少了从头开始训练所需的计算资源,并加速了开发周期。在ImageNet 预训练模型部分了解更多关于 YOLO11 模型性能指标的信息。
ImageNet数据集是如何构建的,以及它为何重要?
ImageNet 数据集使用 WordNet 层次结构进行组织,其中层次结构中的每个节点都代表一个由同义词集(一组同义词)描述的类别。这种结构允许进行详细标注,使其非常适合训练模型识别各种物体。ImageNet 的多样性和丰富的标注使其成为开发稳健且泛化能力强的深度学习模型的宝贵数据集。有关此组织的更多信息,请参阅数据集结构部分。
ImageNet大规模视觉识别挑战赛 (ILSVRC) 在计算机视觉中扮演什么角色?
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 通过提供一个竞争平台,用于在大规模、标准化数据集上评估算法,在推动计算机视觉进步方面发挥了关键作用。它提供标准化的评估指标,促进了图像分类、目标 detect 和 图像 segment 等领域的创新和发展。这项挑战不断拓展深度学习和计算机视觉技术的可能性边界。