Link to this sectionImageNet 数据集#
ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.
Link to this sectionImageNet 预训练模型#
| 模型 | 尺寸 (像素) | 准确率 top1 | 准确率 top5 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数量 (M) | FLOPs (B) at 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
Link to this section主要特性#
- ImageNet 包含超过 1400 万张高分辨率图像,涵盖了数千个对象类别。
- 该数据集根据 WordNet 层级结构进行组织,每个同义词集代表一个类别。
- ImageNet 广泛应用于计算机视觉领域的训练和基准测试,特别是在 图像分类 和 目标检测 任务中。
- 年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在推动计算机视觉研究方面发挥了重要作用。
Link to this section数据集结构#
ImageNet 数据集使用 WordNet 层级结构进行组织。层级中的每个节点代表一个类别,每个类别由一个同义词集(一组同义词的集合)进行描述。ImageNet 中的图像使用一个或多个同义词集进行标注,为训练模型识别各种对象及其相互关系提供了丰富的资源。
Link to this sectionImageNet 大规模视觉识别挑战赛 (ILSVRC)#
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是计算机视觉领域的重要盛事。它为研究人员和开发者提供了一个平台,让他们可以在大规模数据集上使用标准化的评估指标来评估其算法和模型。ILSVRC 推动了用于图像分类、目标检测及其他计算机视觉任务的深度学习模型开发的重大进步。
Link to this section应用#
ImageNet 数据集被广泛用于训练和评估各种计算机视觉任务中的深度学习模型,例如图像分类、目标检测和目标定位。一些流行的深度学习架构,如 AlexNet、VGG 和 ResNet,都是使用 ImageNet 数据集进行开发和基准测试的。
Link to this section用法#
若要在 ImageNet 数据集上以 224x224 的图像尺寸训练深度学习模型 100 个 轮次 (epochs),你可以使用以下代码片段。有关可用参数的完整列表,请参阅模型 训练 页面。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)Link to this section样本图像和标注#
ImageNet 数据集包含涵盖数千个对象类别的高分辨率图像,为训练和评估计算机视觉模型提供了多样化且广泛的数据集。以下是来自该数据集的一些图像示例:

该示例展示了 ImageNet 数据集中图像的多样性和复杂性,突显了多样化数据集对于训练稳健的计算机视觉模型的重要性。
Link to this section引用与致谢#
如果你在研究或开发工作中使用 ImageNet 数据集,请引用以下论文:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}我们衷心感谢由 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 领导的 ImageNet 团队,他们创建并维护了 ImageNet 数据集,使其成为 机器学习 和计算机视觉研究社区的宝贵资源。欲了解有关 ImageNet 数据集及其创建者的更多信息,请访问 ImageNet 网站。
Link to this section常见问题#
Link to this section什么是 ImageNet 数据集?它在计算机视觉中是如何使用的?#
ImageNet 数据集 是一个大规模数据库,包含超过 1400 万张使用 WordNet 同义词集分类的高分辨率图像。它广泛用于视觉对象识别研究,包括图像分类和目标检测。该数据集的标注和海量数据为训练深度学习模型提供了丰富的资源。值得注意的是,AlexNet、VGG 和 ResNet 等模型都是使用 ImageNet 进行训练和基准测试的,这展示了它在推动计算机视觉发展中的作用。
Link to this section我该如何使用预训练的 YOLO 模型在 ImageNet 数据集上进行图像分类?#
要使用预训练的 Ultralytics YOLO 模型在 ImageNet 数据集上进行图像分类,请按照以下步骤操作:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)有关更深入的训练指导,请参阅我们的 训练页面。
Link to this section为什么我应该在 ImageNet 数据集项目中使用 Ultralytics YOLO26 预训练模型?#
Ultralytics YOLO26 预训练模型在各种计算机视觉任务的速度和 准确性 方面均表现出色。例如,YOLO26n-cls 模型在 top-1 准确率达到 71.4% 且 top-5 准确率达到 90.1% 的同时,针对实时应用进行了优化。预训练模型减少了从头开始训练所需的计算资源,并加快了开发周期。在 ImageNet 预训练模型部分 了解更多关于 YOLO26 模型性能指标的信息。
Link to this sectionImageNet 数据集是如何构建的?为什么它很重要?#
ImageNet 数据集使用 WordNet 层级结构进行组织,其中层级中的每个节点代表一个由同义词集(一组同义词的集合)描述的类别。这种结构支持详细的标注,使其非常适合训练模型以识别各种各样的对象。ImageNet 的多样性和标注丰富性使其成为开发稳健且具有通用性的深度学习模型的宝贵数据集。有关此组织的更多信息,请参阅 数据集结构 部分。
Link to this sectionImageNet 大规模视觉识别挑战赛 (ILSVRC) 在计算机视觉中扮演什么角色?#
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是推动计算机视觉进步的关键,它为在大规模标准化数据集上评估算法提供了一个竞争平台。它提供标准化的评估指标,促进了图像分类、目标检测和 图像分割 等领域的创新与发展。该挑战赛不断拓展深度学习和计算机视觉技术可能性的边界。