ImageNet 数据集
ImageNet is a large-scale database of annotated images designed for use in visual object recognition research. It contains over 14 million images, with each image annotated using WordNet synsets, making it one of the most extensive resources available for training deep learning models in computer vision tasks.
ImageNet 预训练模型
| 模型 | 尺寸 (像素) | 准确率 top1 | 准确率 top5 | 速度 CPU ONNX (ms) | 速度 T4 TensorRT10 (ms) | 参数 (M) | FLOPs (B) 在 224 |
|---|---|---|---|---|---|---|---|
| YOLO26n-cls | 224 | 71.4 | 90.1 | 5.0 ± 0.3 | 1.1 ± 0.0 | 2.8 | 0.5 |
| YOLO26s-cls | 224 | 76.0 | 92.9 | 7.9 ± 0.2 | 1.3 ± 0.0 | 6.7 | 1.6 |
| YOLO26m-cls | 224 | 78.1 | 94.2 | 17.2 ± 0.4 | 2.0 ± 0.0 | 11.6 | 4.9 |
| YOLO26l-cls | 224 | 79.0 | 94.6 | 23.2 ± 0.3 | 2.8 ± 0.0 | 14.1 | 6.2 |
| YOLO26x-cls | 224 | 79.9 | 95.0 | 41.4 ± 0.9 | 3.8 ± 0.0 | 29.6 | 13.6 |
主要特性
- ImageNet 包含超过 1400 万张涵盖数千个物体类别的高分辨率图像。
- 该数据集按照 WordNet 层级结构进行组织,每个同义词集代表一个类别。
- ImageNet 被广泛用于计算机视觉领域的训练和基准测试,特别是在 图像分类 和 物体检测 任务中。
- 年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在推动计算机视觉研究方面发挥了重要作用。
数据集结构
ImageNet 数据集使用 WordNet 层级结构进行组织。层级中的每个节点代表一个类别,每个类别由一个同义词集(一组同义词)描述。ImageNet 中的图像用一个或多个同义词集进行标注,为训练模型识别各种物体及其关系提供了丰富的资源。
ImageNet 大规模视觉识别挑战赛 (ILSVRC)
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是计算机视觉领域的重要赛事。它为研究人员和开发者提供了一个平台,让他们可以在带有标准化评估指标的大规模数据集上评估其算法和模型。ILSVRC 推动了用于图像分类、物体检测和其他计算机视觉任务的深度学习模型的显著发展。
应用场景
ImageNet 数据集被广泛用于训练和评估各种计算机视觉任务中的深度学习模型,例如图像分类、物体检测和物体定位。一些流行的深度学习架构,如 AlexNet、VGG 和 ResNet,都是使用 ImageNet 数据集开发并进行基准测试的。
使用方法
若要在 ImageNet 数据集上训练深度学习模型 100 个 epoch,图像大小为 224x224,你可以使用以下代码片段。有关可用参数的完整列表,请参考模型 训练 页面。
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)样本图像和标注
ImageNet 数据集包含涵盖数千个物体类别的高分辨率图像,为训练和评估计算机视觉模型提供了多样化且广泛的数据集。以下是来自该数据集的图像示例:

该示例展示了 ImageNet 数据集中图像的多样性和复杂性,凸显了多样化数据集对于训练鲁棒计算机视觉模型的重要性。
引文与致谢
如果你在研究或开发工作中使用了 ImageNet 数据集,请引用以下论文:
@article{ILSVRC15,
author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
title={ImageNet Large Scale Visual Recognition Challenge},
year={2015},
journal={International Journal of Computer Vision (IJCV)},
volume={115},
number={3},
pages={211-252}
}我们要感谢以 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 为首的 ImageNet 团队,他们创建并维护了 ImageNet 数据集,使其成为 机器学习 和计算机视觉研究社区的宝贵资源。有关 ImageNet 数据集及其创建者的更多信息,请访问 ImageNet 网站。
常见问题 (FAQ)
什么是 ImageNet 数据集,它在计算机视觉中是如何使用的?
ImageNet 数据集 是一个大规模数据库,由超过 1400 万张使用 WordNet 同义词集分类的高分辨率图像组成。它被广泛用于视觉物体识别研究,包括图像分类和物体检测。该数据集的标注和庞大的数量为训练深度学习模型提供了丰富的资源。值得注意的是,AlexNet、VGG 和 ResNet 等模型都是使用 ImageNet 进行训练和基准测试的,这展示了它在推动计算机视觉发展中的作用。
我该如何使用预训练的 YOLO 模型在 ImageNet 数据集上进行图像分类?
要使用预训练的 Ultralytics YOLO 模型在 ImageNet 数据集上进行图像分类,请遵循以下步骤:
from ultralytics import YOLO
# Load a model
model = YOLO("yolo26n-cls.pt") # load a pretrained model (recommended for training)
# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)有关更深入的训练说明,请参考我们的 训练页面。
为什么我应该在我的 ImageNet 数据集项目中使用 Ultralytics YOLO26 预训练模型?
Ultralytics YOLO26 预训练模型在各种计算机视觉任务的速度和 准确率 方面提供了顶尖的性能。例如,YOLO26n-cls 模型具有 70.0% 的 Top-1 准确率和 89.4% 的 Top-5 准确率,并针对实时应用进行了优化。预训练模型减少了从零开始训练所需的计算资源,并加速了开发周期。在 ImageNet 预训练模型部分 中了解更多关于 YOLO26 模型性能指标的信息。
ImageNet 数据集是如何构建的,为什么它很重要?
ImageNet 数据集使用 WordNet 层级结构进行组织,其中层级中的每个节点代表一个由同义词集(一组同义词)描述的类别。这种结构允许进行详细的标注,使其非常适合训练模型以识别各种各样的物体。ImageNet 的多样性和标注丰富性使其成为开发鲁棒且具有通用性深度学习模型的宝贵数据集。有关此组织的更多信息,请参阅 数据集结构 部分。
ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在计算机视觉中扮演什么角色?
年度 ImageNet 大规模视觉识别挑战赛 (ILSVRC) 一直是通过提供一个在标准化的大规模数据集上评估算法的竞争平台,来推动计算机视觉进步的关键。它提供了标准化的评估指标,促进了图像分类、物体检测和 图像分割 等领域的创新与发展。该挑战赛不断突破深度学习和计算机视觉技术可能性的边界。