ImageNet 数据集

Q: How can I use a pretrained YOLO model for image classification on the ImageNet dataset?

要在 ImageNet 数据集上使用预训练的Ultralytics YOLO 模型进行图像分类，请按照以下步骤操作：有关更深入的训练指导，请参阅我们的训练页面。

Q: What role does the ImageNet Large Scale Visual Recognition Challenge (ILSVRC) play in computer vision?

一年一度的 ImageNet 大规模视觉识别挑战赛（ILSVRC）提供了一个在大规模标准化数据集上评估算法的竞争平台，在推动计算机视觉技术进步方面发挥了关键作用。它提供标准化的评估指标，促进了图像分类、物体检测和图像分割等领域的创新和发展。该挑战赛不断挑战深度学习和计算机视觉技术的极限。

ImageNet是一个大规模的注释图像数据库，设计用于视觉对象识别研究。它包含 1400 多万张图像，每张图像都使用 WordNet synsets 进行注释，是计算机视觉任务中用于训练深度学习模型的最广泛的资源之一。

ImageNet 预训练模型

模型	尺寸 ^（像素）	acc ^top1	acc ^top5	速度 ^{CPU ONNX （毫秒）}	速度 A100^{TensorRT （毫秒）}	params ^(M)	FLOPs ^{(B) at 640}
YOLOv8n-cls	224	69.0	88.3	12.9	0.31	2.7	4.3
YOLOv8s-cls	224	73.8	91.7	23.4	0.35	6.4	13.5
YOLOv8m-cls	224	76.8	93.5	85.4	0.62	17.0	42.7
YOLOv8l-cls	224	76.8	93.5	163.0	0.87	37.5	99.7
YOLOv8x-cls	224	79.0	94.6	232.0	1.01	57.4	154.8

主要功能

ImageNet 包含 1400 多万张高分辨率图像，涵盖数千个对象类别。
该数据集按照 WordNet 层次结构组织，每个同义词集代表一个类别。
ImageNet 广泛用于计算机视觉领域的训练和基准测试，特别是图像分类和物体检测任务。
一年一度的 ImageNet 大规模视觉识别挑战赛（ILSVRC）在推动计算机视觉研究方面发挥了重要作用。

数据集结构

ImageNet 数据集采用 WordNet 层次结构组织。层次结构中的每个节点代表一个类别，每个类别由一个同义词集（同义词的集合）来描述。ImageNet 中的图像都标注了一个或多个同义词集，为训练模型识别各种对象及其关系提供了丰富的资源。

ImageNet 大规模视觉识别挑战赛 (ILSVRC)

一年一度的ImageNet 大规模视觉识别挑战赛（ILSVRC）一直是计算机视觉领域的一项重要赛事。它为研究人员和开发人员提供了一个在大规模数据集上评估其算法和模型的平台，并采用标准化的评估指标。ILSVRC 在开发用于图像分类、物体检测和其他计算机视觉任务的深度学习模型方面取得了重大进展。

应用

ImageNet 数据集广泛用于训练和评估各种计算机视觉任务中的深度学习模型，如图像分类、物体检测和物体定位。一些流行的深度学习架构，如 AlexNet、VGG 和 ResNet，都是利用 ImageNet 数据集开发和基准测试的。

使用方法

要在图像大小为 224x224 的 ImageNet 数据集上训练深度学习模型 100 次，可以使用以下代码片段。有关可用参数的完整列表，请参阅模型训练页面。

列车示例

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

图片和注释示例

ImageNet 数据集包含跨越数千个对象类别的高分辨率图像，为计算机视觉模型的训练和评估提供了一个多样化和广泛的数据集。下面是该数据集中的一些图像示例：

数据集样本图像

该示例展示了 ImageNet 数据集中图像的多样性和复杂性，突出了多样化数据集对训练强大的计算机视觉模型的重要性。

引文和致谢

如果您在研究或开发工作中使用 ImageNet 数据集，请引用以下论文：

BibTeX

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

我们要感谢由 Olga Russakovsky、Jia Deng 和 Li Fei-Fei 领导的 ImageNet 团队创建并维护了 ImageNet 数据集，使其成为机器学习和计算机视觉研究界的宝贵资源。有关 ImageNet 数据集及其创建者的更多信息，请访问ImageNet 网站。

常见问题

ImageNet 数据集是什么，如何用于计算机视觉？

ImageNet 数据集是一个大型数据库，由超过 1400 万张高分辨率图像组成，使用 WordNet 同义词集进行分类。它被广泛用于视觉对象识别研究，包括图像分类和对象检测。该数据集的注释和庞大的数据量为训练深度学习模型提供了丰富的资源。值得注意的是，AlexNet、VGG 和 ResNet 等模型都是利用 ImageNet 进行训练和基准测试的，充分展示了 ImageNet 在推动计算机视觉发展方面的作用。

如何在 ImageNet 数据集上使用预训练的YOLO 模型进行图像分类？

要在 ImageNet 数据集上使用预训练的Ultralytics YOLO 模型进行图像分类，请按照以下步骤操作：

列车示例

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagenet", epochs=100, imgsz=224)

# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

有关更深入的培训指导，请参阅我们的培训页面。

为什么要在 ImageNet 数据集项目中使用Ultralytics YOLOv8 预训练模型？

Ultralytics YOLOv8 在各种计算机视觉任务中，预训练模型在速度和准确性方面都具有最先进的性能。例如，YOLOv8n-cls 模型的最高 1 级准确率为 69.0%，最高 5 级准确率为 88.3%，该模型针对实时应用进行了优化。预训练模型减少了从头开始训练所需的计算资源，加快了开发周期。有关YOLOv8 模型性能指标的更多信息，请参阅ImageNet 预训练模型部分。

ImageNet 数据集的结构是怎样的？

ImageNet 数据集采用 WordNet 层次结构组织，层次结构中的每个节点代表一个由同义词集（同义词的集合）描述的类别。这种结构允许进行详细注释，是训练模型识别各种对象的理想选择。ImageNet 的多样性和丰富的注释使其成为开发稳健、可泛化的深度学习模型的宝贵数据集。有关该组织的更多信息，请参阅数据集结构部分。

ImageNet 大规模视觉识别挑战赛 (ILSVRC) 在计算机视觉领域发挥着什么作用？

一年一度的ImageNet 大规模视觉识别挑战赛（ILSVRC）提供了一个在大规模标准化数据集上评估算法的竞争平台，在推动计算机视觉技术进步方面发挥了关键作用。它提供标准化的评估指标，促进了图像分类、物体检测和图像分割等领域的创新和发展。该挑战赛不断挑战深度学习和计算机视觉技术的极限。

创建于 2023-11-12，更新于 2024-07-04
作者：glenn-jocher(8)、RizwanMunawar(1)