跳至内容

ImageWoof 数据集

The ImageWoof dataset is a subset of the ImageNet consisting of 10 classes that are challenging to classify, since they're all dog breeds. It was created as a more difficult task for image classification algorithms to solve, aiming at encouraging development of more advanced models.

主要功能

  • ImageWoof 包含 10 种不同犬种的图片:澳大利亚梗犬、边境梗犬、萨摩耶犬、比格犬、西施犬、English 猎狐犬、罗得西亚脊背犬、丁戈犬、金毛寻回犬和老English 牧羊犬。
  • 数据集提供不同分辨率(全尺寸、320px、160px)的图像,以满足不同的计算能力和研究需要。
  • 它还包括一个带噪声标签的版本,提供了一个更真实的场景,即标签可能并不总是可靠的。

数据集结构

ImageWoof 数据集的结构基于狗的品种类别,每个品种都有自己的图像目录。

应用

ImageWoof 数据集被广泛用于训练和评估图像分类任务中的深度学习模型,尤其是在涉及更复杂和相似的类别时。该数据集的挑战在于狗种之间的细微差别,挑战着模型性能和泛化的极限。

使用方法

To train a CNN model on the ImageWoof dataset for 100 epochs with an image size of 224x224, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.

列车示例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="imagewoof", epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo classify train data=imagewoof model=yolo11n-cls.pt epochs=100 imgsz=224

数据集变体

ImageWoof 数据集有三种不同大小,可满足不同的研究需求和计算能力:

  1. 全尺寸 (imagewoof):这是 ImageWoof 数据集的原始版本。它包含全尺寸图像,是最终培训和性能基准测试的理想选择。

  2. 中等大小(imagewoof320):该版本包含经过调整的图像,最大边缘长度为 320 像素。该版本适合在不明显影响模型性能的情况下加快训练速度。

  3. 小尺寸(imagewoof160):该版本包含经过调整的图像,最大边缘长度为 160 像素。它专为快速原型设计和实验而设计,训练速度是其优先考虑的因素。

要在训练中使用这些变体,只需将数据集参数中的 "imagewoof "替换为 "imagewoof320 "或 "imagewoof160 "即可。例如

示例

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-cls.pt")  # load a pretrained model (recommended for training)

# For medium-sized dataset
model.train(data="imagewoof320", epochs=100, imgsz=224)

# For small-sized dataset
model.train(data="imagewoof160", epochs=100, imgsz=224)
# Load a pretrained model and train on the small-sized dataset
yolo classify train model=yolo11n-cls.pt data=imagewoof320 epochs=100 imgsz=224

值得注意的是,使用较小的图像可能会降低分类准确性。不过,在模型开发和原型设计的早期阶段,这是一种快速迭代的绝佳方法。

图片和注释示例

ImageWoof 数据集包含各种犬种的彩色图像,为图像分类任务提供了一个具有挑战性的数据集。下面是该数据集中的一些图像示例:

数据集样本图像

该示例展示了 ImageWoof 数据集中不同犬种之间的细微差别和相似之处,凸显了分类任务的复杂性和难度。

引文和致谢

如果您在研究或开发工作中使用 ImageWoof 数据集,请务必通过链接到官方数据集存储库,向数据集创建者致谢。

We would like to acknowledge the FastAI team for creating and maintaining the ImageWoof dataset as a valuable resource for the machine learning and computer vision research community. For more information about the ImageWoof dataset, visit the ImageWoof dataset repository.

常见问题

Ultralytics 中的 ImageWoof 数据集是什么?

ImageWoof数据集是 ImageNet 的一个具有挑战性的子集,主要针对 10 个特定的狗品种。该数据集以比格犬、西施犬和金毛寻回犬等犬种为特色,旨在挑战图像分类模型的极限。该数据集包括各种分辨率的图像(全尺寸、320px、160px),甚至还包括噪声标签,以获得更真实的训练场景。这种复杂性使 ImageWoof 成为开发更高级深度学习模型的理想选择。

如何通过Ultralytics YOLO 使用 ImageWoof 数据集训练模型?

To train a Convolutional Neural Network (CNN) model on the ImageWoof dataset using Ultralytics YOLO for 100 epochs at an image size of 224x224, you can use the following code:

列车示例

from ultralytics import YOLO

model = YOLO("yolo11n-cls.pt")  # Load a pretrained model
results = model.train(data="imagewoof", epochs=100, imgsz=224)
yolo classify train data=imagewoof model=yolo11n-cls.pt epochs=100 imgsz=224

有关可用培训论点的更多详情,请参阅培训页面。

ImageWoof 数据集有哪些版本?

ImageWoof 数据集有三种尺寸:

  1. 全尺寸(imagewoof):是最终培训和基准测试的理想选择,包含全尺寸图像。
  2. 中等大小 (imagewoof320):重新调整后的图像,最大边缘长度为 320 像素,适合快速训练。
  3. 小尺寸(imagewoof160):调整后的图像最大边缘长度为 160 像素,非常适合快速原型制作。

Use these versions by replacing 'imagewoof' in the dataset argument accordingly. Note, however, that smaller images may yield lower classification accuracy but can be useful for quicker iterations.

ImageWoof 数据集中的噪声标签对训练有何益处?

ImageWoof 数据集中的噪声标签模拟了现实世界中标签不一定准确的情况。使用这些数据训练模型有助于开发图像分类任务的鲁棒性和泛化能力。这使模型能够有效处理实际应用中经常遇到的模糊或错误标签数据。

使用 ImageWoof 数据集的主要挑战是什么?

The primary challenge of the ImageWoof dataset lies in the subtle differences among the dog breeds it includes. Since it focuses on 10 closely related breeds, distinguishing between them requires more advanced and fine-tuned image classification models. This makes ImageWoof an excellent benchmark to test the capabilities and improvements of deep learning models.

📅 Created 11 months ago ✏️ Updated 23 days ago

评论