跳至内容

数据集概览

Ultralytics 为各种数据集提供支持,以促进检测、实例分割、姿态估计、分类和多目标跟踪等计算机视觉任务。下面列出了Ultralytics 的主要数据集,然后是每个计算机视觉任务和相应数据集的摘要。

新 🚀Ultralytics Explorer

为数据集创建嵌入、搜索相似图像、运行 SQL 查询、执行语义搜索,甚至使用自然语言进行搜索!您可以使用我们的图形用户界面应用程序或使用应用程序接口创建自己的应用程序。点击此处了解更多。

Ultralytics 资源管理器截图

检测数据集

边界框物体检测是一种计算机视觉技术,它通过在每个物体周围绘制一个边界框来检测和定位图像中的物体。

  • Argoverse:该数据集包含来自城市环境的三维跟踪和运动预测数据,并附有丰富的注释。
  • COCO:专为物体检测、分割和字幕设计的大型数据集,包含 20 多万张标注图像。
  • COCO8:包含 COCO train 和 COCO val 的前 4 幅图像,适合快速测试。
  • 全球小麦 2020:从世界各地收集的小麦头部图像数据集,用于物体检测和定位任务。
  • 对象 365:用于物体检测的高质量大规模数据集,包含 365 个物体类别和 600K 多张注释图像。
  • OpenImagesV7:谷歌提供的综合数据集,包含 170 万张训练图像和 4.2 万张验证图像。
  • SKU-110K:这是一个以零售环境中密集物体检测为特色的数据集,包含超过 11K 幅图像和 170 万个边界框。
  • VisDrone:这是一个数据集,包含来自无人机捕获图像的物体检测和多物体跟踪数据,有超过 10K 幅图像和视频序列。
  • VOC:用于物体检测和分割的 Pascal Visual Object Classes (VOC) 数据集,包含 20 个物体类别和超过 11K 幅图像。
  • xView:用于高空图像中物体检测的数据集,包含 60 个物体类别和 100 多万个注释物体。
  • Roboflow 100:一个多样化的物体检测基准,包含 100 个数据集,横跨 7 个图像领域,用于综合模型评估。

实例分割数据集

实例分割是一种计算机视觉技术,涉及在像素级别识别和定位图像中的对象。

  • COCO:专为物体检测、分割和字幕任务设计的大型数据集,包含 20 多万张标注图像。
  • COCO8-seg:用于实例分割任务的较小数据集,包含 8 幅带有分割注释的 COCO 图像子集。
  • Crack-seg:专门用于检测道路和墙壁裂缝的数据集,适用于物体检测和分割任务。
  • Package-seg:为识别仓库或工业环境中的包裹而定制的数据集,适用于物体检测和分割应用。
  • Carparts-seg:专门用于识别汽车零部件的数据集,满足设计、制造和研究的需要。它可用于物体检测和分割任务。

姿势估计

姿态估计是一种用于确定物体相对于摄像机或世界坐标系的姿态的技术。

  • COCO:为姿势估计任务设计的大规模人类姿势注释数据集。
  • COCO8-pose:用于姿态估计任务的较小数据集,包含 8 幅 COCO 图像的子集,并带有人类姿态注释。
  • Tiger-pose:这是一个紧凑型数据集,由 263 幅以老虎为主题的图像组成,每只老虎有 12 个关键点,用于姿势估计任务。

分类

图像分类是一项计算机视觉任务,包括根据图像的视觉内容将其归入一个或多个预定义的类别。

  • Caltech 101:一个包含 101 个对象类别的图像的数据集,用于图像分类任务。
  • 加州理工学院 256:Caltech 101 的扩展版本,包含 256 个物体类别和更具挑战性的图像。
  • CIFAR-10:一个包含 60K 幅 32x32 彩色图像的数据集,分为 10 类,每类 6K 幅图像。
  • CIFAR-100:CIFAR-10 的扩展版本,每类有 100 个对象类别和 600 幅图像。
  • 时尚-MNIST:由 10 个时尚类别的 70,000 张灰度图像组成的数据集,用于图像分类任务。
  • ImageNet:这是一个用于物体检测和图像分类的大型数据集,包含超过 1,400 万张图像和 20,000 个类别。
  • ImageNet-10:ImageNet 的较小子集,包含 10 个类别,用于更快地进行实验和测试。
  • Imagenette:ImageNet 的较小子集,包含 10 个易于区分的类别,可加快训练和测试。
  • Imagewoof:ImageNet 的一个更具挑战性的子集,包含 10 个犬种类别,用于图像分类任务。
  • MNIST:由 70,000 幅手写数字灰度图像组成的数据集,用于图像分类任务。

定向边框(OBB)

定向包围盒(OBB)是计算机视觉中一种利用旋转包围盒检测图像中倾斜物体的方法,通常应用于航空和卫星图像。

  • DOTAv2:流行的 OBB 航空图像数据集,包含 170 万个实例和 11,268 幅图像。

多目标跟踪

多目标跟踪是一种计算机视觉技术,涉及在视频序列中检测和跟踪多个目标。

  • Argoverse:该数据集包含城市环境中的三维跟踪和运动预测数据,具有丰富的注释,可用于多目标跟踪任务。
  • VisDrone:这是一个数据集,包含来自无人机捕获图像的物体检测和多物体跟踪数据,有超过 10K 幅图像和视频序列。

贡献新数据集

提供一个新的数据集涉及几个步骤,以确保它与现有的基础设施保持一致。以下是必要的步骤:

提交新数据集的步骤

  1. 收集图像:收集属于数据集的图像。这些图像可以从各种来源收集,如公共数据库或您自己的收藏。

  2. 注释图像:根据任务的不同,用边界框、线段或关键点来注释这些图像。

  3. 导出注释:将这些注释转换为YOLO *.txt Ultralytics 支持的文件格式。

  4. 整理数据集:将数据集排列到正确的文件夹结构中。您应该 train/ 和 val/ 顶层目录,而在每个顶层目录中,都有一个 images/ 和 labels/ 子目录。

    dataset/
    ├── train/
    │   ├── images/
    │   └── labels/
    └── val/
        ├── images/
        └── labels/
    
  5. 创建一个 data.yaml 文件:在数据集的根目录中,创建一个 data.yaml 文件,其中描述了数据集、类和其他必要信息。

  6. 优化图像(可选):如果您想减小数据集的大小以提高处理效率,可以使用下面的代码优化图像。这不是必须的,但建议使用,以减小数据集大小并加快下载速度。

  7. 压缩数据集:将整个数据集文件夹压缩成 zip 文件。

  8. 文档和公关:创建一个文档页面,描述你的数据集以及它是如何融入现有框架的。然后,提交拉取请求 (PR)。有关如何提交 PR 的详细信息,请参阅Ultralytics Contribution Guidelines。

优化和压缩数据集的示例代码

优化和压缩数据集

from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path('path/to/dataset')

# Optimize images in dataset (optional)
for f in path.rglob('*.jpg'):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

按照这些步骤,您就可以提供一个能与Ultralytics 现有结构很好整合的新数据集。



创建于 2023-11-12,更新于 2024-03-03
作者:glenn-jocher(6),abirami-vina(1),chr043416@gmail.com(1),AyushExel(2)

评论