数据集概览
Ultralytics 为各种数据集提供支持,以促进检测、实例分割、姿态估计、分类和多目标跟踪等计算机视觉任务。下面列出了Ultralytics 的主要数据集,然后是每个计算机视觉任务和相应数据集的摘要。
观看: Ultralytics 数据集概览
Ultralytics 探险家
社区说明 ⚠️
截至 ultralytics>=8.3.10
,Ultralytics Explorer 支持已被弃用。不过不用担心!现在您可以通过 Ultralytics 枢纽HUB 是我们专为简化您的工作流程而设计的无代码直观平台。有了Ultralytics HUB,您可以毫不费力地继续探索、可视化和管理数据,而无需编写任何代码。请务必查看并利用其强大的功能! 🚀
为数据集创建嵌入、搜索相似图像、运行 SQL 查询、执行语义搜索,甚至使用自然语言进行搜索!您可以使用我们的图形用户界面应用程序或使用应用程序接口创建自己的应用程序。点击此处了解更多。
- 试用图形用户界面演示
- 进一步了解资源管理器应用程序接口
物体检测
边界框物体检测是一种计算机视觉技术,它通过在每个物体周围绘制一个边界框来检测和定位图像中的物体。
- Argoverse:该数据集包含来自城市环境的三维跟踪和运动预测数据,并附有丰富的注释。
- COCO:Common Objects in Context (COCO) 是一个大型物体检测、分割和字幕数据集,包含 80 个物体类别。
- LVIS:大规模物体检测、分割和字幕数据集,包含 1203 个物体类别。
- COCO8:COCO train 和 COCO val 中前 4 幅图像的较小子集,适合快速测试。
- COCO128:COCO train 和 COCO val 中前 128 幅图像的较小子集,适用于测试。
- 全球小麦 2020:包含 2020 年全球小麦挑战赛小麦头图像的数据集。
- 对象 365:用于物体检测的高质量大规模数据集,包含 365 个物体类别和 600K 多张注释图像。
- OpenImagesV7:由Google 提供的综合数据集,包含 170 万张训练图像和 4.2 万张验证图像。
- SKU-110K:这是一个以零售环境中密集物体检测为特色的数据集,包含超过 11K 幅图像和 170 万个边界框。
- VisDrone:这是一个数据集,包含来自无人机捕获图像的物体检测和多物体跟踪数据,有超过 10K 幅图像和视频序列。
- VOC:用于物体检测和分割的 Pascal Visual Object Classes (VOC) 数据集,包含 20 个物体类别和超过 11K 幅图像。
- xView:用于高空图像中物体检测的数据集,包含 60 个物体类别和 100 多万个注释物体。
- RF100:一个多样化的物体检测基准,包含 100 个数据集,横跨 7 个图像领域,用于综合模型评估。
- 脑肿瘤用于检测脑肿瘤的数据集包括核磁共振成像或 CT 扫描图像,其中包含有关肿瘤存在、位置和特征的详细信息。
- 非洲野生动物非洲野生动物:非洲野生动物图像数据集,包括水牛、大象、犀牛和斑马。
- 签名这是一个数据集,收录了带有签名注释的各种文件图像,支持文件验证和欺诈检测研究。
实例分割
实例分割是一种计算机视觉技术,涉及在像素级别识别和定位图像中的对象。
- COCO:专为物体检测、分割和字幕任务设计的大型数据集,包含 20 多万张标注图像。
- COCO8-seg:用于实例分割任务的较小数据集,包含 8 幅带有分割注释的 COCO 图像子集。
- COCO128-seg:用于实例分割任务的较小数据集,包含带有分割注释的 128 幅 COCO 图像的子集。
- Crack-seg:专门用于检测道路和墙壁裂缝的数据集,适用于物体检测和分割任务。
- Package-seg:为识别仓库或工业环境中的包裹而定制的数据集,适用于物体检测和分割应用。
- Carparts-seg:专门用于识别汽车零部件的数据集,满足设计、制造和研究的需要。它可用于物体检测和分割任务。
姿势估计
姿态估计是一种用于确定物体相对于摄像机或世界坐标系的姿态的技术。
- COCO:为姿势估计任务设计的大规模人类姿势注释数据集。
- COCO8-pose:用于姿态估计任务的较小数据集,包含 8 幅 COCO 图像的子集,并带有人类姿态注释。
- Tiger-pose:这是一个紧凑型数据集,由 263 幅以老虎为主题的图像组成,每只老虎有 12 个关键点,用于姿势估计任务。
- 手部关键点这是一个简洁的数据集,包含 26,000 多张以人手为中心的图像,每只手有 21 个关键点,专为姿势估计任务而设计。
- Dog-pose:这是一个综合数据集,包含约 6,000 张以狗为主题的图像,每只狗有 24 个关键点,专为姿势估计任务定制。
分类
图像分类是一项计算机视觉任务,包括根据图像的视觉内容将其归入一个或多个预定义的类别。
- Caltech 101:一个包含 101 个对象类别的图像的数据集,用于图像分类任务。
- 加州理工学院 256:Caltech 101 的扩展版本,包含 256 个物体类别和更具挑战性的图像。
- CIFAR-10:一个包含 60K 幅 32x32 彩色图像的数据集,分为 10 类,每类 6K 幅图像。
- CIFAR-100:CIFAR-10 的扩展版本,每类有 100 个对象类别和 600 幅图像。
- 时尚-MNIST:由 10 个时尚类别的 70,000 张灰度图像组成的数据集,用于图像分类任务。
- ImageNet:这是一个用于物体检测和图像分类的大型数据集,包含超过 1,400 万张图像和 20,000 个类别。
- ImageNet-10:ImageNet 的较小子集,包含 10 个类别,用于更快地进行实验和测试。
- Imagenette:ImageNet 的较小子集,包含 10 个易于区分的类别,可加快训练和测试。
- Imagewoof:ImageNet 的一个更具挑战性的子集,包含 10 个犬种类别,用于图像分类任务。
- MNIST:由 70,000 幅手写数字灰度图像组成的数据集,用于图像分类任务。
- MNIST160:MNIST 数据集中每个 MNIST 类别的前 8 幅图像。数据集共包含 160 张图像。
定向边框(OBB)
定向包围盒(OBB)是计算机视觉中一种利用旋转包围盒检测图像中倾斜物体的方法,通常应用于航空和卫星图像。
- DOTA-v2:一个流行的 OBB 航空图像数据集,包含 170 万个实例和 11,268 幅图像。
- DOTA8:DOTAv1 分割集前 8 幅图像的较小子集,其中 4 幅用于训练,4 幅用于验证,适合快速测试。
多目标跟踪
多目标跟踪是一种计算机视觉技术,涉及在视频序列中检测和跟踪多个目标。
- Argoverse:该数据集包含城市环境中的三维跟踪和运动预测数据,具有丰富的注释,可用于多目标跟踪任务。
- VisDrone:这是一个数据集,包含来自无人机捕获图像的物体检测和多物体跟踪数据,有超过 10K 幅图像和视频序列。
贡献新数据集
提供一个新的数据集涉及几个步骤,以确保它与现有的基础设施保持一致。以下是必要的步骤:
提交新数据集的步骤
- 收集图像:收集属于数据集的图像。这些图像可以从各种来源收集,如公共数据库或您自己的收藏。
- 注释图像:根据任务的不同,用边界框、线段或关键点来注释这些图像。
- 导出注释:将这些注释转换为YOLO
*.txt
Ultralytics 支持的文件格式。 -
整理数据集:将数据集排列到正确的文件夹结构中。您应该
train/
和val/
顶层目录,而在每个顶层目录中,都有一个images/
和labels/
子目录。 -
创建一个
data.yaml
文件:在数据集的根目录中,创建一个data.yaml
文件,其中描述了数据集、类和其他必要信息。 - 优化图像(可选):如果您想减小数据集的大小以提高处理效率,可以使用下面的代码优化图像。这不是必须的,但建议使用,以减小数据集大小并加快下载速度。
- 压缩数据集:将整个数据集文件夹压缩成 zip 文件。
- 文档和公关:创建一个文档页面,描述你的数据集以及它是如何融入现有框架的。然后,提交拉取请求 (PR)。有关如何提交 PR 的详细信息,请参阅Ultralytics Contribution Guidelines。
优化和压缩数据集的示例代码
优化和压缩数据集
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
按照这些步骤,您就可以提供一个能与Ultralytics 现有结构很好整合的新数据集。
常见问题
Ultralytics 支持哪些数据集进行物体检测?
Ultralytics 支持多种用于物体检测的数据集,包括
- COCO:大规模物体检测、分割和字幕数据集,包含 80 个物体类别。
- LVIS:一个包含 1203 个物体类别的广泛数据集,旨在进行更精细的物体检测和分割。
- Argoverse:该数据集包含来自城市环境的三维跟踪和运动预测数据,并附有丰富的注释。
- VisDrone:从无人机拍摄的图像中获取物体检测和多物体跟踪数据的数据集。
- SKU-110K:具有零售环境中密集物体检测功能,可检测超过 11K 幅图像。
这些数据集有助于为各种物体检测应用训练稳健的模型。
如何向Ultralytics 提供新数据集?
提供新数据集涉及几个步骤:
- 收集图片:从公共数据库或个人收藏中收集图片。
- 注释图像:根据任务应用边界框、线段或关键点。
- 导出注释:将注释转换为YOLO
*.txt
格式。 - 整理数据集:使用带有
train/
和val/
目录,每个目录包含images/
和labels/
子目录。 - 创建一个
data.yaml
文件:包括数据集说明、类别和其他相关信息。 - 优化图像(可选):减少数据集大小以提高效率。
- 压缩数据集:将数据集压缩为 zip 文件。
- 文档和 PR:描述您的数据集,并按照Ultralytics Contribution Guidelines 提交 Pull Request。
访问 "贡献新数据集"获取全面指南。
为什么我的数据集要使用Ultralytics Explorer?
Ultralytics 资源管理器提供强大的数据集分析功能,包括
- 嵌入生成:为图像创建矢量嵌入。
- 语义搜索:使用嵌入或人工智能搜索相似图像。
- SQL 查询运行高级 SQL 查询,进行详细的数据分析。
- 自然语言搜索:使用普通语言查询进行搜索,方便易用。
访问Ultralytics Explorer了解更多信息,并试用图形用户界面演示。
Ultralytics YOLO 计算机视觉模型有哪些独特之处?
Ultralytics YOLO 模型提供了几个独特的功能:
- 实时性能:高速推理和训练
- 多功能性:适用于检测、分割、分类和姿势估计任务。
- 预训练模型:获取适用于各种应用的高性能预训练模型。
- 广泛的社区支持:活跃的社区和全面的故障排除和开发文档。
有关YOLO 的更多信息,请访问 Ultralytics YOLO页面。
如何使用Ultralytics 工具优化和压缩数据集?
要使用Ultralytics 工具优化和压缩数据集,请遵循以下示例代码:
优化和压缩数据集
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
进一步了解如何优化和压缩数据集。