跳至内容

Roboflow 100 数据集

Roboflow 100,由 Intel是一个开创性的物体检测基准数据集。它包括从Roboflow Universe 上的 90,000 多个公共数据集中抽取的 100 个不同数据集。该基准专门用于测试计算机视觉模型(如Ultralytics YOLO 模型)在医疗保健、航空图像和视频游戏等不同领域的适应性。

许可

Ultralytics 提供两种许可选项,以适应不同的使用情况:

  • AGPL-3.0 许可:这种经 OSI 批准的开源许可证非常适合学生和爱好者使用,可促进开放协作和知识共享。详情请查看LICENSE文件,并访问我们的AGPL-3.0 许可页面
  • 企业许可证:该许可证专为商业用途设计,允许将Ultralytics 软件和人工智能模型无缝集成到商业产品和服务中。如果您的方案涉及商业应用,请通过Ultralytics 许可联系我们。

Roboflow 100 概览

主要功能

  • 多元化领域:包括横跨七个不同领域的 100 个数据集:航空、视频游戏、显微镜、水下、文件、电磁和真实世界。
  • 规模该基准包括 805 个类别的 224 714 幅图像,代表超过 11 170 个小时的数据标注工作。
  • 标准化:所有图像都经过预处理,大小调整为 640x640 像素,以便进行一致的评估。
  • 简洁评估:专注于消除类别模糊性,并过滤掉代表性不足的类别,以确保更干净的模型评估
  • 注释:包括物体的边界框,适合使用mAP 等指标来训练和评估物体检测模型。

数据集结构

Roboflow 100 数据集分为七个类别,每个类别都包含一个独特的数据集、图像和类别集合:

  • 航空:7 个数据集,9,683 幅图像,24 个类别。
  • 视频游戏:7 个数据集,11,579 幅图像,88 个类别。
  • 显微镜11 个数据集,13,378 幅图像,28 个类别。
  • 水下5 个数据集,18 003 幅图像,39 个类别。
  • 文件:8 个数据集,24,813 幅图像,90 个类别。
  • 电磁:12 个数据集,36 381 幅图像,41 个类别。
  • 真实世界:50 个数据集,110,615 幅图像,495 个类别。

这种结构为物体检测模型提供了一个多样而广泛的测试平台,反映了各种Ultralytics 解决方案中的各种实际应用场景。

基准

数据集基准测试包括使用标准化指标评估机器学习模型在特定数据集上的性能。常见指标包括准确率、平均精度(mAP)和F1 分数。您可以在我们的YOLO 性能指标指南中了解更多相关信息。

基准测试结果

使用所提供脚本的基准测试结果将存储在 ultralytics-benchmarks/ 目录,特别是 evaluation.txt.

基准范例

下面的脚本演示了如何在Roboflow 100 基准中Ultralytics 所有 100 个数据集上,通过使用 RF100Benchmark 类。

import os
import shutil
from pathlib import Path

from ultralytics.utils.benchmarks import RF100Benchmark

# Initialize RF100Benchmark and set API key
benchmark = RF100Benchmark()
benchmark.set_key(api_key="YOUR_ROBOFLOW_API_KEY")

# Parse dataset and define file paths
names, cfg_yamls = benchmark.parse_dataset()
val_log_file = Path("ultralytics-benchmarks") / "validation.txt"
eval_log_file = Path("ultralytics-benchmarks") / "evaluation.txt"

# Run benchmarks on each dataset in RF100
for ind, path in enumerate(cfg_yamls):
    path = Path(path)
    if path.exists():
        # Fix YAML file and run training
        benchmark.fix_yaml(str(path))
        os.system(f"yolo detect train data={path} model=yolo11s.pt epochs=1 batch=16")

        # Run validation and evaluate
        os.system(f"yolo detect val data={path} model=runs/detect/train/weights/best.pt > {val_log_file} 2>&1")
        benchmark.evaluate(str(path), str(val_log_file), str(eval_log_file), ind)

        # Remove the 'runs' directory
        runs_dir = Path.cwd() / "runs"
        shutil.rmtree(runs_dir)
    else:
        print("YAML file path does not exist")
        continue

print("RF100 Benchmarking completed!")

应用

Roboflow 100 对于与计算机视觉深度学习相关的各种应用都非常有价值。研究人员和工程师可以利用这一基准来:

  • 在多领域背景下评估物体检测模型的性能。
  • COCOPASCAL VOC 等常用基准数据集外,测试模型对真实世界场景的适应性和稳健性
  • 在各种数据集(包括医疗保健、航空图像和视频游戏等专业领域)中对物体检测模型的能力进行基准测试。
  • 比较不同神经网络架构和优化技术的模型性能。
  • 确定特定领域的挑战,这些挑战可能需要专门的模型训练技巧微调方法(如迁移学习)。

要获得更多实际应用的想法和灵感,请浏览我们的实际项目指南,或查看Ultralytics HUB,以简化模型培训部署

使用方法

Roboflow 100 数据集(包括元数据和下载链接)可在以下官方网站获取 Roboflow 100 GitHub 代码库.您可以直接从这里访问和使用数据集,以满足您的基准测试需求。Ultralytics RF100Benchmark 该工具简化了下载和准备这些数据集的过程,以便与Ultralytics 模型一起使用。

样本数据和注释

Roboflow 100 包含从不同角度和领域拍摄的各种图像数据集。以下是 RF100 基准中包含的注释图像示例,展示了物体和场景的多样性。数据增强等技术可以在训练过程中进一步增强多样性。

样本数据和注释

Roboflow 100 基准的多样性代表了传统基准的重大进步,传统基准通常侧重于优化有限领域内的单一指标。这种全面的方法有助于开发更强大、更多用途的计算机视觉模型,能够在多种不同场景中表现出色。

引文和致谢

如果您在研究或开发工作中使用Roboflow 100 数据集,请引用原始论文:

@misc{rf100benchmark,
    Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
    Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
    Year = {2022},
    Eprint = {arXiv:2211.13523},
    url = {https://arxiv.org/abs/2211.13523}
}

我们向Roboflow 团队和所有贡献者表示感谢,感谢他们为创建和维护Roboflow 100 数据集所付出的巨大努力,使其成为计算机视觉界的宝贵资源。

如果您有兴趣探索更多数据集,以加强您的物体检测和机器学习项目,请随时访问我们的综合数据集,其中包括各种其他检测数据集

常见问题

Roboflow 100 数据集是什么?为什么它对物体检测意义重大?

Roboflow 100数据集是物体检测模型的基准。它由来自Roboflow Universe 的 100 个不同数据集组成,涵盖医疗保健、航空图像和视频游戏等领域。它的意义在于提供了一种标准化的方法,在广泛的真实世界场景中测试模型的适应性和鲁棒性,超越了传统的、通常受领域限制的基准。

Roboflow 100 数据集涵盖哪些领域?

Roboflow 100数据集横跨七个不同领域,为物体检测模型带来了独特的挑战:

  1. 航空:7 个数据集(如卫星图像、无人机视图)。
  2. 视频游戏:7 个数据集(如各种游戏环境中的物体)。
  3. 显微镜11 个数据集(如细胞、颗粒)。
  4. 水下5 个数据集(如海洋生物、水下物体)。
  5. 文件:8 个数据集(如文本区域、表单元素)。
  6. 电磁:12 个数据集(如雷达信号、光谱数据可视化)。
  7. 真实世界:50 个数据集(包括日常物品、场景、零售等广泛类别)。

这种多样性使 RF100 成为评估计算机视觉模型通用性的绝佳资源。

在研究中引用Roboflow 100 数据集时应包括哪些内容?

使用Roboflow 100 数据集时,请引用原始论文,以归功于创建者。以下是推荐的 BibTeX 引用:

@misc{rf100benchmark,
    Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
    Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
    Year = {2022},
    Eprint = {arXiv:2211.13523},
    url = {https://arxiv.org/abs/2211.13523}
}

如需进一步了解,请访问我们的综合数据集或浏览与Ultralytics 模型兼容的其他检测数据集

📅创建于 1 年前 ✏️已更新 23 天前

评论