Roboflow 100 データセット
Roboflow 100 Intelは画期的な物体検出ベンチマークデータセットです。Roboflow Universeで利用可能な90,000以上の公開データセットからサンプリングされた100の多様なデータセットが含まれています。このベンチマークは、Ultralytics YOLO モデルのようなコンピュータビジョンモデルの、ヘルスケア、航空画像、ビデオゲームなどの様々なドメインへの適応性をテストするために特別に設計されています。
ライセンス
Ultralytics 、異なるユースケースに対応するために2つのライセンスオプションを提供しています:
- AGPL-3.0 ライセンス:このOSI承認のオープンソースライセンスは、学生や愛好家に理想的で、オープンなコラボレーションと知識の共有を促進します。詳細はLICENSEファイルを見、わたしたちのAGPL-3.0 ライセンスのページをご覧ください。
- エンタープライズライセンス:Ultralytics ソフトウェアとAIモデルを商用製品やサービスにシームレスに統合できるライセンスです。商用利用をお考えの場合は、Ultralytics Licensingまでお問い合わせください。
主な特徴
- 多様な領域:7つの異なるドメインにわたる100のデータセットを収録:空中、ビデオゲーム、顕微鏡、水中、文書、電磁波、実世界。
- スケール:ベンチマークは805クラス、224,714画像からなり、11,170時間以上のデータラベリング作業に相当する。
- 標準化:すべての画像は前処理され、一貫した評価のために640x640ピクセルにリサイズされる。
- クリーンな評価:よりクリーンなモデル評価を行うために、クラスの曖昧性を排除し、代表性の低いクラスをフィルタリングします。
- 注釈:オブジェクトのバウンディングボックスを含み、mAPのようなメトリクスを使用したオブジェクト検出モデルのトレーニングと評価に適しています。
データセット構造
Roboflow 100のデータセットは7つのカテゴリーに分類され、それぞれにユニークなデータセット、画像、クラスが含まれている:
- 空中:7データセット、9,683画像、24クラス。
- ビデオゲーム:7データセット、11,579画像、88クラス。
- 顕微鏡:11データセット、13,378画像、28クラス。
- 水中:5データセット、18,003画像、39クラス。
- ドキュメント8データセット、24,813画像、90クラス。
- 電磁波:12データセット、36,381画像、41クラス。
- 実世界:50データセット、110,615画像、495クラス。
この構造は、様々なUltralytics ソリューションで見られる実世界のアプリケーションシナリオを反映し、オブジェクト検出モデルに多様で広範なテストの場を提供します。
ベンチマーキング
データセット・ベンチマークでは、標準化されたメトリクスを用いて、特定のデータセットにおける機械学習モデルのパフォーマンスを評価する。一般的なメトリクスには、精度、平均平均精度(mAP)、F1スコアなどがあります。これらの詳細については、YOLO パフォーマンス・メトリクス・ガイドをご覧ください。
ベンチマーク結果
提供されたスクリプトを使ったベンチマーク結果は ultralytics-benchmarks/
ディレクトリ、特に evaluation.txt
.
ベンチマーク例
以下のスクリプトは、Ultralytics YOLO モデル(例えば、YOLOv11n)を、Roboflow 100ベンチマーク内の100個のデータセットすべてで、プログラムによりベンチマークする方法を示しています。 RF100Benchmark
クラスである。
import os
import shutil
from pathlib import Path
from ultralytics.utils.benchmarks import RF100Benchmark
# Initialize RF100Benchmark and set API key
benchmark = RF100Benchmark()
benchmark.set_key(api_key="YOUR_ROBOFLOW_API_KEY")
# Parse dataset and define file paths
names, cfg_yamls = benchmark.parse_dataset()
val_log_file = Path("ultralytics-benchmarks") / "validation.txt"
eval_log_file = Path("ultralytics-benchmarks") / "evaluation.txt"
# Run benchmarks on each dataset in RF100
for ind, path in enumerate(cfg_yamls):
path = Path(path)
if path.exists():
# Fix YAML file and run training
benchmark.fix_yaml(str(path))
os.system(f"yolo detect train data={path} model=yolo11s.pt epochs=1 batch=16")
# Run validation and evaluate
os.system(f"yolo detect val data={path} model=runs/detect/train/weights/best.pt > {val_log_file} 2>&1")
benchmark.evaluate(str(path), str(val_log_file), str(eval_log_file), ind)
# Remove the 'runs' directory
runs_dir = Path.cwd() / "runs"
shutil.rmtree(runs_dir)
else:
print("YAML file path does not exist")
continue
print("RF100 Benchmarking completed!")
アプリケーション
Roboflow 100は、コンピュータビジョンや ディープラーニングに関連する様々なアプリケーションに非常に有効です。研究者やエンジニアは、このベンチマークを以下のことに活用できる:
- マルチドメインにおける物体検出モデルの性能を評価する。
- COCOや PASCAL VOCのような一般的なベンチマークデータセットを超えて、実世界のシナリオに対するモデルの適応性と頑健性をテストする。
- ヘルスケア、航空画像、ビデオゲームなどの専門分野を含む多様なデータセットで、物体検出モデルの能力をベンチマークする。
- 異なるニューラルネットワークアーキテクチャと 最適化手法でモデルの性能を比較する。
- 特殊なモデルトレーニングのヒントや、転移学習のような微調整アプローチを必要とする可能性のある、ドメイン固有の課題を特定する。
実際のアプリケーションに関するアイデアやインスピレーションについては、実用的なプロジェクトに関するガイドをご覧になるか、合理化されたモデルのトレーニングとデプロイメントを行うUltralytics HUBをチェックしてください。
使用方法
メタデータとダウンロードリンクを含むRoboflow 100データセットは、公式サイトで入手できる。 Roboflow 100 GitHubリポジトリ.そこから直接データセットにアクセスし、ベンチマークのニーズに活用することができます。Ultralytics RF100Benchmark
ユーティリティは、Ultralytics モデルで使用するためのデータセットのダウンロードと準備のプロセスを簡素化します。
サンプルデータと注釈
Roboflow 100は、様々な角度や領域から撮影された多様な画像を含むデータセットで構成されています。下記はRF100ベンチマークに含まれるアノテーション画像の例で、オブジェクトやシーンの多様性を示している。データ補強のようなテクニックは、トレーニング中の多様性をさらに高めることができます。
Roboflow 100 ベンチマークに見られる多様性は、限定された領域内で単一の指標を最適化することに重点を置くことが多い従来のベンチマークから大きく進歩したことを意味する。この包括的なアプローチは、さまざまなシナリオで優れた性能を発揮できる、より堅牢で汎用性の高いコンピュータビジョンモデルの開発に役立ちます。
引用と謝辞
Roboflow 100データセットを研究または開発で使用する場合は、元の論文を引用してください:
Roboflow 100データセットをコンピュータビジョン・コミュニティの貴重なリソースとして作成し、維持するために多大な努力を払ってくれたRoboflow チームとすべての貢献者に感謝の意を表します。
あなたの物体検出や機械学習プロジェクトを強化するために、より多くのデータセットを探索することに興味がある場合は、他の様々な検出データセットを含む包括的なデータセットコレクションをお気軽にご覧ください。
よくあるご質問
Roboflow 100データセットとは何か?なぜ物体検出に重要なのか?
Roboflow 100データセットは物体検出モデルのベンチマークである。Roboflow Universeから提供された100の多様なデータセットから構成され、ヘルスケア、航空画像、ビデオゲームなどの領域をカバーしている。その意義は、実世界の幅広いシナリオにおけるモデルの適応性と頑健性をテストするための標準化された方法を提供することにあります。
Roboflow 100 データセットがカバーしているドメインは?
Roboflow 100のデータセットは7つの多様な領域にまたがっており、物体検出モデルにとってユニークな課題を提供している:
- 航空写真:7つのデータセット(衛星画像、ドローン・ビューなど)。
- ビデオゲーム:7つのデータセット(様々なゲーム環境のオブジェクトなど)。
- 顕微鏡:11のデータセット(細胞、粒子など)。
- 水中:5つのデータセット(海洋生物、水中物体など)。
- ドキュメント:8つのデータセット(テキスト領域、フォーム要素など)。
- 電磁波:12のデータセット(レーダーシグネチャー、スペクトルデータの可視化など)。
- 実世界:50のデータセット(日用品、風景、小売店など幅広いカテゴリー)。
この多様性により、RF100はコンピュータビジョンモデルの汎化可能性を評価するための優れたリソースとなっている。
私の研究でRoboflow 100 データセットを引用する場合、何を含めるべきか?
Roboflow 100データセットを使用する際は、作成者のクレジットを示すために原著論文を引用してください。推奨されるBibTeX引用は以下の通りです:
さらに詳しく調べるには、当社の包括的なデータセットコレクションをご覧になるか、Ultralytics モデルと互換性のある他の検出データセットを閲覧することをご検討ください。