Link to this sectionRoboflow 100 データセット#
Intelが後援するRoboflow 100は、画期的な物体検出ベンチマークデータセットです。これには100種類の多様なデータセットが含まれています。このベンチマークは、ヘルスケア、航空画像、ビデオゲームなど、さまざまなドメインに対するコンピュータビジョンモデル(Ultralytics YOLOモデルなど)の適応性をテストするために特別に設計されています。
Ultralyticsでは、用途に合わせて以下の2つのライセンスオプションを提供しています。
- AGPL-3.0ライセンス: このOSI承認済みオープンソースライセンスは、学生や愛好家に最適であり、オープンなコラボレーションと知識の共有を促進します。詳細については、LICENSEファイルを確認し、AGPL-3.0ライセンスページをご覧ください。
- Enterprise License: 開発および商用利用向けに、このライセンスでは Ultralytics ソフトウェアと AI モデルをビジネス製品やサービスにシームレスに統合できます(社内ツール、自動ワークフロー、本番環境へのデプロイを含みます)。AGPL-3.0 のオープンソース要件を回避できます。開始するには、Ultralytics Licensing からお問い合わせください。
Link to this section主な特徴#
- 多様なドメイン: 航空、ビデオゲーム、顕微鏡、水中、ドキュメント、電磁気、実世界の7つの異なるドメインにまたがる100個のデータセットが含まれています。
- 規模: このベンチマークは、805クラスにわたる224,714枚の画像で構成されており、11,170時間以上のデータラベリング作業に相当します。
- 標準化: すべての画像は前処理され、一貫した評価のために640x640ピクセルにリサイズされています。
- クリーンな評価: クラスの曖昧さを排除し、表現不足のクラスを除外することに重点を置き、よりクリーンなモデル評価を保証します。
- Annotations: Includes bounding boxes for objects, suitable for training and evaluating object detection models using metrics like mAP.
Link to this sectionデータセットの構造#
Roboflow 100データセットは7つのカテゴリに分類されており、それぞれがデータセット、画像、クラスのユニークなコレクションを含んでいます。
- 航空: 7データセット、9,683画像、24クラス。
- ビデオゲーム: 7データセット、11,579画像、88クラス。
- 顕微鏡: 11データセット、13,378画像、28クラス。
- 水中: 5データセット、18,003画像、39クラス。
- ドキュメント: 8データセット、24,813画像、90クラス。
- 電磁気: 12データセット、36,381画像、41クラス。
- 実世界: 50データセット、110,615画像、495クラス。
この構成により、物体検出モデルのための多様で広範なテスト環境が提供され、さまざまなUltralyticsソリューションで見られる幅広い実世界のアプリケーションシナリオが反映されています。
Link to this sectionベンチマーク#
データセットのベンチマークには、標準化された指標を使用して特定のデータセットに対する機械学習モデルの性能を評価することが含まれます。一般的な指標には、精度、平均適合率(mAP)、F1スコアなどがあります。これらについての詳細は、YOLOパフォーマンス指標ガイドで学ぶことができます。
Every output is grouped under a single runs/<task>/multitrain/ directory: each dataset is fine-tuned in its own subdirectory (with its own results.png), and the per-dataset and mean metrics are written to multitrain_results.json alongside a multitrain_results.png bar chart. The model.train() call also returns a {dataset: metrics} dictionary for programmatic access.
以下のスクリプトは、Roboflowからdatasets_links.txtにリストされているRoboflow 100データセットをダウンロードし、単一のmodel.train()呼び出しでコレクション全体にわたって単一のベースモデル(例:YOLO26n)をファインチューニングします。データセットのリストを渡すと、ベースモデルがそれぞれに対して順次ファインチューニングされ、データセット間の結果が自動的に可視化されます。データセットをダウンロードするには、無料のRoboflow APIキーが必要です。
import re
from pathlib import Path
from ultralytics import YOLO
from ultralytics.utils import ASSETS_URL, YAML
from ultralytics.utils.checks import check_requirements
from ultralytics.utils.downloads import safe_download
# Download the RF100 datasets from Roboflow (requires a free Roboflow API key)
check_requirements("roboflow")
from roboflow import Roboflow
rf = Roboflow(api_key="YOUR_ROBOFLOW_API_KEY")
safe_download(f"{ASSETS_URL}/datasets_links.txt") # list of RF100 dataset links
datasets = []
for line in Path("datasets_links.txt").read_text().splitlines():
try:
_, _url, workspace, project, version = re.split("/+", line.strip())
location = f"rf-100/{project}-{version}"
rf.workspace(workspace).project(project).version(version).download("yolov8", location=location)
yaml = Path(location) / "data.yaml"
cfg = YAML.load(yaml) # point train/val at the downloaded image folders
cfg["train"], cfg["val"] = "train/images", "valid/images"
YAML.save(yaml, cfg)
datasets.append(str(yaml))
except Exception:
continue
# Fine-tune one base model across all RF100 datasets and visualize the cross-dataset results
model = YOLO("yolo26n.pt")
results = model.train(data=datasets, epochs=100, imgsz=640) # {dataset: metrics}
# Per-dataset runs, multitrain_results.json (per-dataset + mean), and multitrain_results.png are saved
# together under runs/detect/multitrain. Read results in-memory or from the JSON for custom post-processing.
for dataset, metrics in results.items():
if metrics: # None if that dataset failed to train
print(f"{dataset}: mAP50-95 = {metrics['metrics/mAP50-95(B)']:.4f}")Link to this sectionアプリケーション#
Roboflow 100は、コンピュータビジョンおよびディープラーニングに関連するさまざまなアプリケーションにとって非常に貴重です。研究者やエンジニアは、このベンチマークを活用して次のことができます。
- マルチドメインコンテキストにおける物体検出モデルの性能を評価する。
- Test the adaptability and robustness of models to real-world scenarios beyond common benchmark datasets like COCO or PASCAL VOC.
- ヘルスケア、航空画像、ビデオゲームなどの専門分野を含む、多様なデータセット全体で物体検出モデルの能力をベンチマークする。
- さまざまなニューラルネットワークアーキテクチャおよび最適化手法間でモデルの性能を比較する。
- Identify domain-specific challenges that may require specialized model training tips or fine-tuning approaches like transfer learning.
For more ideas and inspiration on real-world applications, explore our guides on practical projects or check out Ultralytics Platform for streamlined model training and deployment.
Link to this section使用方法#
メタデータとダウンロードリンクを含むRoboflow 100データセットは、公式のRoboflow 100 GitHubリポジトリで入手可能です。ベンチマークのニーズに合わせて、そこから直接データセットにアクセスして利用できます。上記のようにデータセットをダウンロードして準備したら、データセットYAMLのリストを渡すことで、単一のmodel.train()呼び出しですべてのコレクションにわたってUltralyticsモデルをファインチューニングできます。
Link to this sectionサンプルデータとアノテーション#
Roboflow 100は、さまざまな角度やドメインからキャプチャされた多様な画像を持つデータセットで構成されています。以下は、RF100ベンチマークに含まれるアノテーション付き画像の例であり、多様なオブジェクトやシーンを紹介しています。データ拡張などの技術は、トレーニング中の多様性をさらに向上させることができます。
Roboflow 100ベンチマークに見られる多様性は、限られたドメイン内での単一の指標の最適化に焦点を当てることが多い従来のベンチマークからの大きな進歩を表しています。この包括的なアプローチは、多数の異なるシナリオ全体で十分に機能できる、より堅牢で用途の広いコンピュータビジョンモデルの開発に役立ちます。
Link to this section引用と謝辞#
研究や開発作業でRoboflow 100データセットを使用する場合は、元の論文を引用してください。
@misc{rf100benchmark,
Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
Year = {2022},
Eprint = {arXiv:2211.13523},
url = {https://arxiv.org/abs/2211.13523}
}コンピュータビジョンコミュニティにとって貴重なリソースであるRoboflow 100データセットの作成と維持におけるRoboflowチームおよびすべての貢献者の多大な努力に感謝いたします。
If you are interested in exploring more datasets to enhance your object detection and machine learning projects, feel free to visit our comprehensive dataset collection, which includes a variety of other detection datasets.
Link to this sectionよくある質問 (FAQ)#
Link to this sectionRoboflow 100データセットとは何ですか、また、物体検出にとってなぜ重要ですか?#
Roboflow 100データセットは、物体検出モデルのベンチマークです。これには、ヘルスケア、航空画像、ビデオゲームなどのドメインをカバーする100個の多様なデータセットが含まれています。その重要性は、従来の、多くの場合ドメインが限定されたベンチマークを超えて、幅広い実世界のシナリオ全体でモデルの適応性と堅牢性をテストするための標準化された方法を提供することにあります。
Link to this sectionRoboflow 100データセットにはどのドメインが含まれていますか?#
Roboflow 100データセットは7つの多様なドメインにまたがっており、物体検出モデルに独自の課題を提供します。
- 航空: 7データセット(例:衛星画像、ドローンからの視点)。
- ビデオゲーム: 7データセット(例:様々なゲーム環境のオブジェクト)。
- 顕微鏡: 11データセット(例:細胞、粒子)。
- 水中: 5データセット(例:海洋生物、水中のオブジェクト)。
- ドキュメント: 8データセット(例:テキスト領域、フォーム要素)。
- 電磁気: 12データセット(例:レーダー署名、スペクトルデータの視覚化)。
- 実世界: 50データセット(日用品、シーン、小売などを含む広範なカテゴリ)。
この多様性により、RF100はコンピュータビジョンモデルの汎用性を評価するための優れたリソースとなっています。
Link to this section研究でRoboflow 100データセットを引用する場合、何を含めるべきですか?#
Roboflow 100データセットを使用する場合は、作成者にクレジットを与えるために元の論文を引用してください。推奨されるBibTeXの引用は以下の通りです。
@misc{rf100benchmark,
Author = {Floriana Ciaglia and Francesco Saverio Zuppichini and Paul Guerrie and Mark McQuade and Jacob Solawetz},
Title = {Roboflow 100: A Rich, Multi-Domain Object Detection Benchmark},
Year = {2022},
Eprint = {arXiv:2211.13523},
url = {https://arxiv.org/abs/2211.13523}
}さらに詳しく知りたい場合は、包括的なデータセットコレクションにアクセスするか、Ultralyticsモデルと互換性のある他の検出データセットを閲覧することを検討してください。