データセットの概要
Ultralyticsは、検出、インスタンスセグメンテーション、ポーズ推定、分類、マルチオブジェクトトラッキングなどのコンピュータビジョンタスクを容易にするために、さまざまなデータセットをサポートしています。以下は、主なUltralyticsデータセットのリストと、各コンピュータビジョンタスクとそれぞれのデータセットの概要です。
見る: Ultralytics データセットの概要
物体検出
バウンディングボックスオブジェクト検出は、各オブジェクトの周りにバウンディングボックスを描画することにより、画像内のオブジェクトを検出およびローカライズするコンピュータビジョン技術です。
- Argoverse: 豊富なアノテーションが付いた都市環境からの3Dトラッキングおよびモーション予測データを含むデータセット。
- COCO: Common Objects in Context (COCO)は、80のオブジェクトカテゴリを持つ、大規模なオブジェクト検出、セグメンテーション、キャプションデータセットです。
- LVIS: 1203のオブジェクトカテゴリを持つ、大規模な物体検出、セグメンテーション、およびキャプションデータセット。
- COCO8: COCO trainおよびCOCO valの最初の4枚の画像の小さいサブセットで、クイックテストに適しています。
- COCO8-Grayscale: RGBをグレースケールに変換して作成されたCOCO8のグレースケールバージョンで、シングルチャネルモデルの評価に役立ちます。
- COCO8-Multispectral: RGB波長を補間して作成されたCOCO8の10チャンネルマルチスペクトルバージョンで、スペクトル対応モデルの評価に役立ちます。
- COCO128: COCO trainおよびCOCO valの最初の128枚の画像の小さいサブセットで、テストに適しています。
- Global Wheat 2020: Global Wheat Challenge 2020用の小麦の穂の画像を含むデータセット。
- Objects365:365個のオブジェクトカテゴリと60万を超えるアノテーション付き画像を含む、オブジェクト検出用の高品質で大規模なデータセット。
- OpenImagesV7:Googleによる包括的なデータセットで、170万枚のトレーニング画像と42,000枚の検証画像があります。
- SKU-110K: 11Kを超える画像と170万のバウンディングボックスを備えた、小売環境における高密度物体検出を特徴とするデータセット。
- HomeObjects-3K New 🚀: スマートホームシステム、ロボティクス、拡張現実におけるコンピュータビジョンモデルの開発とテストに最適な、12の一般的な家庭用品を特徴とするアノテーション付き屋内シーンのデータセット。
- VisDrone: ドローンで撮影した画像から得られた、物体検出およびマルチ物体追跡データを含むデータセット。10,000 を超える画像とビデオシーケンスが含まれています。
- VOC: 物体検出とセグメンテーションのための Pascal Visual Object Classes (VOC) データセット。20 の物体クラスと 11,000 を超える画像が含まれています。
- xView: 60のオブジェクトカテゴリと100万を超えるアノテーション付きオブジェクトを含む、オーバーヘッド画像内のオブジェクト検出のためのデータセット。
- RF100: 包括的なモデル評価のために、7つの画像ドメインにまたがる100のデータセットを備えた多様な物体検出ベンチマーク。
- Brain-tumor: 脳腫瘍を検出するためのデータセットには、腫瘍の存在、位置、および特性に関する詳細を含むMRIまたはCTスキャン画像が含まれます。
- African-wildlife: バッファロー、ゾウ、サイ、シマウマなど、アフリカの野生動物の画像を含むデータセット。
- 署名: ドキュメントの検証と不正検出の研究をサポートする、アノテーション付き署名付きのさまざまなドキュメントの画像を備えたデータセット。
- Medical-pills: 医薬品の品質管理、仕分け、業界標準への準拠などのタスクを支援するために設計された、ラベル付きの医療用ピルの画像を含むデータセット。
インスタンスセグメンテーション
インスタンスセグメンテーションは、画像内のオブジェクトをピクセルレベルで識別し、ローカライズするコンピュータビジョンの技術です。各ピクセルを分類するだけのセマンティックセグメンテーションとは異なり、インスタンスセグメンテーションは同じクラスの異なるインスタンスを区別します。
- COCO: オブジェクト検出、セグメンテーション、およびキャプション作成タスク用に設計された大規模なデータセットで、200Kを超えるラベル付き画像が含まれています。
- COCO8-seg: インスタンスセグメンテーションタスク用の小規模なデータセットで、セグメンテーションアノテーション付きの8枚のCOCO画像のサブセットが含まれています。
- COCO128-seg: インスタンスセグメンテーションタスク用の小規模なデータセットで、セグメンテーションアノテーション付きの128枚のCOCO画像のサブセットが含まれています。
- Crack-seg: 道路や壁のひび割れを検出するために特別に作成されたデータセットで、オブジェクト検出とセグメンテーションの両方のタスクに適用できます。
- Package-seg:倉庫または産業環境でパッケージを識別するための調整されたデータセットで、オブジェクト検出とセグメンテーションの両方のアプリケーションに適しています。
- Carparts-seg: 車両部品の識別用に特別に構築されたデータセットで、設計、製造、研究のニーズに対応します。オブジェクト検出とセグメンテーションの両方のタスクに使用できます。
姿勢推定
姿勢推定は、カメラまたはワールド座標系に対するオブジェクトの姿勢を決定するために使用される技術です。これには、オブジェクト、特に人間や動物のキーポイントまたは関節を識別することが含まれます。
- COCO: ポーズ推定タスク用に設計された、人間のポーズアノテーション付きの大規模なデータセット。
- COCO8-pose: ポーズ推定タスク用の小規模なデータセットで、人間のポーズアノテーション付きの8枚のCOCO画像のサブセットが含まれています。
- Tiger-pose: 虎に焦点を当てた263枚の画像からなるコンパクトなデータセットで、ポーズ推定タスクのために虎1匹あたり12個のキーポイントでアノテーションされています。
- Hand-Keypoints: 人間の手を主体とした26,000枚以上の画像と、各手に対して21個のキーポイントのアノテーションを特徴とする簡潔なデータセットで、ポーズ推定タスク向けに設計されています。
- Dog-pose: 犬に焦点を当てた約6,000枚の画像を備えた包括的なデータセットで、犬ごとに24個のキーポイントでアノテーションが付けられており、ポーズ推定タスク向けに調整されています。
分類
画像分類は、画像の視覚的な内容に基づいて、画像を1つまたは複数の事前定義されたクラスまたはカテゴリに分類するコンピュータビジョンタスクです。
- Caltech 101: 画像分類タスク用の101個のオブジェクトカテゴリの画像を含むデータセット。
- Caltech 256: Caltech 101の拡張版で、256のオブジェクトカテゴリと、より難易度の高い画像が含まれています。
- CIFAR-10: 10個のクラスに分類された60,000枚の32x32カラー画像からなるデータセットで、クラスあたり6,000枚の画像が含まれています。
- CIFAR-100: CIFAR-10の拡張版で、100のオブジェクトカテゴリと、クラスあたり600枚の画像が含まれています。
- Fashion-MNIST: 画像分類タスク用の10のファッションカテゴリの70,000枚のグレースケール画像で構成されるデータセット。
- ImageNet: 1,400万枚以上の画像と20,000のカテゴリを持つ、物体検出と画像分類のための大規模なデータセット。
- ImageNet-10: より迅速な実験とテストのための10のカテゴリを持つImageNetのより小さなサブセット。
- Imagenette: より迅速なトレーニングとテストのために、簡単に区別できる10個のクラスを含むImageNetのより小さなサブセット。
- Imagewoof: 画像分類タスク用の10の犬種カテゴリを含む、ImageNetのより挑戦的なサブセット。
- MNIST: 画像分類タスクのための手書き数字の70,000のグレースケール画像のデータセット。
- MNIST160: MNISTデータセットの各MNISTカテゴリの最初の8つの画像。データセットには合計160の画像が含まれています。
傾斜バウンディングボックス(OBB)
Oriented Bounding Box(OBB)は、回転された境界ボックスを使用して画像内の角度の付いたオブジェクトを検出するコンピュータービジョンの手法であり、航空写真や衛星写真によく適用されます。従来の境界ボックスとは異なり、OBBはさまざまな方向のオブジェクトにより適切に適合できます。
- DOTA-v2: 170万のインスタンスと11,268枚の画像を含む、一般的なOBB航空画像データセット。
- DOTA8: DOTAv1分割セットの最初の8枚の画像をさらに小さくしたサブセット。迅速なテストに適したトレーニング用4枚、検証用4枚で構成されています。
Multi-Object Tracking
マルチオブジェクトトラッキングは、ビデオシーケンス内で複数のオブジェクトを時間経過とともに検出および追跡するコンピュータビジョン技術です。このタスクは、フレーム間でオブジェクトの一貫したIDを維持することにより、オブジェクト検出を拡張します。
- Argoverse: マルチオブジェクトトラッキングタスクのために、豊富なアノテーションが付いた都市環境からの3Dトラッキングおよびモーション予測データを含むデータセット。
- VisDrone: ドローンで撮影した画像から得られた、物体検出およびマルチ物体追跡データを含むデータセット。10,000 を超える画像とビデオシーケンスが含まれています。
新しいデータセットの投稿
新しいデータセットの投稿には、既存のインフラストラクチャとの整合性を確保するために、いくつかの手順が必要です。必要な手順は以下のとおりです。
見る: Ultralyticsデータセットへの貢献方法 🚀
新しいデータセットを投稿する手順
- 画像の収集: データセットに属する画像を集めます。これらは、公開データベースや独自のコレクションなど、さまざまなソースから収集できます。
- 画像にアノテーションを付ける: タスクに応じて、これらの画像にバウンディングボックス、セグメント、またはキーポイントでアノテーションを付けます。
- アノテーションのエクスポート: これらのアノテーションをYOLO形式に変換
*.txt
Ultralyticsがサポートするfile形式。 -
データセットの整理:データセットを正しいフォルダ構造に配置します。必要なフォルダ構造は以下の通りです。
train/
およびval/
トップレベルのディレクトリと、それぞれのディレクトリ内にimages/
およびlabels/
サブディレクトリ。dataset/ ├── train/ │ ├── images/ │ └── labels/ └── val/ ├── images/ └── labels/
-
新規作成
data.yaml
ファイル: データセットのルートディレクトリに、以下を作成します。data.yaml
データセット、クラス、およびその他の必要な情報を記述するfile。 - 画像の最適化(オプション): より効率的な処理のためにデータセットのサイズを縮小する場合は、以下のコードを使用して画像を最適化できます。これは必須ではありませんが、データセットのサイズを小さくし、ダウンロード速度を上げるために推奨されます。
- Zipデータセット: データセットフォルダ全体をzipファイルに圧縮します。
- ドキュメントとPR: データセットを説明し、既存のフレームワークにどのように適合するかを記述するドキュメントページを作成します。その後、プルリクエスト(PR)を送信します。PRの送信方法の詳細については、Ultralytics Contribution Guidelinesを参照してください。
データセットを最適化および圧縮するサンプルコード
データセットの最適化と圧縮
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
これらの手順に従うことで、Ultralyticsの既存の構造とうまく統合された新しいデータセットを貢献できます。
よくある質問
Ultralyticsは、物体検出でどのようなデータセットをサポートしていますか?
Ultralyticsは、物体検出のために、以下を含む多種多様なデータセットをサポートしています。
- COCO: 80のオブジェクトカテゴリを持つ、大規模なオブジェクト検出、セグメンテーション、キャプションデータセット。
- LVIS: よりきめ細かい物体検出とセグメンテーションのために設計された、1203のオブジェクトカテゴリを持つ広範なデータセット。
- Argoverse: 豊富なアノテーションが付いた都市環境からの3Dトラッキングおよびモーション予測データを含むデータセット。
- VisDrone: ドローンで撮影した画像からの物体検出およびマルチオブジェクト追跡データを含むデータセット。
- SKU-110K: 11Kを超える画像を備えた、小売環境における高密度物体検出を特徴としています。
これらのデータセットは、さまざまな物体検出アプリケーション向けの堅牢なUltralytics YOLOモデルのトレーニングを容易にします。
Ultralyticsに新しいデータセットを投稿するにはどうすればよいですか?
新しいデータセットの投稿には、いくつかの手順が必要です。
- 画像の収集: 公開データベースまたは個人のコレクションから画像を集めます。
- 画像にアノテーションを付ける: タスクに応じて、バウンディングボックス、セグメント、またはキーポイントを適用します。
- アノテーションのエクスポート: アノテーションをYOLO形式に変換
*.txt
形式。 - データセットの整理: 以下のフォルダ構造を使用
train/
およびval/
ディレクトリにそれぞれ含まれるimages/
およびlabels/
サブディレクトリ。 - 新規作成
data.yaml
ファイル: データセットの説明、クラス、およびその他の関連情報を含めます。 - 画像の最適化(オプション): 効率を高めるためにデータセットのサイズを縮小します。
- Zipデータセット: データセットをzipファイルに圧縮します。
- ドキュメントとPR: データセットについて記述し、Ultralytics Contribution Guidelinesに従ってプルリクエストを送信してください。
包括的なガイドについては、新しいデータセットの投稿をご覧ください。
データセットにUltralytics HUBを使用する理由
Ultralytics HUBは、以下を含むデータセットの管理と分析のための強力な機能を提供します。
- シームレスなデータセット管理: データセットを1か所にアップロード、整理、管理できます。
- 即時学習統合: アップロードされたデータセットを、追加のセットアップなしでモデル学習に直接使用します。
- 可視化ツール: データセットの画像とアノテーションを探索および可視化します。
- Dataset Analysis: データセットの分布と特性に関する洞察を得ます。
このプラットフォームは、データセット管理からモデルトレーニングへの移行を効率化し、プロセス全体をより効率的にします。Ultralytics HUB Datasetsの詳細をご覧ください。
コンピュータビジョンのためのUltralytics YOLOモデルの独自機能は何ですか?
Ultralytics YOLO モデルは、コンピュータビジョンタスクにいくつかの独自の機能を提供します。
- リアルタイム性能: 時間制約の厳しいアプリケーションに対応する高速推論およびトレーニング機能。
- 汎用性: 統一されたフレームワークで、検出、セグメンテーション、分類、ポーズ推定タスクをサポートします。
- 学習済みモデル: さまざまなアプリケーション向けに、高性能な学習済みモデルにアクセスして、トレーニング時間を短縮できます。
- 広範なコミュニティサポート: トラブルシューティングと開発のための活発なコミュニティと包括的なドキュメント。
- 簡単な統合: 既存のプロジェクトやワークフローと統合するためのシンプルなAPI。
YOLOモデルの詳細については、Ultralytics Modelsページをご覧ください。
Ultralyticsツールを使用してデータセットを最適化および圧縮するにはどうすればよいですか?
Ultralyticsツールを使用してデータセットを最適化および圧縮するには、次のコード例に従ってください:
データセットの最適化と圧縮
from pathlib import Path
from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory
# Define dataset directory
path = Path("path/to/dataset")
# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
compress_one_image(f)
# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)
このプロセスは、より効率的なストレージとより高速なダウンロード速度のために、データセットのサイズを削減するのに役立ちます。詳細については、データセットを最適化して圧縮する方法をご覧ください。