Meet YOLO26: next-gen vision AI.

Link to this sectionデータセットの概要#

Ultralyticsは、検出、インスタンスセグメンテーション、セマンティックセグメンテーション、姿勢推定、分類、マルチオブジェクトトラッキングなどのコンピュータビジョンタスクを促進するために、様々なデータセットをサポートしています。以下に主要なUltralyticsデータセットのリストを、続いて各コンピュータビジョンタスクの概要と関連データセットを示します。



Watch: Ultralytics Datasets Overview

Link to this section物体検出#

バウンディングボックス物体検出は、画像内のオブジェクトを検出し、各オブジェクトの周囲にバウンディングボックスを描画することで位置を特定するコンピュータビジョン技術です。

  • African-wildlife: バッファロー、ゾウ、サイ、シマウマなど、アフリカの野生生物の画像を含むデータセットです。
  • Argoverse: 都市環境における3Dトラッキングおよびモーション予測データを含む、豊富なアノテーション付きデータセットです。
  • Brain-tumor: 脳腫瘍の有無、位置、特徴に関する詳細を含む、MRIやCTスキャン画像を用いた脳腫瘍検出用データセットです。
  • COCO: Common Objects in Context (COCO) は、80のオブジェクトカテゴリを持つ大規模な物体検出、セグメンテーション、キャプション用データセットです。
  • COCO8: COCO trainおよびCOCO valの最初の4画像からなる小規模なサブセットで、迅速なテストに適しています。
  • COCO8-Grayscale: RGBをグレースケールに変換して作成されたCOCO8のグレースケール版で、シングルチャネルモデルの評価に役立ちます。
  • COCO8-Multispectral: RGB波長を補間して作成された10チャネルのマルチスペクトル版COCO8で、スペクトル対応モデルの評価に役立ちます。
  • COCO128: COCO train2017の最初の128画像からなる小規模なサブセットで、テストに適しています。
  • Construction-PPE: ヘルメット、ベスト、手袋、ブーツ、ゴーグルなどの主要な安全装備にアノテーションが施され、不足している装備のラベルも含まれた建設現場画像のデータセットであり、コンプライアンスや労働者保護のためのAIモデル開発をサポートします。
  • Global Wheat 2020: Global Wheat Challenge 2020に向けた小麦の穂の画像を含むデータセットです。
  • HomeObjects-3K: 12種類の一般的な家庭用品を含むアノテーション付き屋内シーンのデータセットであり、スマートホームシステム、ロボティクス、拡張現実におけるコンピュータビジョンモデルの開発およびテストに最適です。
  • KITTI New: ステレオ、LiDAR、GPS/IMU入力を備え、多様な道路シーンでの2D物体検出に使用される、よく知られた自動運転データセットです。
  • LVIS: 1203のオブジェクトカテゴリを持つ、大規模な物体検出、セグメンテーション、キャプション用データセットです。
  • Medical-pills: 医薬品の品質管理、選別、業界標準への準拠を支援するために設計された、ラベル付き医薬品ピル画像データセットです。
  • Objects365: 365のオブジェクトカテゴリと60万枚以上の注釈付き画像を含む、高品質で大規模な物体検出用データセットです。
  • OpenImagesV7: Googleによる、170万枚の学習画像と4.2万枚の検証画像を含む包括的なデータセットです。
  • RF100: 7つの画像ドメインにまたがる100のデータセットを備えた多様な物体検出ベンチマークであり、包括的なモデル評価が可能です。
  • Signature: アノテーション付き署名を含む様々な文書の画像データセットで、文書検証および不正検知の研究をサポートします。
  • SKU-110K: 1.1万枚以上の画像と170万個のバウンディングボックスを含む、小売環境における高密度物体検出用データセットです。
  • VisDrone: ドローンで撮影された1万枚以上の画像と動画シーケンスを含む、物体検出およびマルチオブジェクトトラッキング用データセットです。
  • VOC: 20のオブジェクトクラスと1.1万枚以上の画像を含む、物体検出およびセグメンテーションのためのPascal Visual Object Classes (VOC) データセットです。
  • xView: 60のオブジェクトカテゴリと100万個以上の注釈付きオブジェクトを含む、オーバーヘッド画像(航空・衛星写真)での物体検出用データセットです。

Link to this sectionインスタンスセグメンテーション#

インスタンスセグメンテーションは、画像内のオブジェクトをピクセルレベルで特定およびローカライズするコンピュータビジョン技術です。各ピクセルを分類するだけのセマンティックセグメンテーションとは異なり、インスタンスセグメンテーションは同じクラスの異なるインスタンスを区別します。

  • Carparts-seg: 車両部品を識別するための専用データセットで、設計、製造、研究のニーズに対応しています。物体検出およびセグメンテーションタスクの両方に使用可能です。
  • COCO: 20万枚以上のラベル付き画像を備えた、物体検出、セグメンテーション、キャプションタスク向けの大規模データセットです。
  • COCO8-seg: インスタンスセグメンテーションタスク向けの小規模データセットで、セグメンテーションアノテーションを含むCOCO画像の8枚のサブセットです。
  • COCO128-seg: インスタンスセグメンテーションタスク向けの小規模データセットで、セグメンテーションアノテーションを含むCOCO画像の128枚のサブセットです。
  • Crack-seg: 道路や壁のひび割れを検出するために特別に作成されたデータセットで、物体検出およびセグメンテーションタスクの両方に適用可能です。
  • Package-seg: 倉庫や産業環境でパッケージを識別するためにカスタマイズされたデータセットで、物体検出およびセグメンテーションアプリケーションに適しています。

Link to this sectionセマンティックセグメンテーション#

セマンティックセグメンテーションは、画像内のすべてのピクセルにクラスラベルを割り当て、自動運転、シーン解析、土地被覆マッピングなどのアプリケーション向けに高密度なシーンマップを生成します。

  • Cityscapes: 19の学習クラスを持つ都市街路シーンのセマンティックセグメンテーションデータセットです。
  • Cityscapes8: セマンティックセグメンテーションのパイプラインチェックを迅速に行うための、8枚からなるコンパクトなCityscapesサブセットです。
  • ADE20K: 150のセマンティッククラスを持つシーン解析データセットです。

Link to this section姿勢推定#

姿勢推定は、カメラまたは世界座標系に対するオブジェクトの姿勢を決定するために使用される技術です。これには、オブジェクト(特に人間や動物)上のキーポイントや関節を特定することが含まれます。

  • COCO: 姿勢推定タスク用に設計された、人間の姿勢アノテーションを含む大規模データセットです。
  • COCO8-pose: 姿勢推定タスク向けの小規模データセットで、人間の姿勢アノテーションを含むCOCO画像の8枚のサブセットです。
  • Dog-pose: 犬に焦点を当てた約8,500枚の画像を含む包括的なデータセットで、犬1頭につき24個のキーポイントがアノテーションされており、姿勢推定タスク向けに調整されています。
  • Hand-Keypoints: 人間の手に焦点を当てた26,000枚以上の画像を含む簡潔なデータセットで、手1つにつき21個のキーポイントがアノテーションされており、姿勢推定タスク向けに設計されています。
  • Tiger-pose: トラに焦点を当てた263枚の画像からなるコンパクトなデータセットで、トラ1頭につき12個のキーポイントがアノテーションされており、姿勢推定タスク向けです。

Link to this section分類#

画像分類は、視覚的な内容に基づいて画像を1つ以上の事前に定義されたクラスやカテゴリに分類するコンピュータビジョンタスクです。

  • Caltech 101: 画像分類タスクのための101のオブジェクトカテゴリの画像を含むデータセットです。
  • Caltech 256: Caltech 101の拡張版で、256のオブジェクトカテゴリとより難易度の高い画像が含まれています。
  • CIFAR-10: 10クラスで構成される6万枚の32x32カラー画像データセットで、各クラスあたり6,000枚の画像が含まれています。
  • CIFAR-100: CIFAR-10の拡張版で、100のオブジェクトカテゴリと各クラスあたり600枚の画像が含まれています。
  • Fashion-MNIST: 画像分類タスク向けの10のファッションカテゴリからなる7万枚のグレースケール画像データセットです。
  • ImageNet: 1,400万枚以上の画像と2万のカテゴリを持つ、物体検出および画像分類のための大規模データセットです。
  • ImageNet-10: より迅速な実験とテストのために、ImageNetの10カテゴリからなる小規模なサブセットです。
  • Imagenette: より迅速なトレーニングとテストのために、容易に識別可能な10クラスを含むImageNetの小規模なサブセットです。
  • Imagewoof: 画像分類タスク向けに、10の犬種カテゴリを含むImageNetのより難易度の高いサブセットです。
  • MNIST: 画像分類タスク向けの手書き数字の7万枚のグレースケール画像データセットです。
  • MNIST160: MNISTの学習セットとテストセットの両方から、各数字(0-9)の最初の8枚の画像。データセットは合計160枚の画像を含みます。

Link to this section指向性バウンディングボックス (OBB)#

指向性バウンディングボックス (OBB) は、航空画像や衛星画像によく適用される、回転したバウンディングボックスを使用して画像内の斜めのオブジェクトを検出するコンピュータビジョン手法です。従来のバウンディングボックスとは異なり、OBBは多様な向きにあるオブジェクトによりよく適合します。

  • DOTA-v2: 170万のインスタンスと11,268枚の画像を持つ、一般的なOBB航空画像データセットです。
  • DOTA8: DOTAv1分割セットの最初の8画像からなる小規模なサブセット(学習用4枚、検証用4枚)で、迅速なテストに適しています。
  • DOTA128: 学習および検証用に128枚の画像を含むDOTAデータセットのサブセットであり、OBBモデルのテストにおけるサイズと多様性のバランスが良いデータセットです。

Link to this sectionマルチオブジェクトトラッキング#

マルチオブジェクトトラッキングは、ビデオシーケンス内で複数のオブジェクトを時系列で検出および追跡するコンピュータビジョン技術です。このタスクは、フレーム間でオブジェクトの一貫したIDを保持することで物体検出を拡張します。

  • Argoverse: マルチオブジェクトトラッキングタスク向けに、豊富なアノテーションを含む都市環境の3Dトラッキングおよびモーション予測データセットです。
  • VisDrone: ドローンで撮影された1万枚以上の画像と動画シーケンスを含む、物体検出およびマルチオブジェクトトラッキング用データセットです。

Link to this section新しいデータセットの提供#

新しいデータセットの提供には、既存のインフラストラクチャと整合させるためにいくつかのステップが必要です。以下に必要な手順を示します。



Watch: How to Contribute to Ultralytics Datasets

Link to this section新しいデータセットを提供するための手順#

  1. 画像の収集: データセットに属する画像を収集します。これらは、公開データベースやご自身のコレクションなど、様々なソースから収集できます。

  2. 画像のアノテーション: タスクに応じて、これらの画像にバウンディングボックス、セグメント、またはキーポイントのアノテーションを施します。

  3. アノテーションのエクスポート: これらのアノテーションを、UltralyticsがサポートするYOLO *.txt ファイル形式に変換します。

  4. データセットの整理: データセットを正しいフォルダ構造に配置します。images/labels/ のトップレベルディレクトリを持ち、それぞれの内部に train/val/ のサブディレクトリを作成する必要があります。

    dataset/
    ├── images/
    │   ├── train/
    │   └── val/
    └── labels/
        ├── train/
        └── val/
  5. data.yaml ファイルの作成: データセットのルートディレクトリに、データセット、クラス、その他必要な情報を記述した data.yaml ファイルを作成します。

  6. 画像の最適化 (オプション): より効率的な処理のためにデータセットのサイズを縮小したい場合は、以下のコードを使用して画像を最適化できます。これは必須ではありませんが、データセットのサイズを小さくし、ダウンロード速度を上げるために推奨されます。

  7. データセットのZIP圧縮: データセットフォルダ全体をZIPファイルに圧縮します。

  8. ドキュメント作成とPR: データセットの内容と既存のフレームワークへの組み込み方法を記述するドキュメントページを作成します。その後、プルリクエスト (PR) を送信します。PRの送信方法の詳細については、Ultralytics貢献ガイドラインを参照してください。

Link to this sectionデータセットを最適化してZIP圧縮するサンプルコード#

データセットを最適化してZIP圧縮する
   from pathlib import Path

   from ultralytics.data.utils import compress_one_image
   from ultralytics.utils.downloads import zip_directory

   # Define dataset directory
   path = Path("path/to/dataset")

   # Optimize images in dataset (optional)
   for f in path.rglob("*.jpg"):
       compress_one_image(f)

   # Zip dataset into 'path/to/dataset.zip'
   zip_directory(path)

これらのステップに従うことで、Ultralyticsの既存の構造とよく統合される新しいデータセットを提供できます。

Link to this sectionよくある質問 (FAQ)#

Link to this sectionUltralyticsは物体検出のためにどのようなデータセットをサポートしていますか?#

Ultralyticsは、以下を含む多様な物体検出用データセットをサポートしています。

  • COCO: 80のオブジェクトカテゴリを持つ、大規模な物体検出、セグメンテーション、キャプション用データセットです。
  • LVIS: より詳細な物体検出とセグメンテーションのために設計された、1203のオブジェクトカテゴリを持つ広範なデータセットです。
  • Argoverse: 都市環境における3Dトラッキングおよびモーション予測データを含む、豊富なアノテーション付きデータセットです。
  • VisDrone: ドローンで撮影された画像を用いた物体検出およびマルチオブジェクトトラッキングデータを含むデータセットです。
  • SKU-110K: 1.1万枚以上の画像を使用し、小売環境における高密度物体検出を特徴としています。

これらのデータセットは、様々な物体検出アプリケーション向けの堅牢なUltralytics YOLOモデルのトレーニングを促進します。

Link to this section新しいデータセットをUltralyticsに提供するにはどうすればよいですか?#

新しいデータセットの提供には、いくつかのステップが含まれます:

  1. 画像の収集: 公開データベースや個人のコレクションから画像を収集します。
  2. 画像のアノテーション: タスクに応じて、バウンディングボックス、セグメント、またはキーポイントを適用します。
  3. アノテーションのエクスポート: アノテーションをYOLO *.txt 形式に変換します。
  4. Organize Dataset: Use the folder structure with train/ and val/ directories, each containing images/ and labels/ subdirectories.
  5. data.yaml ファイルの作成: データセットの説明、クラス、およびその他の関連情報を含めます。
  6. 画像の最適化 (オプション): 効率化のためにデータセットのサイズを縮小します。
  7. データセットのZIP圧縮: データセットをZIPファイルに圧縮します。
  8. ドキュメント作成とPR: Ultralytics貢献ガイドラインに従ってデータセットについて説明し、プルリクエストを送信します。

包括的なガイドについては、新しいデータセットの提供をご覧ください。

Link to this sectionなぜデータセットにUltralyticsプラットフォームを使用すべきなのですか?#

Ultralytics Platformでは、データセットの管理と分析に役立つ強力な機能を提供しています。主な機能は以下の通りです。

  • シームレスなデータセット管理: データセットのアップロード、整理、管理を一箇所で行うことができます。
  • 即時のトレーニング統合: アップロードしたデータセットを、追加のセットアップなしで直接モデルのトレーニングに使用できます。
  • 可視化ツール: データセット内の画像やアノテーションを探索および可視化します。
  • データセット分析: データセットの分布や特性に関する洞察を得ることができます。

このプラットフォームにより、データセット管理からモデルトレーニングへの移行が効率化され、プロセス全体がよりスムーズになります。Ultralytics Platform Datasetsの詳細をご覧ください。

Link to this sectionコンピュータビジョン向けUltralytics YOLOモデルのユニークな機能とは何ですか?#

Ultralytics YOLOモデルは、コンピュータビジョンタスク向けにいくつかのユニークな機能を提供します。

  • リアルタイム性能: 時間に敏感なアプリケーション向けに、高速な推論およびトレーニング機能を提供します。
  • 多様性: 検出、インスタンスセグメンテーション、セマンティックセグメンテーション、分類、姿勢推定タスクを単一のフレームワークでサポートします。
  • 事前学習済みモデル: 多様なアプリケーションに対応する高性能な事前学習済みモデルにアクセスでき、トレーニング時間を短縮できます。
  • 広範なコミュニティサポート: トラブルシューティングや開発に役立つ、活発なコミュニティと包括的なドキュメントが提供されています。
  • 簡単な統合: 既存のプロジェクトやワークフローに統合するためのシンプルなAPIを提供します。

YOLOモデルの詳細については、Ultralytics Modelsページをご覧ください。

Link to this sectionUltralyticsツールを使用してデータセットを最適化し、zip圧縮するにはどうすればよいですか?#

Ultralyticsツールを使用してデータセットを最適化し、zip圧縮するには、以下のコード例に従ってください。

データセットを最適化してZIP圧縮する
from pathlib import Path

from ultralytics.data.utils import compress_one_image
from ultralytics.utils.downloads import zip_directory

# Define dataset directory
path = Path("path/to/dataset")

# Optimize images in dataset (optional)
for f in path.rglob("*.jpg"):
    compress_one_image(f)

# Zip dataset into 'path/to/dataset.zip'
zip_directory(path)

このプロセスにより、データセットサイズが削減され、ストレージ効率の向上とダウンロード速度の高速化が実現します。データセットの最適化とzip圧縮に関する詳細をご覧ください。

コメント