コンテンツにスキップ

データセット

Ultralytics Platformのデータセットは、トレーニングデータを管理するための合理化されたソリューションを提供します。アップロードされたデータセットは、自動処理と統計生成により、すぐにモデルトレーニングに使用できます。

データセットのアップロード

Ultralytics 柔軟性を考慮し、複数のアップロード形式に対応しています。

対応画像形式

形式拡張機能注記
JPEG.jpg, .jpeg最も一般的、推奨される
PNG.png透明性をサポートします
WebP.webpモダンで、圧縮率が高い
BMP.bmp非圧縮
GIF.gif最初のフレームを抽出
TIFF.tiff, .tif高品質
HEIC.heiciPhoneの写真
AVIF.avif次世代フォーマット
JP2.jp2JPEG 2000
DNG.dng生カメラ

対応ビデオフォーマット

動画は自動的にフレームに抽出されます:

形式拡張機能抽出
MP4.mp41 FPS、最大100フレーム
WebM.webm1 FPS、最大100フレーム
MOV.mov1 FPS、最大100フレーム
AVI.avi1 FPS、最大100フレーム
MKV.mkv1 FPS、最大100フレーム
M4V.m4v1 FPS、最大100フレーム

ファイルサイズ制限

種類最大サイズ
画像各50MB
動画1 GBずつ
ZIPファイル50ギガバイト

アーカイブ

最大50GBのZIPファイルに対応し、フォルダ構造を保持したまま自動解凍・処理を行います。

データセットの準備

ラベル付きデータセットの場合、標準のYOLOフォーマットを使用します。

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yamlファイルはデータセット構成を定義します。

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

アップロードプロセス

  1. サイドバーのデータセットに移動します
  2. データセットをアップロードをクリックするか、ファイルをアップロードゾーンにドラッグします
  3. タスクタイプ(detect, segment, pose, obb, classify)を選択します
  4. 名前とオプションの説明を追加します
  5. アップロードをクリックします

アップロード後、プラットフォームがデータを処理します。

  1. 正規化: 大きな画像のリサイズ(最大4096px)
  2. サムネイル: 256pxのプレビュー生成
  3. ラベル解析: YOLO形式のラベル抽出
  4. 統計: クラス分布の計算
アップロード前の検証

アップロードする前に、データセットをローカルで検証できます。

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

画像を閲覧

複数のレイアウトでデータセット画像を閲覧します。

表示説明
グリッドアノテーションオーバーレイ付きサムネイルグリッド
コンパクト素早い確認用のより小さなサムネイル
ファイル名、寸法、ラベル数を含むリスト

フルスクリーンビューア

任意の画像をクリックすると、以下の機能を持つ全画面ビューアが開きます。

  • ナビゲーション:矢印キーまたはクリックで閲覧
  • メタデータ:ファイル名、寸法、分割、ラベル数
  • アノテーション:アノテーションの表示/非表示を切り替える
  • クラス内訳:クラスごとのラベル数

スプリットでフィルタ

データセットの分割に基づいて画像をフィルタリングします。

分割目的
トレーニングモデルのトレーニングに使用
Valトレーニング中の検証に使用
テスト最終評価に使用
不明分割が割り当てられていません

データセット統計

統計タブでは、データセットの自動分析が提供されます。

クラス分布

クラスごとのアノテーション数を示す棒グラフ:

位置ヒートマップ

画像内のアノテーションの表示位置の視覚化:

次元分析

画像寸法(幅 vs 高さ)の散布図:

統計情報のキャッシュ

統計情報は5分間キャッシュされます。アノテーションの変更は、キャッシュの有効期限が切れた後に反映されます。

データセットのエクスポート

オフラインで使用するために、データセットをNDJSON形式でエクスポートします。

  1. データセットアクションメニューを開く
  2. エクスポートをクリック
  3. NDJSONファイルをダウンロード

NDJSON形式は、1行に1つのJSONオブジェクトを格納します。

{"filename": "img001.jpg", "split": "train", "labels": [...]}
{"filename": "img002.jpg", "split": "train", "labels": [...]}

詳細な仕様については、Ultralytics NDJSON形式のドキュメントを参照してください。

データセットURI

Platformデータセットを参照するには、以下を使用します。 ul:// URI形式:

ul://username/datasets/dataset-slug

このURIを使用すると、どこからでもモデルをトレーニングできます:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100

Platformデータでどこからでもトレーニング

The ul:// URIはどの環境からでも機能します:

  • ローカルマシン: お使いのハードウェアでトレーニングし、データは自動的にダウンロードされます。
  • Google Colab: ノートブックでPlatformデータセットにアクセスできます。
  • リモートサーバー: 完全なデータセットアクセスでクラウドVM上でトレーニングできます。

表示設定

データセットの表示権限を制御します:

設定説明
プライベートあなたのみがアクセス可能
パブリックExploreページで誰でも閲覧可能

表示設定を変更するには:

  1. データセットアクションメニューを開きます
  2. 編集をクリック
  3. 表示設定を切り替えます
  4. 保存をクリック

データセットの編集

データセット名、説明、または表示設定を更新します:

  1. データセットアクションメニューを開きます
  2. 編集をクリック
  3. 変更を適用
  4. 保存をクリック

データセットの削除

不要になったデータセットを削除します:

  1. データセットアクションメニューを開きます
  2. 削除をクリックします
  3. 削除を確認

ゴミ箱と復元

削除されたデータセットは30日間ゴミ箱に移動されます。設定のゴミ箱ページから復元できます。

データセットで学習

データセットから直接トレーニングを開始します:

  1. データセットページでモデルをトレーニングをクリックします
  2. プロジェクトを選択するか、新規作成します。
  3. トレーニングパラメータを設定します。
  4. トレーニングを開始します。

詳細については、クラウドトレーニングを参照してください。

よくある質問

アップロード後、私のデータはどうなりますか?

データは選択された地域(米国、EU、またはAP)で処理および保存されます。画像は次のとおりです。

  1. 形式とサイズが検証済み。
  2. 4096pxより大きい場合は正規化されます(アスペクト比を維持)。
  3. SHA-256ハッシュを使用したコンテンツアドレス指定ストレージ(CAS)で保存されます。
  4. 高速ブラウジングのために256pxでサムネイルが生成されます。

ストレージはどのように機能しますか?

Ultralytics Platformは、効率的なストレージのためにコンテンツアドレス指定ストレージ(CAS)を使用します。

  • 重複排除: 異なるユーザーによってアップロードされた同一の画像は一度だけ保存されます。
  • 整合性: SHA-256ハッシュによりデータの整合性が保証されます。
  • 効率性: ストレージコストを削減し、処理を高速化します。
  • 地域性: データは選択した地域(US、EU、またはAP)に留まります。

既存のデータセットに画像を追加できますか?

はい、データセットページにある画像を追加ボタンを使用して、追加の画像をアップロードできます。新しい統計は自動的に計算されます。

データセット間で画像を移動するにはどうすればよいですか?

一括選択機能を使用します。

  1. ギャラリーで画像を選択します。
  2. 移動またはコピーをクリックします。
  3. 宛先データセットを選択します。

どのようなラベル形式がサポートされていますか?

Ultralytics PlatformはYOLO形式のラベルをサポートしています。

タスク形式
検出class cx cy w h0 0.5 0.5 0.2 0.3
セグメントclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
ポーズclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
分類ディレクトリ構造train/cats/, train/dogs/

すべての座標は正規化されています(0~1の範囲)。姿勢可視性フラグ:0=ラベル付けなし1=ラベル付け済みだが隠蔽2=ラベル付け済みかつ可視



📅 20日前に作成✏️ 12日前に更新
glenn-jocherLaughing-q

コメント