コンテンツにスキップ

データセット

Ultralytics Platformのデータセットは、トレーニングデータを管理するための合理化されたソリューションを提供します。アップロードされたデータセットは、自動処理と統計生成により、すぐにモデルトレーニングに使用できます。

データセットのアップロード

Ultralytics 柔軟性を考慮し、複数のアップロード形式に対応しています。

対応フォーマット

形式拡張機能注記最大サイズ
JPEG.jpg, .jpeg最も一般的、推奨される50 MB
PNG.png透明性をサポートします50 MB
WebP.webpモダンで、圧縮率が高い50 MB
BMP.bmp非圧縮50 MB
TIFF.tiff, .tif高品質50 MB
HEIC.heiciPhoneの写真50 MB
AVIF.avif次世代フォーマット50 MB
JP2.jp2JPEG 200050 MB
DNG.dng生カメラ50 MB
MPO.mpo複数画像オブジェクト50 MB

動画はクライアント側で1FPS(動画あたり最大100フレーム)で自動的にフレームに抽出されます。

形式拡張機能抽出最大サイズ
MP4.mp41 FPS、最大100フレーム1ギガバイト
WebM.webm1 FPS、最大100フレーム1ギガバイト
MOV.mov1 FPS、最大100フレーム1ギガバイト
AVI.avi1 FPS、最大100フレーム1ギガバイト
MKV.mkv1 FPS、最大100フレーム1ギガバイト
M4V.m4v1 FPS、最大100フレーム1ギガバイト

ビデオフレーム抽出

動画フレームはアップロード前にブラウザ内で1秒あたり1フレームの速度で抽出されます。60秒の動画からは60フレームが生成されます。動画あたりの最大フレーム数は100フレームであるため、約100秒を超える動画はサンプリング処理されます。

アーカイブは自動的に抽出および処理されます。

形式拡張機能注記最大サイズ
ZIP.zip最も一般的な10ギガバイト
TAR.tar非圧縮アーカイブ10ギガバイト
TAR.GZ.tar.gz, .tgz圧縮アーカイブ10ギガバイト
GZ.gzGzip圧縮10ギガバイト

データセットの準備

プラットフォームは2種類の注釈フォーマットと生のアップロードをサポートしています: Ultralytics YOLO, COCO、および生の(アノテーションなしの画像):

標準YOLO 構造を使用し、 data.yaml ファイル:

my-dataset/
├── images/
│   ├── train/
│   │   ├── img001.jpg
│   │   └── img002.jpg
│   └── val/
│       ├── img003.jpg
│       └── img004.jpg
├── labels/
│   ├── train/
│   │   ├── img001.txt
│   │   └── img002.txt
│   └── val/
│       ├── img003.txt
│       └── img004.txt
└── data.yaml

yamlファイルはデータセット構成を定義します。

# data.yaml
path: .
train: images/train
val: images/val

names:
    0: person
    1: car
    2: dog

標準的なCOCO のJSONアノテーションファイルを使用してください:

my-coco-dataset/
├── train/
│   ├── _annotations.coco.json
│   ├── img001.jpg
│   └── img002.jpg
└── val/
    ├── _annotations.coco.json
    ├── img003.jpg
    └── img004.jpg

JSONファイルには以下が含まれています images, annotations、および categories 配列:

{
    "images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
    "annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
    "categories": [{ "id": 0, "name": "person" }]
}

COCO アップロード時に自動的に変換されます。検出(bbox), セグメンテーション (segmentation ポリゴン), および姿勢 (keypointsタスクがサポートされています。カテゴリIDは、すべてのアノテーションファイルにわたって0インデックスの密なシーケンスに再マッピングされます。フォーマット間の変換については、 フォーマット変換ツール.

生のアップロード

未注釈の画像(ラベルなし)アップロードします。プラットフォーム上の注釈エディタで直接注釈を付ける予定の場合に便利です。

フラットなディレクトリ構造

列車/valフォルダ構造なしで画像をアップロードすることも可能です。分割フォルダなしでアップロードされた画像は、 train デフォルトでは分割されます。後で一括移動機能を使用して再割り当てできます。

フォーマット自動検出

フォーマットは自動的に検出されます: data.yaml 含有する names, train、または val キーはYOLOとして扱われます。COCO ファイル(以下を含む)を持つデータセット images, annotations、および categories 配列)COCO扱われる。画像のみで注釈がないデータセットはrawとして扱われる。

タスク固有のフォーマットの詳細については、サポートされているタスクと データセットの概要を参照してください。

アップロードプロセス

  1. 移動先 Datasets サイドバーに
  2. クリック New Dataset またはファイルをアップロードゾーンにドラッグしてください
  3. タスクの種類を選択してください(サポートされているタスクを参照)
  4. 名前とオプションの説明を追加します
  5. 公開設定(公開または非公開)とオプションのライセンス(利用可能なライセンスを参照)を設定する
  6. クリック Create

Ultralytics データセットアップロードダイアログ タスクセレクター

アップロード後、プラットフォームはデータを多段階のパイプラインで処理します:

graph LR
    A[Upload] --> B[Validate]
    B --> C[Normalize]
    C --> D[Thumbnail]
    D --> E[Parse Labels]
    E --> F[Statistics]

    style A fill:#4CAF50,color:#fff
    style B fill:#2196F3,color:#fff
    style C fill:#2196F3,color:#fff
    style D fill:#2196F3,color:#fff
    style E fill:#2196F3,color:#fff
    style F fill:#9C27B0,color:#fff
  1. 検証:形式とサイズのチェック
  2. 正規化:大きな画像をリサイズ(最大4096px、最小辺28px)
  3. サムネイル:256px WebPプレビューが生成されました
  4. ラベル解析: YOLO およびCOCO ラベルを抽出
  5. 統計情報:クラス分布と画像サイズを計算済み

Ultralytics データセットアップロード進捗バー

アップロード前の検証

アップロードする前に、データセットをローカルで検証できます。

from ultralytics.hub import check_dataset

check_dataset("path/to/dataset.zip", task="detect")

画像サイズ要件

画像は最短辺が28ピクセル以上である必要があります。これより小さい画像は処理中に拒否されます。最長辺が4096ピクセルを超える画像は、アスペクト比を維持した状態で自動的にリサイズされます。

画像を閲覧

複数のレイアウトでデータセット画像を閲覧します。

表示説明
グリッド注釈オーバーレイ付きサムネイルグリッド(デフォルト)
コンパクト素早い確認用のより小さなサムネイル
サムネイル、ファイル名、寸法、サイズ、分割、クラス、ラベル数を記載したリスト

Ultralytics データセットギャラリー グリッドビュー(注釈付き)

並べ替えとフィルタリング

画像は効率的な閲覧のために並べ替えやフィルタリングが可能です:

ソート説明
最新最近追加された
最古最も早く追加された
名前 A-Zアルファベット順
名前 Z-A逆アルファベット順
サイズ(最小)最小のファイルから
サイズ(最大)最大のファイルを最初に
ほとんどのラベルほとんどの注釈
最小のラベル最少の注釈
フィルターオプション
分割フィルタートレーニング、検証、テスト、またはすべて
ラベルフィルターすべての画像、注釈付き、または注釈なし
Searchファイル名で画像をフィルタリングする

ラベル付けされていない画像の発見

ラベルフィルターセットを使用して Unannotated まだアノテーションが必要な画像を素早く見つけるためです。これは特に、track 進捗状況をtrack したい大規模データセットにおいて有用です。

フルスクリーンビューア

任意の画像をクリックすると、以下の機能を持つ全画面ビューアが開きます。

  • ナビゲーション:矢印キーまたはサムネイルプレビューで閲覧
  • メタデータ:ファイル名、寸法、分割バッジ、注釈数
  • 注釈: 注釈オーバーレイの表示/非表示を切り替える
  • クラス別内訳:クラスごとのラベル数と色分け表示
  • 編集:注釈モードに入ると、ラベルを追加または変更できます
  • ダウンロード: 元の画像ファイルをダウンロードする
  • 削除: データセットから画像を削除する
  • ズーム: Cmd/Ctrl+Scroll 拡大/縮小する
  • ピクセル表示:拡大表示時のピクセル化されたレンダリングを切り替え

Ultralytics データセットメタデータパネル付きフルスクリーンビューアー

スプリットでフィルタ

データセットの分割に基づいて画像をフィルタリングします。

分割目的
トレーニングモデルのトレーニングに使用
Valトレーニング中の検証に使用
テスト最終評価に使用

データセットタブ

各データセットページには、タブバーからアクセスできる5つのタブがあります:

画像タブ

デフォルト表示では、注釈オーバーレイ付きのイメージギャラリーが表示されます。グリッド表示、コンパクト表示、テーブル表示モードに対応しています。ここにファイルをドラッグ&ドロップすると、画像を追加できます。

クラスタブ

データセットの注釈クラスを管理する:

  • クラスヒストグラム:各クラスごとのアノテーション数を示す棒グラフ(線形/対数スケールの切り替え機能付き)
  • クラス表:クラス名、ラベル数、画像数を表示するソート可能・検索可能な表
  • クラス名の編集:任意のクラス名をクリックすると、その場で名前を変更できます
  • クラスカラーの編集:色見本をタップしてクラスカラーを変更します
  • 新しいクラスを追加: 下部の入力欄を使用してクラスを追加してください

Ultralytics データセットクラスタブヒストグラムとテーブル

不均衡データセットのための対数スケール

データセットにクラス不均衡(例:10,000件の「人」アノテーションに対し「自転車」はわずか50件)がある場合、 Log Scale クラスヒストグラムをオンにして、すべてのクラスを明確に可視化します。

チャートタブ

データセットから自動計算された統計情報:

チャート説明
分割配布列車/検証/テスト画像の枚数とラベル付きパーセンテージのドーナツチャート
トップクラス頻度上位10注釈クラスのドーナツチャート
画像の幅画像幅分布のヒストグラム(平均値付き)
イメージハイツ画像高さ分布のヒストグラム(平均値付き)
インスタンスごとのポイントアノテーション(segment)ごとのポリゴン頂点またはキーポイント数
注釈の位置バウンディングボックス中心位置の2Dヒートマップ
画像サイズアスペクト比ガイドライン付き2D幅対高さヒートマップ

Ultralytics データセットチャートタブ統計グリッド

統計情報のキャッシュ

統計情報は5分間キャッシュされます。アノテーションの変更は、キャッシュの有効期限が切れた後に反映されます。

フルスクリーンヒートマップ

任意のヒートマップの展開ボタンをクリックすると、フルスクリーンモードで表示されます。これにより、より大きく詳細なビューが提供され、大規模データセットの空間パターンを理解するのに役立ちます。

モデルタブ

このデータセットで学習した全モデルを検索可能な表で表示:

説明
名前リンク付きモデル名
プロジェクトアイコン付き親プロジェクト
ステータストレーニングステータスバッジ
タスクYOLO タイプ
エポック数最良のエポック / 総エポック数
mAP50-95平均精度
mAP50IoU .50mAP
作成作成日時

Ultralytics データセットモデルタブトレーニング済みモデルテーブル

エラータブ

処理に失敗した画像は以下に一覧表示されます:

  • エラーバナー:失敗した画像とガイダンスの合計数
  • エラーテーブル:ファイル名、ユーザーフレンドリーなエラー説明、修正ヒント、プレビューサムネイル
  • よくあるエラーには、ファイルの破損、非対応の形式、画像が小さすぎる(最小28px)、および非対応の色モードが含まれます
一般的な処理エラー
エラー原因修正
画像ファイルを読み取れません破損した形式または非対応の形式画像編集ソフトからの再エクスポート
不完全または破損したファイルが転送中に切り詰められました元のファイルを再ダウンロードしてください
画像が小さすぎます最小寸法は28px未満より高解像度のソース画像を使用する
非対応のカラーモードCMYKまたはインデックスカラーモードRGBモードに変換する

データセットのエクスポート

オフライン利用のためにデータセットをNDJSON形式でエクスポートします:

  1. データセットヘッダーのダウンロードアイコンをクリックしてください
  2. NDJSONファイルは自動的にダウンロードされます

Ultralytics データセットエクスポートNdJSONダウンロード

NDJSON形式では、1行につき1つのJSONオブジェクトを格納します。最初の行にはデータセットのメタデータが含まれ、その後1画像につき1行が続きます:

{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}

署名付きURL

エクスポートされたNDJSON内の画像URLは署名付きで、有効期間は7日間です。新しいURLが必要な場合は、データセットを再エクスポートしてください。

詳細な仕様については、Ultralytics NDJSON形式のドキュメントを参照してください。

一括操作

テーブルビューのコンテキストメニューを使用して画像を一括管理します:

スプリットへ移動

選択した画像を同じデータセット内の別の分割に再割り当てします:

  1. テーブル表示に切り替える
  2. チェックボックスを使用して画像を選択する
  3. 右クリックでコンテキストメニューを開く
  4. 選択する Move to split > トレーニング, 検証、または テスト

グリッド表示では、画像を分割フィルタータブにドラッグ&ドロップすることもできます。

列車/バルス分割の整理

すべての画像を1つのデータセットにアップロードし、一括移動・分割機能を使用してサブセットを訓練データ、検証データ、テストデータに分割します。

一括削除

複数の画像を一度に削除する:

  1. テーブルビューで画像を選択する
  2. 右クリックして選択する Delete
  3. 削除を確認

データセットURI

Platformデータセットを参照するには、以下を使用します。 ul:// URI形式(参照 プラットフォームデータセットの使用):

ul://username/datasets/dataset-slug

このURIを使用すると、どこからでもモデルをトレーニングできます:

export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO

model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)

Platformデータでどこからでもトレーニング

The ul:// URIはどの環境からでも機能します:

  • ローカルマシン: お使いのハードウェアでトレーニングし、データは自動的にダウンロードされます。
  • Google Colab: ノートブックでPlatformデータセットにアクセスできます。
  • リモートサーバー: 完全なデータセットアクセスでクラウドVM上でトレーニングできます。

利用可能なライセンス

プラットフォームは、データセットに対して以下のライセンスをサポートします:

ライセンス種類
なしライセンスが選択されていません
CC0-1.0パブリックドメイン
CC-BY-2.5寛容な
CC-BY-4.0寛容な
CC-BY-SA-4.0コピレフト
CC-BY-NC-4.0非営利目的
CC-BY-NC-SA-4.0コピレフト
CC-BY-ND-4.0デリバティブなし
CC-BY-NC-ND-4.0非営利目的
Apache-2.0寛容な
マサチューセッツ工科大学寛容な
AGPL-3.0コピレフト
GPL-3.0コピレフト
研究専用制限付き
その他カスタム

コピーレフトライセンス

コピレフトライセンス(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)で保護されたデータセットを複製する場合、複製データは元のライセンスを継承し、ライセンス選択機能はロックされます。

表示設定

データセットの表示権限を制御します:

設定説明
プライベートあなたのみがアクセス可能
パブリックExploreページで誰でも閲覧可能

可視性は、データセットを作成する際に設定されます。 New Dataset トグルスイッチを使用したダイアログ。公開データセットは 探索する ページ。

データセットの編集

データセットのメタデータは、データセットページ上で直接インライン編集されます。ダイアログは不要です:

  • 名前データセット名をクリックすると編集できます。変更内容はフォーカスを外すと自動保存されます。 Enter.
  • 説明: 説明(または「説明を追加...」プレースホルダー)をクリックして編集します。変更は自動保存されます。
  • タスクの種類: タスクバッジをクリックして別のタスクの種類を選択してください。
  • ライセンス: ライセンス選択ツールをクリックしてデータセットのライセンスを変更します。

タスクタイプの変更

タスクタイプの変更は、既存の注釈の表示方法に影響を与える可能性があります。互換性のない注釈は表示されません。

データセットをクローンする

公開データセットを閲覧する際、ご自身が所有していないデータセットについては、クリックしてください。 Clone Dataset ワークスペースにコピーを作成します。クローンにはすべての画像、注釈、およびクラス定義が含まれます。元のデータセットがコピーレフトライセンスを適用している場合、クローンもこれを継承し、ライセンス選択機能はロックされます。

スターとシェア

  • スター: スターボタンをクリックするとデータセットをブックマークできます。スター数はすべてのユーザーに表示されます。
  • 共有: 公開データセットの場合、共有ボタンをクリックしてリンクをコピーするか、ソーシャルプラットフォームで共有してください。

データセットの削除

不要になったデータセットを削除します:

  1. データセットアクションメニューを開きます
  2. クリック Delete
  3. ダイアログで確認してください:「これにより[名前]がごみ箱に移動されます。30日以内に復元できます。」

ゴミ箱と復元

削除されたデータセットはゴミ箱に移動されます。完全に削除されるわけではありません。30日以内に復元できます。 Settings > Trash.

データセットで学習

データセットから直接トレーニングを開始します:

  1. クリック New Model データセットページ上で
  2. プロジェクトを選択するか、新規作成します。
  3. トレーニングパラメータを設定します。
  4. トレーニングを開始します。
graph LR
    A[Dataset] --> B[New Model]
    B --> C[Select Project]
    C --> D[Configure]
    D --> E[Start Training]

    style A fill:#2196F3,color:#fff
    style E fill:#4CAF50,color:#fff

詳細については、クラウドトレーニングを参照してください。

よくある質問

アップロード後、私のデータはどうなりますか?

データは選択された地域(米国、EU、またはAP)で処理および保存されます。画像は次のとおりです。

  1. 形式とサイズが検証済み。
  2. 最小寸法が28px未満の場合、拒否されます
  3. 4096pxを超える場合は正規化(アスペクト比を維持;最適化された保存用にエンコード)
  4. XXH3-128ハッシュを用いたコンテンツアドレス可能ストレージ(CAS)を使用して保存
  5. 高速閲覧のため256px WebP形式で生成されたサムネイル

ストレージはどのように機能しますか?

Ultralytics Platformは、効率的なストレージのためにコンテンツアドレス指定ストレージ(CAS)を使用します。

  • 重複排除: 異なるユーザーによってアップロードされた同一の画像は一度だけ保存されます。
  • 完全性:XXH3-128ハッシュによりデータの完全性が保証されます
  • 効率性: ストレージコストを削減し、処理を高速化します。
  • 地域性: データは選択した地域(US、EU、またはAP)に留まります。

既存のデータセットに画像を追加できますか?

はい、ファイルをデータセットページにドラッグ&ドロップするか、アップロードボタンを使用して追加の画像を追加してください。新しい統計は自動的に計算されます。

スプリット間で画像を移動するにはどうすればよいですか?

一括移動・分割機能を使用する:

  1. テーブルビューで画像を選択する
  2. 右クリックして選択する Move to split
  3. 対象の分割(トレーニング、検証、テスト)を選択してください

どのようなラベル形式がサポートされていますか?

Ultralytics アップロード用に2つのアノテーション形式をサポートしています:

一つ .txt 画像ごとのファイル(正規化座標(0-1の範囲)付き):

タスク形式
検出class cx cy w h0 0.5 0.5 0.2 0.3
セグメントclass x1 y1 x2 y2 ...0 0.1 0.1 0.9 0.1 0.9 0.9
ポーズclass cx cy w h kx1 ky1 v1 ...0 0.5 0.5 0.2 0.3 0.6 0.7 2
OBBclass x1 y1 x2 y2 x3 y3 x4 y40 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9
分類ディレクトリ構造train/cats/, train/dogs/

ポーズ可視性フラグ: 0=ラベルなし、1=ラベルありだが隠れている、2=ラベルありかつ可視。

JSONファイル images, annotations、および categories 配列。検出をサポートします(bbox), セグメンテーション (ポリゴン), および姿勢 (keypointsタスク。COCO 絶対ピクセル座標COCO 、アップロード時に自動的に正規化された形式に変換されます。



📅 1ヶ月前に作成 ✏️ 5日前に更新
glenn-jochersergiuwaxmannLaughing-q

コメント