データセット
Ultralytics Platformのデータセットは、トレーニングデータを管理するための合理化されたソリューションを提供します。アップロードされたデータセットは、自動処理と統計生成により、すぐにモデルトレーニングに使用できます。
データセットのアップロード
Ultralytics 柔軟性を考慮し、複数のアップロード形式に対応しています。
対応フォーマット
| 形式 | 拡張機能 | 注記 | 最大サイズ |
|---|---|---|---|
| JPEG | .jpg, .jpeg | 最も一般的、推奨される | 50 MB |
| PNG | .png | 透明性をサポートします | 50 MB |
| WebP | .webp | モダンで、圧縮率が高い | 50 MB |
| BMP | .bmp | 非圧縮 | 50 MB |
| TIFF | .tiff, .tif | 高品質 | 50 MB |
| HEIC | .heic | iPhoneの写真 | 50 MB |
| AVIF | .avif | 次世代フォーマット | 50 MB |
| JP2 | .jp2 | JPEG 2000 | 50 MB |
| DNG | .dng | 生カメラ | 50 MB |
| MPO | .mpo | 複数画像オブジェクト | 50 MB |
動画はクライアント側で1FPS(動画あたり最大100フレーム)で自動的にフレームに抽出されます。
| 形式 | 拡張機能 | 抽出 | 最大サイズ |
|---|---|---|---|
| MP4 | .mp4 | 1 FPS、最大100フレーム | 1ギガバイト |
| WebM | .webm | 1 FPS、最大100フレーム | 1ギガバイト |
| MOV | .mov | 1 FPS、最大100フレーム | 1ギガバイト |
| AVI | .avi | 1 FPS、最大100フレーム | 1ギガバイト |
| MKV | .mkv | 1 FPS、最大100フレーム | 1ギガバイト |
| M4V | .m4v | 1 FPS、最大100フレーム | 1ギガバイト |
ビデオフレーム抽出
動画フレームはアップロード前にブラウザ内で1秒あたり1フレームの速度で抽出されます。60秒の動画からは60フレームが生成されます。動画あたりの最大フレーム数は100フレームであるため、約100秒を超える動画はサンプリング処理されます。
アーカイブは自動的に抽出および処理されます。
| 形式 | 拡張機能 | 注記 | 最大サイズ |
|---|---|---|---|
| ZIP | .zip | 最も一般的な | 10ギガバイト |
| TAR | .tar | 非圧縮アーカイブ | 10ギガバイト |
| TAR.GZ | .tar.gz, .tgz | 圧縮アーカイブ | 10ギガバイト |
| GZ | .gz | Gzip圧縮 | 10ギガバイト |
データセットの準備
プラットフォームは2種類の注釈フォーマットと生のアップロードをサポートしています: Ultralytics YOLO, COCO、および生の(アノテーションなしの画像):
標準YOLO 構造を使用し、 data.yaml ファイル:
my-dataset/
├── images/
│ ├── train/
│ │ ├── img001.jpg
│ │ └── img002.jpg
│ └── val/
│ ├── img003.jpg
│ └── img004.jpg
├── labels/
│ ├── train/
│ │ ├── img001.txt
│ │ └── img002.txt
│ └── val/
│ ├── img003.txt
│ └── img004.txt
└── data.yaml
yamlファイルはデータセット構成を定義します。
# data.yaml
path: .
train: images/train
val: images/val
names:
0: person
1: car
2: dog
標準的なCOCO のJSONアノテーションファイルを使用してください:
my-coco-dataset/
├── train/
│ ├── _annotations.coco.json
│ ├── img001.jpg
│ └── img002.jpg
└── val/
├── _annotations.coco.json
├── img003.jpg
└── img004.jpg
JSONファイルには以下が含まれています images, annotations、および categories 配列:
{
"images": [{ "id": 1, "file_name": "img001.jpg", "width": 640, "height": 480 }],
"annotations": [{ "id": 1, "image_id": 1, "category_id": 0, "bbox": [100, 50, 200, 300] }],
"categories": [{ "id": 0, "name": "person" }]
}
COCO アップロード時に自動的に変換されます。検出(bbox), セグメンテーション (segmentation ポリゴン), および姿勢 (keypointsタスクがサポートされています。カテゴリIDは、すべてのアノテーションファイルにわたって0インデックスの密なシーケンスに再マッピングされます。フォーマット間の変換については、 フォーマット変換ツール.
生のアップロード
未注釈の画像(ラベルなし)をアップロードします。プラットフォーム上の注釈エディタで直接注釈を付ける予定の場合に便利です。
フラットなディレクトリ構造
列車/valフォルダ構造なしで画像をアップロードすることも可能です。分割フォルダなしでアップロードされた画像は、 train デフォルトでは分割されます。後で一括移動機能を使用して再割り当てできます。
フォーマット自動検出
フォーマットは自動的に検出されます: data.yaml 含有する names, train、または val キーはYOLOとして扱われます。COCO ファイル(以下を含む)を持つデータセット images, annotations、および categories 配列)COCO扱われる。画像のみで注釈がないデータセットはrawとして扱われる。
タスク固有のフォーマットの詳細については、サポートされているタスクと データセットの概要を参照してください。
アップロードプロセス
- 移動先
Datasetsサイドバーに - クリック
New Datasetまたはファイルをアップロードゾーンにドラッグしてください - タスクの種類を選択してください(サポートされているタスクを参照)
- 名前とオプションの説明を追加します
- 公開設定(公開または非公開)とオプションのライセンス(利用可能なライセンスを参照)を設定する
- クリック
Create

アップロード後、プラットフォームはデータを多段階のパイプラインで処理します:
graph LR
A[Upload] --> B[Validate]
B --> C[Normalize]
C --> D[Thumbnail]
D --> E[Parse Labels]
E --> F[Statistics]
style A fill:#4CAF50,color:#fff
style B fill:#2196F3,color:#fff
style C fill:#2196F3,color:#fff
style D fill:#2196F3,color:#fff
style E fill:#2196F3,color:#fff
style F fill:#9C27B0,color:#fff
- 検証:形式とサイズのチェック
- 正規化:大きな画像をリサイズ(最大4096px、最小辺28px)
- サムネイル:256px WebPプレビューが生成されました
- ラベル解析: YOLO およびCOCO ラベルを抽出
- 統計情報:クラス分布と画像サイズを計算済み

アップロード前の検証
アップロードする前に、データセットをローカルで検証できます。
from ultralytics.hub import check_dataset
check_dataset("path/to/dataset.zip", task="detect")
画像サイズ要件
画像は最短辺が28ピクセル以上である必要があります。これより小さい画像は処理中に拒否されます。最長辺が4096ピクセルを超える画像は、アスペクト比を維持した状態で自動的にリサイズされます。
画像を閲覧
複数のレイアウトでデータセット画像を閲覧します。
| 表示 | 説明 |
|---|---|
| グリッド | 注釈オーバーレイ付きサムネイルグリッド(デフォルト) |
| コンパクト | 素早い確認用のより小さなサムネイル |
| 表 | サムネイル、ファイル名、寸法、サイズ、分割、クラス、ラベル数を記載したリスト |

並べ替えとフィルタリング
画像は効率的な閲覧のために並べ替えやフィルタリングが可能です:
| ソート | 説明 |
|---|---|
| 最新 | 最近追加された |
| 最古 | 最も早く追加された |
| 名前 A-Z | アルファベット順 |
| 名前 Z-A | 逆アルファベット順 |
| サイズ(最小) | 最小のファイルから |
| サイズ(最大) | 最大のファイルを最初に |
| ほとんどのラベル | ほとんどの注釈 |
| 最小のラベル | 最少の注釈 |
| フィルター | オプション |
|---|---|
| 分割フィルター | トレーニング、検証、テスト、またはすべて |
| ラベルフィルター | すべての画像、注釈付き、または注釈なし |
| Search | ファイル名で画像をフィルタリングする |
ラベル付けされていない画像の発見
ラベルフィルターセットを使用して Unannotated まだアノテーションが必要な画像を素早く見つけるためです。これは特に、track 進捗状況をtrack したい大規模データセットにおいて有用です。
フルスクリーンビューア
任意の画像をクリックすると、以下の機能を持つ全画面ビューアが開きます。
- ナビゲーション:矢印キーまたはサムネイルプレビューで閲覧
- メタデータ:ファイル名、寸法、分割バッジ、注釈数
- 注釈: 注釈オーバーレイの表示/非表示を切り替える
- クラス別内訳:クラスごとのラベル数と色分け表示
- 編集:注釈モードに入ると、ラベルを追加または変更できます
- ダウンロード: 元の画像ファイルをダウンロードする
- 削除: データセットから画像を削除する
- ズーム:
Cmd/Ctrl+Scroll拡大/縮小する - ピクセル表示:拡大表示時のピクセル化されたレンダリングを切り替え

スプリットでフィルタ
データセットの分割に基づいて画像をフィルタリングします。
| 分割 | 目的 |
|---|---|
| トレーニング | モデルのトレーニングに使用 |
| Val | トレーニング中の検証に使用 |
| テスト | 最終評価に使用 |
データセットタブ
各データセットページには、タブバーからアクセスできる5つのタブがあります:
画像タブ
デフォルト表示では、注釈オーバーレイ付きのイメージギャラリーが表示されます。グリッド表示、コンパクト表示、テーブル表示モードに対応しています。ここにファイルをドラッグ&ドロップすると、画像を追加できます。
クラスタブ
データセットの注釈クラスを管理する:
- クラスヒストグラム:各クラスごとのアノテーション数を示す棒グラフ(線形/対数スケールの切り替え機能付き)
- クラス表:クラス名、ラベル数、画像数を表示するソート可能・検索可能な表
- クラス名の編集:任意のクラス名をクリックすると、その場で名前を変更できます
- クラスカラーの編集:色見本をタップしてクラスカラーを変更します
- 新しいクラスを追加: 下部の入力欄を使用してクラスを追加してください

不均衡データセットのための対数スケール
データセットにクラス不均衡(例:10,000件の「人」アノテーションに対し「自転車」はわずか50件)がある場合、 Log Scale クラスヒストグラムをオンにして、すべてのクラスを明確に可視化します。
チャートタブ
データセットから自動計算された統計情報:
| チャート | 説明 |
|---|---|
| 分割配布 | 列車/検証/テスト画像の枚数とラベル付きパーセンテージのドーナツチャート |
| トップクラス | 頻度上位10注釈クラスのドーナツチャート |
| 画像の幅 | 画像幅分布のヒストグラム(平均値付き) |
| イメージハイツ | 画像高さ分布のヒストグラム(平均値付き) |
| インスタンスごとのポイント | アノテーション(segment)ごとのポリゴン頂点またはキーポイント数 |
| 注釈の位置 | バウンディングボックス中心位置の2Dヒートマップ |
| 画像サイズ | アスペクト比ガイドライン付き2D幅対高さヒートマップ |

統計情報のキャッシュ
統計情報は5分間キャッシュされます。アノテーションの変更は、キャッシュの有効期限が切れた後に反映されます。
フルスクリーンヒートマップ
任意のヒートマップの展開ボタンをクリックすると、フルスクリーンモードで表示されます。これにより、より大きく詳細なビューが提供され、大規模データセットの空間パターンを理解するのに役立ちます。
モデルタブ
このデータセットで学習した全モデルを検索可能な表で表示:
| 列 | 説明 |
|---|---|
| 名前 | リンク付きモデル名 |
| プロジェクト | アイコン付き親プロジェクト |
| ステータス | トレーニングステータスバッジ |
| タスク | YOLO タイプ |
| エポック数 | 最良のエポック / 総エポック数 |
| mAP50-95 | 平均精度 |
| mAP50 | IoU .50mAP |
| 作成 | 作成日時 |

エラータブ
処理に失敗した画像は以下に一覧表示されます:
- エラーバナー:失敗した画像とガイダンスの合計数
- エラーテーブル:ファイル名、ユーザーフレンドリーなエラー説明、修正ヒント、プレビューサムネイル
- よくあるエラーには、ファイルの破損、非対応の形式、画像が小さすぎる(最小28px)、および非対応の色モードが含まれます
一般的な処理エラー
| エラー | 原因 | 修正 |
|---|---|---|
| 画像ファイルを読み取れません | 破損した形式または非対応の形式 | 画像編集ソフトからの再エクスポート |
| 不完全または破損した | ファイルが転送中に切り詰められました | 元のファイルを再ダウンロードしてください |
| 画像が小さすぎます | 最小寸法は28px未満 | より高解像度のソース画像を使用する |
| 非対応のカラーモード | CMYKまたはインデックスカラーモード | RGBモードに変換する |
データセットのエクスポート
オフライン利用のためにデータセットをNDJSON形式でエクスポートします:
- データセットヘッダーのダウンロードアイコンをクリックしてください
- NDJSONファイルは自動的にダウンロードされます

NDJSON形式では、1行につき1つのJSONオブジェクトを格納します。最初の行にはデータセットのメタデータが含まれ、その後1画像につき1行が続きます:
{"type": "dataset", "task": "detect", "name": "my-dataset", "description": "...", "url": "https://platform.ultralytics.com/...", "class_names": {"0": "person", "1": "car"}, "version": 1, "created_at": "2026-01-15T10:00:00Z", "updated_at": "2026-02-20T14:30:00Z"}
{"type": "image", "file": "img001.jpg", "url": "https://...", "width": 640, "height": 480, "split": "train", "annotations": {"boxes": [[0, 0.5, 0.5, 0.2, 0.3]]}}
{"type": "image", "file": "img002.jpg", "url": "https://...", "width": 1280, "height": 720, "split": "val"}
署名付きURL
エクスポートされたNDJSON内の画像URLは署名付きで、有効期間は7日間です。新しいURLが必要な場合は、データセットを再エクスポートしてください。
詳細な仕様については、Ultralytics NDJSON形式のドキュメントを参照してください。
一括操作
テーブルビューのコンテキストメニューを使用して画像を一括管理します:
スプリットへ移動
選択した画像を同じデータセット内の別の分割に再割り当てします:
- テーブル表示に切り替える
- チェックボックスを使用して画像を選択する
- 右クリックでコンテキストメニューを開く
- 選択する
Move to split> トレーニング, 検証、または テスト
グリッド表示では、画像を分割フィルタータブにドラッグ&ドロップすることもできます。
列車/バルス分割の整理
すべての画像を1つのデータセットにアップロードし、一括移動・分割機能を使用してサブセットを訓練データ、検証データ、テストデータに分割します。
一括削除
複数の画像を一度に削除する:
- テーブルビューで画像を選択する
- 右クリックして選択する
Delete - 削除を確認
データセットURI
Platformデータセットを参照するには、以下を使用します。 ul:// URI形式(参照 プラットフォームデータセットの使用):
ul://username/datasets/dataset-slug
このURIを使用すると、どこからでもモデルをトレーニングできます:
export ULTRALYTICS_API_KEY="your_api_key"
yolo train model=yolo26n.pt data=ul://username/datasets/my-dataset epochs=100
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.train(data="ul://username/datasets/my-dataset", epochs=100)
Platformデータでどこからでもトレーニング
The ul:// URIはどの環境からでも機能します:
- ローカルマシン: お使いのハードウェアでトレーニングし、データは自動的にダウンロードされます。
- Google Colab: ノートブックでPlatformデータセットにアクセスできます。
- リモートサーバー: 完全なデータセットアクセスでクラウドVM上でトレーニングできます。
利用可能なライセンス
プラットフォームは、データセットに対して以下のライセンスをサポートします:
| ライセンス | 種類 |
|---|---|
| なし | ライセンスが選択されていません |
| CC0-1.0 | パブリックドメイン |
| CC-BY-2.5 | 寛容な |
| CC-BY-4.0 | 寛容な |
| CC-BY-SA-4.0 | コピレフト |
| CC-BY-NC-4.0 | 非営利目的 |
| CC-BY-NC-SA-4.0 | コピレフト |
| CC-BY-ND-4.0 | デリバティブなし |
| CC-BY-NC-ND-4.0 | 非営利目的 |
| Apache-2.0 | 寛容な |
| マサチューセッツ工科大学 | 寛容な |
| AGPL-3.0 | コピレフト |
| GPL-3.0 | コピレフト |
| 研究専用 | 制限付き |
| その他 | カスタム |
コピーレフトライセンス
コピレフトライセンス(AGPL-3.0、GPL-3.0、CC-BY-SA-4.0、CC-BY-NC-SA-4.0)で保護されたデータセットを複製する場合、複製データは元のライセンスを継承し、ライセンス選択機能はロックされます。
表示設定
データセットの表示権限を制御します:
| 設定 | 説明 |
|---|---|
| プライベート | あなたのみがアクセス可能 |
| パブリック | Exploreページで誰でも閲覧可能 |
可視性は、データセットを作成する際に設定されます。 New Dataset トグルスイッチを使用したダイアログ。公開データセットは 探索する ページ。
データセットの編集
データセットのメタデータは、データセットページ上で直接インライン編集されます。ダイアログは不要です:
- 名前データセット名をクリックすると編集できます。変更内容はフォーカスを外すと自動保存されます。
Enter. - 説明: 説明(または「説明を追加...」プレースホルダー)をクリックして編集します。変更は自動保存されます。
- タスクの種類: タスクバッジをクリックして別のタスクの種類を選択してください。
- ライセンス: ライセンス選択ツールをクリックしてデータセットのライセンスを変更します。
タスクタイプの変更
タスクタイプの変更は、既存の注釈の表示方法に影響を与える可能性があります。互換性のない注釈は表示されません。
データセットをクローンする
公開データセットを閲覧する際、ご自身が所有していないデータセットについては、クリックしてください。 Clone Dataset ワークスペースにコピーを作成します。クローンにはすべての画像、注釈、およびクラス定義が含まれます。元のデータセットがコピーレフトライセンスを適用している場合、クローンもこれを継承し、ライセンス選択機能はロックされます。
スターとシェア
- スター: スターボタンをクリックするとデータセットをブックマークできます。スター数はすべてのユーザーに表示されます。
- 共有: 公開データセットの場合、共有ボタンをクリックしてリンクをコピーするか、ソーシャルプラットフォームで共有してください。
データセットの削除
不要になったデータセットを削除します:
- データセットアクションメニューを開きます
- クリック
Delete - ダイアログで確認してください:「これにより[名前]がごみ箱に移動されます。30日以内に復元できます。」
ゴミ箱と復元
削除されたデータセットはゴミ箱に移動されます。完全に削除されるわけではありません。30日以内に復元できます。 Settings > Trash.
データセットで学習
データセットから直接トレーニングを開始します:
- クリック
New Modelデータセットページ上で - プロジェクトを選択するか、新規作成します。
- トレーニングパラメータを設定します。
- トレーニングを開始します。
graph LR
A[Dataset] --> B[New Model]
B --> C[Select Project]
C --> D[Configure]
D --> E[Start Training]
style A fill:#2196F3,color:#fff
style E fill:#4CAF50,color:#fff
詳細については、クラウドトレーニングを参照してください。
よくある質問
アップロード後、私のデータはどうなりますか?
データは選択された地域(米国、EU、またはAP)で処理および保存されます。画像は次のとおりです。
- 形式とサイズが検証済み。
- 最小寸法が28px未満の場合、拒否されます
- 4096pxを超える場合は正規化(アスペクト比を維持;最適化された保存用にエンコード)
- XXH3-128ハッシュを用いたコンテンツアドレス可能ストレージ(CAS)を使用して保存
- 高速閲覧のため256px WebP形式で生成されたサムネイル
ストレージはどのように機能しますか?
Ultralytics Platformは、効率的なストレージのためにコンテンツアドレス指定ストレージ(CAS)を使用します。
- 重複排除: 異なるユーザーによってアップロードされた同一の画像は一度だけ保存されます。
- 完全性:XXH3-128ハッシュによりデータの完全性が保証されます
- 効率性: ストレージコストを削減し、処理を高速化します。
- 地域性: データは選択した地域(US、EU、またはAP)に留まります。
既存のデータセットに画像を追加できますか?
はい、ファイルをデータセットページにドラッグ&ドロップするか、アップロードボタンを使用して追加の画像を追加してください。新しい統計は自動的に計算されます。
スプリット間で画像を移動するにはどうすればよいですか?
一括移動・分割機能を使用する:
- テーブルビューで画像を選択する
- 右クリックして選択する
Move to split - 対象の分割(トレーニング、検証、テスト)を選択してください
どのようなラベル形式がサポートされていますか?
Ultralytics アップロード用に2つのアノテーション形式をサポートしています:
一つ .txt 画像ごとのファイル(正規化座標(0-1の範囲)付き):
| タスク | 形式 | 例 |
|---|---|---|
| 検出 | class cx cy w h | 0 0.5 0.5 0.2 0.3 |
| セグメント | class x1 y1 x2 y2 ... | 0 0.1 0.1 0.9 0.1 0.9 0.9 |
| ポーズ | class cx cy w h kx1 ky1 v1 ... | 0 0.5 0.5 0.2 0.3 0.6 0.7 2 |
| OBB | class x1 y1 x2 y2 x3 y3 x4 y4 | 0 0.1 0.1 0.9 0.1 0.9 0.9 0.1 0.9 |
| 分類 | ディレクトリ構造 | train/cats/, train/dogs/ |
ポーズ可視性フラグ: 0=ラベルなし、1=ラベルありだが隠れている、2=ラベルありかつ可視。
JSONファイル images, annotations、および categories 配列。検出をサポートします(bbox), セグメンテーション (ポリゴン), および姿勢 (keypointsタスク。COCO 絶対ピクセル座標COCO 、アップロード時に自動的に正規化された形式に変換されます。