Dog-Poseデータセット

はじめに

Ultralytics Dog-Poseデータセットは、犬のキーポイント推定専用にキュレーションされた、高品質かつ大規模なデータセットです。6,773枚のトレーニング画像と1,703枚のテスト画像を備えており、堅牢な姿勢推定モデルをトレーニングするための強力な基盤を提供します。



Watch: How to Train Ultralytics YOLO26 on the Stanford Dog Pose Estimation Dataset | Step-by-Step Tutorial

各アノテーション画像には、1キーポイントあたり3次元(x, y, 可視性)の24個のキーポイントが含まれており、コンピュータビジョンにおける高度な研究開発にとって価値のあるリソースとなっています。

Ultralytics Dog-pose display image

このデータセットは、Ultralytics Platform および YOLO26 での使用を想定しています。

データセットの構造

  • 分割: 6,773枚のトレーニング画像 / 1,703枚のテスト画像(YOLO形式のラベルファイルに対応)。

  • Keypoints: 24 per dog with (x, y, visibility) triplets.

  • レイアウト:

    datasets/dog-pose/
    ├── images/{train,test}
    └── labels/{train,test}

データセットYAML

データセットの設定定義にはYAML(Yet Another Markup Language)ファイルが使用されます。これにはパス、キーポイントの詳細、その他の関連情報が含まれます。Dog-poseデータセットの場合、dog-pose.yamlhttps://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yamlで入手可能です。

ultralytics/cfg/datasets/dog-pose.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── dog-pose ← downloads here (337 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images

# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)

# Classes
names:
  0: dog

# Keypoint names per class
kpt_names:
  0:
    - front_left_paw
    - front_left_knee
    - front_left_elbow
    - rear_left_paw
    - rear_left_knee
    - rear_left_elbow
    - front_right_paw
    - front_right_knee
    - front_right_elbow
    - rear_right_paw
    - rear_right_knee
    - rear_right_elbow
    - tail_start
    - tail_end
    - left_ear_base
    - right_ear_base
    - nose
    - chin
    - left_ear_tip
    - right_ear_tip
    - left_eye
    - right_eye
    - withers
    - throat

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip

使用方法

Dog-poseデータセットを使用してYOLO26n-poseモデルを100 エポックトレーニングし、画像サイズを640にするには、以下のコードスニペットを使用できます。利用可能な引数の詳細リストについては、モデルのトレーニングページを参照してください。

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)

サンプル画像とアノテーション

以下はDog-poseデータセットの画像の例と、それに対応するアノテーションです。

Dog pose estimation dataset mosaic training batch
  • モザイク画像: この画像は、モザイク処理されたデータセット画像で構成される学習バッチを示しています。モザイク処理は、学習中に複数の画像を1枚の画像に結合し、各学習バッチ内の物体やシーンの多様性を高めるために使用される手法です。これは、異なる物体のサイズ、アスペクト比、コンテキストに対してモデルが汎化する能力を向上させるのに役立ちます。

この例は、Dog-poseデータセットにおける画像の多様性と複雑さ、およびトレーニングプロセス中にモザイク処理(mosaicing)を使用することの利点を示しています。

引用と謝辞

研究や開発作業でDog-poseデータセットを使用する場合は、以下の論文を引用してください。

引用
@inproceedings{khosla2011fgvc,
  title={Novel dataset for Fine-Grained Image Categorization},
  author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
  booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2011}
}
@inproceedings{deng2009imagenet,
  title={ImageNet: A Large-Scale Hierarchical Image Database},
  author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
  booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
  year={2009}
}

本リソースを作成・維持されているスタンフォード大学のチームに敬意を表します。この貴重なリソースはコンピュータビジョンコミュニティにとって非常に重要です。Dog-poseデータセットとその作成者の詳細については、Stanford Dogs Datasetのウェブサイトをご覧ください。

FAQ

Dog-poseデータセットとは何ですか?また、Ultralytics YOLO26でどのように使用されますか?

Dog-Poseデータセットは、犬の姿勢推定のために24のキーポイントがアノテーションされた、6,773枚のトレーニング画像と1,703枚のテスト画像で構成されています。Ultralytics YOLO26を用いたモデルのトレーニングと検証向けに設計されており、動物の行動分析、ペットの監視、獣医学の研究などのアプリケーションをサポートします。このデータセットの包括的なアノテーションは、犬の正確な姿勢推定モデルを開発するのに最適です。

UltralyticsでDog-poseデータセットを使用してYOLO26モデルをトレーニングするにはどうすればよいですか?

Dog-poseデータセットでYOLO26n-poseモデルを100エポック、画像サイズ640でトレーニングするには、以下の例に従ってください。

トレーニングの例
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)

トレーニング用引数の詳細リストについては、モデルの トレーニング ページを参照してください。

Dog-poseデータセットを使用する利点は何ですか?

Dog-poseデータセットにはいくつかの利点があります。

大規模で多様なデータセット: 8,400枚以上の画像により、犬のポーズ、品種、コンテキストを幅広くカバーする実質的なデータを提供し、堅牢なモデルのトレーニングと評価を可能にします。

詳細なキーポイントアノテーション: 各画像には、1キーポイントあたり3次元(x, y, 可視性)の24個のキーポイントが含まれており、高精度な姿勢検出モデルをトレーニングするための正確なアノテーションを提供します。

実世界のシナリオ: さまざまな環境の画像が含まれており、ペットの監視や行動分析といった実世界のアプリケーションへの汎化能力を高めます。

転移学習の利点: このデータセットは転移学習手法と相性が良く、人間の姿勢データセットで事前トレーニングされたモデルを、犬特有の特徴に適応させることができます。

機能と使用方法の詳細については、データセットの概要 セクションを参照してください。

Dog-poseデータセットを使用したYOLO26のトレーニングプロセスにおいて、モザイク処理はどのような利益をもたらしますか?

Dog-poseデータセットのサンプル画像で示されているモザイク処理は、複数の画像を1つの合成画像に統合し、各トレーニングバッチ内のオブジェクトとシーンの多様性を豊かにします。この手法にはいくつかの利点があります。

  • 各バッチにおける犬のポーズ、サイズ、背景の多様性を高める
  • さまざまなコンテキストやスケールで犬を検出するモデルの能力を向上させる
  • より多様な視覚的パターンをモデルに学習させることで汎化性能を強化する
  • トレーニング例の斬新な組み合わせを作成することで過学習を低減する

このアプローチにより、実世界のシナリオでより優れた性能を発揮する堅牢なモデルが得られます。サンプル画像については、サンプル画像とアノテーションセクションを参照してください。

Dog-poseデータセットのYAMLファイルはどこにありますか?また、どのように使用すればよいですか?

Dog-poseデータセットのYAMLファイルは、https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yamlにあります。このファイルは、パス、クラス、キーポイントの詳細、その他の関連情報を含むデータセット構成を定義します。YAMLでは、1キーポイントあたり3次元(x, y, 可視性)の24個のキーポイントが指定されており、詳細な姿勢推定タスクに適しています。

このファイルをYOLO26トレーニングスクリプトで使用するには、使用法セクションに示されているように、トレーニングコマンド内で参照するだけです。データセットは最初に使用されるときに自動的にダウンロードされるため、セットアップは簡単です。

その他の FAQ や詳細なドキュメントについては、Ultralytics ドキュメント をご覧ください。

コメント