Dog-Pose-Datensatz

Einführung

Der Ultralytics Dog-Pose-Datensatz ist ein hochwertiger und umfangreicher Datensatz, der speziell für die Keypoint-Schätzung bei Hunden kuratiert wurde. Mit 6.773 Trainingsbildern und 1.703 Testbildern bietet dieser Datensatz eine solide Grundlage für das Training robuster Modelle zur Pose-Schätzung.



Watch: How to Train Ultralytics YOLO26 on the Stanford Dog Pose Estimation Dataset | Step-by-Step Tutorial

Jedes annotierte Bild enthält 24 Keypoints mit 3 Dimensionen pro Keypoint (x, y, Sichtbarkeit), was ihn zu einer wertvollen Ressource für fortgeschrittene Forschung und Entwicklung im Bereich Computer Vision macht.

Ultralytics Dog-pose display image

Dieser Datensatz ist für die Verwendung mit der Ultralytics Platform und YOLO26 vorgesehen.

Datensatzstruktur

  • Aufteilung: 6.773 Trainings- / 1.703 Testbilder mit passenden Label-Dateien im YOLO-Format.

  • Keypoints: 24 per dog with (x, y, visibility) triplets.

  • Layout:

    datasets/dog-pose/
    ├── images/{train,test}
    └── labels/{train,test}

Datensatz-YAML

Eine YAML-Datei (Yet Another Markup Language) wird verwendet, um die Datensatzkonfiguration zu definieren. Sie enthält Pfade, Keypoint-Details und andere relevante Informationen. Im Fall des Dog-pose-Datensatzes ist die dog-pose.yaml unter https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml verfügbar.

ultralytics/cfg/datasets/dog-pose.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# Dogs dataset http://vision.stanford.edu/aditya86/ImageNetDogs/ by Stanford
# Documentation: https://docs.ultralytics.com/datasets/pose/dog-pose/
# Example usage: yolo train data=dog-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── dog-pose ← downloads here (337 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: dog-pose # dataset root dir
train: images/train # train images (relative to 'path') 6773 images
val: images/val # val images (relative to 'path') 1703 images

# Keypoints
kpt_shape: [24, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)

# Classes
names:
  0: dog

# Keypoint names per class
kpt_names:
  0:
    - front_left_paw
    - front_left_knee
    - front_left_elbow
    - rear_left_paw
    - rear_left_knee
    - rear_left_elbow
    - front_right_paw
    - front_right_knee
    - front_right_elbow
    - rear_right_paw
    - rear_right_knee
    - rear_right_elbow
    - tail_start
    - tail_end
    - left_ear_base
    - right_ear_base
    - nose
    - chin
    - left_ear_tip
    - right_ear_tip
    - left_eye
    - right_eye
    - withers
    - throat

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/dog-pose.zip

Verwendung

Um ein YOLO26n-pose-Modell auf dem Dog-pose-Datensatz für 100 Epochen mit einer Bildgröße von 640 zu trainieren, kannst du die folgenden Code-Schnipsel verwenden. Eine vollständige Liste der verfügbaren Argumente findest du auf der Modell-Trainingsseite.

Trainingsbeispiel
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)

Beispielbilder und Annotationen

Hier sind einige Beispiele für Bilder aus dem Dog-pose-Datensatz zusammen mit den entsprechenden Annotationen:

Dog pose estimation dataset mosaic training batch
  • Mosaik-Bild: Dieses Bild zeigt einen Trainings-Batch, der aus mosaikierten Datensatzbildern besteht. Mosaiking ist eine Technik, die während des Trainings verwendet wird, um mehrere Bilder zu einem einzigen Bild zu kombinieren, um die Vielfalt der Objekte und Szenen innerhalb jedes Trainings-Batches zu erhöhen. Dies trägt dazu bei, die Fähigkeit des Modells zu verbessern, auf verschiedene Objektgrößen, Seitenverhältnisse und Kontexte zu generalisieren.

Das Beispiel zeigt die Vielfalt und Komplexität der Bilder im Dog-pose-Datensatz sowie die Vorteile der Verwendung von Mosaicing während des Trainingsprozesses.

Zitate und Danksagungen

Wenn du den Dog-pose-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Dokument:

Zitat
@inproceedings{khosla2011fgvc,
  title={Novel dataset for Fine-Grained Image Categorization},
  author={Aditya Khosla and Nityananda Jayadevaprakash and Bangpeng Yao and Li Fei-Fei},
  booktitle={First Workshop on Fine-Grained Visual Categorization (FGVC), IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
  year={2011}
}
@inproceedings{deng2009imagenet,
  title={ImageNet: A Large-Scale Hierarchical Image Database},
  author={Jia Deng and Wei Dong and Richard Socher and Li-Jia Li and Kai Li and Li Fei-Fei},
  booktitle={IEEE Computer Vision and Pattern Recognition (CVPR)},
  year={2009}
}

Wir möchten dem Stanford-Team dafür danken, dass es diese wertvolle Ressource für die Computer Vision-Community erstellt und gepflegt hat. Weitere Informationen über den Dog-pose-Datensatz und seine Ersteller findest du auf der Stanford Dogs Dataset-Website.

FAQ

Was ist der Dog-pose-Datensatz und wie wird er mit Ultralytics YOLO26 verwendet?

Der Dog-Pose-Datensatz umfasst 6.773 Trainings- und 1.703 Testbilder, die mit 24 Keypoints zur Pose-Schätzung bei Hunden annotiert sind. Er wurde für das Training und die Validierung von Modellen mit Ultralytics YOLO26 entwickelt und unterstützt Anwendungen wie die Analyse des Tierverhaltens, Haustierüberwachung und veterinärmedizinische Studien. Die umfassenden Annotationen des Datensatzes machen ihn ideal für die Entwicklung präziser Pose-Schätzmodelle für Hunde.

Wie trainiere ich ein YOLO26-Modell mit dem Dog-pose-Datensatz in Ultralytics?

Um ein YOLO26n-pose-Modell auf dem Dog-pose-Datensatz für 100 Epochen mit einer Bildgröße von 640 zu trainieren, folge diesen Beispielen:

Trainingsbeispiel
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")

# Train the model
results = model.train(data="dog-pose.yaml", epochs=100, imgsz=640)

Für eine umfassende Liste der Trainingsargumente schau auf der Modell-Training-Seite nach.

Was sind die Vorteile der Verwendung des Dog-pose-Datensatzes?

Der Dog-pose-Datensatz bietet mehrere Vorteile:

Großer und vielfältiger Datensatz: Mit über 8.400 Bildern bietet er umfangreiche Daten, die ein breites Spektrum an Posen, Rassen und Kontexten von Hunden abdecken, was ein robustes Modelltraining und eine aussagekräftige Evaluierung ermöglicht.

Detaillierte Keypoint-Annotationen: Jedes Bild enthält 24 Keypoints mit 3 Dimensionen pro Keypoint (x, y, Sichtbarkeit), was präzise Annotationen für das Training genauer Pose-Erkennungsmodelle bietet.

Reale Szenarien: Enthält Bilder aus unterschiedlichen Umgebungen, was die Fähigkeit des Modells verbessert, auf reale Anwendungen wie Haustierüberwachung und Verhaltensanalyse zu generalisieren.

Vorteil beim Transfer Learning: Der Datensatz funktioniert gut mit Transfer Learning-Techniken, wodurch Modelle, die auf Datensätzen für menschliche Posen vortrainiert wurden, an hündische Merkmale angepasst werden können.

Weitere Informationen zu seinen Funktionen und zur Verwendung findest du im Abschnitt Dataset Introduction.

Wie nützt Mosaicing dem YOLO26-Trainingsprozess bei Verwendung des Dog-pose-Datensatzes?

Mosaicing, wie in den Beispielbildern aus dem Dog-pose-Datensatz dargestellt, führt mehrere Bilder zu einem einzigen Kompositbild zusammen und bereichert so die Vielfalt der Objekte und Szenen in jedem Trainingsbatch. Diese Technik bietet mehrere Vorteile:

  • Erhöht die Vielfalt der Posen, Größen und Hintergründe von Hunden in jedem Batch
  • Verbessert die Fähigkeit des Modells, Hunde in verschiedenen Kontexten und Maßstäben zu erkennen
  • Stärkt die Generalisierung, indem das Modell mit vielfältigeren visuellen Mustern konfrontiert wird
  • Reduziert Overfitting durch die Erstellung neuartiger Kombinationen von Trainingsbeispielen

Dieser Ansatz führt zu robusteren Modellen, die in realen Szenarien eine bessere Leistung erbringen. Beispielbilder findest du im Abschnitt Beispielbilder und Annotationen.

Wo finde ich die YAML-Datei für den Dog-pose-Datensatz und wie verwende ich sie?

Die YAML-Datei für den Dog-pose-Datensatz findest du unter https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/dog-pose.yaml. Diese Datei definiert die Datensatzkonfiguration, einschließlich Pfade, Klassen, Keypoint-Details und anderer relevanter Informationen. Das YAML spezifiziert 24 Keypoints mit 3 Dimensionen pro Keypoint, was es für detaillierte Pose-Schätzungsaufgaben geeignet macht.

Um diese Datei mit YOLO26-Trainingsskripten zu verwenden, verweise einfach in deinem Trainingsbefehl darauf, wie im Abschnitt Nutzung gezeigt. Der Datensatz wird bei der ersten Verwendung automatisch heruntergeladen, was das Setup unkompliziert macht.

Für weitere FAQs und detaillierte Dokumentationen besuche die Ultralytics Documentation.

Kommentare