COCO-Pose-Datensatz
Der COCO-Pose-Datensatz ist eine spezielle Version des COCO-Datensatzes (Common Objects in Context), der fĂŒr Aufgaben der PosenschĂ€tzung entwickelt wurde. Er nutzt die COCO Keypoints 2017 Bilder und Labels, um das Training von Modellen wie YOLO fĂŒr PosenschĂ€tzungsaufgaben zu ermöglichen.
COCO-Pose vortrainierte Modelle
Modell | GröĂe (Pixel) |
mAPpose 50-95 |
mAPpose 50 |
Geschwindigkeit CPU ONNX (ms) |
Geschwindigkeit A100 TensorRT (ms) |
params (M) |
FLOPs (B) |
---|---|---|---|---|---|---|---|
YOLOv8n-pose | 640 | 50.4 | 80.1 | 131.8 | 1.18 | 3.3 | 9.2 |
YOLOv8s-pose | 640 | 60.0 | 86.2 | 233.2 | 1.42 | 11.6 | 30.2 |
YOLOv8m-pose | 640 | 65.0 | 88.8 | 456.3 | 2.00 | 26.4 | 81.0 |
YOLOv8l-pose | 640 | 67.6 | 90.0 | 784.5 | 2.59 | 44.4 | 168.6 |
YOLOv8x-pose | 640 | 69.2 | 90.2 | 1607.1 | 3.73 | 69.4 | 263.2 |
YOLOv8x-pose-p6 | 1280 | 71.6 | 91.2 | 4088.7 | 10.04 | 99.1 | 1066.4 |
Hauptmerkmale
- COCO-Pose baut auf dem COCO Keypoints 2017 Datensatz auf, der 200.000 Bilder enthĂ€lt, die mit Keypoints fĂŒr PosenschĂ€tzungsaufgaben beschriftet sind.
- Der Datensatz unterstĂŒtzt 17 Keypoints fĂŒr menschliche Figuren, die eine detaillierte PosenschĂ€tzung ermöglichen.
- Wie COCO bietet es standardisierte Bewertungsmetriken, darunter Object Keypoint Similarity (OKS) fĂŒr PosenschĂ€tzungsaufgaben, und eignet sich daher fĂŒr den Vergleich der Modellleistung.
Struktur des Datensatzes
Der COCO-Pose-Datensatz ist in drei Teilmengen aufgeteilt:
- Train2017: Diese Untergruppe enthĂ€lt einen Teil der 118.000 Bilder aus dem COCO-Datensatz, die fĂŒr das Training von Modellen zur PosenschĂ€tzung beschriftet wurden.
- Val2017: Diese Untergruppe enthÀlt eine Auswahl von Bildern, die wÀhrend der Modellschulung zur Validierung verwendet wurden.
- Test2017: Diese Untergruppe besteht aus Bildern, die zum Testen und Benchmarking der trainierten Modelle verwendet werden. Die Ergebnisse werden zur Leistungsbewertung an den COCO-Evaluierungsserver ĂŒbermittelt.
Anwendungen
Der COCO-Pose-Datensatz wird speziell fĂŒr das Training und die Evaluierung von Deep-Learning-Modellen fĂŒr die Erkennung von Keypoints und PosenschĂ€tzungsaufgaben wie OpenPose verwendet. Die groĂe Anzahl an kommentierten Bildern und die standardisierten Bewertungsmetriken machen den Datensatz zu einer unverzichtbaren Ressource fĂŒr Bildverarbeitungsforscher und -praktiker, die sich mit PosenschĂ€tzungen beschĂ€ftigen.
Datensatz YAML
Eine YAML-Datei (Yet Another Markup Language) wird verwendet, um die Konfiguration des Datensatzes zu definieren. Sie enthĂ€lt Informationen ĂŒber die Pfade des Datensatzes, die Klassen und andere relevante Informationen. Im Fall des COCO-Pose-Datensatzes ist die coco-pose.yaml
Datei wird verwaltet unter https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.
ultralytics/cfg/datasets/coco-pose.yaml
# Ultralytics YOLO đ, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# âââ ultralytics
# âââ datasets
# âââ coco-pose â downloads here (20.1 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794
# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]
# Classes
names:
0: person
# Download script/URL (optional)
download: |
from ultralytics.utils.downloads import download
from pathlib import Path
# Download labels
dir = Path(yaml['path']) # dataset root dir
url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
urls = [url + 'coco2017labels-pose.zip'] # labels
download(urls, dir=dir.parent)
# Download data
urls = ['http://images.cocodataset.org/zips/train2017.zip', # 19G, 118k images
'http://images.cocodataset.org/zips/val2017.zip', # 1G, 5k images
'http://images.cocodataset.org/zips/test2017.zip'] # 7G, 41k images (optional)
download(urls, dir=dir / 'images', threads=3)
Verwendung
Um ein YOLOv8n-pose-Modell auf dem COCO-Pose-Datensatz fĂŒr 100 Epochen mit einer BildgröĂe von 640 zu trainieren, kannst du die folgenden Codeschnipsel verwenden. Eine umfassende Liste der verfĂŒgbaren Argumente findest du auf der Seite Modelltraining.
Beispiel fĂŒr einen Zug
Beispielbilder und Anmerkungen
Der COCO-Pose-Datensatz enthĂ€lt eine Vielzahl von Bildern mit menschlichen Figuren, die mit Keypoints versehen sind. Hier sind einige Beispiele fĂŒr Bilder aus dem Datensatz, zusammen mit den entsprechenden Anmerkungen:
- Mosaikbild: Dieses Bild zeigt einen Trainingsstapel, der aus Mosaikbildern des Datensatzes besteht. Beim Mosaikieren werden mehrere Bilder zu einem einzigen Bild zusammengefĂŒgt, um die Vielfalt der Objekte und Szenen in jedem Trainingsstapel zu erhöhen. Dadurch wird die FĂ€higkeit des Modells verbessert, sich auf verschiedene ObjektgröĂen, SeitenverhĂ€ltnisse und Kontexte einzustellen.
Das Beispiel zeigt die Vielfalt und KomplexitÀt der Bilder im COCO-Pose-Datensatz und die Vorteile der Mosaikbildung im Trainingsprozess.
Zitate und Danksagungen
Wenn du den COCO-Pose-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere bitte das folgende Papier:
@misc{lin2015microsoft,
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr DollĂĄr},
year={2015},
eprint={1405.0312},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Wir möchten dem COCO-Konsortium fĂŒr die Erstellung und Pflege dieser wertvollen Ressource fĂŒr die Computer Vision Community danken. Weitere Informationen ĂŒber den COCO-Pose-Datensatz und seine Schöpfer findest du auf der Website des COCO-Datensatzes.
FAQ
Was ist der COCO-Pose-Datensatz und wie wird er mit Ultralytics YOLO fĂŒr die Pose-SchĂ€tzung verwendet?
Der COCO-Pose-Datensatz ist eine spezielle Version des COCO-Datensatzes (Common Objects in Context), der fĂŒr Aufgaben der PosenschĂ€tzung entwickelt wurde. Er baut auf den COCO Keypoints 2017 Bildern und Annotationen auf und ermöglicht das Training von Modellen wie Ultralytics YOLO fĂŒr eine detaillierte PosenschĂ€tzung. Du kannst zum Beispiel den COCO-Pose-Datensatz verwenden, um ein YOLOv8n-Positionsmodell zu trainieren, indem du ein vortrainiertes Modell lĂ€dst und es mit einer YAML-Konfiguration trainierst. Beispiele fĂŒr das Training findest du in der Trainingsdokumentation.
Wie kann ich ein YOLOv8 Modell mit dem COCO-Pose-Datensatz trainieren?
Das Training eines YOLOv8 Modells auf dem COCO-Pose-Datensatz kann entweder mit den Befehlen Python oder CLI durchgefĂŒhrt werden. Um zum Beispiel ein YOLOv8n-pose Modell fĂŒr 100 Epochen mit einer BildgröĂe von 640 zu trainieren, kannst du die folgenden Schritte ausfĂŒhren:
Beispiel fĂŒr einen Zug
Weitere Informationen ĂŒber den Ausbildungsprozess und die verfĂŒgbaren Argumente findest du auf der Ausbildungsseite.
Welche verschiedenen Metriken bietet der COCO-Pose-Datensatz zur Bewertung der Modellleistung?
Der COCO-Pose-Datensatz bietet Ă€hnlich wie der ursprĂŒngliche COCO-Datensatz mehrere standardisierte Bewertungsmetriken fĂŒr PosenschĂ€tzungsaufgaben. Zu den wichtigsten Metriken gehört die Object Keypoint Similarity (OKS), die die Genauigkeit der vorhergesagten Keypoints im Vergleich zu den Grunddaten bewertet. Diese Metriken ermöglichen einen grĂŒndlichen Leistungsvergleich zwischen verschiedenen Modellen. FĂŒr die vortrainierten COCO-Pose-Modelle wie YOLOv8n-pose, YOLOv8s-pose und andere sind in der Dokumentation spezifische Leistungskennzahlen aufgefĂŒhrt, z. B. mAPpose50-95und mAPpose50.
Wie ist der Datensatz fĂŒr den COCO-Pose-Datensatz strukturiert und aufgeteilt?
Der COCO-Pose-Datensatz ist in drei Teilmengen aufgeteilt:
- Train2017: EnthĂ€lt einen Teil der 118K COCO-Bilder, die fĂŒr das Training von Modellen zur PosenschĂ€tzung kommentiert wurden.
- Val2017: AusgewĂ€hlte Bilder fĂŒr die Validierung wĂ€hrend des Modelltrainings.
- Test2017: Bilder, die zum Testen und Benchmarking der trainierten Modelle verwendet werden. Die Ground-Truth-Annotationen fĂŒr diese Untergruppe sind nicht öffentlich zugĂ€nglich; die Ergebnisse werden zur Leistungsbewertung an den COCO-Evaluierungsserver ĂŒbermittelt.
Diese Untergruppen helfen dabei, die Trainings-, Validierungs- und Testphasen effektiv zu organisieren. Einzelheiten zur Konfiguration findest du in der coco-pose.yaml
Datei verfĂŒgbar auf GitHub.
Was sind die wichtigsten Merkmale und Anwendungen des COCO-Pose-Datensatzes?
Der COCO-Pose-Datensatz erweitert die COCO Keypoints 2017 um 17 Keypoints fĂŒr menschliche Figuren und ermöglicht eine detaillierte PosenschĂ€tzung. Standardisierte Bewertungsmetriken (z. B. OKS) erleichtern den Vergleich zwischen verschiedenen Modellen. Der COCO-Pose-Datensatz kann in verschiedenen Bereichen eingesetzt werden, z. B. in der Sportanalyse, im Gesundheitswesen und in der Mensch-Computer-Interaktion, wo immer eine detaillierte SchĂ€tzung der Körperhaltung von Menschen erforderlich ist. In der Praxis kann der Einsatz von vortrainierten Modellen, wie sie in der Dokumentation enthalten sind (z. B. YOLOv8n-pose), den Prozess erheblich vereinfachen(Key Features).
Wenn du den COCO-Pose-Datensatz in deiner Forschungs- oder Entwicklungsarbeit verwendest, zitiere die Arbeit bitte mit dem folgenden BibTeX-Eintrag.