Набор данных COCO-Pose

Q: How is the dataset structured and split for the COCO-Pose dataset?

Набор данных COCO-Pose разделен на три подмножества: Эти подмножества помогают эффективно организовать этапы обучения, проверки и тестирования. Для получения подробной информации о конфигурации изучите файл coco-pose.yaml, доступный на GitHub.

Набор данных COCO-Pose - это специализированная версия набора данных COCO (Common Objects in Context), предназначенная для задач оценки позы. В нем используются изображения и метки COCO Keypoints 2017, что позволяет обучать модели типа YOLO для задач оценки позы.

Образец изображения позы

Предварительно обученные модели COCO-Pose

Модель	размер ^{(пикселей)}	mAPpose^50-95	mAPpose⁵⁰	Скорость ^{CPU ONNX (мс)}	Скорость T4^{TensorRT10 (мс)}	params ^(M)	FLOPs ^(B)
YOLO11n-pose	640	50.0	81.0	52.4 ± 0.5	1.7 ± 0.0	2.9	7.6
YOLO11s-pose	640	58.9	86.3	90.5 ± 0.6	2.6 ± 0.0	9.9	23.2
YOLO11m-pose	640	64.9	89.4	187.3 ± 0.8	4.9 ± 0.1	20.9	71.7
YOLO11l-pose	640	66.1	89.9	247.7 ± 1.1	6.4 ± 0.1	26.2	90.7
YOLO11x-pose	640	69.5	91.1	488.0 ± 13.9	12.1 ± 0.2	58.8	203.3

Основные характеристики

COCO-Pose основывается на наборе данных COCO Keypoints 2017, который содержит 200 тыс. изображений, помеченных ключевыми точками для задач оценки позы.
Набор данных поддерживает 17 ключевых точек для человеческих фигур, что облегчает детальную оценку позы.
Как и COCO, он предоставляет стандартизированные метрики оценки, включая сходство ключевых точек объектов (OKS) для задач оценки позы, что делает его подходящим для сравнения производительности моделей.

Структура набора данных

Набор данных COCO-Pose разделен на три подмножества:

Train2017: Этот поднабор содержит 56599 изображений из набора данных COCO, аннотированных для обучения моделей оценки позы.
Val2017: Это подмножество содержит 2346 изображений, использованных для проверки в процессе обучения модели.
Test2017: Это подмножество состоит из изображений, используемых для тестирования и бенчмаркинга обученных моделей. Истинные аннотации для этого подмножества не находятся в открытом доступе, а результаты передаются на сервер оценки COCO для оценки производительности.

Приложения

Набор данных COCO-Pose специально используется для обучения и оценки моделей глубокого обучения в задачах обнаружения ключевых точек и оценки позы, таких как OpenPose. Большое количество аннотированных изображений и стандартизированные метрики оценки делают этот набор данных важным ресурсом для исследователей и практиков в области компьютерного зрения, занимающихся оценкой позы.

Набор данных YAML

Для определения конфигурации набора данных используется файл YAML (Yet Another Markup Language). Он содержит информацию о путях, классах и другую необходимую информацию о наборе данных. В случае с набором данных COCO-Pose файл coco-pose.yaml файл хранится по адресу https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.

ultralytics/cfg/datasets/coco-pose.yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 Keypoints dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco-pose  ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 56599 images
val: val2017.txt # val images (relative to 'path') 2346 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://codalab.lisn.upsaclay.fr/competitions/7403

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils.downloads import download

  # Download labels
  dir = Path(yaml["path"])  # dataset root dir
  url = "https://github.com/ultralytics/assets/releases/download/v0.0.0/"
  urls = [f"{url}coco2017labels-pose.zip"]
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

Использование

Для обучения модели YOLO11n-pose на наборе данных COCO-Pose в течение 100 эпох при размере изображения 640 можно использовать следующие фрагменты кода. Полный список доступных аргументов см. на странице "Обучение модели".

Пример поезда

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo pose train data=coco-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

Образцы изображений и аннотаций

Набор данных COCO-Pose содержит разнообразный набор изображений с человеческими фигурами, аннотированными ключевыми точками. Ниже приведены примеры изображений из этого набора с соответствующими аннотациями:

Образец изображения из набора данных

Мозаичное изображение: Это изображение демонстрирует обучающую партию, состоящую из мозаичных изображений набора данных. Мозаика - это техника, используемая в процессе обучения, которая объединяет несколько изображений в одно, чтобы увеличить разнообразие объектов и сцен в каждой обучающей партии. Это помогает улучшить способность модели к обобщению для различных размеров объектов, соотношения сторон и контекста.

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных COCO-Pose и преимущества использования мозаики в процессе обучения.

Цитаты и благодарности

Если вы используете набор данных COCO-Pose в своих исследованиях или разработках, пожалуйста, ссылайтесь на следующий документ:

BibTeX

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Мы хотели бы выразить благодарность консорциуму COCO за создание и поддержку этого ценного ресурса для сообщества компьютерного зрения. Более подробную информацию о наборе данных COCO-Pose и его создателях можно найти на сайте набора данных COCO.

ЧАСТО ЗАДАВАЕМЫЕ ВОПРОСЫ

Что такое набор данных COCO-Pose и как он используется вместе с Ultralytics YOLO для оценки позы?

Набор данных COCO-Pose - это специализированная версия набора данных COCO (Common Objects in Context), предназначенная для задач оценки позы. Он основан на изображениях и аннотациях COCO Keypoints 2017, что позволяет обучать такие модели, как Ultralytics YOLO , для детальной оценки позы. Например, вы можете использовать набор данных COCO-Pose для обучения модели YOLO11n-pose, загрузив предварительно обученную модель и обучив ее с помощью конфигурации YAML. Примеры обучения см. в документации по обучению.

Как обучить модель YOLO11 на наборе данных COCO-Pose?

Обучение модели YOLO11 на наборе данных COCO-Pose может быть выполнено с помощью команд Python или CLI . Например, для обучения модели YOLO11n-pose в течение 100 эпох при размере изображения 640 можно выполнить следующие действия:

Пример поезда

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo pose train data=coco-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

Более подробную информацию о процессе обучения и доступных аргументах можно найти на странице обучения.

Какие различные метрики предоставляет набор данных COCO-Pose для оценки эффективности модели?

Набор данных COCO-Pose предоставляет несколько стандартизированных метрик оценки для задач оценки позы, аналогичных оригинальному набору данных COCO. К ключевым метрикам относится сходство ключевых точек объектов (OKS), которое оценивает точность предсказанных ключевых точек по сравнению с аннотациями "наземной правды". Эти метрики позволяют тщательно сравнивать производительность различных моделей. Например, предварительно обученные модели COCO-Pose, такие как YOLO11n-pose, YOLO11s-pose и другие, имеют специальные метрики производительности, перечисленные в документации, например ^mAPpose50-95и ^mAPpose50.

Как структурирован и разделен набор данных COCO-Pose?

Набор данных COCO-Pose разделен на три подмножества:

Train2017: Содержит 56599 изображений COCO, аннотированных для обучения моделей оценки позы.
Val2017: 2346 изображений для проверки в процессе обучения модели.
Test2017: Изображения, используемые для тестирования и бенчмаркинга обученных моделей. Истинные аннотации для этого подмножества не находятся в открытом доступе; результаты отправляются на сервер оценки COCO для оценки производительности.

Эти подмножества помогают эффективно организовать этапы обучения, проверки и тестирования. Для получения подробной информации о конфигурации изучите coco-pose.yaml файл, доступный на GitHub.

Каковы ключевые особенности и области применения набора данных COCO-Pose?

Набор данных COCO-Pose расширяет аннотации COCO Keypoints 2017 и включает 17 ключевых точек для человеческих фигур, что позволяет детально оценить позу. Стандартизированные метрики оценки (например, OKS) облегчают сравнение различных моделей. Области применения набора данных COCO-Pose охватывают различные сферы, такие как спортивная аналитика, здравоохранение и взаимодействие человека и компьютера, где требуется детальная оценка позы человеческих фигур. Для практического использования использование предварительно обученных моделей, подобных тем, что представлены в документации (например, YOLO11n-pose), может значительно упростить процесс(Ключевые особенности).

Если вы используете набор данных COCO-Pose в своих исследованиях или разработках, пожалуйста, приведите ссылку на статью, используя следующую запись в BibTeX.

📅 Создано 1 год назад ✏️ Обновлено 3 месяца назад