Набор данных COCO-Pose

Q: What are the different metrics provided by the COCO-Pose dataset for evaluating model performance?

Набор данных COCO-Pose предоставляет несколько стандартизированных метрик оценки для задач оценки позы, аналогичных оригинальному набору данных COCO. К ключевым метрикам относится сходство ключевых точек объектов (OKS), которое оценивает точность предсказанных ключевых точек по сравнению с аннотациями "наземной правды". Эти метрики позволяют тщательно сравнивать производительность различных моделей. Например, у предварительно обученных моделей COCO-Pose, таких как YOLOv8n-pose, YOLOv8s-pose и других, в документации указаны конкретные метрики производительности, например mAPpose50-95 и mAPpose50.

Q: How is the dataset structured and split for the COCO-Pose dataset?

Набор данных COCO-Pose разбит на три подмножества: Эти подмножества помогают эффективно организовать этапы обучения, проверки и тестирования. Для получения подробной информации о конфигурации изучи файл coco-pose.yaml, доступный на GitHub.

Набор данных COCO-Pose - это специализированная версия набора данных COCO (Common Objects in Context), предназначенная для задач оценки позы. В ней используются изображения и метки COCO Keypoints 2017, что позволяет обучать модели типа YOLO для задач оценки позы.

Образец изображения позы

Предварительно обученные модели COCO-Pose

Модель	Размер ^{(пикселей)}	mAPpose^50-95	mAPpose⁵⁰	Скорость ^{CPU ONNX (мс)}	Скорость A100^{TensorRT (мс)}	params ^(M)	FLOPs ^(B)
YOLOv8n-pose	640	50.4	80.1	131.8	1.18	3.3	9.2
YOLOv8s-pose	640	60.0	86.2	233.2	1.42	11.6	30.2
YOLOv8m-pose	640	65.0	88.8	456.3	2.00	26.4	81.0
YOLOv8l-pose	640	67.6	90.0	784.5	2.59	44.4	168.6
YOLOv8x-pose	640	69.2	90.2	1607.1	3.73	69.4	263.2
YOLOv8x-pose-p6	1280	71.6	91.2	4088.7	10.04	99.1	1066.4

Основные характеристики

COCO-Pose построен на базе датасета COCO Keypoints 2017, который содержит 200K изображений, помеченных ключевыми точками для задач оценки позы.
Набор данных поддерживает 17 ключевых точек для человеческих фигур, что облегчает детальную оценку позы.
Как и COCO, он предоставляет стандартизированные метрики оценки, включая сходство по ключевым точкам объектов (OKS) для задач оценки позы, что делает его подходящим для сравнения производительности моделей.

Структура набора данных

Набор данных COCO-Pose разбит на три подмножества:

Train2017: Это подмножество содержит часть из 118 тысяч изображений из набора данных COCO, аннотированных для тренировки моделей оценки позы.
Val2017: В этом подмножестве собраны изображения, которые использовались для проверки во время обучения модели.
Test2017: Это подмножество состоит из изображений, используемых для тестирования и бенчмаркинга обученных моделей. Наземные истинные аннотации для этого подмножества не находятся в открытом доступе, и результаты отправляются на сервер оценки COCO для оценки производительности.

Приложения

Набор данных COCO-Pose специально используется для обучения и оценки моделей глубокого обучения в задачах обнаружения ключевых точек и оценки позы, таких как OpenPose. Большое количество аннотированных изображений и стандартизированные метрики оценки делают этот набор данных важным ресурсом для исследователей и практиков в области компьютерного зрения, занимающихся оценкой позы.

Набор данных YAML

Для определения конфигурации набора данных используется файл YAML (Yet Another Markup Language). Он содержит информацию о путях к набору данных, классах и другую необходимую информацию. В случае с набором данных COCO-Pose файл coco-pose.yaml файл хранится по адресу https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.

ultralytics/cfg/datasets/coco-pose.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco-pose  ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Download script/URL (optional)
download: |
  from ultralytics.utils.downloads import download
  from pathlib import Path

  # Download labels
  dir = Path(yaml['path'])  # dataset root dir
  url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
  urls = [url + 'coco2017labels-pose.zip']  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = ['http://images.cocodataset.org/zips/train2017.zip',  # 19G, 118k images
          'http://images.cocodataset.org/zips/val2017.zip',  # 1G, 5k images
          'http://images.cocodataset.org/zips/test2017.zip']  # 7G, 41k images (optional)
  download(urls, dir=dir / 'images', threads=3)

Использование

Чтобы обучить модель YOLOv8n-pose на наборе данных COCO-Pose в течение 100 эпох при размере изображения 640, ты можешь воспользоваться следующими фрагментами кода. Полный список доступных аргументов ты найдешь на странице обучения модели.

Пример поезда

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo detect train data=coco-pose.yaml model=yolov8n-pose.pt epochs=100 imgsz=640

Примеры изображений и аннотаций

Набор данных COCO-Pose содержит разнообразный набор изображений с человеческими фигурами, аннотированными ключевыми точками. Вот несколько примеров изображений из этого набора, а также соответствующие им аннотации:

Образец изображения из набора данных

Мозаичное изображение: Это изображение демонстрирует тренировочную партию, состоящую из мозаичных изображений набора данных. Мозаика - это техника, используемая во время обучения, которая объединяет несколько изображений в одно, чтобы увеличить разнообразие объектов и сцен в каждой обучающей партии. Это помогает улучшить способность модели к обобщению на различные размеры объектов, соотношение сторон и контекст.

Этот пример демонстрирует разнообразие и сложность изображений в наборе данных COCO-Pose и преимущества использования мозаики в процессе обучения.

Цитаты и благодарности

Если ты используешь набор данных COCO-Pose в своих исследованиях или разработках, пожалуйста, ссылайся на следующую статью:

BibTeX

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Мы хотели бы выразить благодарность консорциуму COCO за создание и поддержку этого ценного ресурса для сообщества компьютерного зрения. Чтобы узнать больше о наборе данных COCO-Pose и его создателях, посети сайт набора данных COCO.

ВОПРОСЫ И ОТВЕТЫ

Что такое набор данных COCO-Pose и как он используется с Ultralytics YOLO для оценки позы?

Набор данных COCO-Pose - это специализированная версия набора данных COCO (Common Objects in Context), предназначенная для задач оценки позы. Он основан на изображениях и аннотациях COCO Keypoints 2017, что позволяет обучать такие модели, как Ultralytics YOLO , для детальной оценки позы. Например, ты можешь использовать набор данных COCO-Pose для обучения модели YOLOv8n-pose, загрузив предварительно обученную модель и обучив ее с помощью конфигурации YAML. Примеры обучения приведены в документации по обучению.

Как обучить модель YOLOv8 на наборе данных COCO-Pose?

Обучение модели YOLOv8 на наборе данных COCO-Pose может быть выполнено с помощью команд Python или CLI . Например, чтобы обучить модель YOLOv8n-pose в течение 100 эпох с размером изображения 640, выполни следующие шаги:

Пример поезда

PythonCLI

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)

# Start training from a pretrained *.pt model
yolo detect train data=coco-pose.yaml model=yolov8n.pt epochs=100 imgsz=640

Более подробно о процессе обучения и доступных аргументах читай на странице обучения.

Какие различные метрики предоставляет набор данных COCO-Pose для оценки эффективности модели?

Набор данных COCO-Pose предоставляет несколько стандартных метрик оценки для задач оценки позы, аналогичных оригинальному набору данных COCO. К ключевым метрикам относится сходство ключевых точек объектов (OKS), которое оценивает точность предсказанных ключевых точек по сравнению с аннотациями "наземной правды". Эти метрики позволяют тщательно сравнивать производительность различных моделей. Например, у предварительно обученных моделей COCO-Pose, таких как YOLOv8n-pose, YOLOv8s-pose и других, в документации указаны конкретные метрики производительности, например ^mAPpose50-95и ^mAPpose50.

Как структурирован и разделен набор данных для COCO-Pose?

Набор данных COCO-Pose разбит на три подмножества:

Train2017: Содержит часть 118K изображений COCO, аннотированных для тренировки моделей оценки позы.
Val2017: Выбранные изображения для проверки во время обучения модели.
Test2017: Изображения, используемые для тестирования и бенчмаркинга обученных моделей. Истинные аннотации для этого подмножества не находятся в открытом доступе; результаты отправляются на сервер оценки COCO для оценки производительности.

Эти подмножества помогают эффективно организовать этапы обучения, проверки и тестирования. Чтобы узнать подробности настройки, изучи coco-pose.yaml файл, доступный на GitHub.

Каковы ключевые особенности и сферы применения набора данных COCO-Pose?

Набор данных COCO-Pose расширяет аннотации COCO Keypoints 2017 и включает 17 ключевых точек для человеческих фигур, что позволяет детально оценить позу. Стандартизированные метрики оценки (например, OKS) облегчают сравнение различных моделей. Области применения набора данных COCO-Pose охватывают различные сферы, такие как спортивная аналитика, здравоохранение и взаимодействие человека и компьютера, где требуется детальная оценка позы человеческих фигур. Для практического использования использование предварительно обученных моделей, подобных тем, что представлены в документации (например, YOLOv8n-pose), может значительно упростить процесс(Ключевые особенности).

Если ты используешь набор данных COCO-Pose в своих исследованиях или разработках, то процитируй статью со следующей записью в BibTeX.

Создано 2023-11-12, Обновлено 2024-07-17
Авторы: hnliu_2@stu.xidian.edu.cn (1), glenn-jocher (7), RizwanMunawar (1), Laughing-q (1)

Набор данных COCO-Pose

Предварительно обученные модели COCO-Pose

Основные характеристики

Структура набора данных

Приложения

Набор данных YAML

Использование

Примеры изображений и аннотаций

Цитаты и благодарности

ВОПРОСЫ И ОТВЕТЫ

Что такое набор данных COCO-Pose и как он используется с Ultralytics YOLO для оценки позы?

Как обучить модель YOLOv8 на наборе данных COCO-Pose?

Какие различные метрики предоставляет набор данных COCO-Pose для оценки эффективности модели?

Как структурирован и разделен набор данных для COCO-Pose?

Каковы ключевые особенности и сферы применения набора данных COCO-Pose?

Комментарии