포즈 추정 데이터셋 개요

지원되는 데이터셋 형식

Ultralytics YOLO 형식

YOLO 포즈 모델 학습에 사용되는 데이터셋 라벨 형식은 다음과 같습니다:

  1. 이미지당 하나의 텍스트 파일: 데이터셋의 각 이미지는 이미지 파일과 이름이 같고 확장자가 ".txt"인 해당 텍스트 파일을 가집니다.
  2. 객체당 한 행: 텍스트 파일의 각 행은 이미지의 하나의 객체 인스턴스에 해당합니다.
  3. 행별 객체 정보: 각 행에는 객체 인스턴스에 대한 다음 정보가 포함됩니다:
    • 객체 클래스 인덱스: 객체의 클래스를 나타내는 정수입니다(예: 0은 사람, 1은 자동차 등).
    • 객체 중심 좌표: 객체 중심의 x 및 y 좌표이며, 0과 1 사이로 정규화됩니다.
    • 객체 너비 및 높이: 객체의 너비와 높이이며, 0과 1 사이로 정규화됩니다.
    • 객체 키포인트 좌표: 객체의 키포인트이며, 0과 1 사이로 정규화됩니다.

포즈 추정 작업을 위한 라벨 형식의 예시는 다음과 같습니다:

2D 키포인트 형식

<class-index> <x> <y> <width> <height> <px1> <py1> <px2> <py2> ... <pxn> <pyn>

3D 키포인트 형식 (포인트별 가시성 포함)

<class-index> <x> <y> <width> <height> <px1> <py1> <p1-visibility> <px2> <py2> <p2-visibility> <pxn> <pyn> <pn-visibility>

이 형식에서 <class-index>는 객체의 클래스 인덱스이며, <x> <y> <width> <height>bounding box의 정규화된 좌표이고, <px1> <py1> <px2> <py2> ... <pxn> <pyn>은 정규화된 키포인트 좌표입니다. 가시성 채널은 선택 사항이지만, 폐색(occlusion)을 어노테이션하는 데이터셋에 유용합니다.

데이터셋 YAML 형식

Ultralytics 프레임워크는 포즈 추정 모델 학습을 위한 데이터셋 및 모델 구성을 정의하기 위해 YAML 파일 형식을 사용합니다. 다음은 포즈 데이터셋을 정의하는 데 사용되는 YAML 형식의 예시입니다:

ultralytics/cfg/datasets/coco8-pose.yaml
# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO8-pose dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/pose/coco8-pose/
# Example usage: yolo train data=coco8-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco8-pose ← downloads here (1 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco8-pose # dataset root dir
train: images/train # train images (relative to 'path') 4 images
val: images/val # val images (relative to 'path') 4 images
test: # test images (optional)

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Keypoint names per class
kpt_names:
  0:
    - nose
    - left_eye
    - right_eye
    - left_ear
    - right_ear
    - left_shoulder
    - right_shoulder
    - left_elbow
    - right_elbow
    - left_wrist
    - right_wrist
    - left_hip
    - right_hip
    - left_knee
    - right_knee
    - left_ankle
    - right_ankle

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/coco8-pose.zip

trainval 필드는 각각 학습 및 검증 이미지가 포함된 디렉토리 경로를 지정합니다.

names는 클래스 이름의 딕셔너리입니다. 이름의 순서는 YOLO 데이터셋 파일의 객체 클래스 인덱스 순서와 일치해야 합니다.

(선택 사항) 포인트가 대칭인 경우 사람이나 얼굴의 좌우 측면처럼 flip_idx가 필요합니다. 예를 들어, 5개의 얼굴 랜드마크 키포인트인 [왼쪽 눈, 오른쪽 눈, 코, 왼쪽 입, 오른쪽 입]을 가정하고 원본 인덱스가 [0, 1, 2, 3, 4]인 경우, flip_idx는 [1, 0, 2, 4, 3]이 됩니다(좌우 인덱스인 0-1과 3-4만 교체하고 코와 같이 다른 것은 수정하지 않습니다).

사용법

예시
from ultralytics import YOLO

# Load a model
model = YOLO("yolo26n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco8-pose.yaml", epochs=100, imgsz=640)

지원되는 데이터셋

이 섹션에서는 Ultralytics YOLO 형식과 호환되며 포즈 추정 모델 학습에 사용할 수 있는 데이터셋을 설명합니다:

COCO-Pose

  • 설명: COCO-Pose는 대규모 객체 탐지, 세그멘테이션 및 포즈 추정 데이터셋입니다. 이는 대중적인 COCO 데이터셋의 하위 집합이며 인간 포즈 추정에 중점을 둡니다. COCO-Pose는 각 인간 인스턴스에 대한 다중 키포인트를 포함합니다.
  • 라벨 형식: 위에서 설명한 Ultralytics YOLO 형식과 동일하며, 인간 포즈를 위한 키포인트를 포함합니다.
  • 클래스 수: 1개 (인간).
  • 키포인트: 코, 눈, 귀, 어깨, 팔꿈치, 손목, 엉덩이, 무릎, 발목을 포함한 17개의 키포인트.
  • 용도: 인간 포즈 추정 모델 학습에 적합합니다.
  • 추가 참고 사항: 이 데이터셋은 20만 개 이상의 라벨링된 이미지를 포함하며 풍부하고 다양합니다.
  • COCO-Pose에 대해 더 알아보기

COCO8-Pose

  • 설명: Ultralytics COCO8-Pose는 COCO train 2017 세트의 처음 8개 이미지로 구성된 작지만 다재다능한 포즈 탐지 데이터셋으로, 4개는 학습용, 4개는 검증용입니다.
  • 라벨 형식: 위에서 설명한 Ultralytics YOLO 형식과 동일하며, 인간 포즈를 위한 키포인트를 포함합니다.
  • 클래스 수: 1개 (인간).
  • 키포인트: 코, 눈, 귀, 어깨, 팔꿈치, 손목, 엉덩이, 무릎, 발목을 포함한 17개의 키포인트.
  • 용도: 객체 탐지 모델 테스트 및 디버깅, 또는 새로운 탐지 접근 방식 실험에 적합합니다.
  • 추가 참고 사항: COCO8-Pose는 상태 점검 및 CI 점검에 이상적입니다.
  • COCO8-Pose에 대해 더 알아보기

Dog-Pose

  • 설명: Dog Pose 데이터셋은 6,773개의 학습 이미지와 1,703개의 테스트 이미지를 포함하며, 개 키포인트 추정을 위한 다양하고 광범위한 자원을 제공합니다.
  • 라벨 형식: Ultralytics YOLO 형식을 따르며, 개 해부학적 구조에 특화된 다중 키포인트에 대한 어노테이션이 포함되어 있습니다.
  • 클래스 수: 1개 (개).
  • 키포인트: 사지, 관절, 머리 위치 등 개 포즈에 맞춰진 24개의 키포인트를 포함합니다.
  • 용도: 연구부터 실제 애플리케이션에 이르기까지 다양한 시나리오에서 개 포즈를 추정하는 모델을 학습하는 데 이상적입니다.
  • Dog-Pose에 대해 더 알아보기

Hand Keypoints

  • 설명: 핸드 키포인트 포즈 데이터셋은 약 26,000개의 이미지로 구성되어 있으며, 18,776개의 이미지는 학습용으로, 7,992개는 검증용으로 할당되었습니다.
  • 라벨 형식: 위에서 설명한 Ultralytics YOLO 형식과 동일하지만, 인간 손을 위한 21개의 키포인트와 가시성 차원이 포함되어 있습니다.
  • 클래스 수: 1개 (손).
  • 키포인트: 21개의 키포인트.
  • 용도: 인간 손 포즈 추정 및 제스처 인식에 매우 유용합니다.
  • Hand Keypoints에 대해 더 알아보기

Tiger-Pose

  • 설명: Ultralytics Tiger Pose 데이터셋은 YouTube 영상에서 가져온 263개의 이미지로 구성되며, 210개는 학습용, 53개는 검증용으로 할당되었습니다.
  • 라벨 형식: 위에서 설명한 Ultralytics YOLO 형식과 동일하며, 동물 포즈를 위한 12개의 키포인트를 포함하고 가시성 차원은 없습니다.
  • 클래스 수: 1개 (호랑이).
  • 키포인트: 12개의 키포인트.
  • 용도: 동물 포즈 또는 인간 이외의 다른 포즈 추정에 매우 유용합니다.
  • Tiger-Pose에 대해 더 알아보기

나만의 데이터셋 추가하기

자체 데이터셋을 보유하고 있으며 이를 사용하여 Ultralytics YOLO 형식으로 포즈 추정 모델을 학습시키려는 경우, "Ultralytics YOLO 형식" 아래에 지정된 형식을 따르는지 확인하십시오. 어노테이션을 필요한 형식으로 변환하고 YAML 구성 파일에 경로, 클래스 수 및 클래스 이름을 지정하십시오.

변환 도구

Ultralytics는 인기 있는 COCO 데이터셋 형식의 라벨을 YOLO 형식으로 변환하는 편리한 변환 도구를 제공합니다:

예시
from ultralytics.data.converter import convert_coco

convert_coco(labels_dir="path/to/coco/annotations/", use_keypoints=True)

이 변환 도구를 사용하여 COCO 데이터셋 또는 COCO 형식의 모든 데이터셋을 Ultralytics YOLO 형식으로 변환할 수 있습니다. use_keypoints 매개변수는 변환된 라벨에 (포즈 추정을 위한) 키포인트를 포함할지 여부를 지정합니다.

FAQ

포즈 추정을 위한 Ultralytics YOLO 형식은 무엇입니까?

포즈 추정 데이터셋을 위한 Ultralytics YOLO 형식은 각 이미지에 해당하는 텍스트 파일을 라벨링하는 것을 포함합니다. 텍스트 파일의 각 행은 객체 인스턴스에 대한 정보를 저장합니다:

  • 객체 클래스 인덱스
  • 객체 중심 좌표 (정규화된 x 및 y)
  • 객체 너비 및 높이 (정규화됨)
  • 객체 키포인트 좌표 (정규화된 pxn 및 pyn)

2D 포즈의 경우, 키포인트에는 픽셀 좌표가 포함됩니다. 3D의 경우, 각 키포인트에는 가시성 플래그도 있습니다. 자세한 내용은 Ultralytics YOLO 형식을 참조하십시오.

Ultralytics YOLO에서 COCO-Pose 데이터셋은 어떻게 사용합니까?

Ultralytics YOLO에서 COCO-Pose 데이터셋을 사용하려면:

  1. 데이터셋을 다운로드하고 YOLO 형식으로 라벨 파일을 준비하십시오.

  2. 학습 및 검증 이미지 경로, 키포인트 형태, 클래스 이름을 지정하는 YAML 구성 파일을 만드십시오.

  3. 다음과 같이 구성 파일을 사용하여 학습하십시오:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n-pose.pt")  # load pretrained model
    results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)

    자세한 내용은 COCO-Pose학습 섹션을 방문하십시오.

Ultralytics YOLO에서 포즈 추정을 위해 나만의 데이터셋을 추가하려면 어떻게 해야 합니까?

데이터셋을 추가하려면:

  1. 어노테이션을 Ultralytics YOLO 형식으로 변환하십시오.

  2. 데이터셋 경로, 클래스 수 및 클래스 이름을 지정하는 YAML 구성 파일을 만드십시오.

  3. 다음과 같이 구성 파일을 사용하여 모델을 학습하십시오:

    from ultralytics import YOLO
    
    model = YOLO("yolo26n-pose.pt")
    results = model.train(data="your-dataset.yaml", epochs=100, imgsz=640)

    전체 단계는 자체 데이터셋 추가 섹션을 확인하십시오.

Ultralytics YOLO에서 데이터셋 YAML 파일의 목적은 무엇입니까?

Ultralytics YOLO의 데이터셋 YAML 파일은 학습을 위한 데이터셋 및 모델 구성을 정의합니다. 학습, 검증 및 테스트 이미지 경로, 키포인트 형태, 클래스 이름 및 기타 구성 옵션을 지정합니다. 이 구조화된 형식은 데이터셋 관리 및 모델 학습을 효율화하는 데 도움이 됩니다. 다음은 예시 YAML 형식입니다:

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO8-pose dataset (first 8 images from COCO train2017) by Ultralytics
# Documentation: https://docs.ultralytics.com/datasets/pose/coco8-pose/
# Example usage: yolo train data=coco8-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco8-pose ← downloads here (1 MB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco8-pose # dataset root dir
train: images/train # train images (relative to 'path') 4 images
val: images/val # val images (relative to 'path') 4 images
test: # test images (optional)

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Keypoint names per class
kpt_names:
  0:
    - nose
    - left_eye
    - right_eye
    - left_ear
    - right_ear
    - left_shoulder
    - right_shoulder
    - left_elbow
    - right_elbow
    - left_wrist
    - right_wrist
    - left_hip
    - right_hip
    - left_knee
    - right_knee
    - left_ankle
    - right_ankle

# Download script/URL (optional)
download: https://github.com/ultralytics/assets/releases/download/v0.0.0/coco8-pose.zip

YAML 구성 파일 생성에 대한 자세한 내용은 데이터셋 YAML 형식을 참조하십시오.

포즈 추정을 위해 COCO 데이터셋 라벨을 Ultralytics YOLO 형식으로 어떻게 변환할 수 있습니까?

Ultralytics는 키포인트 정보를 포함하여 COCO 데이터셋 라벨을 YOLO 형식으로 변환하는 변환 도구를 제공합니다:

from ultralytics.data.converter import convert_coco

convert_coco(labels_dir="path/to/coco/annotations/", use_keypoints=True)

이 도구는 COCO 데이터셋을 YOLO 프로젝트에 원활하게 통합하는 데 도움이 됩니다. 자세한 내용은 변환 도구 섹션과 데이터 전처리 가이드를 참조하십시오.

댓글