Bỏ để qua phần nội dung

Tập dữ liệu COCO-Pose

Bộ dữ liệu COCO-Pose là phiên bản chuyên biệt của tập dữ liệu COCO (Common Objects in Context), được thiết kế cho các nhiệm vụ ước tính tư thế. Nó tận dụng hình ảnh và nhãn COCO Keypoints 2017 để cho phép đào tạo các mô hình như YOLO cho các nhiệm vụ ước tính tư thế.

Tạo dáng ảnh mẫu

Mô hình đào tạo sẵn COCO-Pose

Mẫu kích thước
(điểm ảnh)
bản đồtư thế
50-95
bản đồtư thế
50
Tốc độ
CPU ONNX
(Cô)
Tốc độ
A100 TensorRT
(Cô)
Params
(M)
Flops
(B)
YOLOv8n-tư thế 640 50.4 80.1 131.8 1.18 3.3 9.2
YOLOv8s-tư thế 640 60.0 86.2 233.2 1.42 11.6 30.2
YOLOv8m-tư thế 640 65.0 88.8 456.3 2.00 26.4 81.0
YOLOv8l-tư thế 640 67.6 90.0 784.5 2.59 44.4 168.6
YOLOv8x-tư thế 640 69.2 90.2 1607.1 3.73 69.4 263.2
YOLOv8x-Tư thế-P6 1280 71.6 91.2 4088.7 10.04 99.1 1066.4

Các tính năng chính

  • COCO-Pose được xây dựng dựa trên bộ dữ liệu COCO Keypoints 2017 chứa 200 nghìn hình ảnh được gắn nhãn với các điểm chính cho các nhiệm vụ ước tính tư thế.
  • Bộ dữ liệu hỗ trợ 17 điểm chính cho hình người, tạo điều kiện ước tính tư thế chi tiết.
  • Giống như COCO, nó cung cấp các số liệu đánh giá được tiêu chuẩn hóa, bao gồm Tương tự điểm chính đối tượng (OKS) cho các nhiệm vụ ước tính tư thế, làm cho nó phù hợp để so sánh hiệu suất mô hình.

Cấu trúc tập dữ liệu

Tập dữ liệu COCO-Pose được chia thành ba tập hợp con:

  1. Train2017: Tập hợp con này chứa một phần của 118K hình ảnh từ tập dữ liệu COCO, được chú thích cho các mô hình ước tính tư thế đào tạo.
  2. Val2017: Tập hợp con này có một lựa chọn hình ảnh được sử dụng cho mục đích xác thực trong quá trình đào tạo mô hình.
  3. Test2017: Tập hợp con này bao gồm các hình ảnh được sử dụng để kiểm tra và đo điểm chuẩn cho các mô hình được đào tạo. Chú thích sự thật cơ bản cho tập hợp con này không có sẵn công khai và kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.

Ứng dụng

Bộ dữ liệu COCO-Pose được sử dụng đặc biệt để đào tạo và đánh giá các mô hình học sâu trong các nhiệm vụ phát hiện điểm chính và ước tính đặt ra, chẳng hạn như OpenPose. Số lượng lớn các hình ảnh được chú thích và các số liệu đánh giá được tiêu chuẩn hóa của bộ dữ liệu làm cho nó trở thành một nguồn tài nguyên thiết yếu cho các nhà nghiên cứu thị giác máy tính và các học viên tập trung vào ước tính tư thế.

Tập dữ liệu YAML

Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình tập dữ liệu. Nó chứa thông tin về đường dẫn, lớp và thông tin liên quan khác của tập dữ liệu. Trong trường hợp tập dữ liệu COCO-Pose, coco-pose.yaml Tệp được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.

ultralytics/cfg/datasets/coco-pose.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco-pose  ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Download script/URL (optional)
download: |
  from ultralytics.utils.downloads import download
  from pathlib import Path

  # Download labels
  dir = Path(yaml['path'])  # dataset root dir
  url = 'https://github.com/ultralytics/yolov5/releases/download/v1.0/'
  urls = [url + 'coco2017labels-pose.zip']  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = ['http://images.cocodataset.org/zips/train2017.zip',  # 19G, 118k images
          'http://images.cocodataset.org/zips/val2017.zip',  # 1G, 5k images
          'http://images.cocodataset.org/zips/test2017.zip']  # 7G, 41k images (optional)
  download(urls, dir=dir / 'images', threads=3)

Sử dụng

Để đào tạo một YOLOv8nMô hình -pose trên tập dữ liệu COCO-Pose cho 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số có sẵn, hãy tham khảo trang Đào tạo mẫu.

Ví dụ về tàu hỏa

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-pose.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='coco-pose.yaml', epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=coco-pose.yaml model=yolov8n.pt epochs=100 imgsz=640

Hình ảnh mẫu và chú thích

Bộ dữ liệu COCO-Pose chứa một bộ hình ảnh đa dạng với hình người được chú thích bằng các điểm chính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu, cùng với các chú thích tương ứng của chúng:

Hình ảnh mẫu tập dữ liệu

  • Hình ảnh khảm: Hình ảnh này thể hiện một lô đào tạo bao gồm các hình ảnh tập dữ liệu được khảm. Khảm là một kỹ thuật được sử dụng trong quá trình đào tạo kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và cảnh trong mỗi đợt đào tạo. Điều này giúp cải thiện khả năng khái quát hóa mô hình cho các kích thước đối tượng, tỷ lệ khung hình và ngữ cảnh khác nhau.

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong bộ dữ liệu COCO-Pose và lợi ích của việc sử dụng khảm trong quá trình đào tạo.

Trích dẫn và xác nhận

Nếu bạn sử dụng bộ dữ liệu COCO-Pose trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Chúng tôi xin ghi nhận COCO Consortium đã tạo ra và duy trì nguồn tài nguyên quý giá này cho cộng đồng thị giác máy tính. Để biết thêm thông tin về bộ dữ liệu COCO-Pose và những người tạo ra nó, hãy truy cập trang web tập dữ liệu COCO.



Đã tạo 2023-11-12, Cập nhật 2024-04-17
Tác giả: glenn-jocher (4), RizwanMunawar (1), Laughing-q (1)

Ý kiến