Bộ dữ liệu COCO-Pose
Bộ dữ liệu COCO-Pose là phiên bản chuyên biệt của bộ dữ liệu COCO (Common Objects in Context), được thiết kế cho các tác vụ ước tính tư thế. Nó tận dụng hình ảnh và nhãn COCO Keypoints 2017 để cho phép đào tạo các mô hình như YOLO cho nhiệm vụ ước tính tư thế.
Mô hình được đào tạo trước COCO-Pose
Người mẫu | kích cỡ (điểm ảnh) |
tư thế mAP 50-95 |
tư thế mAP 50 |
Tốc độ CPU ONNX (bệnh đa xơ cứng) |
Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) |
tham số (Nam) |
Thất bại (B) |
---|---|---|---|---|---|---|---|
YOLO11n-tư thế | 640 | 50.0 | 81.0 | 52,4 ± 0,5 | 1,7 ± 0,0 | 2.9 | 7.6 |
YOLO11s-tư thế | 640 | 58.9 | 86.3 | 90,5 ± 0,6 | 2,6 ± 0,0 | 9.9 | 23.2 |
YOLO11m-tư thế | 640 | 64.9 | 89.4 | 187,3 ± 0,8 | 4,9 ± 0,1 | 20.9 | 71.7 |
YOLO11l-tư thế | 640 | 66.1 | 89.9 | 247,7 ± 1,1 | 6,4 ± 0,1 | 26.2 | 90.7 |
YOLO11x-tư thế | 640 | 69.5 | 91.1 | 488,0 ± 13,9 | 12,1 ± 0,2 | 58.8 | 203.3 |
Các tính năng chính
- COCO-Pose được xây dựng dựa trên tập dữ liệu COCO Keypoints 2017 chứa 200.000 hình ảnh được gắn nhãn điểm chính cho nhiệm vụ ước tính tư thế.
- Bộ dữ liệu hỗ trợ 17 điểm chính cho hình dáng con người, giúp ước tính tư thế chi tiết.
- Giống như COCO, nó cung cấp các số liệu đánh giá chuẩn hóa, bao gồm Độ tương đồng điểm chính của đối tượng (OKS) cho các tác vụ ước tính tư thế, giúp nó phù hợp để so sánh hiệu suất của mô hình.
Cấu trúc tập dữ liệu
Bộ dữ liệu COCO-Pose được chia thành ba tập hợp con:
- Train2017 : Tập hợp con này chứa một phần trong số 118K hình ảnh từ tập dữ liệu COCO, được chú thích để đào tạo các mô hình ước tính tư thế.
- Val2017 : Tập hợp con này có một số hình ảnh được sử dụng cho mục đích xác thực trong quá trình đào tạo mô hình.
- Test2017 : Tập hợp con này bao gồm các hình ảnh được sử dụng để thử nghiệm và đánh giá chuẩn các mô hình đã được đào tạo. Các chú thích thực tế cho tập hợp con này không được công khai và kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.
Ứng dụng
Bộ dữ liệu COCO-Pose được sử dụng cụ thể để đào tạo và đánh giá các mô hình học sâu trong các nhiệm vụ phát hiện điểm chính và ước tính tư thế, chẳng hạn như OpenPose. Số lượng lớn hình ảnh được chú thích và số liệu đánh giá chuẩn hóa của bộ dữ liệu khiến nó trở thành nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và học viên về thị giác máy tính tập trung vào ước tính tư thế.
Bộ dữ liệu YAML
Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình tập dữ liệu. Tệp này chứa thông tin về đường dẫn, lớp và các thông tin liên quan khác của tập dữ liệu. Trong trường hợp của tập dữ liệu COCO-Pose, coco-pose.yaml
tập tin được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.
ultralytics /cfg/datasets/coco-pose.yaml
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco-pose ← downloads here (20.1 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794
# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]
# Classes
names:
0: person
# Download script/URL (optional)
download: |
from ultralytics.utils.downloads import download
from pathlib import Path
# Download labels
dir = Path(yaml['path']) # dataset root dir
url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
urls = [url + 'coco2017labels-pose.zip'] # labels
download(urls, dir=dir.parent)
# Download data
urls = ['http://images.cocodataset.org/zips/train2017.zip', # 19G, 118k images
'http://images.cocodataset.org/zips/val2017.zip', # 1G, 5k images
'http://images.cocodataset.org/zips/test2017.zip'] # 7G, 41k images (optional)
download(urls, dir=dir / 'images', threads=3)
Cách sử dụng
Để đào tạo mô hình YOLO11n-pose trên tập dữ liệu COCO-Pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.
Ví dụ về tàu hỏa
Hình ảnh mẫu và chú thích
Bộ dữ liệu COCO-Pose chứa một tập hợp đa dạng các hình ảnh với các hình người được chú thích bằng các điểm chính. Sau đây là một số ví dụ về hình ảnh từ bộ dữ liệu, cùng với các chú thích tương ứng của chúng:
- Mosaiced Image : Hình ảnh này minh họa một lô đào tạo bao gồm các hình ảnh tập dữ liệu mosaic. Mosaicing là một kỹ thuật được sử dụng trong quá trình đào tạo kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng tính đa dạng của các đối tượng và cảnh trong mỗi lô đào tạo. Điều này giúp cải thiện khả năng khái quát hóa của mô hình đối với các kích thước đối tượng, tỷ lệ khung hình và bối cảnh khác nhau.
Ví dụ này cho thấy sự đa dạng và phức tạp của các hình ảnh trong tập dữ liệu COCO-Pose cũng như lợi ích của việc sử dụng khảm trong quá trình đào tạo.
Trích dẫn và Lời cảm ơn
Nếu bạn sử dụng bộ dữ liệu COCO-Pose trong công tác nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@misc{lin2015microsoft,
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
year={2015},
eprint={1405.0312},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Chúng tôi muốn cảm ơn COCO Consortium đã tạo ra và duy trì nguồn tài nguyên có giá trị này cho cộng đồng thị giác máy tính. Để biết thêm thông tin về tập dữ liệu COCO-Pose và những người tạo ra nó, hãy truy cập trang web tập dữ liệu COCO .
CÂU HỎI THƯỜNG GẶP
Bộ dữ liệu COCO-Pose là gì và nó được sử dụng như thế nào với Ultralytics YOLO để ước tính tư thế?
Bộ dữ liệu COCO-Pose là phiên bản chuyên biệt của bộ dữ liệu COCO (Common Objects in Context) được thiết kế cho các tác vụ ước tính tư thế. Nó xây dựng dựa trên hình ảnh và chú thích COCO Keypoints 2017, cho phép đào tạo các mô hình như Ultralytics YOLO để ước tính tư thế chi tiết. Ví dụ, bạn có thể sử dụng tập dữ liệu COCO-Pose để đào tạo mô hình YOLO11n-pose bằng cách tải mô hình được đào tạo trước và đào tạo nó bằng cấu hình YAML. Để biết ví dụ đào tạo, hãy tham khảo tài liệu Đào tạo .
Làm thế nào tôi có thể đào tạo một YOLO11 mô hình trên tập dữ liệu COCO-Pose?
Đào tạo một YOLO11 mô hình trên tập dữ liệu COCO-Pose có thể được thực hiện bằng cách sử dụng Python hoặc CLI lệnh. Ví dụ, để đào tạo mô hình YOLO11n-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể làm theo các bước dưới đây:
Ví dụ về tàu hỏa
Để biết thêm chi tiết về quy trình đào tạo và các đối số có sẵn, hãy kiểm tra trang đào tạo .
Bộ dữ liệu COCO-Pose cung cấp những số liệu nào để đánh giá hiệu suất của mô hình?
Bộ dữ liệu COCO-Pose cung cấp một số số liệu đánh giá chuẩn hóa cho các tác vụ ước tính tư thế, tương tự như bộ dữ liệu COCO gốc. Các số liệu chính bao gồm Độ tương đồng điểm chính đối tượng (OKS), đánh giá độ chính xác của các điểm chính được dự đoán so với chú thích thực tế. Các số liệu này cho phép so sánh hiệu suất kỹ lưỡng giữa các mô hình khác nhau. Ví dụ, các mô hình được đào tạo trước của COCO-Pose như YOLO11n-pose, YOLO11s-pose và các mô hình khác có các số liệu hiệu suất cụ thể được liệt kê trong tài liệu, như mAP pose 50-95 và mAP pose 50.
Cấu trúc và phân chia bộ dữ liệu cho bộ dữ liệu COCO-Pose như thế nào?
Bộ dữ liệu COCO-Pose được chia thành ba tập hợp con:
- Train2017 : Bao gồm một phần trong số 118K hình ảnh COCO, được chú thích để đào tạo các mô hình ước tính tư thế.
- Val2017 : Hình ảnh được chọn cho mục đích xác thực trong quá trình đào tạo mô hình.
- Test2017 : Hình ảnh được sử dụng để thử nghiệm và đánh giá chuẩn các mô hình đã được đào tạo. Chú thích thực tế cho tập hợp con này không được công khai; kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.
Các tập hợp con này giúp tổ chức các giai đoạn đào tạo, xác thực và thử nghiệm một cách hiệu quả. Để biết chi tiết về cấu hình, hãy khám phá coco-pose.yaml
tập tin có sẵn trên GitHub.
Các tính năng và ứng dụng chính của bộ dữ liệu COCO-Pose là gì?
Bộ dữ liệu COCO-Pose mở rộng các chú thích COCO Keypoints 2017 để bao gồm 17 điểm chính cho các hình người, cho phép ước tính tư thế chi tiết. Các số liệu đánh giá chuẩn hóa (ví dụ: OKS) tạo điều kiện thuận lợi cho việc so sánh giữa các mô hình khác nhau. Các ứng dụng của bộ dữ liệu COCO-Pose trải dài trên nhiều lĩnh vực, chẳng hạn như phân tích thể thao, chăm sóc sức khỏe và tương tác giữa người và máy tính, bất cứ nơi nào cần ước tính tư thế chi tiết của các hình người. Đối với mục đích sử dụng thực tế, việc tận dụng các mô hình được đào tạo trước như các mô hình được cung cấp trong tài liệu (ví dụ: YOLO11n-pose) có thể hợp lý hóa đáng kể quy trình ( Các tính năng chính ).
Nếu bạn sử dụng bộ dữ liệu COCO-Pose trong công trình nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo theo mục BibTeX sau.