Tập dữ liệu COCO-Pose
Bộ dữ liệu COCO-Pose là phiên bản chuyên biệt của tập dữ liệu COCO (Common Objects in Context), được thiết kế cho các nhiệm vụ ước tính tư thế. Nó tận dụng hình ảnh và nhãn COCO Keypoints 2017 để cho phép đào tạo các mô hình như YOLO cho các nhiệm vụ ước tính tư thế.
Mô hình đào tạo sẵn COCO-Pose
Mẫu | kích thước (điểm ảnh) | bản đồtư thế 50-95 | bản đồtư thế 50 | Tốc độ CPU ONNX (Cô) | Tốc độ T4 TensorRT10 (bệnh đa xơ cứng) | Params (M) | Thất bại (B) |
---|---|---|---|---|---|---|---|
YOLO11n-tư thế | 640 | 50.0 | 81.0 | 52,4 ± 0,5 | 1,7 ± 0,0 | 2.9 | 7.6 |
YOLO11s-tư thế | 640 | 58.9 | 86.3 | 90,5 ± 0,6 | 2,6 ± 0,0 | 9.9 | 23.2 |
YOLO11m-tư thế | 640 | 64.9 | 89.4 | 187,3 ± 0,8 | 4,9 ± 0,1 | 20.9 | 71.7 |
YOLO11l-tư thế | 640 | 66.1 | 89.9 | 247,7 ± 1,1 | 6,4 ± 0,1 | 26.2 | 90.7 |
YOLO11x-tư thế | 640 | 69.5 | 91.1 | 488,0 ± 13,9 | 12,1 ± 0,2 | 58.8 | 203.3 |
Các tính năng chính
- COCO-Pose được xây dựng dựa trên bộ dữ liệu COCO Keypoints 2017 chứa 200 nghìn hình ảnh được gắn nhãn với các điểm chính cho các nhiệm vụ ước tính tư thế.
- Bộ dữ liệu hỗ trợ 17 điểm chính cho hình người, tạo điều kiện ước tính tư thế chi tiết.
- Giống như COCO, nó cung cấp các số liệu đánh giá được tiêu chuẩn hóa, bao gồm Tương tự điểm chính đối tượng (OKS) cho các nhiệm vụ ước tính tư thế, làm cho nó phù hợp để so sánh hiệu suất mô hình.
Cấu trúc tập dữ liệu
Tập dữ liệu COCO-Pose được chia thành ba tập hợp con:
- Train2017: Tập hợp con này chứa một phần của 118K hình ảnh từ tập dữ liệu COCO, được chú thích cho các mô hình ước tính tư thế đào tạo.
- Val2017: Tập hợp con này có một lựa chọn hình ảnh được sử dụng cho mục đích xác thực trong quá trình đào tạo mô hình.
- Test2017: Tập hợp con này bao gồm các hình ảnh được sử dụng để kiểm tra và đo điểm chuẩn cho các mô hình được đào tạo. Chú thích sự thật cơ bản cho tập hợp con này không có sẵn công khai và kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.
Ứng dụng
Bộ dữ liệu COCO-Pose được sử dụng cụ thể để đào tạo và đánh giá các mô hình học sâu trong các nhiệm vụ phát hiện điểm chính và ước tính tư thế, chẳng hạn như OpenPose. Số lượng lớn hình ảnh được chú thích và số liệu đánh giá chuẩn hóa của bộ dữ liệu khiến nó trở thành nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và học viên về thị giác máy tính tập trung vào ước tính tư thế.
Tập dữ liệu YAML
Tệp YAML (Yet Another Markup Language) được sử dụng để xác định cấu hình tập dữ liệu. Nó chứa thông tin về đường dẫn, lớp và thông tin liên quan khác của tập dữ liệu. Trong trường hợp tập dữ liệu COCO-Pose, coco-pose.yaml
Tệp được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.
ultralytics/cfg/datasets/coco-pose.yaml
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco-pose ← downloads here (20.1 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794
# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]
# Classes
names:
0: person
# Download script/URL (optional)
download: |
from ultralytics.utils.downloads import download
from pathlib import Path
# Download labels
dir = Path(yaml['path']) # dataset root dir
url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
urls = [url + 'coco2017labels-pose.zip'] # labels
download(urls, dir=dir.parent)
# Download data
urls = ['http://images.cocodataset.org/zips/train2017.zip', # 19G, 118k images
'http://images.cocodataset.org/zips/val2017.zip', # 1G, 5k images
'http://images.cocodataset.org/zips/test2017.zip'] # 7G, 41k images (optional)
download(urls, dir=dir / 'images', threads=3)
Sử dụng
Để đào tạo mô hình YOLO11n-pose trên tập dữ liệu COCO-Pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.
Ví dụ về tàu hỏa
Hình ảnh mẫu và chú thích
Bộ dữ liệu COCO-Pose chứa một bộ hình ảnh đa dạng với hình người được chú thích bằng các điểm chính. Dưới đây là một số ví dụ về hình ảnh từ tập dữ liệu, cùng với các chú thích tương ứng của chúng:
- Hình ảnh khảm: Hình ảnh này thể hiện một lô đào tạo bao gồm các hình ảnh tập dữ liệu được khảm. Khảm là một kỹ thuật được sử dụng trong quá trình đào tạo kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và cảnh trong mỗi đợt đào tạo. Điều này giúp cải thiện khả năng khái quát hóa mô hình cho các kích thước đối tượng, tỷ lệ khung hình và ngữ cảnh khác nhau.
Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong bộ dữ liệu COCO-Pose và lợi ích của việc sử dụng khảm trong quá trình đào tạo.
Trích dẫn và xác nhận
Nếu bạn sử dụng bộ dữ liệu COCO-Pose trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo sau:
@misc{lin2015microsoft,
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
year={2015},
eprint={1405.0312},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
Chúng tôi xin ghi nhận COCO Consortium đã tạo ra và duy trì nguồn tài nguyên quý giá này cho cộng đồng thị giác máy tính. Để biết thêm thông tin về bộ dữ liệu COCO-Pose và những người tạo ra nó, hãy truy cập trang web tập dữ liệu COCO.
FAQ
Tập dữ liệu COCO-Pose là gì và nó được sử dụng như thế nào Ultralytics YOLO để ước tính tư thế?
Bộ dữ liệu COCO-Pose là phiên bản chuyên biệt của bộ dữ liệu COCO (Common Objects in Context) được thiết kế cho các tác vụ ước tính tư thế. Nó xây dựng dựa trên hình ảnh và chú thích COCO Keypoints 2017, cho phép đào tạo các mô hình như Ultralytics YOLO để ước tính tư thế chi tiết. Ví dụ, bạn có thể sử dụng tập dữ liệu COCO-Pose để đào tạo mô hình YOLO11n-pose bằng cách tải mô hình được đào tạo trước và đào tạo nó bằng cấu hình YAML. Để biết ví dụ đào tạo, hãy tham khảo tài liệu Đào tạo .
Làm thế nào tôi có thể đào tạo mô hình YOLO11 trên tập dữ liệu COCO-Pose?
Việc đào tạo mô hình YOLO11 trên tập dữ liệu COCO-Pose có thể được thực hiện bằng cách sử dụng Python hoặc CLI lệnh. Ví dụ, để đào tạo mô hình YOLO11n-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể làm theo các bước dưới đây:
Ví dụ về tàu hỏa
Để biết thêm chi tiết về quy trình đào tạo và các đối số có sẵn, hãy kiểm tra trang đào tạo.
Các số liệu khác nhau được cung cấp bởi bộ dữ liệu COCO-Pose để đánh giá hiệu suất mô hình là gì?
Bộ dữ liệu COCO-Pose cung cấp một số số liệu đánh giá chuẩn hóa cho các tác vụ ước tính tư thế, tương tự như bộ dữ liệu COCO gốc. Các số liệu chính bao gồm Độ tương đồng điểm chính đối tượng (OKS), đánh giá độ chính xác của các điểm chính được dự đoán so với chú thích thực tế. Các số liệu này cho phép so sánh hiệu suất kỹ lưỡng giữa các mô hình khác nhau. Ví dụ, các mô hình được đào tạo trước của COCO-Pose như YOLO11n-pose, YOLO11s-pose và các mô hình khác có các số liệu hiệu suất cụ thể được liệt kê trong tài liệu, như mAP pose 50-95 và mAP pose 50.
Tập dữ liệu được cấu trúc và phân chia như thế nào cho tập dữ liệu COCO-Pose?
Tập dữ liệu COCO-Pose được chia thành ba tập hợp con:
- Train2017: Chứa một phần của hình ảnh COCO 118K, được chú thích cho các mô hình ước tính tư thế đào tạo.
- Val2017: Hình ảnh được chọn cho mục đích xác thực trong quá trình đào tạo mô hình.
- Test2017: Hình ảnh được sử dụng để kiểm tra và đo điểm chuẩn cho các mô hình được đào tạo. Chú thích sự thật cơ bản cho tập hợp con này không có sẵn công khai; kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.
Các tập hợp con này giúp tổ chức các giai đoạn đào tạo, xác nhận và thử nghiệm một cách hiệu quả. Để biết chi tiết cấu hình, hãy khám phá coco-pose.yaml
Tệp có sẵn trên GitHub.
Các tính năng và ứng dụng chính của bộ dữ liệu COCO-Pose là gì?
Bộ dữ liệu COCO-Pose mở rộng các chú thích COCO Keypoints 2017 để bao gồm 17 điểm chính cho các hình người, cho phép ước tính tư thế chi tiết. Các số liệu đánh giá chuẩn hóa (ví dụ: OKS) tạo điều kiện thuận lợi cho việc so sánh giữa các mô hình khác nhau. Các ứng dụng của bộ dữ liệu COCO-Pose trải dài trên nhiều lĩnh vực, chẳng hạn như phân tích thể thao, chăm sóc sức khỏe và tương tác giữa người và máy tính, bất cứ nơi nào cần ước tính tư thế chi tiết của các hình người. Đối với mục đích sử dụng thực tế, việc tận dụng các mô hình được đào tạo trước như các mô hình được cung cấp trong tài liệu (ví dụ: YOLO11n-pose) có thể hợp lý hóa đáng kể quy trình ( Các tính năng chính ).
Nếu bạn sử dụng bộ dữ liệu COCO-Pose trong công việc nghiên cứu hoặc phát triển của mình, vui lòng trích dẫn bài báo với mục BibTeX sau đây.