Chuyển đến nội dung

COCO -Bộ dữ liệu tư thế

Bộ dữ liệu COCO -Pose là phiên bản chuyên biệt của COCO (Các đối tượng chung trong bối cảnh) tập dữ liệu, được thiết kế cho các nhiệm vụ ước tính tư thế. Nó tận dụng COCO Điểm chính năm 2017 hình ảnh và nhãn để cho phép đào tạo các mô hình như YOLO cho nhiệm vụ ước tính tư thế.

Ảnh mẫu tư thế

COCO -Các mô hình được đào tạo trước về tư thế

Mô hìnhKích thước
(pixels)
mAP tư thế
50-95
mAP tư thế
50
Tốc độ
CPU ONNX
(ms)
Tốc độ
T4 TensorRT10
(ms)
Tham số
(M)
FLOPs
(B)
YOLO11n-pose64050.081.052.4 ± 0.51.7 ± 0.02.97.4
YOLO11s-pose64058.986.390.5 ± 0.62.6 ± 0.09.923.1
YOLO11m-pose64064.989.4187.3 ± 0.84.9 ± 0.120.971.4
YOLO11l-pose64066.189.9247.7 ± 1.16.4 ± 0.126.190.3
YOLO11x-pose64069.591.1488.0 ± 13.912.1 ± 0.258.8202.8

Các tính năng chính

  • COCO -Tư thế được xây dựng dựa trên COCO Bộ dữ liệu Keypoints 2017 chứa 200.000 hình ảnh được gắn nhãn điểm chính cho nhiệm vụ ước tính tư thế.
  • Bộ dữ liệu hỗ trợ 17 điểm chính cho hình người, tạo điều kiện thuận lợi cho việc ước tính tư thế chi tiết.
  • Giống COCO , nó cung cấp các số liệu đánh giá chuẩn hóa, bao gồm Độ tương đồng điểm chính của đối tượng (OKS) cho các tác vụ ước tính tư thế, giúp nó phù hợp để so sánh hiệu suất của mô hình.

Cấu trúc bộ dữ liệu

Các COCO -Bộ dữ liệu tư thế được chia thành ba tập con:

  1. Train2017 : Tập hợp con này chứa 56599 hình ảnh từ COCO tập dữ liệu, được chú thích để đào tạo các mô hình ước tính tư thế.
  2. Val2017: Tập hợp con này có 2346 hình ảnh được sử dụng cho mục đích xác thực trong quá trình huấn luyện mô hình.
  3. Test2017 : Tập hợp con này bao gồm các hình ảnh được sử dụng để kiểm tra và đánh giá chuẩn các mô hình đã được huấn luyện. Chú thích thực tế cho tập hợp con này không được công khai và kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.

Các ứng dụng

Các COCO Bộ dữ liệu -Pose được sử dụng chuyên biệt để huấn luyện và đánh giá các mô hình học sâu trong các tác vụ phát hiện điểm chính và ước tính tư thế, chẳng hạn như OpenPose. Số lượng lớn hình ảnh được chú thích và các số liệu đánh giá chuẩn hóa của bộ dữ liệu khiến nó trở thành một nguồn tài nguyên thiết yếu cho các nhà nghiên cứu và chuyên gia thị giác máy tính tập trung vào ước tính tư thế.

YAML bộ dữ liệu

Tệp YAML (Yet Another Markup Language - Ngôn ngữ Đánh dấu Khác) được sử dụng để định nghĩa cấu hình tập dữ liệu. Tệp này chứa thông tin về đường dẫn, lớp và các thông tin liên quan khác của tập dữ liệu. Trong trường hợp COCO -Bộ dữ liệu tư thế, coco-pose.yaml tệp được duy trì tại https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.

ultralytics /cfg/datasets/coco-pose. yaml

# Ultralytics 🚀 AGPL-3.0 License - https://ultralytics.com/license

# COCO 2017 Keypoints dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco-pose ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 56599 images
val: val2017.txt # val images (relative to 'path') 2346 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://codalab.lisn.upsaclay.fr/competitions/7403

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Keypoint names per class
kpt_names:
  0:
    - nose
    - left_eye
    - right_eye
    - left_ear
    - right_ear
    - left_shoulder
    - right_shoulder
    - left_elbow
    - right_elbow
    - left_wrist
    - right_wrist
    - left_hip
    - right_hip
    - left_knee
    - right_knee
    - left_ankle
    - right_ankle

# Download script/URL (optional)
download: |
  from pathlib import Path

  from ultralytics.utils import ASSETS_URL
  from ultralytics.utils.downloads import download

  # Download labels
  dir = Path(yaml["path"])  # dataset root dir

  urls = [f"{ASSETS_URL}/coco2017labels-pose.zip"]
  download(urls, dir=dir.parent)
  # Download data
  urls = [
      "http://images.cocodataset.org/zips/train2017.zip",  # 19G, 118k images
      "http://images.cocodataset.org/zips/val2017.zip",  # 1G, 5k images
      "http://images.cocodataset.org/zips/test2017.zip",  # 7G, 41k images (optional)
  ]
  download(urls, dir=dir / "images", threads=3)

Cách sử dụng

Để đào tạo một mô hình YOLO11n-pose trên COCO - Tập dữ liệu Pose cho 100 kỷ nguyên với kích thước ảnh là 640, bạn có thể sử dụng các đoạn mã sau. Để biết danh sách đầy đủ các đối số khả dụng, hãy tham khảo trang Đào tạo mô hình.

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo pose train data=coco-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

Ảnh và Chú thích mẫu

Các COCO -Bộ dữ liệu tư thế chứa một tập hợp đa dạng các hình ảnh với các hình người được chú thích bằng các điểm chính. Dưới đây là một số ví dụ về hình ảnh từ bộ dữ liệu, cùng với các chú thích tương ứng:

Ảnh mẫu bộ dữ liệu

  • Hình ảnh Mosaiced: Hình ảnh này minh họa một lô huấn luyện bao gồm các hình ảnh bộ dữ liệu được mosaiced. Mosaicing là một kỹ thuật được sử dụng trong quá trình huấn luyện, kết hợp nhiều hình ảnh thành một hình ảnh duy nhất để tăng sự đa dạng của các đối tượng và cảnh trong mỗi lô huấn luyện. Điều này giúp cải thiện khả năng tổng quát hóa của mô hình đối với các kích thước, tỷ lệ khung hình và ngữ cảnh khác nhau của đối tượng.

Ví dụ này cho thấy sự đa dạng và phức tạp của hình ảnh trong COCO -Bộ dữ liệu tư thế và lợi ích của việc sử dụng khảm trong quá trình đào tạo.

Trích dẫn và Lời cảm ơn

Nếu bạn sử dụng COCO - Bộ dữ liệu Pose trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo sau:

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

Chúng tôi muốn ghi nhận COCO Liên minh tạo ra và duy trì nguồn tài nguyên có giá trị này cho cộng đồng thị giác máy tính. Để biết thêm thông tin về COCO -Bộ dữ liệu Pose và những người tạo ra nó, hãy truy cập trang web bộ dữ liệu COCO .

Câu hỏi thường gặp

Cái gì là COCO -Bộ dữ liệu tư thế và cách sử dụng nó với Ultralytics YOLO để ước tính tư thế?

Bộ dữ liệu COCO -Pose là phiên bản chuyên biệt của COCO (Các đối tượng chung trong bối cảnh) được thiết kế cho các nhiệm vụ ước tính tư thế. Nó được xây dựng dựa trên COCO Điểm chính 2017 hình ảnh và chú thích, cho phép đào tạo các mô hình như Ultralytics YOLO để ước tính tư thế chi tiết. Ví dụ, bạn có thể sử dụng COCO -Tập dữ liệu Pose để huấn luyện mô hình YOLO11n-pose bằng cách tải một mô hình đã được huấn luyện trước và huấn luyện nó với cấu hình YAML. Để biết các ví dụ huấn luyện, vui lòng tham khảo Tài liệu huấn luyện .

Làm thế nào tôi có thể đào tạo một YOLO11 mô hình trên COCO -Bộ dữ liệu tư thế?

Đào tạo một YOLO11 mô hình trên COCO -Bộ dữ liệu tư thế có thể được thực hiện bằng cách sử dụng Python hoặc CLI lệnh. Ví dụ, để huấn luyện mô hình YOLO11n-pose trong 100 kỷ nguyên với kích thước hình ảnh là 640, bạn có thể làm theo các bước dưới đây:

Ví dụ huấn luyện

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo pose train data=coco-pose.yaml model=yolo11n-pose.pt epochs=100 imgsz=640

Để biết thêm chi tiết về quy trình huấn luyện và các đối số có sẵn, hãy xem trang huấn luyện.

Các số liệu khác nhau được cung cấp bởi COCO -Bộ dữ liệu tư thế để đánh giá hiệu suất mô hình?

Các COCO -Bộ dữ liệu tư thế cung cấp một số số liệu đánh giá chuẩn hóa cho các nhiệm vụ ước tính tư thế, tương tự như bản gốc COCO tập dữ liệu. Các chỉ số chính bao gồm Độ tương đồng điểm chính đối tượng (OKS), đánh giá độ chính xác của các điểm chính dự đoán so với chú thích thực tế. Các chỉ số này cho phép so sánh hiệu suất toàn diện giữa các mô hình khác nhau. Ví dụ: COCO -Các mô hình được đào tạo trước như YOLO11n-pose, YOLO11s-pose và các mô hình khác có các số liệu hiệu suất cụ thể được liệt kê trong tài liệu, chẳng hạn như mAP tư thế 50-95 và mAP tư thế 50.

Bộ dữ liệu được cấu trúc và phân chia như thế nào cho COCO -Bộ dữ liệu tư thế?

Các COCO -Bộ dữ liệu tư thế được chia thành ba tập con:

  1. Train2017 : Chứa 56599 COCO hình ảnh, được chú thích để đào tạo các mô hình ước tính tư thế.
  2. Val2017: 2346 hình ảnh cho mục đích xác thực trong quá trình huấn luyện mô hình.
  3. Test2017 : Hình ảnh được sử dụng để kiểm tra và đánh giá chuẩn các mô hình đã được huấn luyện. Chú thích thực tế cho tập hợp con này không được công khai; kết quả được gửi đến máy chủ đánh giá COCO để đánh giá hiệu suất.

Các tập hợp con này giúp tổ chức hiệu quả các giai đoạn huấn luyện, xác thực và thử nghiệm. Để biết chi tiết cấu hình, hãy khám phá coco-pose.yaml tệp có sẵn trên GitHub.

Các tính năng và ứng dụng chính của là gì? COCO -Bộ dữ liệu tư thế?

Các COCO -Bộ dữ liệu tư thế mở rộng COCO Chú thích Keypoints 2017 bao gồm 17 điểm chính cho hình người, cho phép ước tính tư thế chi tiết. Các số liệu đánh giá được chuẩn hóa (ví dụ: OKS) tạo điều kiện thuận lợi cho việc so sánh giữa các mô hình khác nhau. Ứng dụng của COCO -Bộ dữ liệu tư thế trải rộng trên nhiều lĩnh vực khác nhau, chẳng hạn như phân tích thể thao, chăm sóc sức khỏe và tương tác giữa người và máy tính, bất cứ khi nào cần ước tính tư thế chi tiết của hình dáng con người. Để sử dụng thực tế, việc tận dụng các mô hình được đào tạo trước như các mô hình được cung cấp trong tài liệu (ví dụ: YOLO11n-pose) có thể đơn giản hóa đáng kể quy trình ( Các tính năng chính ).

Nếu bạn sử dụng COCO - Khi sử dụng tập dữ liệu trong công trình nghiên cứu hoặc phát triển của bạn, vui lòng trích dẫn bài báo theo mục BibTeX sau.



📅 Đã tạo 2 năm trước ✏️ Cập nhật 11 tháng trước
glenn-jocherjk4eY-T-Gambitious-octopusRizwanMunawarUltralyticsAssistantMatthewNoycehnliu_2@stu.xidian.edu.cn

Bình luận