مجموعة بيانات COCO-Pose
مجموعة بيانات COCO-Pose هي نسخة متخصصة من مجموعة بيانات COCO (الكائنات الشائعة في السياق) ، المصممة لمهام تقدير الوضع. يستفيد من صور وتسميات COCO Keypoints 2017 لتمكين تدريب نماذج مثل YOLO لمهام تقدير الوضع.
نماذج COCO-Pose المدربة مسبقا
نموذج | حجم (بكسل) |
خريطةتشكل 50-95 |
خريطةتشكل 50 |
السرعة CPU ONNX (مللي ثانية) |
Speed T4 TensorRT10 (ms) |
المعلمات (م) |
يتخبط (ب) |
---|---|---|---|---|---|---|---|
YOLO11n-pose | 640 | 50.0 | 81.0 | 52.4 ± 0.5 | 1.7 ± 0.0 | 2.9 | 7.6 |
YOLO11s-pose | 640 | 58.9 | 86.3 | 90.5 ± 0.6 | 2.6 ± 0.0 | 9.9 | 23.2 |
YOLO11m-pose | 640 | 64.9 | 89.4 | 187.3 ± 0.8 | 4.9 ± 0.1 | 20.9 | 71.7 |
YOLO11l-pose | 640 | 66.1 | 89.9 | 247.7 ± 1.1 | 6.4 ± 0.1 | 26.2 | 90.7 |
YOLO11x-pose | 640 | 69.5 | 91.1 | 488.0 ± 13.9 | 12.1 ± 0.2 | 58.8 | 203.3 |
الميزات الرئيسية
- يعتمد COCO-Pose على مجموعة بيانات COCO Keypoints 2017 التي تحتوي على 200 ألف صورة مصنفة بنقاط رئيسية لمهام تقدير الوضع.
- تدعم مجموعة البيانات 17 نقطة رئيسية للشخصيات البشرية ، مما يسهل التقدير التفصيلي للوضعية.
- مثل COCO ، فإنه يوفر مقاييس تقييم موحدة ، بما في ذلك تشابه نقطة مفتاح الكائن (OKS) لمهام تقدير الوضع ، مما يجعله مناسبا لمقارنة أداء النموذج.
هيكل مجموعة البيانات
تنقسم مجموعة بيانات COCO-Pose إلى ثلاث مجموعات فرعية:
- Train2017: تحتوي هذه المجموعة الفرعية على جزء من 118 ألف صورة من مجموعة بيانات COCO ، مشروحة لنماذج تقدير وضع التدريب.
- Val2017: تحتوي هذه المجموعة الفرعية على مجموعة مختارة من الصور المستخدمة لأغراض التحقق من الصحة أثناء تدريب النموذج.
- Test2017: تتكون هذه المجموعة الفرعية من الصور المستخدمة لاختبار النماذج المدربة وقياسها. التعليقات التوضيحية للحقيقة الأساسية لهذه المجموعة الفرعية غير متاحة للجمهور، ويتم إرسال النتائج إلى خادم تقييم COCO لتقييم الأداء.
التطبيقات
The COCO-Pose dataset is specifically used for training and evaluating deep learning models in keypoint detection and pose estimation tasks, such as OpenPose. The dataset's large number of annotated images and standardized evaluation metrics make it an essential resource for computer vision researchers and practitioners focused on pose estimation.
مجموعة البيانات YAML
يتم استخدام ملف YAML (لغة ترميز أخرى) لتحديد تكوين مجموعة البيانات. يحتوي على معلومات حول مسارات مجموعة البيانات والفئات والمعلومات الأخرى ذات الصلة. في حالة مجموعة بيانات COCO-Pose ، فإن coco-pose.yaml
يتم الاحتفاظ بالملف في https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.
ultralytics/cfg/datasets/coco-pose.yaml
# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
# └── coco-pose ← downloads here (20.1 GB)
# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794
# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]
# Classes
names:
0: person
# Download script/URL (optional)
download: |
from ultralytics.utils.downloads import download
from pathlib import Path
# Download labels
dir = Path(yaml['path']) # dataset root dir
url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
urls = [url + 'coco2017labels-pose.zip'] # labels
download(urls, dir=dir.parent)
# Download data
urls = ['http://images.cocodataset.org/zips/train2017.zip', # 19G, 118k images
'http://images.cocodataset.org/zips/val2017.zip', # 1G, 5k images
'http://images.cocodataset.org/zips/test2017.zip'] # 7G, 41k images (optional)
download(urls, dir=dir / 'images', threads=3)
استخدام
To train a YOLO11n-pose model on the COCO-Pose dataset for 100 epochs with an image size of 640, you can use the following code snippets. For a comprehensive list of available arguments, refer to the model Training page.
مثال القطار
عينة من الصور والتعليقات التوضيحية
تحتوي مجموعة بيانات COCO-Pose على مجموعة متنوعة من الصور مع شخصيات بشرية مشروحة بنقاط رئيسية. فيما يلي بعض الأمثلة على الصور من مجموعة البيانات، بالإضافة إلى التعليقات التوضيحية المقابلة لها:
- صورة فسيفسائية: توضح هذه الصورة دفعة تدريب مكونة من صور مجموعة بيانات فسيفسائية. الفسيفساء هي تقنية تستخدم أثناء التدريب تجمع بين صور متعددة في صورة واحدة لزيادة تنوع الكائنات والمشاهد داخل كل دفعة تدريب. يساعد هذا في تحسين قدرة النموذج على التعميم على أحجام الكائنات المختلفة ونسب العرض إلى الارتفاع والسياقات.
يعرض المثال تنوع وتعقيد الصور في مجموعة بيانات COCO-Pose وفوائد استخدام الفسيفساء أثناء عملية التدريب.
الاستشهادات والشكر
إذا كنت تستخدم مجموعة بيانات COCO-Pose في أعمال البحث أو التطوير الخاصة بك ، فيرجى الاستشهاد بالورقة التالية:
@misc{lin2015microsoft,
title={Microsoft COCO: Common Objects in Context},
author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
year={2015},
eprint={1405.0312},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
نود أن نعرب عن تقديرنا لاتحاد COCO لإنشاء وصيانة هذا المورد القيم لمجتمع رؤية الكمبيوتر. لمزيد من المعلومات حول مجموعة بيانات COCO-Pose ومنشئيها ، قم بزيارة موقع مجموعة بيانات COCO.
الأسئلة المتداولة
ما هي مجموعة بيانات COCO-Pose وكيف يتم استخدامها مع Ultralytics YOLO لتقدير الوضعية؟
The COCO-Pose dataset is a specialized version of the COCO (Common Objects in Context) dataset designed for pose estimation tasks. It builds upon the COCO Keypoints 2017 images and annotations, allowing for the training of models like Ultralytics YOLO for detailed pose estimation. For instance, you can use the COCO-Pose dataset to train a YOLO11n-pose model by loading a pretrained model and training it with a YAML configuration. For training examples, refer to the Training documentation.
How can I train a YOLO11 model on the COCO-Pose dataset?
Training a YOLO11 model on the COCO-Pose dataset can be accomplished using either Python or CLI commands. For example, to train a YOLO11n-pose model for 100 epochs with an image size of 640, you can follow the steps below:
مثال القطار
لمزيد من التفاصيل حول عملية التدريب والحجج المتاحة، راجع صفحة التدريب.
ما هي المقاييس المختلفة التي توفرها مجموعة بيانات COCO-Passe لتقييم أداء النموذج؟
The COCO-Pose dataset provides several standardized evaluation metrics for pose estimation tasks, similar to the original COCO dataset. Key metrics include the Object Keypoint Similarity (OKS), which evaluates the accuracy of predicted keypoints against ground truth annotations. These metrics allow for thorough performance comparisons between different models. For instance, the COCO-Pose pretrained models such as YOLO11n-pose, YOLO11s-pose, and others have specific performance metrics listed in the documentation, like mAPpose50-95 and mAPpose50.
كيف يتم تنظيم مجموعة البيانات وتقسيمها لمجموعة بيانات COCO-Pose؟
تنقسم مجموعة بيانات COCO-Pose إلى ثلاث مجموعات فرعية:
- تدريب 2017: يحتوي على جزء من صور COCO البالغ عددها 118 ألف صورة، مشروحة لتدريب نماذج تقدير الوضعية.
- Val2017: صور مختارة لأغراض التحقق من الصحة أثناء تدريب النموذج.
- اختبار2017: الصور المستخدمة لاختبار وقياس النماذج المدربة. شروح الحقيقة الأساسية لهذه المجموعة الفرعية غير متاحة للجمهور؛ يتم إرسال النتائج إلى خادم تقييم COCO لتقييم الأداء.
تساعد هذه المجموعات الفرعية في تنظيم مراحل التدريب والتحقق من الصحة والاختبار بفعالية. للحصول على تفاصيل التكوين، استكشف coco-pose.yaml
الملف متاح على جيثب.
ما هي الميزات والتطبيقات الرئيسية لمجموعة بيانات COCO-Passe؟
The COCO-Pose dataset extends the COCO Keypoints 2017 annotations to include 17 keypoints for human figures, enabling detailed pose estimation. Standardized evaluation metrics (e.g., OKS) facilitate comparisons across different models. Applications of the COCO-Pose dataset span various domains, such as sports analytics, healthcare, and human-computer interaction, wherever detailed pose estimation of human figures is required. For practical use, leveraging pretrained models like those provided in the documentation (e.g., YOLO11n-pose) can significantly streamline the process (Key Features).
إذا كنت تستخدم مجموعة بيانات COCO-Passe في عملك البحثي أو التطويري، يُرجى الاستشهاد بالورقة البحثية مع إدخال BibTeX التالي.