सामग्री पर जाएं

COCO-पोज़ डेटासेट

COCO-Pose डेटासेट COCO (कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट) डेटासेट का एक विशेष संस्करण है, जिसे पोज़ अनुमान कार्यों के लिए डिज़ाइन किया गया है। यह COCO कीपॉइंट्स 2017 छवियों और लेबल का लाभ उठाता है जैसे मॉडल के प्रशिक्षण को सक्षम करने के लिएYOLO मुद्रा अनुमान कार्यों के लिए।

मुद्रा नमूना छवि

COCO-पोज़ प्रीट्रेन्ड मॉडल

को गढ़ना आकार वाला
(पिक्सेल)
मानचित्रभंगिमा
50-95
मानचित्रभंगिमा
50
गति
CPU ONNX
(एमएस)
गति
ए100 TensorRT
(एमएस)
परम
(एम)
फ्लॉप
(बी)
YOLOv8n-भंगिमा 640 50.4 80.1 131.8 1.18 3.3 9.2
YOLOv8s-भंगिमा 640 60.0 86.2 233.2 1.42 11.6 30.2
YOLOv8m-भंगिमा 640 65.0 88.8 456.3 2.00 26.4 81.0
YOLOv8l-भंगिमा 640 67.6 90.0 784.5 2.59 44.4 168.6
YOLOv8x-भंगिमा 640 69.2 90.2 1607.1 3.73 69.4 263.2
YOLOv8x-पोज़-p6 1280 71.6 91.2 4088.7 10.04 99.1 1066.4

प्रमुख विशेषताऐं

  • COCO-Pose COCO कीपॉइंट्स 2017 डेटासेट पर बनाता है जिसमें पोज़ अनुमान कार्यों के लिए कीपॉइंट के साथ लेबल की गई 200K छवियां होती हैं।
  • डेटासेट मानव आंकड़ों के लिए 17 प्रमुख बिंदुओं का समर्थन करता है, जिससे विस्तृत मुद्रा अनुमान की सुविधा मिलती है।
  • COCO की तरह, यह मुद्रा, अनुमान कार्यों के लिए ऑब्जेक्ट कीपॉइंट समानता (OKS) सहित मानकीकृत मूल्यांकन मीट्रिक प्रदान करता है, जिससे यह मॉडल प्रदर्शन की तुलना करने के लिए उपयुक्त हो जाता है।

डेटासेट संरचना

COCO-Pose डेटासेट को तीन सबसेट में विभाजित किया गया है:

  1. ट्रेन2017: इस सबसेट में COCO डेटासेट से 118K छवियों का एक हिस्सा शामिल है, जो प्रशिक्षण मुद्रा अनुमान मॉडल के लिए एनोटेट किया गया है।
  2. Val2017: इस सबसेट में मॉडल प्रशिक्षण के दौरान सत्यापन उद्देश्यों के लिए उपयोग की जाने वाली छवियों का चयन है।
  3. Test2017: इस सबसेट में प्रशिक्षित मॉडलों के परीक्षण और बेंचमार्किंग के लिए उपयोग की जाने वाली छवियां शामिल हैं। इस सबसेट के लिए ग्राउंड ट्रुथ एनोटेशन सार्वजनिक रूप से उपलब्ध नहीं हैं, और परिणाम प्रदर्शन मूल्यांकन के लिए COCO मूल्यांकन सर्वर पर सबमिट किए जाते हैं।

अनुप्रयोगों

COCO-Pose डेटासेट का उपयोग विशेष रूप से कीपॉइंट डिटेक्शन और पोज़ अनुमान कार्यों में गहन शिक्षण मॉडल के प्रशिक्षण और मूल्यांकन के लिए किया जाता है, जैसे OpenPose। डेटासेट की बड़ी संख्या में एनोटेट की गई छवियां और मानकीकृत मूल्यांकन मेट्रिक्स इसे कंप्यूटर दृष्टि शोधकर्ताओं और चिकित्सकों के लिए मुद्रा अनुमान पर केंद्रित एक आवश्यक संसाधन बनाते हैं।

डेटासेट YAML

डेटासेट कॉन्फ़िगरेशन को परिभाषित करने के लिए एक YAML (अभी तक एक और मार्कअप भाषा) फ़ाइल का उपयोग किया जाता है। इसमें डेटासेट के पथ, कक्षाओं और अन्य प्रासंगिक जानकारी के बारे में जानकारी होती है। COCO-Pose डेटासेट के मामले में, coco-pose.yaml फ़ाइल पर बनाए रखा जाता है https://github.com/ultralytics/ultralytics/blob/main/ultralytics/cfg/datasets/coco-pose.yaml.

ultralytics/cfg/datasets/coco-pose.yaml

# Ultralytics YOLO 🚀, AGPL-3.0 license
# COCO 2017 dataset https://cocodataset.org by Microsoft
# Documentation: https://docs.ultralytics.com/datasets/pose/coco/
# Example usage: yolo train data=coco-pose.yaml
# parent
# ├── ultralytics
# └── datasets
#     └── coco-pose  ← downloads here (20.1 GB)

# Train/val/test sets as 1) dir: path/to/imgs, 2) file: path/to/imgs.txt, or 3) list: [path/to/imgs1, path/to/imgs2, ..]
path: ../datasets/coco-pose # dataset root dir
train: train2017.txt # train images (relative to 'path') 118287 images
val: val2017.txt # val images (relative to 'path') 5000 images
test: test-dev2017.txt # 20288 of 40670 images, submit to https://competitions.codalab.org/competitions/20794

# Keypoints
kpt_shape: [17, 3] # number of keypoints, number of dims (2 for x,y or 3 for x,y,visible)
flip_idx: [0, 2, 1, 4, 3, 6, 5, 8, 7, 10, 9, 12, 11, 14, 13, 16, 15]

# Classes
names:
  0: person

# Download script/URL (optional)
download: |
  from ultralytics.utils.downloads import download
  from pathlib import Path

  # Download labels
  dir = Path(yaml['path'])  # dataset root dir
  url = 'https://github.com/ultralytics/assets/releases/download/v0.0.0/'
  urls = [url + 'coco2017labels-pose.zip']  # labels
  download(urls, dir=dir.parent)
  # Download data
  urls = ['http://images.cocodataset.org/zips/train2017.zip',  # 19G, 118k images
          'http://images.cocodataset.org/zips/val2017.zip',  # 1G, 5k images
          'http://images.cocodataset.org/zips/test2017.zip']  # 7G, 41k images (optional)
  download(urls, dir=dir / 'images', threads=3)

उपयोग

एक प्रशिक्षित करने के लिए YOLOv8n-POSE मॉडल 640 के छवि आकार के साथ 100 युगों के लिए COCO-Pose डेटासेट पर, आप निम्न कोड स्निपेट का उपयोग कर सकते हैं। उपलब्ध तर्कों की व्यापक सूची के लिए, मॉडल प्रशिक्षण पृष्ठ देखें।

ट्रेन का उदाहरण

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=coco-pose.yaml model=yolov8n-pose.pt epochs=100 imgsz=640

नमूना छवियाँ और एनोटेशन

COCO-Pose डेटासेट में मुख्य बिंदुओं के साथ एनोटेट किए गए मानव आकृतियों के साथ छवियों का एक विविध सेट होता है। यहां डेटासेट से छवियों के कुछ उदाहरण दिए गए हैं, साथ ही उनके संबंधित एनोटेशन के साथ:

डेटासेट नमूना छवि

  • मोज़ेड छवि: यह छवि मोज़ेक डेटासेट छवियों से बना एक प्रशिक्षण बैच प्रदर्शित करती है। मोज़ेसिंग प्रशिक्षण के दौरान उपयोग की जाने वाली एक तकनीक है जो प्रत्येक प्रशिक्षण बैच के भीतर वस्तुओं और दृश्यों की विविधता को बढ़ाने के लिए कई छवियों को एक ही छवि में जोड़ती है। यह विभिन्न ऑब्जेक्ट आकारों, पहलू अनुपात और संदर्भों को सामान्यीकृत करने की मॉडल की क्षमता को बेहतर बनाने में मदद करता है।

उदाहरण COCO-Pose डेटासेट में छवियों की विविधता और जटिलता और प्रशिक्षण प्रक्रिया के दौरान मोज़ेकिंग का उपयोग करने के लाभों को प्रदर्शित करता है।

प्रशंसा पत्र और पावती

यदि आप अपने शोध या विकास कार्य में COCO-Pose डेटासेट का उपयोग करते हैं, तो कृपया निम्नलिखित पेपर का हवाला दें:

@misc{lin2015microsoft,
      title={Microsoft COCO: Common Objects in Context},
      author={Tsung-Yi Lin and Michael Maire and Serge Belongie and Lubomir Bourdev and Ross Girshick and James Hays and Pietro Perona and Deva Ramanan and C. Lawrence Zitnick and Piotr Dollár},
      year={2015},
      eprint={1405.0312},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

हम कंप्यूटर दृष्टि समुदाय के लिए इस मूल्यवान संसाधन को बनाने और बनाए रखने के लिए कोको कंसोर्टियम को स्वीकार करना चाहते हैं। COCO-Pose डेटासेट और इसके रचनाकारों के बारे में अधिक जानकारी के लिए, COCO डेटासेट वेबसाइट पर जाएँ।

अक्सर पूछे जाने वाले प्रश्न

COCO-Pose डेटासेट क्या है और इसका उपयोग कैसे किया जाता है Ultralytics YOLO मुद्रा अनुमान के लिए?

COCO-Pose डेटासेट COCO (कॉमन ऑब्जेक्ट्स इन कॉन्टेक्स्ट) डेटासेट का एक विशेष संस्करण है जिसे पोज़ अनुमान कार्यों के लिए डिज़ाइन किया गया है। यह COCO कीपॉइंट्स 2017 छवियों और एनोटेशन पर बनाता है, जिससे मॉडल के प्रशिक्षण की अनुमति मिलती हैUltralytics YOLO विस्तृत मुद्रा अनुमान के लिए। उदाहरण के लिए, आप एक को प्रशिक्षित करने के लिए COCO-Pose डेटासेट का उपयोग कर सकते हैं YOLOv8n-पोज़ मॉडल को एक पूर्व-प्रशिक्षित मॉडल लोड करके और इसे YAML कॉन्फ़िगरेशन के साथ प्रशिक्षित करके। प्रशिक्षण उदाहरणों के लिए, प्रशिक्षण प्रलेखन देखें।

मैं कैसे प्रशिक्षित कर सकता हूं YOLOv8 COCO-Pose डेटासेट पर मॉडल?

प्रशिक्षण एक YOLOv8 COCO-Pose डेटासेट पर मॉडल का उपयोग करके पूरा किया जा सकता है Python नहीं तो CLI आदेश। उदाहरण के लिए, एक को प्रशिक्षित करने के लिए YOLOv8n640 की छवि आकार के साथ 100 युगों के लिए -पोज़ मॉडल, आप नीचे दिए गए चरणों का पालन कर सकते हैं:

ट्रेन का उदाहरण

from ultralytics import YOLO

# Load a model
model = YOLO("yolov8n-pose.pt")  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data="coco-pose.yaml", epochs=100, imgsz=640)
# Start training from a pretrained *.pt model
yolo detect train data=coco-pose.yaml model=yolov8n.pt epochs=100 imgsz=640

प्रशिक्षण प्रक्रिया और उपलब्ध तर्कों के बारे में अधिक जानकारी के लिए, प्रशिक्षण पृष्ठ देखें।

मॉडल प्रदर्शन के मूल्यांकन के लिए COCO-Pose डेटासेट द्वारा प्रदान किए गए विभिन्न मीट्रिक क्या हैं?

COCO-Pose डेटासेट मूल COCO डेटासेट के समान पोज़ अनुमान कार्यों के लिए कई मानकीकृत मूल्यांकन मीट्रिक प्रदान करता है। मुख्य मीट्रिक में ऑब्जेक्ट कीपॉइंट समानता (ओकेएस) शामिल है, जो जमीनी सच्चाई एनोटेशन के खिलाफ अनुमानित कीपॉइंट्स की सटीकता का मूल्यांकन करता है। ये मीट्रिक विभिन्न मॉडलों के बीच पूरी तरह से प्रदर्शन तुलना करने की अनुमति देते हैं। उदाहरण के लिए, COCO-Pose पूर्व-प्रशिक्षित मॉडल जैसे YOLOv8n-भंगिमा YOLOv8s-पोज़, और अन्य के पास दस्तावेज़ीकरण में सूचीबद्ध विशिष्ट प्रदर्शन मीट्रिक हैं, जैसे एमएपीपोज़50-95 और एमएपीपोज़50।

COCO-Pose डेटासेट के लिए डेटासेट को कैसे संरचित और विभाजित किया जाता है?

COCO-Pose डेटासेट को तीन सबसेट में विभाजित किया गया है:

  1. ट्रेन2017: इसमें 118K COCO छवियों का एक हिस्सा शामिल है, जिसे प्रशिक्षण मुद्रा अनुमान मॉडल के लिए एनोटेट किया गया है।
  2. Val2017: मॉडल प्रशिक्षण के दौरान सत्यापन उद्देश्यों के लिए चयनित छवियां।
  3. Test2017: प्रशिक्षित मॉडलों के परीक्षण और बेंचमार्किंग के लिए उपयोग की जाने वाली छवियां। इस सबसेट के लिए ग्राउंड ट्रुथ एनोटेशन सार्वजनिक रूप से उपलब्ध नहीं हैं; परिणाम प्रदर्शन मूल्यांकन के लिए COCO मूल्यांकन सर्वर को प्रस्तुत किए जाते हैं।

ये सबसेट प्रशिक्षण, सत्यापन और परीक्षण चरणों को प्रभावी ढंग से व्यवस्थित करने में मदद करते हैं। कॉन्फ़िगरेशन विवरण के लिए, एक्सप्लोर करें coco-pose.yaml फ़ाइल पर उपलब्ध है गिटहब.

COCO-Pose डेटासेट की प्रमुख विशेषताएं और अनुप्रयोग क्या हैं?

COCO-Pose डेटासेट COCO कीपॉइंट्स 2017 एनोटेशन को मानव आंकड़ों के लिए 17 कीपॉइंट्स शामिल करने के लिए विस्तारित करता है, जिससे विस्तृत पोज़ अनुमान सक्षम होता है। मानकीकृत मूल्यांकन मीट्रिक (जैसे, ओकेएस) विभिन्न मॉडलों में तुलना की सुविधा प्रदान करते हैं। COCO-Pose डेटासेट के अनुप्रयोग विभिन्न डोमेन में फैले हुए हैं, जैसे कि स्पोर्ट्स एनालिटिक्स, हेल्थकेयर और मानव-कंप्यूटर इंटरैक्शन, जहां मानव आकृतियों के विस्तृत अनुमान की आवश्यकता होती है। व्यावहारिक उपयोग के लिए, प्रलेखन में प्रदान किए गए पूर्व-प्रशिक्षित मॉडल का लाभ उठाना (उदा। YOLOv8n-मुद्रा) प्रक्रिया को महत्वपूर्ण रूप से सुव्यवस्थित कर सकता है (प्रमुख विशेषताएं)।

यदि आप अपने शोध या विकास कार्य में COCO-Pose डेटासेट का उपयोग करते हैं, तो कृपया निम्नलिखित BibTeX प्रविष्टि के साथ पेपर का हवाला दें।



बनाया गया 2023-11-12, अपडेट किया गया 2024-07-17
लेखक: hnliu_2@stu.xidian.edu.cn (1), ग्लेन-जोचर (7), रिजवान मुनव्वर (1), लाफिंग-क्यू (1)

टिप्पणियाँ