सामग्री पर जाएं

इमेजनेट डेटासेट

इमेजनेट दृश्य वस्तु पहचान अनुसंधान में उपयोग के लिए डिज़ाइन की गई एनोटेट छवियों का एक बड़े पैमाने पर डेटाबेस है। इसमें 14 मिलियन से अधिक छवियां हैं, प्रत्येक छवि को वर्डनेट सिंसेट का उपयोग करके एनोटेट किया गया है, जिससे यह कंप्यूटर दृष्टि कार्यों में गहन शिक्षण मॉडल के प्रशिक्षण के लिए उपलब्ध सबसे व्यापक संसाधनों में से एक है।

प्रमुख विशेषताऐं

  • इमेजनेट में हजारों ऑब्जेक्ट श्रेणियों में फैले 14 मिलियन से अधिक उच्च-रिज़ॉल्यूशन छवियां हैं।
  • डेटासेट को वर्डनेट पदानुक्रम के अनुसार व्यवस्थित किया जाता है, जिसमें प्रत्येक सिंसेट एक श्रेणी का प्रतिनिधित्व करता है।
  • इमेजनेट का व्यापक रूप से कंप्यूटर दृष्टि के क्षेत्र में प्रशिक्षण और बेंचमार्किंग के लिए उपयोग किया जाता है, विशेष रूप से छवि वर्गीकरण और ऑब्जेक्ट डिटेक्शन कार्यों के लिए।
  • वार्षिक इमेजनेट लार्ज स्केल विजुअल रिकॉग्निशन चैलेंज (ILSVRC) कंप्यूटर दृष्टि अनुसंधान को आगे बढ़ाने में सहायक रहा है।

डेटासेट संरचना

ImageNet डेटासेट को WordNet पदानुक्रम का उपयोग करके व्यवस्थित किया जाता है। पदानुक्रम में प्रत्येक नोड एक श्रेणी का प्रतिनिधित्व करता है, और प्रत्येक श्रेणी को एक सिंसेट (पर्यायवाची शब्दों का एक संग्रह) द्वारा वर्णित किया जाता है। इमेजनेट में छवियों को एक या एक से अधिक सिंसेट के साथ एनोटेट किया जाता है, जो विभिन्न वस्तुओं और उनके संबंधों को पहचानने के लिए प्रशिक्षण मॉडल के लिए एक समृद्ध संसाधन प्रदान करता है।

इमेजनेट लार्ज स्केल विजुअल रिकॉग्निशन चैलेंज (ILSVRC)

वार्षिक इमेजनेट लार्ज स्केल विजुअल रिकॉग्निशन चैलेंज (ILSVRC) कंप्यूटर दृष्टि के क्षेत्र में एक महत्वपूर्ण घटना रही है। इसने शोधकर्ताओं और डेवलपर्स को मानकीकृत मूल्यांकन मेट्रिक्स के साथ बड़े पैमाने पर डेटासेट पर अपने एल्गोरिदम और मॉडल का मूल्यांकन करने के लिए एक मंच प्रदान किया है। ILSVRC ने छवि वर्गीकरण, वस्तु का पता लगाने और अन्य कंप्यूटर दृष्टि कार्यों के लिए गहन शिक्षण मॉडल के विकास में महत्वपूर्ण प्रगति की है।

अनुप्रयोगों

इमेजनेट डेटासेट का व्यापक रूप से विभिन्न कंप्यूटर दृष्टि कार्यों, जैसे छवि वर्गीकरण, ऑब्जेक्ट डिटेक्शन और ऑब्जेक्ट स्थानीयकरण में गहन शिक्षण मॉडल के प्रशिक्षण और मूल्यांकन के लिए उपयोग किया जाता है। कुछ लोकप्रिय डीप लर्निंग आर्किटेक्चर, जैसे एलेक्सनेट, वीजीजी और रेसनेट को इमेजनेट डेटासेट का उपयोग करके विकसित और बेंचमार्क किया गया था।

उपयोग

224x224 के छवि आकार के साथ 100 युगों के लिए इमेजनेट डेटासेट पर एक गहन शिक्षण मॉडल को प्रशिक्षित करने के लिए, आप निम्न कोड स्निपेट का उपयोग कर सकते हैं। उपलब्ध तर्कों की व्यापक सूची के लिए, मॉडल प्रशिक्षण पृष्ठ देखें।

ट्रेन का उदाहरण

from ultralytics import YOLO

# Load a model
model = YOLO('yolov8n-cls.pt')  # load a pretrained model (recommended for training)

# Train the model
results = model.train(data='imagenet', epochs=100, imgsz=224)
# Start training from a pretrained *.pt model
yolo train data=imagenet model=yolov8n-cls.pt epochs=100 imgsz=224

नमूना छवियाँ और एनोटेशन

इमेजनेट डेटासेट में हजारों ऑब्जेक्ट श्रेणियों में फैली उच्च-रिज़ॉल्यूशन छवियां होती हैं, जो कंप्यूटर विज़न मॉडल के प्रशिक्षण और मूल्यांकन के लिए एक विविध और व्यापक डेटासेट प्रदान करती हैं। डेटासेट से छवियों के कुछ उदाहरण यहां दिए गए हैं:

डेटासेट नमूना छवियां

उदाहरण इमेजनेट डेटासेट में छवियों की विविधता और जटिलता को प्रदर्शित करता है, जो मजबूत कंप्यूटर विज़न मॉडल के प्रशिक्षण के लिए विविध डेटासेट के महत्व पर प्रकाश डालता है।

प्रशंसा पत्र और पावती

यदि आप अपने शोध या विकास कार्य में इमेजनेट डेटासेट का उपयोग करते हैं, तो कृपया निम्नलिखित पेपर का हवाला दें:

@article{ILSVRC15,
         author = {Olga Russakovsky and Jia Deng and Hao Su and Jonathan Krause and Sanjeev Satheesh and Sean Ma and Zhiheng Huang and Andrej Karpathy and Aditya Khosla and Michael Bernstein and Alexander C. Berg and Li Fei-Fei},
         title={ImageNet Large Scale Visual Recognition Challenge},
         year={2015},
         journal={International Journal of Computer Vision (IJCV)},
         volume={115},
         number={3},
         pages={211-252}
}

हम मशीन लर्निंग और कंप्यूटर विज़न रिसर्च कम्युनिटी के लिए एक मूल्यवान संसाधन के रूप में इमेजनेट डेटासेट बनाने और बनाए रखने के लिए ओल्गा रुसाकोवस्की, जिया डेंग और ली फी-फी के नेतृत्व में इमेजनेट टीम को स्वीकार करना चाहते हैं। इमेजनेट डेटासेट और इसके रचनाकारों के बारे में अधिक जानकारी के लिए, इमेजनेट वेबसाइट पर जाएं।



2023-11-12 बनाया गया, अपडेट किया गया 2024-01-12
लेखक: ग्लेन-जोचर (4)

टिप्पणियाँ