सामग्री पर जाएं

YOLOv9: ऑब्जेक्ट डिटेक्शन टेक्नोलॉजी में एक लीप फॉरवर्ड

YOLOv9 रीयल-टाइम ऑब्जेक्ट डिटेक्शन में एक महत्वपूर्ण प्रगति को चिह्नित करता है, जो प्रोग्रामेबल ग्रेडिएंट इंफॉर्मेशन (PGI) और जनरलाइज्ड एफिशिएंट लेयर एग्रीगेशन नेटवर्क (GELAN) जैसी ग्राउंडब्रेकिंग तकनीकों को पेश करता है। यह मॉडल एमएस कोको डेटासेट पर नए बेंचमार्क स्थापित करते हुए, दक्षता, सटीकता और अनुकूलन क्षमता में उल्लेखनीय सुधार प्रदर्शित करता है। YOLOv9 प्रोजेक्ट, जबकि एक अलग ओपन-सोर्स टीम द्वारा विकसित किया गया है, द्वारा प्रदान किए गए मजबूत कोडबेस पर बनाता है Ultralytics YOLOv5, एआई अनुसंधान समुदाय की सहयोगी भावना को प्रदर्शित करता है।

YOLOv9 प्रदर्शन तुलना

YOLOv9 का परिचय

इष्टतम रीयल-टाइम ऑब्जेक्ट डिटेक्शन की तलाश में, YOLOv9 गहरे तंत्रिका नेटवर्क में निहित सूचना हानि चुनौतियों पर काबू पाने के लिए अपने अभिनव दृष्टिकोण के साथ खड़ा है। PGI और बहुमुखी GELAN आर्किटेक्चर को एकीकृत करके, YOLOv9 न केवल मॉडल की सीखने की क्षमता को बढ़ाता है बल्कि पता लगाने की प्रक्रिया के दौरान महत्वपूर्ण जानकारी के प्रतिधारण को भी सुनिश्चित करता है, जिससे असाधारण सटीकता और प्रदर्शन प्राप्त होता है।

YOLOv9 के मुख्य नवाचार

YOLOv9 की प्रगति गहरे तंत्रिका नेटवर्क में सूचना हानि से उत्पन्न चुनौतियों का समाधान करने में गहराई से निहित है। सूचना अड़चन सिद्धांत और प्रतिवर्ती कार्यों का अभिनव उपयोग इसके डिजाइन के लिए केंद्रीय हैं, यह सुनिश्चित करते हुए कि YOLOv9 उच्च दक्षता और सटीकता बनाए रखता है।

सूचना अड़चन सिद्धांत

सूचना अड़चन सिद्धांत गहरी शिक्षा में एक मौलिक चुनौती का खुलासा करता है: जैसे-जैसे डेटा नेटवर्क की लगातार परतों से गुजरता है, सूचना हानि की संभावना बढ़ जाती है। इस घटना को गणितीय रूप से दर्शाया गया है:

I(X, X) >= I(X, f_theta(X)) >= I(X, g_phi(f_theta(X)))

कहां I आपसी जानकारी को दर्शाता है, और f और g मापदंडों के साथ परिवर्तन कार्यों का प्रतिनिधित्व करें theta और phiक्रमानुसार। YOLOv9 प्रोग्रामेबल ग्रेडिएंट इंफॉर्मेशन (PGI) को लागू करके इस चुनौती का मुकाबला करता है, जो नेटवर्क की गहराई में आवश्यक डेटा को संरक्षित करने में सहायता करता है, अधिक विश्वसनीय ढाल पीढ़ी सुनिश्चित करता है और परिणामस्वरूप, बेहतर मॉडल अभिसरण और प्रदर्शन सुनिश्चित करता है।

प्रतिवर्ती कार्य

प्रतिवर्ती कार्यों की अवधारणा YOLOv9 के डिजाइन की एक और आधारशिला है। एक फ़ंक्शन को प्रतिवर्ती माना जाता है यदि इसे जानकारी के किसी भी नुकसान के बिना उलटा किया जा सकता है, जैसा कि व्यक्त किया गया है:

X = v_zeta(r_psi(X))

के साथ psi और zeta क्रमशः प्रतिवर्ती और इसके व्युत्क्रम फ़ंक्शन के लिए पैरामीटर के रूप में। यह संपत्ति गहन शिक्षण आर्किटेक्चर के लिए महत्वपूर्ण है, क्योंकि यह नेटवर्क को पूर्ण सूचना प्रवाह बनाए रखने की अनुमति देता है, जिससे मॉडल के मापदंडों में अधिक सटीक अपडेट सक्षम होते हैं। YOLOv9 सूचना क्षरण के जोखिम को कम करने के लिए अपने आर्किटेक्चर के भीतर प्रतिवर्ती कार्यों को शामिल करता है, विशेष रूप से गहरी परतों में, ऑब्जेक्ट डिटेक्शन कार्यों के लिए महत्वपूर्ण डेटा के संरक्षण को सुनिश्चित करता है।

हल्के मॉडल पर प्रभाव

सूचना हानि को संबोधित करना हल्के मॉडल के लिए विशेष रूप से महत्वपूर्ण है, जो अक्सर कम-पैरामीटर होते हैं और फीडफॉरवर्ड प्रक्रिया के दौरान महत्वपूर्ण जानकारी खोने का खतरा होता है। YOLOv9 की वास्तुकला, PGI और प्रतिवर्ती कार्यों के उपयोग के माध्यम से, यह सुनिश्चित करती है कि एक सुव्यवस्थित मॉडल के साथ भी, सटीक वस्तु का पता लगाने के लिए आवश्यक आवश्यक जानकारी को बनाए रखा जाए और प्रभावी ढंग से उपयोग किया जाए।

प्रोग्रामेबल ग्रेडिएंट इंफॉर्मेशन (PGI)

PGI सूचना अड़चन की समस्या से निपटने के लिए YOLOv9 में पेश की गई एक नई अवधारणा है, जो गहरी नेटवर्क परतों में आवश्यक डेटा के संरक्षण को सुनिश्चित करती है। यह विश्वसनीय ग्रेडिएंट की पीढ़ी के लिए अनुमति देता है, सटीक मॉडल अपडेट की सुविधा प्रदान करता है और समग्र पहचान प्रदर्शन में सुधार करता है।

सामान्यीकृत कुशल परत एकत्रीकरण नेटवर्क (GELAN)

GELAN एक रणनीतिक वास्तुशिल्प उन्नति का प्रतिनिधित्व करता है, जो YOLOv9 को बेहतर पैरामीटर उपयोग और कम्प्यूटेशनल दक्षता प्राप्त करने में सक्षम बनाता है। इसका डिज़ाइन विभिन्न कम्प्यूटेशनल ब्लॉकों के लचीले एकीकरण की अनुमति देता है, जिससे YOLOv9 गति या सटीकता का त्याग किए बिना अनुप्रयोगों की एक विस्तृत श्रृंखला के अनुकूल हो जाता है।

YOLOv9 आर्किटेक्चर तुलना

MS COCO डेटासेट पर प्रदर्शन

COCO डेटासेट पर YOLOv9 का प्रदर्शन रीयल-टाइम ऑब्जेक्ट डिटेक्शन में इसकी महत्वपूर्ण प्रगति का उदाहरण देता है, विभिन्न मॉडल आकारों में नए बेंचमार्क स्थापित करता है। तालिका 1 अत्याधुनिक रीयल-टाइम ऑब्जेक्ट डिटेक्टरों की व्यापक तुलना प्रस्तुत करती है, जो YOLOv9 की बेहतर दक्षता और सटीकता को दर्शाती है।

तालिका 1. अत्याधुनिक रीयल-टाइम ऑब्जेक्ट डिटेक्टरों की तुलना

अन्य मॉडल पैमाने कब उपलब्ध होंगे?

नीचे दी गई तालिका में विभिन्न मॉडल पैमानों के लिए दिखाए गए सभी मैट्रिक्स के बावजूद, केवल के लिए कॉन्फ़िगरेशन YOLOv9c और YOLOv9e प्रकाशित किया गया है। वही Ultralytics टीम अन्य कॉन्फ़िगरेशन को जोड़ने के लिए तेजी से काम करेगी क्योंकि वे उपलब्ध हो जाते हैं, इसलिए अपडेट के लिए नियमित रूप से यहां वापस जांचना सुनिश्चित करें।

प्रदर्शन

को गढ़ना आकार वाला
(पिक्सेल)
मानचित्रवैल
50-95
मानचित्रवैल
50
परम
(एम)
फ्लॉप
(बी)
योलोव9टी 640 38.3 53.1 2.0 7.7
योलोव9एस 640 46.8 63.4 7.2 26.7
योलोव9एम 640 51.4 68.1 20.1 76.8
योलोव9सी 640 53.0 70.2 25.5 102.8
योलोव9ई 640 55.6 72.8 58.1 192.5
को गढ़ना आकार वाला
(पिक्सेल)
मानचित्रसंदूक
50-95
मानचित्रनकाब
50-95
परम
(एम)
फ्लॉप
(बी)
YOLOv9c-seg 640 52.4 42.2 27.9 159.4
YOLOv9e-seg 640 55.1 44.3 60.5 248.4

YOLOv9 के पुनरावृत्तियों, छोटे से लेकर t व्यापक करने के लिए संस्करण e मॉडल, न केवल सटीकता (एमएपी मेट्रिक्स) में बल्कि मापदंडों और कम्प्यूटेशनल आवश्यकताओं (एफएलओपी) की कम संख्या के साथ दक्षता में भी सुधार प्रदर्शित करता है। यह तालिका पूर्व संस्करणों और प्रतिस्पर्धी मॉडलों की तुलना में कम्प्यूटेशनल ओवरहेड को बनाए रखने या कम करते हुए उच्च परिशुद्धता प्रदान करने की YOLOv9 की क्षमता को रेखांकित करती है।

तुलनात्मक रूप से, YOLOv9 उल्लेखनीय लाभ प्रदर्शित करता है:

  • लाइटवेट मॉडल: YOLOv9s से आगे निकल जाता है YOLO एपी में 0.4∼0.6% का सुधार प्राप्त करते हुए पैरामीटर दक्षता और कम्प्यूटेशनल लोड में एमएस-एस।
  • मध्यम से बड़े मॉडल: YOLOv9m और YOLOv9e मॉडल जटिलता और पहचान प्रदर्शन के बीच व्यापार-बंद को संतुलित करने में उल्लेखनीय प्रगति दिखाते हैं, बेहतर सटीकता की पृष्ठभूमि के खिलाफ मापदंडों और गणनाओं में महत्वपूर्ण कमी की पेशकश करते हैं।

YOLOv9c मॉडल, विशेष रूप से, आर्किटेक्चर के अनुकूलन की प्रभावशीलता पर प्रकाश डालता है। यह YOLOv42 AF की तुलना में 21% कम मापदंडों और 7% कम कम्प्यूटेशनल मांग के साथ संचालित होता है, फिर भी यह YOLOv9 के महत्वपूर्ण दक्षता सुधारों को प्रदर्शित करते हुए तुलनीय सटीकता प्राप्त करता है। इसके अलावा, YOLOv9e मॉडल बड़े मॉडलों के लिए एक नया मानक निर्धारित करता है, जिसमें 15% कम पैरामीटर और 25% कम कम्प्यूटेशनल आवश्यकता होती है YOLOv8x, एपी में वृद्धिशील 1.7% सुधार के साथ।

ये परिणाम मॉडल डिजाइन में YOLOv9 की रणनीतिक प्रगति को प्रदर्शित करते हैं, वास्तविक समय वस्तु का पता लगाने के कार्यों के लिए आवश्यक सटीकता से समझौता किए बिना इसकी बढ़ी हुई दक्षता पर जोर देते हैं। मॉडल न केवल प्रदर्शन मेट्रिक्स की सीमाओं को आगे बढ़ाता है बल्कि कम्प्यूटेशनल दक्षता के महत्व पर भी जोर देता है, जिससे यह कंप्यूटर दृष्टि के क्षेत्र में एक महत्वपूर्ण विकास बन जाता है।

समाप्ति

YOLOv9 वास्तविक समय वस्तु का पता लगाने में एक महत्वपूर्ण विकास का प्रतिनिधित्व करता है, दक्षता, सटीकता और अनुकूलन क्षमता के मामले में महत्वपूर्ण सुधार प्रदान करता है। PGI और GELAN जैसे अभिनव समाधानों के माध्यम से महत्वपूर्ण चुनौतियों का समाधान करके, YOLOv9 क्षेत्र में भविष्य के अनुसंधान और अनुप्रयोग के लिए एक नई मिसाल कायम करता है। जैसे-जैसे AI समुदाय का विकास जारी है, YOLOv9 तकनीकी प्रगति को चलाने में सहयोग और नवाचार की शक्ति के लिए एक वसीयतनामा के रूप में खड़ा है।

उपयोग के उदाहरण

यह उदाहरण सरल YOLOv9 प्रशिक्षण और अनुमान उदाहरण प्रदान करता है। इन और अन्य मोड पर पूर्ण प्रलेखन के लिए भविष्यवाणी, ट्रेन, वैल और निर्यात डॉक्स पृष्ठ देखें।

उदाहरण

PyTorch पूर्व-प्रशिक्षित *.pt मॉडल के साथ-साथ कॉन्फ़िगरेशन *.yaml फ़ाइलों को पास किया जा सकता है YOLO() में एक मॉडल उदाहरण बनाने के लिए वर्ग python:

from ultralytics import YOLO

# Build a YOLOv9c model from scratch
model = YOLO('yolov9c.yaml')

# Build a YOLOv9c model from pretrained weight
model = YOLO('yolov9c.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the YOLOv9c model on the 'bus.jpg' image
results = model('path/to/bus.jpg')

CLI मॉडल को सीधे चलाने के लिए कमांड उपलब्ध हैं:

# Build a YOLOv9c model from scratch and train it on the COCO8 example dataset for 100 epochs
yolo train model=yolov9c.yaml data=coco8.yaml epochs=100 imgsz=640

# Build a YOLOv9c model from scratch and run inference on the 'bus.jpg' image
yolo predict model=yolov9c.yaml source=path/to/bus.jpg

समर्थित कार्य और मोड

YOLOv9 श्रृंखला कई प्रकार के मॉडल प्रदान करती है, जिनमें से प्रत्येक उच्च-प्रदर्शन ऑब्जेक्ट डिटेक्शन के लिए अनुकूलित है। ये मॉडल अलग-अलग कम्प्यूटेशनल आवश्यकताओं और सटीकता आवश्यकताओं को पूरा करते हैं, जिससे वे अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए बहुमुखी हो जाते हैं।

को गढ़ना फ़ाइल नाम कार्य अनुमान मान्यता प्रशिक्षण निर्यातित माल
योलोव9 yolov9c.pt yolov9e.pt वस्तु का पता लगाना
YOLOv9-seg yolov9c-seg.pt yolov9e-seg.pt इंस्टेंस सेगमेंटेशन

यह तालिका YOLOv9 मॉडल वेरिएंट का विस्तृत अवलोकन प्रदान करती है, ऑब्जेक्ट डिटेक्शन कार्यों में उनकी क्षमताओं और विभिन्न परिचालन मोड जैसे अनुमान, सत्यापन, प्रशिक्षण और निर्यात के साथ उनकी संगतता को उजागर करती है। यह व्यापक समर्थन सुनिश्चित करता है कि उपयोगकर्ता ऑब्जेक्ट डिटेक्शन परिदृश्यों की एक विस्तृत श्रृंखला में YOLOv9 मॉडल की क्षमताओं का पूरी तरह से लाभ उठा सकते हैं।

नोट

YOLOv9 मॉडल को प्रशिक्षित करने के लिए अधिक संसाधनों की आवश्यकता होगी और समकक्ष आकार से अधिक समय लगेगा YOLOv8 नमूना

प्रशंसा पत्र और पावती

हम YOLOv9 लेखकों को रीयल-टाइम ऑब्जेक्ट डिटेक्शन के क्षेत्र में उनके महत्वपूर्ण योगदान के लिए स्वीकार करना चाहते हैं:

@article{wang2024yolov9,
  title={{YOLOv9}: Learning What You Want to Learn Using Programmable Gradient Information},
  author={Wang, Chien-Yao  and Liao, Hong-Yuan Mark},
  booktitle={arXiv preprint arXiv:2402.13616},
  year={2024}
}

मूल YOLOv9 पेपर arXiv पर पाया जा सकता है। लेखकों ने अपना काम सार्वजनिक रूप से उपलब्ध कराया है, और कोडबेस को GitHub पर एक्सेस किया जा सकता है। हम क्षेत्र को आगे बढ़ाने और उनके काम को व्यापक समुदाय के लिए सुलभ बनाने में उनके प्रयासों की सराहना करते हैं।



2024-02-26 बनाया गया, अपडेट किया गया 2024-04-17
लेखक: ग्लेन-जोचर (4), बुरहान-क्यू (2), लाफिंग-क्यू (1)

टिप्पणियाँ