सामग्री पर जाएं

YOLOv10: रीयल-टाइम एंड-टू-एंड ऑब्जेक्ट डिटेक्शन

YOLOv10, पर बनाया गया Ultralytics Python सिंघुआ विश्वविद्यालय के शोधकर्ताओं द्वारा पैकेज, वास्तविक समय ऑब्जेक्ट डिटेक्शन के लिए एक नया दृष्टिकोण पेश करता है, जो पिछले में पाए गए पोस्ट-प्रोसेसिंग और मॉडल आर्किटेक्चर दोनों कमियों को संबोधित करता हैYOLO संस्करणों। गैर-अधिकतम दमन (NMS) को समाप्त करके और विभिन्न मॉडल घटकों को अनुकूलित करके, YOLOv10 काफी कम कम्प्यूटेशनल ओवरहेड के साथ अत्याधुनिक प्रदर्शन प्राप्त करता है। व्यापक प्रयोग कई मॉडल पैमानों में इसकी बेहतर सटीकता-विलंबता व्यापार-बंद प्रदर्शित करते हैं।

YOLOv10 एनएमएस-मुक्त प्रशिक्षण के लिए लगातार दोहरा असाइनमेंट

विहंगावलोकन

रीयल-टाइम ऑब्जेक्ट डिटेक्शन का उद्देश्य कम विलंबता वाली छवियों में ऑब्जेक्ट श्रेणियों और स्थितियों की सटीक भविष्यवाणी करना है। वही YOLO प्रदर्शन और दक्षता के बीच संतुलन के कारण श्रृंखला इस शोध में सबसे आगे रही है। हालांकि, एनएमएस और वास्तुशिल्प अक्षमताओं पर निर्भरता ने इष्टतम प्रदर्शन में बाधा उत्पन्न की है। YOLOv10 NMS-मुक्त प्रशिक्षण और एक समग्र दक्षता-सटीकता संचालित मॉडल डिजाइन रणनीति के लिए लगातार दोहरे असाइनमेंट शुरू करके इन मुद्दों को संबोधित करता है।

स्‍थापत्‍यशैली

YOLOv10 की वास्तुकला पिछले की ताकत पर आधारित है YOLO कई प्रमुख नवाचारों को पेश करते हुए मॉडल। मॉडल आर्किटेक्चर में निम्नलिखित घटक होते हैं:

  1. बैकबोन: फीचर निष्कर्षण के लिए जिम्मेदार, YOLOv10 में बैकबोन ग्रेडिएंट फ्लो को बेहतर बनाने और कम्प्यूटेशनल रिडंडेंसी को कम करने के लिए CSPNet (क्रॉस स्टेज पार्शियल नेटवर्क) के एक उन्नत संस्करण का उपयोग करता है।
  2. गर्दन: गर्दन को विभिन्न पैमानों से सुविधाओं को एकत्र करने और उन्हें सिर तक पारित करने के लिए डिज़ाइन किया गया है। इसमें प्रभावी मल्टीस्केल फीचर फ्यूजन के लिए पैन (पाथ एग्रीगेशन नेटवर्क) परतें शामिल हैं।
  3. एक-से-कई सिर: समृद्ध पर्यवेक्षी संकेत प्रदान करने और सीखने की सटीकता में सुधार करने के लिए प्रशिक्षण के दौरान प्रति वस्तु कई भविष्यवाणियां उत्पन्न करता है।
  4. एक-से-एक सिर: एनएमएस की आवश्यकता को समाप्त करने के लिए अनुमान के दौरान प्रति वस्तु एक सर्वोत्तम भविष्यवाणी उत्पन्न करता है, जिससे विलंबता कम होती है और दक्षता में सुधार होता है।

प्रमुख विशेषताऐं

  1. एनएमएस-मुक्त प्रशिक्षण: एनएमएस की आवश्यकता को समाप्त करने के लिए लगातार दोहरे असाइनमेंट का उपयोग करता है, अनुमान विलंबता को कम करता है।
  2. समग्र मॉडल डिजाइन: दक्षता और सटीकता दोनों दृष्टिकोणों से विभिन्न घटकों का व्यापक अनुकूलन, जिसमें हल्के वर्गीकरण प्रमुख, स्थानिक-चैनल नीचे नमूनाकरण, और रैंक-निर्देशित ब्लॉक डिजाइन शामिल हैं।
  3. उन्नत मॉडल क्षमताएं: महत्वपूर्ण कम्प्यूटेशनल लागत के बिना प्रदर्शन में सुधार के लिए बड़े-कर्नेल कनवल्शन और आंशिक आत्म-ध्यान मॉड्यूल शामिल हैं।

मॉडल वेरिएंट

YOLOv10 विभिन्न एप्लिकेशन आवश्यकताओं को पूरा करने के लिए विभिन्न मॉडल पैमानों में आता है:

  • YOLOv10-N: अत्यंत संसाधन-विवश वातावरण के लिए नैनो संस्करण।
  • YOLOv10-S: गति और सटीकता को संतुलित करने वाला छोटा संस्करण।
  • YOLOv10-M: सामान्य प्रयोजन के उपयोग के लिए मध्यम संस्करण।
  • YOLOv10-B: उच्च सटीकता के लिए बढ़ी हुई चौड़ाई के साथ संतुलित संस्करण।
  • YOLOv10-L: बढ़े हुए कम्प्यूटेशनल संसाधनों की कीमत पर उच्च सटीकता के लिए बड़ा संस्करण।
  • YOLOv10-X: अधिकतम सटीकता और प्रदर्शन के लिए अतिरिक्त-बड़ा संस्करण।

प्रदर्शन

YOLOv10 ने पिछला प्रदर्शन किया YOLO सटीकता और दक्षता के मामले में संस्करण और अन्य अत्याधुनिक मॉडल। उदाहरण के लिए, YOLOv10-S की तुलना में 1.8x तेज है RT-DETR-R18 COCO डेटासेट पर समान AP के साथ, और YOLOv10-B में समान प्रदर्शन के साथ YOLOv9-C की तुलना में 46% कम विलंबता और 25% कम पैरामीटर हैं।

को गढ़ना इनपुट आकार एपीवैल फ्लॉप (जी) विलंबता (एमएस)
योलोव्10-एन 640 38.5 6.7 1.84
योलोव्10-एस 640 46.3 21.6 2.49
YOLOv10-एम 640 51.1 59.1 4.74
योलोव्10-बी 640 52.5 92.0 5.74
योलोव्10-एल 640 53.2 120.3 7.28
योलोव्10-एक्स 640 54.4 160.4 10.70

विलंबता के साथ मापा जाता है TensorRT T16 GPU पर FP4।

पद्धति

एनएमएस-मुक्त प्रशिक्षण के लिए लगातार दोहरे असाइनमेंट

YOLOv10 दोहरे लेबल असाइनमेंट को नियोजित करता है, प्रशिक्षण के दौरान एक-से-कई और एक-से-एक रणनीतियों को संयोजित करता है ताकि समृद्ध पर्यवेक्षण और कुशल एंड-टू-एंड तैनाती सुनिश्चित हो सके। सुसंगत मिलान मीट्रिक दोनों रणनीतियों के बीच पर्यवेक्षण को संरेखित करता है, अनुमान के दौरान भविष्यवाणियों की गुणवत्ता को बढ़ाता है।

समग्र दक्षता-सटीकता संचालित मॉडल डिजाइन

दक्षता संवर्द्धन

  1. लाइटवेट वर्गीकरण सिर: गहराई-वार वियोज्य संकल्पों का उपयोग करके वर्गीकरण सिर के कम्प्यूटेशनल ओवरहेड को कम करता है।
  2. स्थानिक-चैनल डिकपल्ड डाउन सैंपलिंग: सूचना हानि और कम्प्यूटेशनल लागत को कम करने के लिए स्थानिक कमी और चैनल मॉड्यूलेशन को कम करता है।
  3. रैंक-गाइडेड ब्लॉक डिज़ाइन: इष्टतम पैरामीटर उपयोग सुनिश्चित करते हुए, आंतरिक चरण अतिरेक के आधार पर ब्लॉक डिज़ाइन को अनुकूलित करता है।

सटीकता संवर्द्धन

  1. लार्ज-कर्नेल कनवल्शन: फीचर निष्कर्षण क्षमता को बढ़ाने के लिए ग्रहणशील क्षेत्र को बढ़ाता है।
  2. आंशिक स्व-ध्यान (पीएसए): न्यूनतम ओवरहेड के साथ वैश्विक प्रतिनिधित्व सीखने में सुधार के लिए आत्म-ध्यान मॉड्यूल शामिल करता है।

प्रयोग और परिणाम

YOLOv10 को COCO जैसे मानक बेंचमार्क पर बड़े पैमाने पर परीक्षण किया गया है, जो बेहतर प्रदर्शन और दक्षता का प्रदर्शन करता है। मॉडल विभिन्न प्रकारों में अत्याधुनिक परिणाम प्राप्त करता है, पिछले संस्करणों और अन्य समकालीन डिटेक्टरों की तुलना में विलंबता और सटीकता में महत्वपूर्ण सुधार प्रदर्शित करता है।

तुलना

SOTA ऑब्जेक्ट डिटेक्टरों के साथ YOLOv10 तुलना

अन्य अत्याधुनिक डिटेक्टरों की तुलना में:

  • YOLOv10-S / X 1.8× / 1.3× से तेज हैं RT-DETR-R18/R101 समान सटीकता के साथ
  • YOLOv10-B में समान सटीकता पर YOLOv9-C की तुलना में 25% कम पैरामीटर और 46% कम विलंबता है
  • YOLOv10-L/X आउटपरफॉर्म YOLOv8-L/X बाय 0.3 AP/0.5 AP 1.8×/2.3× कम पैरामीटर के साथ

यहाँ अन्य अत्याधुनिक मॉडल के साथ YOLOv10 वेरिएंट की विस्तृत तुलना है:

को गढ़ना परम्स (एम) फ्लॉप (जी) अप्रैल (%) विलंबता (एमएस) विलंबता (आगे) (एमएस)
योलोव्6-3.0-एन 4.7 11.4 37.0 2.69 1.76
सोना-YOLO-एन 5.6 12.1 39.6 2.92 1.82
YOLOv8-एन 3.2 8.7 37.3 6.16 1.77
योलोव्10-एन 2.3 6.7 39.5 1.84 1.79
योलोव्6-3.0-एस 18.5 45.3 44.3 3.42 2.35
सोना-YOLO-दक्षिणी 21.5 46.0 45.4 3.82 2.73
YOLOv8-दक्षिणी 11.2 28.6 44.9 7.07 2.33
योलोव्10-एस 7.2 21.6 46.8 2.49 2.39
RT-DETR-आर18 20.0 60.0 46.5 4.58 4.49
योलोव्6-3.0-एम 34.9 85.8 49.1 5.63 4.56
सोना-YOLO-लाख 41.3 87.5 49.8 6.38 5.45
YOLOv8-लाख 25.9 78.9 50.6 9.50 5.09
YOLOv10-एम 15.4 59.1 51.3 4.74 4.63
योलोव्6-3.0-एल 59.6 150.7 51.8 9.02 7.90
सोना-YOLO-बड़ा 75.1 151.7 51.8 10.65 9.78
YOLOv8-बड़ा 43.7 165.2 52.9 12.39 8.06
RT-DETR-आर50 42.0 136.0 53.1 9.20 9.07
योलोव्10-एल 24.4 120.3 53.4 7.28 7.21
YOLOv8-एक्स 68.2 257.8 53.9 16.86 12.83
RT-DETR-आर101 76.0 259.0 54.3 13.71 13.58
योलोव्10-एक्स 29.5 160.4 54.4 10.70 10.60

उपयोग के उदाहरण

जल्दी ही आगमन

वही Ultralytics टीम सक्रिय रूप से YOLOv10 मॉडल को आधिकारिक तौर पर एकीकृत करने पर काम कर रही है ultralytics पैकेज। एक बार एकीकरण पूरा हो जाने के बाद, नीचे दिखाए गए उपयोग उदाहरण पूरी तरह कार्यात्मक होंगे। कृपया हमारे सोशल मीडिया का अनुसरण करके बने रहें और GitHub भंडार YOLOv10 एकीकरण पर नवीनतम अपडेट के लिए। हम आपके धैर्य और उत्साह की सराहना करते हैं! 🚀

YOLOv10 के साथ नई छवियों की भविष्यवाणी करने के लिए:

from ultralytics import YOLO

# Load a pretrained YOLOv10n model
model = YOLO("yolov10n.pt")

# Perform object detection on an image
results = model("image.jpg")

# Display the results
results[0].show()

कस्टम डेटासेट पर YOLOv10 के प्रशिक्षण के लिए:

from ultralytics import YOLO

# Load YOLOv10n model from scratch
model = YOLO("yolov10n.yaml")

# Train the model
model.train(data="coco8.yaml", epochs=100, imgsz=640)

समाप्ति

YOLOv10 पिछले की कमियों को दूर करके रीयल-टाइम ऑब्जेक्ट डिटेक्शन में एक नया मानक स्थापित करता है YOLO संस्करण और अभिनव डिजाइन रणनीतियों को शामिल करना। कम कम्प्यूटेशनल लागत के साथ उच्च सटीकता प्रदान करने की इसकी क्षमता इसे वास्तविक दुनिया के अनुप्रयोगों की एक विस्तृत श्रृंखला के लिए एक आदर्श विकल्प बनाती है।

प्रशंसा पत्र और पावती

हम सिंघुआ विश्वविद्यालय के YOLOv10 लेखकों को उनके व्यापक शोध और महत्वपूर्ण योगदान के लिए स्वीकार करना चाहते हैं Ultralytics ढांचा:

@article{THU-MIGyolov10,
  title={YOLOv10: Real-Time End-to-End Object Detection},
  author={Ao Wang, Hui Chen, Lihao Liu, et al.},
  journal={arXiv preprint arXiv:2405.14458},
  year={2024},
  institution={Tsinghua University},
  license = {AGPL-3.0}
}

विस्तृत कार्यान्वयन, वास्तुशिल्प नवाचारों और प्रयोगात्मक परिणामों के लिए, कृपया सिंघुआ विश्वविद्यालय टीम द्वारा YOLOv10 शोध पत्र और GitHub भंडार देखें।



Created 2024-05-25, Updated 2024-06-10
Authors: glenn-jocher (3), RizwanMunawar (2)

टिप्पणियाँ