सामग्री पर जाएं

Baidu का RT-DETR: एक विजन ट्रांसफार्मर-आधारित रीयल-टाइम ऑब्जेक्ट डिटेक्टर

विहंगावलोकन

रीयल-टाइम डिटेक्शन ट्रांसफार्मर (RT-DETR), Baidu द्वारा विकसित, एक अत्याधुनिक एंड-टू-एंड ऑब्जेक्ट डिटेक्टर है जो उच्च सटीकता बनाए रखते हुए वास्तविक समय का प्रदर्शन प्रदान करता है। यह विजन ट्रांसफॉर्मर (वीआईटी) की शक्ति का लाभ उठाता है ताकि इंट्रा-स्केल इंटरैक्शन और क्रॉस-स्केल फ्यूजन को अलग करके मल्टीस्केल सुविधाओं को कुशलतापूर्वक संसाधित किया जा सके। RT-DETR अत्यधिक अनुकूलनीय है, बिना किसी प्रशिक्षण के विभिन्न डिकोडर परतों का उपयोग करके अनुमान गति के लचीले समायोजन का समर्थन करता है। मॉडल CUDA जैसे त्वरित बैकएंड पर उत्कृष्टता प्राप्त करता है TensorRT, कई अन्य रीयल-टाइम ऑब्जेक्ट डिटेक्टरों से बेहतर प्रदर्शन कर रहा है।

मॉडल उदाहरण छवि Baidu का अवलोकन RT-DETR. वही RT-DETR मॉडल आर्किटेक्चर आरेख बैकबोन {S3, S4, S5} के अंतिम तीन चरणों को एनकोडर के इनपुट के रूप में दिखाता है। कुशल हाइब्रिड एनकोडर इंट्रास्केल फीचर इंटरैक्शन (एआईएफआई) और क्रॉस-स्केल फीचर-फ्यूजन मॉड्यूल (सीसीएफएम) के माध्यम से मल्टीस्केल फीचर्स को इमेज फीचर्स के अनुक्रम में बदल देता है। IoU-जागरूक क्वेरी चयन को डिकोडर के लिए प्रारंभिक ऑब्जेक्ट क्वेरी के रूप में सेवा करने के लिए छवि सुविधाओं की एक निश्चित संख्या का चयन करने के लिए नियोजित किया जाता है। अंत में, सहायक भविष्यवाणी सिर के साथ डिकोडर पुनरावृत्त रूप से बक्से और आत्मविश्वास स्कोर उत्पन्न करने के लिए ऑब्जेक्ट प्रश्नों का अनुकूलन करता है (मूल).

प्रमुख विशेषताऐं

  • कुशल हाइब्रिड एनकोडर: Baidu का RT-DETR एक कुशल हाइब्रिड एनकोडर का उपयोग करता है जो इंट्रा-स्केल इंटरैक्शन और क्रॉस-स्केल फ्यूजन को डिकॉप्लिंग करके मल्टीस्केल सुविधाओं को संसाधित करता है। यह अद्वितीय विजन ट्रांसफॉर्मर-आधारित डिज़ाइन कम्प्यूटेशनल लागत को कम करता है और वास्तविक समय ऑब्जेक्ट डिटेक्शन की अनुमति देता है।
  • IoU-जागरूक क्वेरी चयन: Baidu का RT-DETR IoU-जागरूक क्वेरी चयन का उपयोग करके ऑब्जेक्ट क्वेरी आरंभीकरण में सुधार करता है। यह मॉडल को दृश्य में सबसे प्रासंगिक वस्तुओं पर ध्यान केंद्रित करने की अनुमति देता है, जिससे पता लगाने की सटीकता बढ़ जाती है।
  • अनुकूलनीय अनुमान गति: Baidu का RT-DETR पुनर्प्रशिक्षण की आवश्यकता के बिना विभिन्न डिकोडर परतों का उपयोग करके अनुमान गति के लचीले समायोजन का समर्थन करता है। यह अनुकूलनशीलता विभिन्न वास्तविक समय वस्तु का पता लगाने के परिदृश्यों में व्यावहारिक अनुप्रयोग की सुविधा प्रदान करती है।

पूर्व-प्रशिक्षित मॉडल

वही Ultralytics Python एपीआई पूर्व-प्रशिक्षित प्रदान करता है PaddlePaddle RT-DETR विभिन्न तराजू वाले मॉडल:

  • RT-DETR-एल: कोको वैल2017 पर 53.0% एपी, टी4 जीपीयू पर 114 एफपीएस
  • RT-DETR-X: COCO val2017 पर 54.8% AP, T4 GPU पर 74 FPS

उपयोग के उदाहरण

यह उदाहरण सरल प्रदान करता है RT-DETR प्रशिक्षण और अनुमान उदाहरण। इन और अन्य मोड पर पूर्ण प्रलेखन के लिए भविष्यवाणी, ट्रेन, वैल और निर्यात डॉक्स पृष्ठ देखें।

उदाहरण

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

समर्थित कार्य और मोड

यह तालिका मॉडल प्रकार, विशिष्ट पूर्व-प्रशिक्षित भार, प्रत्येक मॉडल द्वारा समर्थित कार्यों और विभिन्न मोड (ट्रेन , वैल, भविष्यवाणी, निर्यात) प्रस्तुत करती है जो समर्थित हैं, जो इमोजी द्वारा ✅ इंगित किए गए हैं।

मॉडल प्रकार पूर्व-प्रशिक्षित वजन समर्थित कार्य अनुमान मान्यता प्रशिक्षण निर्यातित माल
RT-DETR बड़ा rtdetr-l.pt वस्तु का पता लगाना
RT-DETR अतिरिक्त-बड़े rtdetr-x.pt वस्तु का पता लगाना

प्रशंसा पत्र और पावती

यदि आप Baidu का उपयोग करते हैं RT-DETR अपने शोध या विकास कार्य में, कृपया मूल पेपर का हवाला दें:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

हम Baidu और को स्वीकार करना चाहेंगे PaddlePaddle कंप्यूटर दृष्टि समुदाय के लिए इस मूल्यवान संसाधन को बनाने और बनाए रखने के लिए टीम। विजन ट्रांसफॉर्मर-आधारित रीयल-टाइम ऑब्जेक्ट डिटेक्टर के विकास के साथ क्षेत्र में उनका योगदान, RT-DETR, बहुत सराहना की है।

खोजशब्दों: RT-DETR, ट्रांसफार्मर, ViT, विजन ट्रांसफॉर्मर, Baidu RT-DETR, PaddlePaddle, पैडल पैडल RT-DETR, वास्तविक समय वस्तु का पता लगाने, विजन ट्रांसफार्मर आधारित वस्तु का पता लगाने, पूर्व प्रशिक्षित PaddlePaddle RT-DETR मॉडल, Baidu's RT-DETR उपयोग Ultralytics Python एपीआई



2023-11-12 बनाया गया, अपडेट किया गया 2024-03-03
लेखक: ग्लेन-जोचर (8)

टिप्पणियाँ