انتقل إلى المحتوى

بايدو RT-DETRكاشف كائن في الوقت الفعلي قائم على محول الرؤية:

نظره عامه

محول الكشف في الوقت الحقيقي (RT-DETR) ، الذي طورته Baidu ، هو كاشف كائنات متطور من طرف إلى طرف يوفر أداء في الوقت الفعلي مع الحفاظ على دقة عالية. إنه يستفيد من قوة Vision Transformers (ViT) لمعالجة الميزات متعددة النطاقات بكفاءة عن طريق فصل التفاعل داخل النطاق والاندماج عبر النطاقات. RT-DETR قابل للتكيف بدرجة كبيرة ، ويدعم الضبط المرن لسرعة الاستدلال باستخدام طبقات فك ترميز مختلفة دون إعادة تدريب. يتفوق النموذج على الخلفيات المتسارعة مثل CUDA مع TensorRT، متفوقا على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الفعلي.



شاهد: محول الكشف في الوقت الحقيقي (RT-DETR)

صورة مثال النموذج نظرة عامة على بايدو RT-DETR. ال RT-DETR يوضح مخطط بنية النموذج المراحل الثلاث الأخيرة من العمود الفقري {S3 ، S4 ، S5} كمدخل إلى برنامج التشفير. يحول برنامج التشفير المختلط الفعال الميزات متعددة المقاييس إلى سلسلة من ميزات الصورة من خلال تفاعل الميزات داخل النطاق (AIFI) ووحدة دمج الميزات عبر النطاق (CCFM). يتم استخدام تحديد الاستعلام المدرك ل IoU لتحديد عدد ثابت من ميزات الصورة لتكون بمثابة استعلامات كائن أولية لوحدة فك الترميز. أخيرا ، تعمل وحدة فك الترميز ذات رؤوس التنبؤ الإضافية على تحسين استعلامات الكائنات بشكل متكرر لإنشاء مربعات ودرجات ثقة (مصدر).

الميزات الرئيسية

  • التشفير الهجين الفعال: بايدو RT-DETR يستخدم برنامج تشفير هجين فعال يعالج ميزات متعددة النطاقات عن طريق فصل التفاعل داخل النطاق والاندماج عبر النطاقات. يقلل هذا التصميم الفريد القائم على Vision Transformers من التكاليف الحسابية ويسمح باكتشاف الأشياء في الوقت الفعلي.
  • اختيار الاستعلام المدرك ل IoU: بايدو RT-DETR يحسن تهيئة استعلام الكائن من خلال استخدام تحديد الاستعلام المدرك ل IoU. يتيح ذلك للنموذج التركيز على الكائنات الأكثر صلة في المشهد ، مما يعزز دقة الكشف.
  • سرعة الاستدلال القابلة للتكيف: بايدو RT-DETR يدعم التعديلات المرنة لسرعة الاستدلال باستخدام طبقات فك ترميز مختلفة دون الحاجة إلى إعادة التدريب. تسهل هذه القدرة على التكيف التطبيق العملي في سيناريوهات اكتشاف الكائنات المختلفة في الوقت الفعلي.

نماذج مدربة مسبقا

ال Ultralytics Python توفر واجهة برمجة التطبيقات مدربة مسبقا PaddlePaddle RT-DETR نماذج بمقاييس مختلفة:

  • RT-DETR-L: 53.0٪ AP على COCO val2017 ، 114 إطارا في الثانية على وحدة معالجة الرسومات T4
  • RT-DETR-X: 54.8٪ AP على COCO val2017 ، 74 إطارا في الثانية على وحدة معالجة الرسومات T4

أمثلة الاستخدام

يوفر هذا المثال بسيطا RT-DETR أمثلة التدريب والاستدلال. للحصول على وثائق كاملة حول هذه الأوضاع وغيرها ، راجع صفحات مستندات التنبؤ والتدريب وVal والتصدير.

مثل

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR('rtdetr-l.pt')

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data='coco8.yaml', epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model('path/to/bus.jpg')
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

المهام والأوضاع المدعومة

يعرض هذا الجدول أنواع النماذج ، والأوزان المحددة المدربة مسبقا ، والمهام التي يدعمها كل نموذج ، والأوضاع المختلفة (Train ، Val ، Predict ، Export) المدعومة ، المشار إليها بواسطة ✅ الرموز التعبيرية.

نوع الموديل الأوزان المدربة مسبقا المهام المدعومة استدلال التحقق تدريب تصدير
RT-DETR كبير rtdetr-l.pt كشف الكائن
RT-DETR كبير جدا rtdetr-x.pt كشف الكائن

الاستشهادات والشكر

إذا كنت تستخدم بايدو RT-DETR في أعمال البحث أو التطوير الخاصة بك ، يرجى الاستشهاد بالورقة الأصلية:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

نود أن نعرب عن تقديرنا لبايدو و PaddlePaddle فريق لإنشاء وصيانة هذا المورد القيم لمجتمع رؤية الكمبيوتر. مساهمتهم في هذا المجال من خلال تطوير كاشف الأشياء في الوقت الفعلي القائم على Vision Transformers ، RT-DETR، هو محل تقدير كبير.

الكلمات الرئيسيه: RT-DETR، محول ، ViT ، محولات الرؤية ، بايدو RT-DETR, PaddlePaddleمجداف مجداف RT-DETR، الكشف عن الأشياء في الوقت الحقيقي ، الكشف عن الكائنات القائمة على محولات الرؤية ، المدربين مسبقا PaddlePaddle RT-DETR عارضات ازياء, بايدو RT-DETR استخدام Ultralytics Python API



تم إنشاء 2023-11-12, اخر تحديث 2024-04-17
المؤلفون: جلين جوشر (9) ، رضوان منور (1)

التعليقات