انتقل إلى المحتوى

بايدو RT-DETRكاشف كائن في الوقت الفعلي قائم على محول الرؤية:

نظره عامه

يعد محول الكشف في الوقت الحقيقي (RT-DETR)، الذي طورته شركة بايدو، كاشفًا متطورًا ومتكاملًا للكائنات يوفر أداءً في الوقت الحقيقي مع الحفاظ على دقة عالية. وهو يستند إلى فكرة DETR (إطار عمل خالٍ من NMS)، وفي الوقت نفسه يقدم عمودًا فقريًا قائمًا على التشفير ومشفّرًا هجينًا فعالاً للحصول على سرعة في الوقت الفعلي. RT-DETR يعالج بكفاءة الميزات متعددة النطاقات من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات. النموذج قابل للتكيف بدرجة كبيرة، ويدعم التعديل المرن لسرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب. RT-DETR يتفوق على الدعامات الخلفية المتسارعة مثل CUDA مع TensorRT ، متفوقًا على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الحقيقي.



شاهد: محول الكشف في الوقت الحقيقي (RT-DETR)

صورة مثال النموذج نظرة عامة على بايدو RT-DETR. ال RT-DETR يوضح مخطط بنية النموذج المراحل الثلاث الأخيرة من العمود الفقري {S3 ، S4 ، S5} كمدخل إلى برنامج التشفير. يحول برنامج التشفير المختلط الفعال الميزات متعددة المقاييس إلى سلسلة من ميزات الصورة من خلال تفاعل الميزات داخل النطاق (AIFI) ووحدة دمج الميزات عبر النطاق (CCFM). يتم استخدام تحديد الاستعلام المدرك ل IoU لتحديد عدد ثابت من ميزات الصورة لتكون بمثابة استعلامات كائن أولية لوحدة فك الترميز. أخيرا ، تعمل وحدة فك الترميز ذات رؤوس التنبؤ الإضافية على تحسين استعلامات الكائنات بشكل متكرر لإنشاء مربعات ودرجات ثقة (مصدر).

الميزات الرئيسية

  • التشفير الهجين الفعال: بايدو RT-DETR يستخدم برنامج تشفير هجين فعال يعالج ميزات متعددة النطاقات عن طريق فصل التفاعل داخل النطاق والاندماج عبر النطاقات. يقلل هذا التصميم الفريد القائم على Vision Transformers من التكاليف الحسابية ويسمح باكتشاف الأشياء في الوقت الفعلي.
  • اختيار الاستعلام المدرك ل IoU: بايدو RT-DETR يحسن تهيئة استعلام الكائن من خلال استخدام تحديد الاستعلام المدرك ل IoU. يتيح ذلك للنموذج التركيز على الكائنات الأكثر صلة في المشهد ، مما يعزز دقة الكشف.
  • سرعة الاستدلال القابلة للتكيف: بايدو RT-DETR يدعم التعديلات المرنة لسرعة الاستدلال باستخدام طبقات فك ترميز مختلفة دون الحاجة إلى إعادة التدريب. تسهل هذه القدرة على التكيف التطبيق العملي في سيناريوهات اكتشاف الكائنات المختلفة في الوقت الفعلي.

نماذج مدربة مسبقا

ال Ultralytics Python توفر واجهة برمجة التطبيقات مدربة مسبقا PaddlePaddle RT-DETR نماذج بمقاييس مختلفة:

  • RT-DETR-L: 53.0٪ نقطة وصول إلى 53.0٪ AP على COCO val2017، 114 FPS على T4 GPU
  • RT-DETR-X: 54.8% نقطة في الثانية على COCO val2017، 74 FPS على T4 GPU

أمثلة الاستخدام

يوفر هذا المثال بسيطا RT-DETR أمثلة التدريب والاستدلال. للحصول على وثائق كاملة حول هذه الأوضاع وغيرها ، راجع صفحات مستندات التنبؤ والتدريب وVal والتصدير.

مثل

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

المهام والأوضاع المدعومة

يعرض هذا الجدول أنواع النماذج ، والأوزان المحددة المدربة مسبقا ، والمهام التي يدعمها كل نموذج ، والأوضاع المختلفة (Train ، Val ، Predict ، Export) المدعومة ، المشار إليها بواسطة ✅ الرموز التعبيرية.

نوع الموديل الأوزان المدربة مسبقا المهام المدعومة استدلال التحقق تدريب تصدير
RT-DETR كبير rtdetr-l.pt كشف الكائن
RT-DETR كبير جدا rtdetr-x.pt كشف الكائن

الاستشهادات والشكر

إذا كنت تستخدم بايدو RT-DETR في أعمال البحث أو التطوير الخاصة بك ، يرجى الاستشهاد بالورقة الأصلية:

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

نود أن نعرب عن تقديرنا لبايدو و PaddlePaddle فريق لإنشاء وصيانة هذا المورد القيم لمجتمع رؤية الكمبيوتر. مساهمتهم في هذا المجال من خلال تطوير كاشف الأشياء في الوقت الفعلي القائم على Vision Transformers ، RT-DETR، هو محل تقدير كبير.

الأسئلة المتداولة

ما هو نموذج بايدو RT-DETR وكيف يعمل؟

RT-DETR من بايدو (محول الكشف في الوقت الحقيقي) هو كاشف متقدم للكائنات في الوقت الحقيقي مبني على بنية محول الرؤية. وهو يعالج الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات من خلال برنامج التشفير الهجين الفعال. ومن خلال استخدام اختيار الاستعلام المدرك لوحدة الاستعلامات IoU، يركز النموذج على الكائنات الأكثر صلة، مما يعزز دقة الكشف. إن سرعة الاستدلال القابلة للتكيف، التي تتحقق من خلال تعديل طبقات وحدة فك التشفير دون إعادة التدريب، تجعل RT-DETR مناسبًا لمختلف سيناريوهات اكتشاف الأجسام في الوقت الفعلي. تعرف على المزيد حول ميزات RT-DETR هنا.

كيف يمكنني استخدام نماذج RT-DETR المدربة مسبقاً والمقدمة من Ultralytics ؟

يمكنك الاستفادة من واجهة برمجة التطبيقات Ultralytics Python لاستخدام نماذج PaddlePaddle RT-DETR المدربة مسبقًا. على سبيل المثال، لتحميل نموذج RT-DETR-l تم تدريبه مسبقًا على نموذج -l مدرب مسبقًا على COCO val2017 وتحقيق معدل FPS مرتفع على T4 GPU ، يمكنك الاستفادة من المثال التالي:

مثل

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

لماذا يجب أن أختار Baidu's RT-DETR على غيره من أجهزة الكشف عن الأجسام في الوقت الحقيقي؟

يتميز بايدو RT-DETR الخاص بـ Baidu بسبب أداة التشفير الهجين الفعالة واختيار الاستعلام المدرك لوحدة المعالجة الآلية، مما يقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على دقة عالية. تضيف قدرتها الفريدة على ضبط سرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب مرونة كبيرة. وهذا يجعلها مفيدة بشكل خاص للتطبيقات التي تتطلب أداءً في الوقت الفعلي على الخلفيات المتسارعة مثل CUDA مع TensorRT ، متفوقًا بذلك على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الفعلي.

كيف يدعم موقع RT-DETR سرعة الاستدلال القابلة للتكيف مع التطبيقات المختلفة في الوقت الحقيقي؟

يسمح نظام بايدو RT-DETR بإجراء تعديلات مرنة لسرعة الاستدلال باستخدام طبقات مختلفة من وحدة فك الترميز دون الحاجة إلى إعادة التدريب. تعد هذه القدرة على التكيف أمرًا بالغ الأهمية لتوسيع نطاق الأداء عبر مختلف مهام اكتشاف الكائنات في الوقت الفعلي. سواء أكنت بحاجة إلى معالجة أسرع لاحتياجات الدقة المنخفضة أو اكتشافات أبطأ وأكثر دقة، يمكن تصميم RT-DETR لتلبية متطلباتك المحددة.

هل يمكنني استخدام نماذج RT-DETR مع أوضاع أخرى Ultralytics ، مثل التدريب والتحقق من الصحة والتصدير؟

نعم، نماذج RT-DETR متوافقة مع مختلف أوضاع Ultralytics بما في ذلك التدريب والتحقق من الصحة والتنبؤ والتصدير. يمكنك الرجوع إلى الوثائق المعنية للحصول على إرشادات مفصلة حول كيفية استخدام هذه الأوضاع: التدريب والتحقق من الصحة والتنبؤ والتصدير. وهذا يضمن سير عمل شامل لتطوير ونشر حلول اكتشاف الكائنات الخاصة بك.



تم الإنشاء 2023-11-12-2023، تم التحديث 2024-07-04
المؤلفون: جلين-جوتشر (15)، رضوان منور (1)

التعليقات