بايدو RT-DETR: كاشف الأجسام في الوقت الحقيقي المستند إلى محول الرؤية

لمحة عامة

يعد محول الكشف في الوقت الحقيقي (RT-DETR)، الذي طورته شركة بايدو، كاشفًا متطورًا ومتكاملًا للكائنات يوفر أداءً في الوقت الحقيقي مع الحفاظ على دقة عالية. وهو يستند إلى فكرة DETR (الإطار الخالي من NMS)، وفي الوقت نفسه يقدم العمود الفقري القائم على التشفير الملتف ومشفّر هجين فعال للحصول على سرعة في الوقت الحقيقي. RT-DETR يعالج بكفاءة الميزات متعددة النطاقات من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات. النموذج قابل للتكيف بدرجة كبيرة، ويدعم التعديل المرن لسرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب. RT-DETR يتفوق على الدعامات الخلفية المتسارعة مثل CUDA مع TensorRT ، متفوقًا على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الحقيقي.

شاهد: محول الكشف في الوقت الحقيقي (RT-DETR)

صورة مثال على النموذج نظرة عامة على بايدو RT-DETR. يُظهر مخطط بنية النموذج RT-DETR المراحل الثلاث الأخيرة من العمود الفقري {S3، S3، S4، S5} كمدخلات للمشفّر. يقوم المشفر الهجين الفعال بتحويل الميزات متعددة النطاقات إلى سلسلة من ميزات الصورة من خلال تفاعل الميزات داخل النطاقات (AIFI) ووحدة دمج الميزات عبر النطاقات (CCFM). يتم استخدام اختيار الاستعلام الواعي بالوحدات الداخلية لتحديد عدد ثابت من ميزات الصورة لتكون بمثابة استعلامات كائن أولي لوحدة فك التشفير. أخيرًا، تقوم وحدة فك الترميز المزودة برؤوس تنبؤ مساعدة بتحسين استعلامات الكائنات بشكل متكرر لتوليد مربعات ودرجات ثقة (المصدر).

الميزات الرئيسية

مشفر هجين فعال: يستخدم بايدو RT-DETR الخاص بـ Baidu أداة تشفير هجينة فعالة تعالج الميزات متعددة النطاقات من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات. يقلل هذا التصميم الفريد القائم على محولات الرؤية من التكاليف الحسابية ويسمح باكتشاف الكائنات في الوقت الفعلي.
اختيار الاستعلام المدرك لـ IoU: يحسّن بايدو RT-DETR تهيئة الاستعلام عن الكائنات من خلال استخدام اختيار الاستعلام المدرك لوحدة الأيقونات. يتيح ذلك للنموذج التركيز على الكائنات الأكثر صلة في المشهد، مما يعزز دقة الكشف.
سرعة الاستدلال القابلة للتكيف: يدعم موقع بايدو RT-DETR تعديلات مرنة لسرعة الاستدلال باستخدام طبقات مختلفة من وحدة فك الترميز دون الحاجة إلى إعادة التدريب. تسهل هذه القدرة على التكيف التطبيق العملي في مختلف سيناريوهات اكتشاف الأجسام في الوقت الحقيقي.

النماذج المدربة مسبقاً

توفر واجهة برمجة التطبيقات Ultralytics Python واجهة برمجة التطبيقات PaddlePaddle RT-DETR المدربة مسبقاً بمقاييس مختلفة:

RT-DETR-L: 53.0٪ نقطة وصول إلى 53.0٪ AP على COCO val2017، 114 FPS على T4 GPU
RT-DETR-X: 54.8% نقطة في الثانية على COCO val2017، 74 FPS على T4 GPU

أمثلة على الاستخدام

يوفر هذا المثال أمثلة بسيطة للتدريب والاستدلال RT-DETR . للحصول على وثائق كاملة حول هذه الأوضاع وغيرها من الأوضاع، راجع صفحات مستندات التنبؤ والتدريب والتقييم والتصدير.

مثال على ذلك

PythonCLI

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

المهام والأوضاع المدعومة

يعرض هذا الجدول أنواع النماذج، والأوزان المحددة المدربة مسبقًا، والمهام التي يدعمها كل نموذج، والأوضاع المختلفة(تدريب، فائدة، تنبؤ، تصدير) التي يتم دعمها، والمشار إليها بالرموز التعبيرية ✅.

نوع الموديل	الأوزان المدربة مسبقاً	المهام المدعومة	الاستدلال	التحقق من الصحة	التدريب	التصدير
RT-DETR كبير	rtdetr-l.pt	اكتشاف الكائن	✅	✅	✅	✅
RT-DETR كبير جداً	rtdetr-x.pt	اكتشاف الكائن	✅	✅	✅	✅

الاستشهادات والشكر والتقدير

إذا كنت تستخدم موقع بايدو RT-DETR في أعمال البحث أو التطوير الخاصة بك، يُرجى الاستشهاد بالورقة الأصلية:

BibTeX

@misc{lv2023detrs,
      title={DETRs Beat YOLOs on Real-time Object Detection},
      author={Wenyu Lv and Shangliang Xu and Yian Zhao and Guanzhong Wang and Jinman Wei and Cheng Cui and Yuning Du and Qingqing Dang and Yi Liu},
      year={2023},
      eprint={2304.08069},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

نود أن نعرب عن تقديرنا لبايدو وفريق PaddlePaddle لإنشاء وصيانة هذا المورد القيّم لمجتمع الرؤية الحاسوبية. إن مساهمتهم في هذا المجال من خلال تطوير كاشف الأجسام القائم على محولات الرؤية في الوقت الحقيقي، RT-DETR ، محل تقدير كبير.

الأسئلة الشائعة

ما هو نموذج بايدو RT-DETR وكيف يعمل؟

RT-DETR من بايدو (محول الكشف في الوقت الحقيقي) هو كاشف متقدم للكائنات في الوقت الحقيقي مبني على بنية محول الرؤية. وهو يعالج الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات من خلال برنامج التشفير الهجين الفعال. ومن خلال استخدام اختيار الاستعلام المدرك لوحدة الاستعلامات IoU، يركز النموذج على الكائنات الأكثر صلة، مما يعزز دقة الكشف. إن سرعة الاستدلال القابلة للتكيف، التي تتحقق من خلال تعديل طبقات وحدة فك التشفير دون إعادة التدريب، تجعل RT-DETR مناسبًا لمختلف سيناريوهات اكتشاف الأجسام في الوقت الفعلي. تعرف على المزيد حول ميزات RT-DETR هنا.

كيف يمكنني استخدام نماذج RT-DETR المدربة مسبقاً والمقدمة من Ultralytics ؟

يمكنك الاستفادة من واجهة برمجة التطبيقات Ultralytics Python لاستخدام نماذج PaddlePaddle RT-DETR المدربة مسبقًا. على سبيل المثال، لتحميل نموذج RT-DETR-l تم تدريبه مسبقًا على نموذج -l مدرب مسبقًا على COCO val2017 وتحقيق معدل FPS مرتفع على T4 GPU ، يمكنك الاستفادة من المثال التالي:

مثال على ذلك

PythonCLI

from ultralytics import RTDETR

# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")

# Display model information (optional)
model.info()

# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")

# Load a COCO-pretrained RT-DETR-l model and train it on the COCO8 example dataset for 100 epochs
yolo train model=rtdetr-l.pt data=coco8.yaml epochs=100 imgsz=640

# Load a COCO-pretrained RT-DETR-l model and run inference on the 'bus.jpg' image
yolo predict model=rtdetr-l.pt source=path/to/bus.jpg

لماذا يجب أن أختار Baidu's RT-DETR على غيره من أجهزة الكشف عن الأجسام في الوقت الحقيقي؟

يتميز بايدو RT-DETR الخاص بـ Baidu بسبب أداة التشفير الهجين الفعالة واختيار الاستعلام المدرك لوحدة المعالجة الآلية، مما يقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على دقة عالية. تضيف قدرتها الفريدة على ضبط سرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب مرونة كبيرة. وهذا يجعلها مفيدة بشكل خاص للتطبيقات التي تتطلب أداءً في الوقت الفعلي على الخلفيات المتسارعة مثل CUDA مع TensorRT ، متفوقًا بذلك على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الفعلي.

كيف يدعم موقع RT-DETR سرعة الاستدلال القابلة للتكيف مع التطبيقات المختلفة في الوقت الحقيقي؟

يسمح نظام بايدو RT-DETR بإجراء تعديلات مرنة لسرعة الاستدلال باستخدام طبقات مختلفة من وحدة فك الترميز دون الحاجة إلى إعادة التدريب. تعد هذه القدرة على التكيف أمرًا بالغ الأهمية لتوسيع نطاق الأداء عبر مختلف مهام اكتشاف الكائنات في الوقت الفعلي. سواء أكنت بحاجة إلى معالجة أسرع لاحتياجات الدقة المنخفضة أو اكتشافات أبطأ وأكثر دقة، يمكن تصميم RT-DETR لتلبية متطلباتك المحددة.

هل يمكنني استخدام نماذج RT-DETR مع أوضاع أخرى Ultralytics ، مثل التدريب والتحقق من الصحة والتصدير؟

نعم، نماذج RT-DETR متوافقة مع مختلف أوضاع Ultralytics بما في ذلك التدريب والتحقق من الصحة والتنبؤ والتصدير. يمكنك الرجوع إلى الوثائق المعنية للحصول على إرشادات مفصلة حول كيفية استخدام هذه الأوضاع: التدريب والتحقق من الصحة والتنبؤ والتصدير. وهذا يضمن سير عمل شامل لتطوير ونشر حلول اكتشاف الكائنات الخاصة بك.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 2 شهر