بايدو RT-DETR: كاشف الأجسام في الوقت الحقيقي المستند إلى محول الرؤية
لمحة عامة
يعد محول الكشف في الوقت الحقيقيRT-DETR)، الذي طورته شركة Baidu، كاشفًا متطورًا ومتكاملًا للكائنات يوفر أداءً في الوقت الحقيقي مع الحفاظ على دقة عالية. وهو يستند إلى فكرة DETR (إطار عمل خالٍ من NMS)، وفي الوقت نفسه يقدم العمود الفقري القائم على الالتفاف ومشفّر هجين فعال للحصول على سرعة في الوقت الحقيقي. يعالج RT-DETR الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات. يتميز النموذج بقابلية عالية للتكيف، حيث يدعم التعديل المرن لسرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب. تتفوق RT-DETR على الأنظمة الخلفية المتسارعة مثل CUDA مع TensorRT وتتفوق على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الحقيقي.
شاهد: محول الكشف في الوقت الحقيقي (RT-DETR)
نظرة عامة على بايدو RT-DETR. يُظهر مخطط بنية النموذج RT-DETR المراحل الثلاث الأخيرة من العمود الفقري {S3، S3، S4، S5} كمدخلات للمشفّر. يقوم المشفر الهجين الفعال بتحويل الميزات متعددة النطاقات إلى سلسلة من ميزات الصورة من خلال تفاعل الميزات داخل النطاقات (AIFI) ووحدة دمج الميزات عبر النطاقات (CCFM). يتم استخدام اختيار الاستعلام الواعي بالوحدات الداخلية لتحديد عدد ثابت من ميزات الصورة لتكون بمثابة استعلامات كائن أولي لوحدة فك التشفير. أخيرًا، تقوم وحدة فك الترميز المزودة برؤوس تنبؤ مساعدة بتحسين استعلامات الكائنات بشكل متكرر لتوليد مربعات ودرجات ثقة (المصدر).
الميزات الرئيسية
- مشفر هجين فعال: يستخدم بايدو RT-DETR الخاص بـ Baidu أداة تشفير هجينة فعالة تعالج الميزات متعددة النطاقات من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات. يقلل هذا التصميم الفريد القائم على محولات الرؤية من التكاليف الحسابية ويسمح باكتشاف الكائنات في الوقت الفعلي.
- اختيار الاستعلام المدرك لـ IoU: يحسّن بايدو RT-DETR تهيئة الاستعلام عن الكائنات من خلال استخدام اختيار الاستعلام المدرك لوحدة الأيقونات. يتيح ذلك للنموذج التركيز على الكائنات الأكثر صلة في المشهد، مما يعزز دقة الكشف.
- سرعة الاستدلال القابلة للتكيف: يدعم موقع بايدو RT-DETR تعديلات مرنة لسرعة الاستدلال باستخدام طبقات مختلفة من وحدة فك الترميز دون الحاجة إلى إعادة التدريب. تسهل هذه القدرة على التكيف التطبيق العملي في مختلف سيناريوهات اكتشاف الأجسام في الوقت الحقيقي.
- إطار عمل خالٍ من NMS: استنادًا إلى DETR، يلغي RT-DETR الحاجة إلى المعالجة اللاحقة للقمع غير الأقصى مما يبسّط خط أنابيب الكشف وربما يحسّن الكفاءة.
- الكشف الخالي من المرساة: بصفته كاشفًا خاليًا من الارتكاز، فإن RT-DETR يبسّط عملية الكشف وقد يحسّن التعميم عبر مجموعات بيانات مختلفة.
النماذج المدربة مسبقاً
توفر واجهة برمجة التطبيقات Ultralytics Python واجهة برمجة التطبيقات PaddlePaddle RT-DETR المدربة مسبقاً بمقاييس مختلفة:
- RT-DETR-L: 53.0٪ نقطة وصول إلى 53.0٪ AP على COCO val2017، 114 FPS على T4 GPU
- RT-DETR-X: 54.8% نقطة في الثانية على COCO val2017، 74 FPS على T4 GPU
بالإضافة إلى ذلك، أصدرت Baidu إصدار RTDETRv2 في يوليو 2024، والذي يعمل على تحسين البنية الأصلية بمقاييس أداء محسّنة.
أمثلة على الاستخدام
يوفر هذا المثال أمثلة بسيطة للتدريب والاستدلال RT-DETR . للحصول على وثائق كاملة حول هذه الأوضاع وغيرها من الأوضاع، راجع صفحات مستندات التنبؤ والتدريب والتقييم والتصدير.
مثال على ذلك
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
المهام والأوضاع المدعومة
يعرض هذا الجدول أنواع النماذج، والأوزان المحددة المدربة مسبقًا، والمهام التي يدعمها كل نموذج، والأوضاع المختلفة(تدريب، فائدة، تنبؤ، تصدير) التي يتم دعمها، والمشار إليها بالرموز التعبيرية ✅.
نوع الموديل | الأوزان المدربة مسبقاً | المهام المدعومة | الاستدلال | التحقق من الصحة | التدريب | التصدير |
---|---|---|---|---|---|---|
RT-DETR كبير | rtdetr-l.pt | اكتشاف الكائن | ✅ | ✅ | ✅ | ✅ |
RT-DETR كبير جداً | rtdetr-x.pt | اكتشاف الكائن | ✅ | ✅ | ✅ | ✅ |
حالات الاستخدام المثالية
يعتبر RT-DETR مناسبًا بشكل خاص للتطبيقات التي تتطلب دقة عالية وأداءً فوريًا:
- القيادة الذاتية: للإدراك البيئي الموثوق به في أنظمة القيادة الذاتية حيث تكون السرعة والدقة أمرًا بالغ الأهمية. تعرف على المزيد حول الذكاء الاصطناعي في السيارات ذاتية القيادة.
- الروبوتات المتقدمة: تمكين الروبوتات من أداء مهام معقدة تتطلب التعرف على الأشياء بدقة والتفاعل في بيئات ديناميكية. استكشف دور الذكاء الاصطناعي في مجال الروبوتات.
- التصوير الطبي: للتطبيقات في مجال الرعاية الصحية حيث يمكن أن تكون الدقة في اكتشاف الأجسام حاسمة في التشخيص. اكتشف الذكاء الاصطناعي في مجال الرعاية الصحية.
- أنظمة المراقبة: للتطبيقات الأمنية التي تتطلب مراقبة في الوقت الحقيقي بدقة كشف عالية. تعرف على أنظمة الإنذار الأمني.
- تحليل صور الأقمار الصناعية: للتحليل التفصيلي للصور عالية الدقة حيث يكون فهم السياق العالمي مهمًا. اقرأ عن الرؤية الحاسوبية في صور الأقمار الصناعية.
الاستشهادات والشكر والتقدير
إذا كنت تستخدم موقع بايدو RT-DETR في أعمال البحث أو التطوير الخاصة بك، يُرجى الاستشهاد بالورقة الأصلية:
بالنسبة لـ RTDETRv2، يمكنك الاستشهاد بورقة 2024:
نود أن نعرب عن تقديرنا لبايدو وفريق PaddlePaddle لإنشاء وصيانة هذا المورد القيّم لمجتمع الرؤية الحاسوبية. إن مساهمتهم في هذا المجال من خلال تطوير كاشف الأجسام القائم على محولات الرؤية في الوقت الحقيقي، RT-DETR ، محل تقدير كبير.
الأسئلة الشائعة
ما هو نموذج بايدو RT-DETR وكيف يعمل؟
RT-DETR من بايدو (محول الكشف في الوقت الحقيقي) هو كاشف متقدم للكائنات في الوقت الحقيقي مبني على بنية محول الرؤية. وهو يعالج الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات من خلال برنامج التشفير الهجين الفعال. ومن خلال استخدام اختيار الاستعلام المدرك لوحدة الاستعلامات IoU، يركز النموذج على الكائنات الأكثر صلة، مما يعزز دقة الكشف. إن سرعة الاستدلال القابلة للتكيف، التي تتحقق من خلال تعديل طبقات وحدة فك التشفير دون إعادة التدريب، تجعل RT-DETR مناسبًا لمختلف سيناريوهات اكتشاف الأجسام في الوقت الفعلي. تعرف على المزيد حول ميزات RT-DETR هنا.
كيف يمكنني استخدام نماذج RT-DETR المدربة مسبقاً والمقدمة من Ultralytics ؟
يمكنك الاستفادة من واجهة برمجة التطبيقات Ultralytics Python لاستخدام نماذج PaddlePaddle RT-DETR المدربة مسبقًا. على سبيل المثال، لتحميل نموذج RT-DETR-l تم تدريبه مسبقًا على نموذج -l مدرب مسبقًا على COCO val2017 وتحقيق معدل FPS مرتفع على T4 GPU ، يمكنك الاستفادة من المثال التالي:
مثال على ذلك
from ultralytics import RTDETR
# Load a COCO-pretrained RT-DETR-l model
model = RTDETR("rtdetr-l.pt")
# Display model information (optional)
model.info()
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with the RT-DETR-l model on the 'bus.jpg' image
results = model("path/to/bus.jpg")
لماذا يجب أن أختار Baidu's RT-DETR على غيره من أجهزة الكشف عن الأجسام في الوقت الحقيقي؟
تبرز RT-DETR من بايدو بفضل أداة التشفير الهجينة الفعالة واختيار الاستعلام المدرك لوحدة المعالجة الآلية (IoU)، مما يقلل بشكل كبير من التكاليف الحسابية مع الحفاظ على دقة عالية. تضيف قدرتها الفريدة على ضبط سرعة الاستدلال باستخدام طبقات مختلفة لفك التشفير دون إعادة التدريب مرونة كبيرة. وهذا يجعلها مفيدة بشكل خاص للتطبيقات التي تتطلب أداءً في الوقت الحقيقي على الدعامات المسرّعة مثل CUDA مع TensorRT متفوقةً بذلك على العديد من أجهزة الكشف عن الكائنات الأخرى في الوقت الحقيقي. كما توفر بنية المحول أيضاً فهماً أفضل للسياق العالمي مقارنةً بأجهزة الكشف التقليدية القائمة على شبكة CNN.
كيف يدعم موقع RT-DETR سرعة الاستدلال القابلة للتكيف مع التطبيقات المختلفة في الوقت الحقيقي؟
تسمح RT-DETR من بايدو بتعديلات مرنة لسرعة الاستدلال باستخدام طبقات مختلفة من وحدة فك الترميز دون الحاجة إلى إعادة التدريب. تُعد هذه القدرة على التكيف أمرًا بالغ الأهمية لتوسيع نطاق الأداء عبر مختلف مهام الكشف عن الكائنات في الوقت الفعلي. وسواء كنت بحاجة إلى معالجة أسرع لاحتياجات الدقة المنخفضة أو اكتشافات أبطأ وأكثر دقة، يمكن تصميم RT-DETR لتلبية متطلباتك الخاصة. تُعد هذه الميزة ذات قيمة خاصة عند نشر النماذج عبر الأجهزة ذات القدرات الحاسوبية المختلفة.
هل يمكنني استخدام نماذج RT-DETR مع أوضاع أخرى Ultralytics ، مثل التدريب والتحقق من الصحة والتصدير؟
نعم، تتوافق نماذج RT-DETR مع أوضاع Ultralytics المختلفة بما في ذلك التدريب والتحقق من الصحة والتنبؤ والتصدير. يمكنك الرجوع إلى الوثائق المعنية للحصول على إرشادات مفصلة حول كيفية استخدام هذه الأوضاع: التدريب والتحقق من الصحة والتنبؤ والتصدير. وهذا يضمن سير عمل شامل لتطوير ونشر حلول اكتشاف الكائنات الخاصة بك. ويوفر إطار عمل Ultralytics واجهة برمجة تطبيقات متناسقة عبر بنيات النماذج المختلفة، مما يسهل العمل مع نماذج RT-DETR .