تخطي إلى المحتوى

RTDETRv2 مقابل YOLO: مقارنة تقنية للكشف عن الأجسام

يعد اختيار النموذج الأمثل لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح تطبيقات الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج، وتقدم هذه الصفحة مقارنة تقنية مفصلة بين RTDETRv2 YOLO وهما نموذجان متقدمان في مجال اكتشاف الأجسام. سيساعدك هذا التحليل في اتخاذ قرار مستنير بناءً على متطلبات مشروعك.

RTDETRv2: الكشف عالي الدقة المستند إلى المحولات الكهربائية

إن RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متطور للكشف عن الأجسام تم تطويره من قبل Baidu، وهو معروف بدقته العالية وأدائه الفعال في الوقت الحقيقي. تم تقديمه في 2023-04-17 في الورقة البحثية"DETRs يتفوق على YOLOs في الكشف عن الأجسام في الوقت الحقيقي" من قبل Wenyu Lv و Yian Zhao و Qinyao Chang و Kui Huang و Guanzhong Wang و Yi Liu، يستفيد RTDETRv2 من بنية محول الرؤية (ViT) لتحقيق استخراج قوي للميزات وفهم السياق العالمي.

الهندسة المعمارية والميزات

يتميز RTDETRv2 بهيكله القائم على المحولات، مما يمكّنه من التقاط السياق العام داخل الصور بشكل أكثر فعالية من أجهزة الكشف التقليدية القائمة على شبكة CNN. تتيح هذه البنية دقة فائقة، خاصةً في المشاهد المعقدة حيث يكون فهم السياق الأوسع أمرًا بالغ الأهمية. تم تنفيذ النموذج في PyTorch وهو متاح على GitHub.

الأداء

يُظهر RTDETRv2 مقاييس أداء مثيرة للإعجاب، حيث حقق mAPval50-95 من 54.3 لأكبر متغير له، RTDETRv2-x. كما أن سرعات الاستدلال تنافسية أيضاً، مما يجعلها مناسبة للتطبيقات في الوقت الحقيقي عند استخدام أجهزة قادرة على ذلك.

نقاط القوة والضعف

نقاط القوة:

  • دقة عالية: توفر بنية المحول دقة ممتازة في اكتشاف الأجسام.
  • القدرة في الوقت الحقيقي: تحقق سرعات استنتاج سريعة، خاصةً مع تسريع TensorRT .
  • التعلم السياقي الفعال: تتفوق محولات الرؤية في التقاط السياق العام في الصور.

نقاط الضعف:

  • حجم النموذج الأكبر: تحتوي نماذج RTDETRv2، لا سيما المتغيرات الأكبر حجمًا، على عدد كبير من المعلمات وعمليات التشغيل التلقائي، مما يتطلب المزيد من الموارد الحاسوبية.
  • الطلب الحسابي: على الرغم من تحسينه للسرعة، إلا أنه قد لا يكون خفيف الوزن مثل بعض النماذج الأخرى للنشر على أجهزة محدودة الموارد للغاية.

حالات الاستخدام

يعتبر RTDETRv2 مناسبًا بشكل مثالي للتطبيقات التي تعطي الأولوية للدقة العالية والوصول إلى موارد حاسوبية كبيرة:

تعرف على المزيد حول RTDETRV2

YOLO: الكشف الفعال والسريع عن الأشياء

تم تصميم YOLO(سلسلة DAMO YOLO)، التي طورتها مجموعة علي بابا وتم تقديمها في 2022-11-23 في الورقة البحثية"YOLO: إعادة التفكير في الكشف عن الأشياء بدقة وقابلية للتطوير" من قبل شيانزي شو، ويكي جيانغ، وويهوا تشن، ويليون هوانغ، ويوان تشانغ، ويوان تشانغ، وشيويو صن، من أجل السرعة والكفاءة مع الحفاظ على الدقة التنافسية. يركز YOLO على الأداء في الوقت الحقيقي وهو متاح على GitHub.

الهندسة المعمارية والميزات

يشتمل YOLO على العديد من التقنيات المبتكرة لتعزيز الكفاءة، بما في ذلك العمود الفقري للبنية العصبية (NAS)، و RepGFPN الفعال، و ZeroHead. تساهم هذه الخيارات المعمارية في سرعته وتقليل متطلباته الحسابية، مما يجعله خياراً ممتازاً للتطبيقات في الوقت الحقيقي وعمليات النشر على الحافة.

الأداء

يتفوق YOLO في سرعة الاستدلال، حيث يقدم أداءً سريعًا للغاية على منصات الأجهزة المختلفة. وفي حين أن دقته أقل قليلاً من دقة RTDETRv2، إلا أنه يوفر توازناً مقنعاً بين السرعة والدقة، خاصةً للتطبيقات التي تتطلب معالجة سريعة.

نقاط القوة والضعف

نقاط القوة:

  • سرعة عالية: مُحسَّن للاستدلال السريع للغاية، وهو مثالي لأنظمة الوقت الحقيقي.
  • الكفاءة: أحجام النماذج الأصغر والمتطلبات الحسابية المنخفضة تجعلها مناسبة للأجهزة المتطورة.
  • قابلية التوسع: مصممة لتكون قابلة للتطوير والتكيف مع سيناريوهات النشر المختلفة.

نقاط الضعف:

  • الدقة: على الرغم من دقته، إلا أنه قد لا يحقق نفس درجات الدقة التي يحققها RTDETRv2 في الخرائط الجغرافي، خاصةً في السيناريوهات التي تتطلب أعلى درجات الدقة.
  • الفهم السياقي: نظرًا لكونها تتمحور حول CNN، فقد لا تلتقط السياق العالمي بفعالية مثل النماذج القائمة على المحولات في المشاهد شديدة التعقيد.

حالات الاستخدام

يعد YOLO مناسبًا تمامًا للتطبيقات التي تكون فيها السرعة والكفاءة أمرًا بالغ الأهمية، وحيثما يكون النشر على أجهزة أقل قوة ضروريًا:

  • المراقبة بالفيديو في الوقت الحقيقي: مثالية لتطبيقات مثل أنظمة الإنذار الأمني التي تتطلب الكشف الفوري.
  • حوسبة الحافة: مثالية للنشر على الأجهزة المتطورة مثل Raspberry Pi و NVIDIA Jetson.
  • تطبيقات المعالجة السريعة: ملائمة للروبوتات(ROS Quickstart) والتطبيقات الأخرى التي تتطلب اتخاذ قرارات سريعة.
  • عمليات النشر المتنقلة: كفاءة كافية لتطبيقات الأجهزة المحمولة والبيئات محدودة الموارد.

اعرف المزيد عن YOLO

جدول مقارنة النماذج

الطراز الحجم(بكسل) مافال
50-95
وحدة معالجةCPU ONNX
(مللي ثانية)
SpeedT4TensorRT10
(مللي ثانية)
بارامز(م) الآفاق(ب)
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259
دامو يولوت 640 42.0 - 2.32 8.5 18.1
دامو يولو 640 46.0 - 3.45 16.3 37.8
دامو يولوم 640 49.2 - 5.09 28.2 61.8
دامو يولول 640 50.8 - 7.18 42.1 97.3

الخاتمة

يُعدّ كل من RTDETRv2 YOLO نموذجين قويين لاكتشاف الأجسام، ولكل منهما مزايا مميزة. يبرز RTDETRV2 عندما تكون الأولوية للدقة القصوى والموارد الحسابية متوفرة. ويُعد YOLO الخيار المفضل للتطبيقات التي تتطلب معالجة في الوقت الفعلي والنشر الفعال، خاصةً على الأجهزة الطرفية.

بالنسبة للمستخدمين الذين يفكرون في خيارات أخرى، تقدم Ultralytics مجموعة واسعة من النماذج، بما في ذلك:

يجب أن يعتمد الاختيار بين RTDETRv2 أو YOLO أو نماذج Ultralytics الأخرى على الاحتياجات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع مراعاة التوازن بين الدقة والسرعة والموارد المتاحة بعناية. لمزيد من التفاصيل وأدلة التنفيذ، راجع وثائقUltralytics ومستودعUltralytics GitHub.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات