تخطي إلى المحتوى

YOLOv10 مقابل RTDETRv2: مقارنة تقنية لاكتشاف الأجسام

يُعد اختيار النموذج الأمثل لاكتشاف الأجسام قرارًا حاسمًا لمشاريع الرؤية الحاسوبية. توفر Ultralytics مجموعة من النماذج المصممة خصيصًا لتلبية الاحتياجات المتنوعة، بدءًا من سلسلة Ultralytics YOLO الفعالة إلى سلسلة RT-DETR عالية الدقة. تقدم هذه الصفحة مقارنة تقنية مفصلة بين YOLOv10 وRT-DETRv2، وهما نموذجان متطوران لاكتشاف الأجسام، لمساعدتك في اتخاذ قرار مستنير.

RTDETRv2: الكشف في الوقت الحقيقي عالي الدقة

RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متقدم للكشف عن الأجسام يعطي الأولوية للدقة العالية والأداء في الوقت الحقيقي. تم تطويره من قبل Baidu وتم تفصيله في ورقة بحثية في Arxiv صدرت في يوليو 2024، يعتمد RTDETRRv2 على بنية محول الرؤية (ViT) لتحقيق أحدث النتائج في السيناريوهات التي تتطلب تحديد موقع الكائن وتصنيفه بدقة.

البنية والمميزات الرئيسية

تستفيد بنية RTDETRv2 من نقاط قوة المحولات، مما يتيح لها التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. ويسمح هذا النهج القائم على المحولات للنموذج بتقييم أهمية مناطق الصور المختلفة، مما يؤدي إلى تعزيز استخراج السمات وتحسين الدقة، خاصةً في المشاهد المعقدة. وخلافاً للشبكات العصبية التلافيفية التقليدية (CNNs)، تتفوق RT-DETRv2 في فهم السياق الأوسع للصورة، مما يساهم في تعزيز قدراتها القوية في الكشف. ويوفر مستودعRT-DETR GitHub مزيداً من التفاصيل حول تطبيقه.

مقاييس الأداء

يُظهر RTDETRv2 نتائج مبهرة في mAP، خاصةً مع المتغيرات الأكبر مثل RTDETRv2-x التي تحقق mAPval50-95 من 54.3. كما أن سرعات الاستدلال تنافسية أيضًا، مما يجعلها مناسبة للتطبيقات في الوقت الحقيقي عند استخدام تسريع الأجهزة مثل وحدات معالجة الرسومات NVIDIA T4. يوفر جدول المقارنة أدناه تفصيلاً مفصلاً لمقاييس الأداء عبر مختلف متغيرات RTDETRv2 و YOLO10.

نقاط القوة والضعف

نقاط القوة:

  • دقة فائقة: تسهّل بنية المحول دقة عالية في اكتشاف الأجسام.
  • القدرة في الوقت الحقيقي: تحقق سرعات استدلال تنافسية، خاصة مع تسريع الأجهزة من محركات الاستدلال مثل TensorRT.
  • استخراج الميزات بفعالية: تلتقط محولات الرؤية ببراعة السياق العام والتفاصيل المعقدة داخل الصور.

نقاط الضعف:

  • حجم نموذج أكبر: تحتوي النماذج مثل RTDETRv2-x على عدد معلمات أكبر وعمليات تشغيل حرة أعلى مقارنةً بنماذج YOLO الأصغر، مما يتطلب المزيد من الموارد الحاسوبية.
  • قيود سرعة الاستدلال: في حين أن سرعة الاستدلال في الوقت الحقيقي، قد تكون سرعة الاستدلال أبطأ من أسرع نماذج YOLO خاصةً على الأجهزة محدودة الموارد.

حالات الاستخدام المثالية

يعتبر RTDETRv2 مناسبًا بشكل مثالي للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتتوفر فيها موارد حسابية كافية. وتشمل هذه التطبيقات:

تعرف على المزيد حول RTDETRV2

YOLOv10: الكشف الفعال والمتعدد الاستخدامات عن الأجسام

YOLOv10(أنت تنظر مرة واحدة فقط 10) هو أحدث تكرار في سلسلةYOLO من برنامج Ultralytics الذي يشتهر بسرعته وكفاءته في اكتشاف الأجسام. تم تقديمه في مايو 2024 من قبل مؤلفين من جامعة تسينغهوا، كما هو مفصل في ورقة Arxiv البحثية الخاصة بهم، يعتمد YOLOv10 على إصدارات YOLO السابقة، مما يعزز الدقة والأداء مع الحفاظ على ميزته في الوقت الفعلي. يوفر مستودع GitHub الرسمي تطبيق PyTorch الرسمي.

البنية والمميزات الرئيسية

يواصل YOLOv10 تقليد YOLO في اكتشاف الأجسام على مرحلة واحدة، مع التركيز على الكفاءة والسرعة المبسطة. وهو يتضمن ابتكارات وتحسينات معمارية لتقليل التكرار الحسابي وتحسين الدقة. وتتمثل إحدى الميزات الرئيسية في نهجه الخالي من نظام إدارة الشبكة (NMS)، مما يتيح النشر من البداية إلى النهاية وتقليل زمن الاستجابة للاستدلال. وهذا يجعل YOLOv10 مفيدًا بشكل خاص للتطبيقات في الوقت الفعلي والنشر على الأجهزة محدودة الموارد.

مقاييس الأداء

يحقق YOLOv10 توازنًا بين السرعة والدقة، حيث يقدم أحجام نماذج مختلفة من YOLOv10n إلى YOLOv10x. على الرغم من تأخره قليلاً عن RTDETRv2 في الدقة العالية، إلا أن YOLOv10 يتفوق في سرعة الاستدلال وكفاءته. على سبيل المثال، يحقق YOLOv10n سرعة استنتاج سريعة تبلغ 1.56 مللي ثانية على TensorRT مما يجعله مثاليًا للتطبيقات الحساسة لزمن الاستجابة. يوفّر دليل مقاييس أداءYOLO المزيد من السياق حول هذه المقاييس.

نقاط القوة والضعف

نقاط القوة:

  • كفاءة وسرعة عالية: مُحسَّن للاستدلال السريع، وهو أمر بالغ الأهمية للتطبيقات في الوقت الحقيقي والنشر على الحافة.
  • تعدد الاستخدامات: متوفر بأحجام متعددة (n، s، m، m، b، l، x) مما يوفر أداءً قابلاً للتطوير واستخدامًا للموارد.
  • تدريب خالٍ من نظام إدارة الشبكة: يتيح النشر من البداية إلى النهاية ويقلل من زمن الاستجابة للاستدلال.
  • حجم نموذج أصغر: عدد معلمات وفلوب أقل مقارنةً بنموذج RTDETRv2، مما يجعله مناسبًا للبيئات محدودة الموارد.

نقاط الضعف:

  • دقة أقل مقارنةً بـ RTDETRv2: على الرغم من دقته العالية، إلا أنه قد لا يصل إلى دقة RTDETRv2 من الدرجة الأولى في السيناريوهات المعقدة.
  • المقايضة المحتملة: قد ينطوي تحقيق السرعة القصوى على مقايضة طفيفة في الدقة مقارنةً بالنماذج الأكبر حجماً والأكثر كثافة من الناحية الحسابية.

حالات الاستخدام المثالية

إن كفاءة YOLOv10 وسرعته تجعل منه خيارًا ممتازًا للتطبيقات التي تتطلب اكتشاف الأجسام في الوقت الفعلي، خاصةً على الأجهزة ذات الموارد المحدودة. وتشمل هذه التطبيقات

اعرف المزيد عن YOLO10

جدول مقارنة النماذج

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4TensorRT10
(مللي ثانية)
بارامز
(م)

(ب)
يولوف 10 ن 640 39.5 - 1.56 2.3 6.7
YOLOv10s 640 46.7 - 2.66 7.2 21.6
يولوف 10 م 640 51.3 - 5.48 15.4 59.1
يولوف 10 ب 640 52.7 - 6.54 24.4 92.0
يولوف 10 ل 640 53.3 - 8.33 29.5 120.3
يولوف 10x 640 54.4 - 12.2 56.9 160.4
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259

الخاتمة

يعد كل من RTDETRv2 و YOLOv10 نموذجين قويين للكشف عن الأجسام، وقد صُمم كل منهما لأولويات مختلفة. يتفوق RTDETRRv2 عندما تكون الدقة من الدرجة الأولى مطلوبة والموارد الحاسوبية متاحة، مما يجعله مناسبًا للتطبيقات المعقدة والحرجة. أما YOLOv10، في المقابل، فهو الخيار المفضل عندما يكون الأداء في الوقت الحقيقي والكفاءة والنشر على منصات محدودة الموارد أمرًا بالغ الأهمية.

بالنسبة للمستخدمين الذين يستكشفون خيارات أخرى، تقدم Ultralytics مجموعة متنوعة من النماذج، بما في ذلك نماذج ذات مفاضلات متفاوتة بين السرعة والدقة:

في نهاية المطاف، يعتمد الاختيار بين RTDETRv2 و YOLOv10، أو نماذج Ultralytics الأخرى، على الاحتياجات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع الموازنة بعناية بين الدقة والسرعة وقيود الموارد. ارجع إلى وثائقUltralytics ومستودع GitHub للحصول على معلومات شاملة وأدلة تنفيذ.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات