تخطي إلى المحتوى

RTDETRRv2 مقابل YOLOX: مقارنة تقنية للكشف عن الأجسام

يعد اختيار النموذج المناسب لاكتشاف الأجسام أمرًا بالغ الأهمية لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج، بما في ذلك سلسلة YOLO وسلسلة RT-DETR ولكل منها نقاط قوة فريدة. توفر هذه الصفحة مقارنة فنية مفصلة بين RTDETRv2 وYOLOX، وهما نموذجين من أحدث النماذج لاكتشاف الأجسام، لمساعدتك في اتخاذ قرار مستنير بناءً على متطلبات مشروعك.

RTDETRv2: الكشف في الوقت الحقيقي عالي الدقة

RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متقدم للكشف عن الأجسام تم تطويره من قبل Baidu، وهو معروف بدقته العالية وأدائه في الوقت الحقيقي. تم تقديم RTDETRv2 في 2023-04-17 وتم تفصيله في ورقة Arxiv البحثية الخاصة به، ويستخدم RTDETRv2 بنية محول الرؤية (ViT) لتحقيق أحدث النتائج. التطبيق الرسمي متاح على GitHub.

البنية والمميزات الرئيسية

تعتمد بنية RTDETRv2 على محولات الرؤية، مما يمكّنها من التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. يسمح هذا النهج القائم على المحولات باستخراج الميزات القوية وتحديد موقع الكائن بدقة، خاصةً في المشاهد المعقدة. وعلى عكس النماذج التقليدية القائمة على شبكة CNN، تتفوق RTDETRv2 في فهم العلاقات بين الأجزاء المختلفة من الصورة، مما يؤدي إلى تحسين دقة الكشف.

مقاييس الأداء

تُظهر نماذج RTDETRv2 نتائج مبهرة في mAP، حيث تحقق المتغيرات الأكبر مثل RTDETRv2-x سرعة mAPval50-95 تبلغ 54.3. في حين أن مقاييس سرعة CPU ONNX التفصيلية غير متوفرة في الجدول أدناه، فإن سرعات TensorRT الخاصة بها تنافسية، مما يجعلها مناسبة لتطبيقات الوقت الحقيقي على أجهزة قادرة مثل وحدات معالجة الرسومات NVIDIA T4. للاطلاع على مقاييس الأداء التفصيلية، راجع جدول مقارنة النماذج أدناه.

نقاط القوة والضعف

نقاط القوة:

  • دقة فائقة: توفر بنية المحول دقة ممتازة في اكتشاف الأجسام.
  • قادرة على العمل في الوقت الحقيقي: تحقق سرعات استدلال تنافسية مع تسريع الأجهزة، ومناسبة لأنظمة الوقت الحقيقي.
  • استخراج الميزات بفعالية: تلتقط محولات الرؤية السياق العام والتفاصيل المعقدة بفعالية.

نقاط الضعف:

  • حجم نموذج أكبر: تحتوي نماذج RTDETRv2 وخاصةً الإصدارات الأكبر حجمًا على عدد أكبر من المعلمات وعمليات التشغيل الحر، مما يتطلب المزيد من الموارد الحاسوبية.
  • قيود سرعة الاستدلال: على الرغم من أنه في الوقت الحقيقي، إلا أنه قد لا يكون بنفس سرعة النماذج المحسّنة للغاية مثل YOLOX على الأجهزة الأقل قوة.

حالات الاستخدام المثالية

إن RTDETRv2 هو الأنسب للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتتوفر فيها موارد حسابية كافية. وتشمل حالات الاستخدام المثالية ما يلي:

تعرف على المزيد حول RTDETRV2

YOLOX: الكشف الفعال والمتعدد الاستخدامات عن الأشياء

YOLOX(أنت تنظر مرة واحدة فقط X) هو نموذج للكشف عن الأجسام الخالية من الارتكازات طوّرته شركة Megvii، وهو معروف بأدائه العالي وكفاءته. تم تقديمه في 2021-07-18 وتم تفصيله في ورقة Arxiv البحثية الخاصة به، يعتمد YOLOX على سلسلة YOLO ويقدم تصميمًا مبسطًا مع أحدث النتائج. توفر الوثائق الرسمية تفاصيل شاملة.

البنية والمميزات الرئيسية

يتبنى YOLOX نهجًا خاليًا من الارتكاز، مما يلغي الحاجة إلى مربعات الارتكاز المحددة مسبقًا، مما يبسّط النموذج ويقلل من المعلمات المفرطة. يتميز برأس منفصل للتصنيف والتوطين، مما يعزز كفاءة التدريب والدقة. يتم استخدام تقنيات متقدمة لزيادة البيانات مثل MixUp و Mosaic لتحسين المتانة. تم تصميم YOLOX لتحقيق سرعة وكفاءة عالية، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي والنشر على منصات أجهزة مختلفة.

مقاييس الأداء

تقدم YOLOX مجموعة من أحجام النماذج، من النانو إلى XLarge، لتلبية مختلف الميزانيات الحسابية واحتياجات الدقة. تحقق نماذج YOLOX توازنًا جيدًا بين السرعة والدقة. على سبيل المثال، يحقق نموذج YOLOX-s معدل mAPval50-95 يبلغ 40.5 مع سرعات استنتاج عالية على TensorRT. ارجع إلى جدول مقارنة النماذج أدناه للاطلاع على مقاييس الأداء التفصيلية عبر متغيرات YOLOX المختلفة.

نقاط القوة والضعف

نقاط القوة:

  • كفاءة وسرعة عالية: مُحسَّن للاستدلال السريع، مما يجعله مثاليًا للتطبيقات في الوقت الفعلي.
  • تصميم خالٍ من المرساة: يبسط البنية وعملية التدريب، مما يحسن التعميم.
  • أحجام النماذج المتنوعة: تقدم مجموعة من أحجام النماذج لتناسب مختلف القيود الحسابية.
  • أداء قوي: يحقق توازناً جيداً بين السرعة والدقة.

نقاط الضعف:

  • مقايضة الدقة: على الرغم من كفاءتها، إلا أن دقتها قد تكون أقل قليلاً من النماذج القائمة على المحولات مثل RTDETRv2 في السيناريوهات المعقدة.
  • الأداء في المشاهد المعقدة: بصفته كاشفًا أحادي المرحلة، قد يكون أقل قوة في المشاهد شديدة الازدحام مقارنةً ببعض أجهزة الكشف ذات المرحلتين، على الرغم من أن YOLOX يخفف من هذه الفجوة بشكل كبير مقارنةً بإصدارات YOLO السابقة.

حالات الاستخدام المثالية

يعد YOLOX مناسبًا بشكل مثالي للتطبيقات التي تتطلب اكتشاف الأجسام في الوقت الفعلي مع التركيز على السرعة والكفاءة. وتشمل هذه التطبيقات:

اعرف المزيد عن يولوكس

جدول مقارنة النماذج

الطراز الحجم(بكسل) مافال
50-95
وحدة معالجةCPU ONNX
(مللي ثانية)
SpeedT4TensorRT10
(مللي ثانية)
بارامز(م) الآفاق(ب)
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259
يولوكسنانو 416 25.8 - - 0.91 1.08
يولوكستيني 416 32.8 - - 5.06 6.45
يولوكس 640 40.5 - 2.56 9.0 26.8
يولوكسم 640 46.9 - 5.43 25.3 73.8
يولوكسل 640 49.7 - 9.04 54.2 155.6
يولوكس 640 51.1 - 16.1 99.1 281.9

الخاتمة

يُعتبر كل من RTDETRRv2 و YOLOX نموذجين قويين لاكتشاف الأجسام، لكنهما يلبيان أولويات مختلفة. يعتبر RTDETRRv2 الخيار الأفضل عندما تكون الدقة القصوى مطلوبة والموارد الحسابية ليست عاملاً مقيدًا. على العكس من ذلك، يتفوق YOLOX في السيناريوهات التي يكون فيها الأداء في الوقت الحقيقي والكفاءة والنشر على أجهزة أقل قوة أمرًا بالغ الأهمية.

بالنسبة للمستخدمين الذين يستكشفون خيارات أخرى، تقدم Ultralytics مجموعة واسعة من النماذج، بما في ذلك:

يجب أن يسترشد الاختيار بين RTDETRv2 و YOLOX ونماذج Ultralytics الأخرى بالاحتياجات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع الموازنة بعناية بين الدقة والسرعة والموارد المتاحة. استكشف وثائقUltralytics ومستودع GitHub لمزيد من المعلومات المتعمقة وتفاصيل التنفيذ.

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات