تخطي إلى المحتوى

YOLOv7 مقابل RTDETRv2: مقارنة تفصيلية بين النموذجين

يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لمشاريع الرؤية الحاسوبية. تقدم هذه الصفحة مقارنة تقنية بين YOLOv7 وRTDETRv2، وهما من أحدث النماذج، لمساعدتك في اتخاذ قرار مستنير. نحن نتعمق في الاختلافات المعمارية ومقاييس الأداء والتطبيقات المثالية.

الطراز الحجم
(بكسل)
مافال
50-95
السرعة
CPU ONNX
(مللي ثانية)
السرعة
T4 T4TensorRT10
(مللي ثانية)
بارامز
(م)

(ب)
يولوف7ل 640 51.4 - 6.84 36.9 104.7
YOLOv7x 640 53.1 - 11.57 71.3 189.9
RTDETRRv2-s 640 48.1 - 5.03 20 60
RTDETRRv2-m 640 51.9 - 7.51 36 100
RTDETRV2-l 640 53.4 - 9.76 42 136
RTDETRV2-X 640 54.3 - 15.03 76 259

YOLOv7: خبير الكفاءة في الوقت الفعلي

تم تقديم YOLOv7 في يوليو 2022 من قبل المؤلفين تشين ياو وانغ وأليكسي بوشكوفسكي وهونغ يوان مارك لياو من معهد علوم المعلومات في الأكاديمية الصينية في تايوان، وهو مشهور بسرعته وكفاءته في مهام اكتشاف الأجسام. يعمل على تحسين بنية نماذج YOLO السابقة، مع إعطاء الأولوية للاستدلال السريع دون التضحية بالدقة بشكل كبير.

البنية والمميزات الرئيسية

بُنيت بنية YOLOv7 على الشبكات العصبية التلافيفية (CNNs) وتتضمن العديد من الميزات الرئيسية لتحسين الأداء:

  • E-ELAN (شبكة تجميع الطبقات الموسعة ذات الكفاءة الموسعة): تعزز كفاءة استخراج الميزات، مما يسمح للنموذج بالتعلم بشكل أكثر فعالية.
  • تحجيم النموذج: يستخدم تقنيات التحجيم المركب لضبط عمق النموذج وعرضه، مما يتيح المرونة لمختلف الموارد الحاسوبية واحتياجات الأداء.
  • تدريب الرؤوس المساعدة: يستخدم رؤوس الخسارة الإضافية أثناء التدريب لتعميق تعلّم الشبكة وتحسين الدقة الإجمالية.

تُمكِّن هذه الخيارات المعمارية YOLOv7 من تحقيق توازن قوي بين السرعة والدقة، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي. لمزيد من التفاصيل، راجع بحث YOLOv7 على موقع Arxiv ومستودع YOLOv7 GitHub الرسمي.

مقاييس الأداء

صُمم YOLOv7 للتفوق في السيناريوهات التي يكون فيها زمن الاستجابة المنخفض أمرًا بالغ الأهمية. يتميز أداؤه بـ

  • mAPval50-95: يحقق ما يصل إلى 53.1% mAP على مجموعة بيانات COCO.
  • سرعة الاستدلال (T4 TensorRT10): بسرعة 6.84 مللي ثانية، مما يتيح المعالجة في الوقت الفعلي.
  • حجم النموذج (المعلمات): يبدأ من 36.9 م بارامتر، مما يوفر حجم نموذج صغير الحجم للنشر الفعال.

حالات الاستخدام ونقاط القوة

يُعدّ YOLOv7 مناسبًا بشكل خاص للتطبيقات التي تتطلب اكتشاف الأجسام في الوقت الفعلي على الأجهزة محدودة الموارد، بما في ذلك

  • الروبوتات: توفير إدراك سريع للملاحة والتفاعل الروبوتي.
  • المراقبة: تمكين المراقبة والتحليل في الوقت الحقيقي في أنظمة الأمن. شاهد كيف يمكن لـ YOLOv8 تعزيز أنظمة الإنذار الأمني.
  • أجهزة الحافة: النشر على الأجهزة الطرفية ذات القدرة الحاسوبية المحدودة، مثل NVIDIA Jetson أو Raspberry Pi.

تكمن قوتها الأساسية في سرعتها وصغر حجم نموذجها نسبيًا، مما يجعلها قابلة للنشر بشكل كبير عبر منصات الأجهزة المختلفة. استكشف المزيد حول بنية YOLOv7 وقدراته في مستندات YOLOv7.

اعرف المزيد عن YOLOv7

RTDETRv2: الدقة مع كفاءة المحول الكهربائي

يتبع RTDETRv2 (الإصدار 2 من محول الكشف في الوقت الحقيقي)، الذي قدمه المؤلفون وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وقوانزونغ وانغ، ويي ليو من بايدو في يوليو 2024، نهجاً مختلفاً من خلال دمج محولات الرؤية (ViT) للكشف عن الكائنات. على عكس أساس شبكة CNN في YOLO تستفيد RTDETRv2 من المحولات لالتقاط سياق الصورة العالمي، مما قد يؤدي إلى دقة أعلى، مع الحفاظ على الأداء في الوقت الفعلي.

البنية والمميزات الرئيسية

يتم تعريف بنية RTDETRv2 من خلال:

  • العمود الفقري لمحول الرؤية (ViT): يستخدم مشفر المحول لمعالجة الصورة بأكملها، والتقاط التبعيات بعيدة المدى الضرورية لفهم المشاهد المعقدة.
  • استخراج ميزات شبكة CNN الهجينة: يجمع بين شبكات CNN لاستخراج الميزات الأولية مع طبقات المحولات لدمج السياق العالمي بفعالية.
  • الكشف بدون مرساة: يبسّط عملية الكشف عن طريق إزالة الحاجة إلى مربعات الارتكاز المحددة مسبقًا، مما يعزز مرونة النموذج ويقلل من التعقيد.

يتيح هذا التصميم القائم على المحولات لـ RTDETRv2 إمكانية تحقيق دقة فائقة، خاصةً في البيئات المعقدة والمزدحمة. تعرف على المزيد حول محولات الرؤية من صفحة مسرد مصطلحات محول الرؤية (ViT). تتوفر ورقة RTDETRRv2 على Arxiv ويوفر مستودع GitHub الرسمي تفاصيل التنفيذ.

مقاييس الأداء

يعطي RTDETRv2 الأولوية للدقة مع الحفاظ على السرعة التنافسية، ويقدم مقاييس الأداء التالية:

  • mAPval50-95: يحقق ما يصل إلى 54.3% mAPval50-95، مما يدل على دقة عالية في اكتشاف الأجسام.
  • سرعة الاستدلال (T4 TensorRT10): تبدأ من 5.03 مللي ثانية، مما يضمن إمكانية الوقت الحقيقي على الأجهزة المناسبة.
  • حجم النموذج (المعلمات): يبدأ بـ 20 مليون معلمة، مما يوفر مجموعة من أحجام النماذج لاحتياجات النشر المختلفة.

حالات الاستخدام ونقاط القوة

يعتبر RTDETRv2 مناسبًا بشكل مثالي للتطبيقات التي تكون فيها الدقة العالية أمرًا بالغ الأهمية، وتتوفر فيها الموارد الحاسوبية:

تكمن قوة RTDETRv2 في بنية المحول الخاص به، مما يسهل استخراج الميزات القوية والدقة العالية، مما يجعله ممتازًا لمهام الكشف المعقدة. يتوفر المزيد من التفاصيل في ملف RT-DETR GitHub README.

تعرف على المزيد حول RTDETRV2

الخاتمة

يُعد كل من YOLOv7 وRTDETRv2 نموذجين قويين لاكتشاف الأجسام، ولكل منهما نقاط قوة فريدة. يتفوق YOLOv7 في تطبيقات الوقت الحقيقي التي تتطلب السرعة والكفاءة، بينما يعطي RTDETRv2 الأولوية للدقة من خلال بنيته القائمة على المحولات. يجب أن يتماشى اختيارك مع المتطلبات المحددة لمشروعك - السرعة للمهام الحساسة للوقت أو الدقة للتحليل التفصيلي.

للمقارنات والنماذج الأخرى، قد تكون مهتمًا أيضًا بـ

📅 تم إنشاؤها منذ 1 سنة مضت ✏️ تم التحديث منذ 1 شهر

التعليقات