تخطي إلى المحتوى

EfficientDet مقابل RTDETRv2: مقارنة تقنية للكشف عن الكائنات

لقد تطور مشهد اكتشاف الأجسام بشكل كبير، حيث تحول من الشبكات العصبية التلافيفية التقليدية (CNNs) إلى البنى الحديثة القائمة على المحولات. ومن المعالم البارزة في هذا التطور معلمين بارزين في هذا التطور هما EfficientDet، وهي بنية شبكة CNN القابلة للتطوير من Google و RTDETRv2، وهو محول كشف في الوقت الحقيقي من Baidu.

يقدم هذا الدليل مقارنة تقنية متعمقة بين هذين النموذجين، ويحلل ابتكاراتهما المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية. كما نستكشف أيضًا كيف Ultralytics YOLO11 كبديل قوي، حيث يقدم نظامًا بيئيًا موحدًا لتطبيقات الرؤية الحاسوبية المتنوعة.

نظرة عامة على النموذج

قبل الغوص في الفروق المعمارية الدقيقة، من الضروري فهم الأصول والأهداف الأساسية لكل نموذج.

تفاصيل EfficientDet: المؤلفون: مينغشينغ تان ورومينغ بانغ وكوك ف. لي
المنظمة: أبحاثGoogle
التاريخ: 2019-11-20
اركسيف: https://arxiv.org/abs/1911.09070
جيثب: https:google
المستندات: https:google

تفاصيل RTDETRv2: المؤلفون: وينيو لوف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وقوانزونغ وانغ، ويي ليو
المنظمة: بايدو
التاريخ: 2023-04-17
اركسيف: https://arxiv.org/abs/2304.08069
جيثب: https:RT-DETR
المستندات: https:RT-DETR

تعرف على المزيد حول RTDETRv2

التحليل المعماري

يكمن الاختلاف الأساسي بين EfficientDet وRTDETRv2 في نهجهما الأساسي لاستخراج الملامح والتنبؤ بالمربع المحدود.

EfficientDet: الكفاءة من خلال التحجيم المركب

صُمم EfficientDet لكسر الاتجاه المتمثل في تكبير النماذج ببساطة لتحقيق دقة أفضل. فهو يستخدم العمود الفقري لشبكة EfficientNet ويقدم شبكة هرمية ثنائية الاتجاه مرجحة (BiFPPN).

  • BiFPPN: على عكس شبكات FPN التقليدية، تسمح الشبكة الثنائية للشبكات متعددة النطاقات بدمج الميزات بسهولة من خلال إدخال أوزان قابلة للتعلم. يتيح ذلك للشبكة تعلم أهمية ميزات المدخلات المختلفة.
  • القياس المركب: يقيس EfficientDet في نفس الوقت دقة الشبكة وعمقها وعرضها باستخدام معامل مركب واحد. يضمن ذلك أن يظل النموذج (المتغيرات من D0 إلى D7) فعالاً عبر مجموعة واسعة من قيود الموارد.

RTDETRv2: محول الكشف في الوقت الحقيقي

يعتمد RTDETRv2 على نجاح DETR (محول الكشف) ولكنه يعالج تكلفته الحسابية العالية وبطء التقارب. إنه نموذج خالٍ من الارتكاز يستفيد من آليات الانتباه الذاتي لنمذجة السياق العالمي.

  • أداة التشفير الهجين: تعالج الميزات متعددة النطاقات من خلال فصل التفاعل داخل النطاق الواحد عن الاندماج عبر النطاقات، مما يحسن سرعة الاستدلال بشكل كبير مقارنةً بالمحوّلات القياسية.
  • اختيار الاستعلامIoU تحديدIoU: تختار هذه الآلية استعلامات الكائنات الأولية عالية الجودة، مما يسرع من تقارب التدريب ويحسن دقة الكشف.
  • المرونة الديناميكية: يسمح RTDETRv2 بتعديل سرعة الاستدلال عن طريق تغيير عدد طبقات وحدة فك التشفير دون الحاجة إلى إعادة التدريب، مما يوفر مرونة فريدة للاستدلال في الوقت الحقيقي.

المحول مقابل استخدام ذاكرة CNN

في حين أن المحولات مثل RTDETRv2 تتفوق في التقاط السياق العالمي، فإنها عادةً ما تتطلب ذاكرة CUDA أكثر بكثير أثناء التدريب مقارنةً بالبنى القائمة على CNN مثل EfficientDet أو YOLO بسبب التعقيد التربيعي لآليات الانتباه.

مقاييس الأداء

عند اختيار نموذج للنشر، يجب على المطورين أن يوازنوا بين الدقةmAP) والسرعة (زمن الوصول) وحجم النموذج (المعلمات). يقارن الجدول أدناه أداء متغيرات EfficientDet مقابل RTDETRv2.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

التحليل:

  • الدقة: يحقق RTDETRV2 عمومًا mAP مرتفعالتحقق الدرجات مقارنةً بنماذج EfficientDet ذات زمن الوصول المماثل على وحدات معالجة الرسومات. على سبيل المثال RTDETRv2-x يفوق EfficientDet-d7 في الدقة مع كونها أسرع بكثير على TensorRT.
  • السرعة: تم تحسين EfficientDet لـ FLOPs، والتي ترتبط بشكل جيد بأداء CPU ولكن ليس دائمًا مع زمن انتقال GPU . تم تصميم RTDETRV2 خصيصًا لزيادة استخدام GPU إلى أقصى حد، مما يجعله متفوقًا للتطبيقات عالية الأداء من جانب الخادم.
  • كفاءة المعلمة: يظل EfficientDet-det-d0 خفيف الوزن للغاية (3.9 مليون بارامتر)، مما يجعله مرشحًا قابلاً للتطبيق للأجهزة القديمة منخفضة الطاقة للغاية حيث لا تتوفر المسرعات الحديثة.

ميزة Ultralytics: بديل فائق

على الرغم من أن EfficientDet و RTDETRv2 نموذجين هائلين، إلا أن المطورين الذين يبحثون عن حل شامل يوازن بين الأداء وسهولة الاستخدام وتعدد الاستخدامات يجب أن يفكروا في Ultralytics YOLO YOLO. نماذج مثل أحدث طرازات YOLO11 توفر خيارًا مقنعًا لمجموعة واسعة من التطبيقات، بدءًا من البحث إلى نشر الإنتاج.

لماذا تختار Ultralytics YOLO11؟

  • سهولة الاستخدام: تشتهر نماذج Ultralytics بتجربة المستخدم المبسطة. فباستخدام واجهة برمجة تطبيقاتPython البسيطة، يمكن للمستخدمين تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر من التعليمات البرمجية. وهذا يتناقض مع ملفات التكوين المعقدة المطلوبة لنماذج EfficientDet أو حلقات التدريب المكثفة للذاكرة في RTDETR.
  • تعدد الاستخدامات: على عكس التركيز على مهمة واحدة لدى العديد من المنافسين، يدعم YOLO11 اكتشاف الأجسام، وتجزئة النماذج، والتصنيف، وتقدير الوضع، واكتشاف الأجسام الموجهة (OBB) في إطار عمل واحد.
  • نظام بيئي جيد الصيانة: توفر Ultralytics نظامًا بيئيًا قويًا بما في ذلك Ultralytics HUB لإدارة مجموعة البيانات والتدريب على النماذج، إلى جانب التوثيق الشامل والدعم المجتمعي.
  • توازن الأداء: تم تصميم نماذج Ultralytics بدقة فائقة لتوفير مفاضلة ممتازة بين السرعة والدقة. وهي مصممة لتكون فعالة من حيث الذاكرة، مما يسمح بالتدريب على وحدات معالجة الرسومات الاستهلاكية القياسية حيث قد تعاني نماذج المحولات.

تعرف على المزيد حول YOLO11

مثال على الكود: البدء باستخدام YOLO11

يوضّح المثال التالي مدى سهولة تشغيل الاستدلال باستخدام Ultralytics YOLO11 ويوضح بساطة واجهة برمجة التطبيقات مقارنةً بالأطر القديمة.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")  # 'n' for nano, or try 's', 'm', 'l', 'x'

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

حالات الاستخدام المثالية

يعتمد اختيار النموذج المناسب بشكل كبير على قيود الأجهزة الخاصة بك ومتطلبات المشروع.

متى تستخدم EfficientDet

  • أجهزة الحافة القديمة: إذا كنت تقوم بالنشر على وحدات المعالجة المركزية القديمة أو الأجهزة التي يكون فيها الالتفافات القابلة للفصل بعمق هي العملية الفعالة الوحيدة.
  • قيود المعلمات: بالنسبة للتطبيقات التي يكون فيها حجم التخزين المطلق لملف النموذج هو عنق الزجاجة الأساسي (على سبيل المثال, EfficientDet-d0 is < 4MB).

متى تستخدم RTDETRV2

  • نشر GPU المتطورة: عندما يكون لديك إمكانية الوصول إلى وحدات معالجة رسومات NVIDIA القوية (مثل T4 وA100) ويمكنك الاستفادة من تحسين TensorRT .
  • فهم المشهد المعقد: للسيناريوهات التي تتطلب إمكانات السياق العام للمتحولات، مثل اكتشاف الأجسام في المشاهد المزدحمة أو المحجوبة.

متى يجب استخدام Ultralytics YOLO11

  • التطوير السريع: عندما تحتاج إلى الانتقال من مجموعة البيانات إلى النموذج المنتشر بسرعة باستخدام أدوات قياسية مثل Google Colab أو البيئات المحلية.
  • الذكاء الاصطناعي في الوقت الحقيقي للحافة: تم تحسين YOLO11 بشكل كبير للأجهزة المتطورة مثل NVIDIA Jetson وRaspberry Pi، مما يوفر مفاضلات فائقة بين mAP الطريق.
  • متطلبات متعددة المهام: إذا كان مشروعك يتطلب أقنعة تجزئة أو نقاط أساسية للوضع بالإضافة إلى المربعات المحدودة.
  • كفاءة الموارد: عندما تكون موارد التدريب محدودة (على سبيل المثال، ذاكرة الوصول العشوائي المحدودة)، تكون نماذج YOLO أكثر كفاءة في التدريب من البدائل القائمة على المحولات.

الخلاصة

يمثل كل من EfficientDet وRTDETRRv2 إنجازين مهمين في مجال الرؤية الحاسوبية. دفع EfficientDet حدود الكفاءة من خلال التوسع، في حين أثبت RTDETRv2 أنه يمكن جعل المحولات سريعة بما يكفي لتطبيقات الوقت الحقيقي.

ومع ذلك، بالنسبة للغالبية العظمى من المطورين والشركات، تمثل نماذجUltralytics YOLO الحل الأكثر عملية. من خلال الجمع بين الأداء المتطور وتجربة مطورين لا مثيل لها ونظام بيئي غني، تمكّنك Ultralytics من بناء حلول ذكاء اصطناعي قوية بشكل أسرع وأكثر موثوقية.

استكشف المزيد من المقارنات

لمزيد من المعلومات لمساعدتك في اتخاذ قرارك، استكشف هذه المقارنات الأخرى:


تعليقات