تخطي إلى المحتوى

EfficientDet مقابل RTDETRv2: مقارنة تقنية لاكتشاف الكائنات الحديثة

يتطلب اختيار البنية المثلى لاكتشاف الكائنات إجراء مفاضلة بين تعقيد البنية ووقت الاستدلال ودقة الاكتشاف. تحلل هذه المقارنة التقنية نهجين متميزين: EfficientDet، وهي بنية CNN مركبة قابلة للتوسع من Google و RTDETRv2، وهو نموذج قائم على محول في الوقت الفعلي من Baidu.

بينما وضعت EfficientDet معايير قياسية للقابلية للتوسع في عام 2019، يمثل RTDETRv2 التحول نحو بنى المحولات التي تقضي على عدم القمع الأقصى (NMS). بالنسبة للمطورين الذين يسعون إلى تحقيق أعلى مستويات الأداء في عام 2026، نستكشف أيضًا كيف يجمع Ultralytics بين أفضل ما في هذين العالمين بفضل تصميمه الأصلي الشامل.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

EfficientDet: إرث التوسع المركب

تم إصدار EfficientDet في أواخر عام 2019، وقد قدم طريقة منهجية لتوسيع نطاق الشبكات العصبية التلافيفية (CNNs). وقد تم تصميمه لتحسين الكفاءة عبر نطاق واسع من قيود الموارد، من الأجهزة المحمولة إلى مراكز البيانات.

البنية والميزات الرئيسية

يستخدم EfficientDet شبكة EfficientNet الأساسية مقترنة بشبكة هرمية ثنائية الاتجاه مرجحة (BiFPN). تتيح شبكة BiFPN دمج الميزات متعددة المقاييس بسهولة وسرعة، مما يمكّن النموذج من تعلم أهمية الميزات المختلفة للمدخلات بشكل فعال. كان الابتكار الأساسي هو Compound Scaling، الذي يقيس بشكل موحد دقة وعمق وعرض الشبكة الأساسية وشبكة الميزات وشبكات التنبؤ بالصندوق/الفئة.

على الرغم من نجاحه الأكاديمي، يعتمد EfficientDet على صناديق الربط وخطوات المعالجة اللاحقة الثقيلة مثل Non-Maximum Suppression (NMS)، والتي يمكن أن تؤدي إلى تباين في زمن الاستجابة وتعقيد عملية النشر على الأجهزة الطرفية.

RTDETRv2: محولات الوقت الفعلي

يعتمد RTDETRv2 (محول الكشف في الوقت الحقيقي v2) على نجاح RT-DETR الأصلي، ويهدف إلى حل مشكلة التكلفة الحسابية العالية المرتبطة بالنماذج القائمة على DETR مع الحفاظ على دقتها الفائقة وإدراكها للسياق العام.

البنية والميزات الرئيسية

يستخدم RTDETRv2 مشفرًا هجينًا يعالج الميزات متعددة النطاقات بشكل أكثر كفاءة من محولات الرؤية القياسية (ViTs). وتتمثل سمة مميزة له في تصميمهNMS. ومن خلال التنبؤ بالأشياء مباشرة كمجموعة، فإنه يلغي الحاجة إلى المعالجة اللاحقة الاستدلالية، مما يؤدي نظريًا إلى استقرار سرعة الاستدلال.

ومع ذلك، من المعروف أن النماذج القائمة على المحولات تستهلك الكثير من الذاكرة. يتطلب تدريب RTDETRv2 عادةً GPU كبيرة GPU ، مما يستلزم في كثير من الأحيان أجهزة عالية الجودة مثل NVIDIA لتحقيق تقارب فعال، على عكس YOLO القائمة على CNN والتي تكون أكثر تسامحًا مع الأجهزة الاستهلاكية.

تعرف على المزيد حول RT-DETR

ميزة Ultralytics: تقديم YOLO26

في حين يمثل EfficientDet و RTDETRv2 معالم بارزة، فإن Ultralytics (الذي تم إصداره في يناير 2026) يضع معيارًا جديدًا من خلال دمج نقاط القوة في كلتا البنيتين في إطار عمل موحد وعالي الأداء.

تم تصميم YOLO26 للمطورين الذين يحتاجون إلى دقة المحول وسرعة شبكة CNN خفيفة الوزن.

  • تصميم شامل NMS: مثل RTDETRv2، YOLO26 هو تصميم شامل أصلاً. فهو يلغي الحاجة إلى NMS ، مما يضمن زمن انتقال حتمي، وهو أمر بالغ الأهمية للتطبيقات الحساسة من حيث السلامة مثل المركبات ذاتية القيادة.
  • مُحسّن MuSGD: مستوحى من الابتكارات في تدريب نموذج اللغة الكبيرة (LLM) من Moonshot AI، يستخدم YOLO26 مُحسّن MuSGD. يضمن هذا المزيج من SGD Muon ديناميكيات تدريب مستقرة وتقاربًا أسرع، مما يقلل من "التجربة والخطأ" التي غالبًا ما تكون مطلوبة عند ضبط المعلمات الفائقة للمحولات.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يبسط YOLO26 الرسم البياني للنموذج. هذا التحسين ضروري لتصدير النماذج إلى تنسيقات مثل ONNX CoreML حيث يمكن أن تتسبب طبقات الخسارة المعقدة في مشكلات التوافق على الأجهزة الطرفية.
  • توازن الأداء: يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة، مما يجعله أكثر ملاءمةً للنشر على الحافة من EfficientDet-d7 الذي يتطلب حوسبة مكثفة أو RTDETRv2 الذي يستهلك الكثير من ذاكرة VRAM.

تعرف على المزيد حول YOLO26

نظرة فاحصة فنية

كفاءة التدريب والذاكرة

أحد العوامل المهمة التي تميز بين هذه النماذج هو استهلاكها للموارد أثناء التدريب.

  • كفاءة الكشف: على الرغم من كفاءة المعلمات، إلا أن طريقة التوسع المركب يمكن أن تؤدي إلى شبكات عميقة بطيئة في التدريب. كما أن اتصالات BiFPN المعقدة تزيد من تكلفة الوصول إلى الذاكرة (MAC)، مما يؤدي إلى إبطاء معدل النقل.
  • RTDETRv2: تتطلب المحولات حساب خرائط الانتباه، والتي تتناسب تربيعيًا مع طول التسلسل. ينتج عن ذلك استخدام عالٍ لذاكرة VRAM، مما يجعل من الصعب التدريب باستخدام أحجام دفعات كبيرة على وحدات معالجة الرسومات القياسية (على سبيل المثال، RTX 3060/4070).
  • YOLO Ultralytics YOLO : نماذج مثل YOLO11 و YOLO26 مُحسّنة من أجل كفاءة الذاكرة. وهي تسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية، مما يتيح الوصول إلى الذكاء الاصطناعي عالي الأداء للجميع. علاوة على ذلك، تعمل Ultralytics (المعروفة سابقًا باسم HUB) على تبسيط هذه العملية بشكل أكبر، حيث توفر تدريبًا سحابيًا مُدارًا يتعامل مع تعقيدات البنية التحتية تلقائيًا.

تعدد الاستخدامات والنظام البيئي

EfficientDet هي في الأساس بنية مخصصة للكشف فقط. في المقابل، يدعم Ultralytics مجموعة واسعة من المهام ضمن قاعدة برمجية واحدة.

قدرات متعددة المهام

لا تقتصر Ultralytics على المربعات المحددة. تتيح لك نفس واجهة برمجة التطبيقات (API) تدريب النماذج من أجل تجزئة المثيلاتو تقدير الوضعو الكشف عن الكائنات الموجهة (OBB)، مما يوفر مجموعة أدوات مرنة لمواجهة تحديات الرؤية الحاسوبية المتنوعة.

يتضمن YOLO26 تحسينات خاصة بالمهام، مثل ProgLoss و STAL (Soft Target Assignment Loss)، والتي توفر تحسينات ملحوظة في التعرف على الأجسام الصغيرة — وهو أحد نقاط الضعف التقليدية في شبكات CNN و transformers السابقة.

حالات الاستخدام في العالم الحقيقي

متى تستخدم RTDETRv2

يتفوق RTDETRv2 في البيئات التي تتوفر فيها موارد الأجهزة بكثرة ويكون فيها السياق العالمي ذا أهمية قصوى.

  • فهم المشاهد المعقدة: في المشاهد التي تتسم بانسداد أو فوضى شديدة، يمكن لآلية الانتباه الشامل track بين الأجسام البعيدة بشكل أفضل من التلافيف المحلية.
  • GPU عالي الأداء: إذا كان النشر يتم بشكل حصري على وحدات معالجة الرسومات (GPU) من فئة الخوادم (مثل T4 و A10)، فإن RTDETRv2 يوفر دقة تنافسية.

متى تستخدم EfficientDet

يعتبر EfficientDet إلى حد كبير بنية قديمة، لكنه لا يزال مناسبًا في مجالات محددة.

  • Google القديمة: بالنسبة للفرق التي تعمل بشكل متكامل مع خطوط أنابيب TensorFlow القديمة، قد يكون الحفاظ على EfficientDet أقل إزعاجًا من ترحيل الأطر.
  • أساسيات البحث: لا تزال أساسيات قياسية لمقارنة كفاءة شبكات دمج الميزات.

الخيار الأفضل: YOLO26

بالنسبة للغالبية العظمى من التطبيقات الحديثة، يُعد YOLO26 الخيار الموصى به نظرًا لتعدد استخداماته وسهولة نشره.

  • الحوسبة الطرفية: بفضل إزالة DFL CPU ، يعد YOLO26 مثاليًا لأجهزة إنترنت الأشياء والتطبيقات المحمولة التي تهم فيها مدة عمر البطارية والقيود الحرارية.
  • الروبوتات: يضمن التصميم NMS أن حلقات التحكم في الروبوت تتلقى بيانات الإدراك بمعدل ثابت ويمكن التنبؤ به.
  • الصور الجوية: تعمل وظيفة ProgLoss على تحسين اكتشاف الأجسام الصغيرة مثل المركبات أو الماشية في لقطات الطائرات بدون طيار، متفوقةً على خطوط الأساس القياسية لـ EfficientDet.

الخلاصة

بينما مهد EfficientDet الطريق للتوسع الفعال وأثبت RTDETRv2 قوة المحولات في الوقت الفعلي، فقد تطور المشهد. يجمع YOLO26 بين ميزات الجيل التالي من الرؤية الحاسوبية: تصميم أصلي شامل، ومُحسّن للغاية لمختلف الأجهزة، ومدعوم Ultralytics القوي.

بالنسبة للمطورين الذين يسعون إلى تبسيط خطوط أنابيب التعلم الآلي الخاصة بهم، فإن الانتقال إلى Ultralytics لا يوفر فقط مكاسب في الأداء، بل يوفر أيضًا سير عمل مبسطًا بدءًا من التعليقات التوضيحية على Ultralytics وحتى النشر على الحافة.

مزيد من القراءة


تعليقات