تخطي إلى المحتوى

RTDETRv2 مقابل EfficientDet: مقارنة فنية لـ detect الكائنات

يعد اختيار البنية المثلى لاكتشاف الكائنات قرارًا محوريًا يؤثر على كل شيء بدءًا من تكاليف التدريب وحتى زمن انتقال النشر. في هذا التحليل التقني المتعمق، نقوم بتحليل نهجين متميزين: RTDETRv2، وهو نموذج متطور قائم على المحولات مصمم للتطبيقات في الوقت الفعلي، و EfficientDet، وهي بنية CNN عالية القابلية للتوسع أدخلت التوسع المركب إلى هذا المجال.

بينما وضعت EfficientDet معايير مهمة في عام 2019، فقد تغير المشهد بشكل كبير مع ظهور المحولات في الوقت الفعلي. تستكشف هذه المقارنة هياكلها ومقاييس أدائها ومدى ملاءمتها لمهام الرؤية الحاسوبية الحديثة.

مقارنة مقاييس الأداء

يقدم الجدول التالي مقارنة مباشرة بين المقاييس الرئيسية. لاحظ الفرق في السرعة وكفاءة المعلمات، لا سيما كيف تعمل البنى الحديثة مثل RTDETRv2 على تحسين زمن الاستدلال على مسرعات الأجهزة مثل TensorRT.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

RTDETRv2: محولات الوقت الحقيقي المتطورة

يمثل RTDETRv2 (Real-Time DEtection TRansformer v2) قفزة كبيرة في تطبيق بنى المحولات على مهام الرؤية العملية. في حين عانت نماذج DETR الأصلية من بطء التכנס وتكاليف حسابية عالية، تم تصميم RTDETRv2 خصيصًا للتفوق على شبكات CNN من حيث السرعة والدقة.

تفاصيل RTDETRv2:

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:lyuwenyu/RT-DETR

البنية والميزات الرئيسية

يستخدم RTDETRv2 مشفرًا هجينًا يعالج الميزات متعددة النطاقات، ويعالج نقطة الضعف الشائعة في المحولات السابقة فيما يتعلق باكتشاف الكائنات الصغيرة. ومن أهم الابتكارات فيه اختيار الاستعلاماتIoU والتي ترشح الاستعلامات منخفضة الجودة قبل وصولها إلى وحدة فك التشفير، مما يسمح للنموذج بتركيز الموارد الحاسوبية على الأجزاء الأكثر صلة بالصورة.

السمة المميزة لـ RTDETRv2 هي تصميمه NMS من البداية إلى النهاية. تتطلب أجهزة الكشف التقليدية استخدام تقنية Non-Maximum Suppression (NMS) لإزالة المربعات المحددة المكررة، وهي خطوة ما بعد المعالجة التي تؤدي إلى تباين في زمن الاستجابة. يتنبأ RTDETRv2 بمجموعة ثابتة من الكائنات مباشرةً، مما يضمن أزمنة استدلال حتمية، وهي أمر بالغ الأهمية للأتمتة الصناعية.

تعرف على المزيد حول RT-DETR

EfficientDet: إرث قابلية التوسع

تم تقديم EfficientDet من قبل Google كعرض توضيحي لـ "Compound Scaling"، وهي طريقة لزيادة عرض الشبكة وعمقها ودقتها في وقت واحد. وهي تعتمد على EfficientNet backbone وتقدم BiFPN (Bidirectional Feature Pyramid Network).

تفاصيل EfficientDet:

  • المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
  • المنظمة: Google
  • التاريخ: 2019-11-20
  • Arxiv:1911.09070
  • GitHub:google/automl

الهندسة المعمارية والقيود

جوهر EfficientDet هو BiFPN، الذي يسمح بدمج الميزات متعددة المقاييس بسهولة وسرعة. باستخدام دمج الميزات المرجحة، يتعلم النموذج أهمية الميزات المختلفة للمدخلات. على الرغم من كفاءته النظرية من حيث FLOPs، غالبًا ما يواجه EfficientDet صعوبات في زمن الاستجابة في العالم الواقعي على وحدات معالجة الرسومات. لا يمكن تحسين أنماط الوصول إلى الذاكرة المعقدة/غير المنتظمة لطبقة BiFPN بسهولة بواسطة مسرعات الأجهزة مثل TensorRT بالمقارنة مع التلافيف القياسية الموجودة في YOLO .

التحليل النقدي: الهندسة المعمارية والاستخدام

1. كفاءة التدريب والتقارب

يكمن أحد الاختلافات الأكثر عمقًا في ديناميكيات التدريب. يعتمد EfficientDet على نماذج CNN التقليدية، ويتم تدريبه بشكل مستقر نسبيًا، ولكنه يتطلب ضبطًا دقيقًا لمربعات الربط (على الرغم من أنه يهدف إلى أتمتة ذلك). يستفيد RTDETRv2، باعتباره محولًا، من مجال استقبال شامل منذ البداية، ولكنه كان يتطلب في الماضي جداول تدريب أطول. ومع ذلك، فقد أدت التحسينات الحديثة في RTDETRv2 إلى تقليل وقت التقارب هذا بشكل كبير.

اعتبارات الذاكرة

تستهلك النماذج القائمة على المحولات مثل RTDETRv2 عمومًا المزيد من ذاكرة VRAM أثناء التدريب مقارنة بشبكات CNN الخالصة بسبب آلية الانتباه الذاتي. إذا كنت تقوم بالتدريب على أجهزة محدودة (مثل وحدة GPU استهلاكية واحدة)، ففكر في استخدام Ultralytics الذي يوفر متطلبات ذاكرة أقل مع الحفاظ على دقة متطورة.

2. سرعة الاستدلال والنشر

في حين أن EfficientDet-d0 خفيف الوزن، فإن متغيراته الأكبر حجماً (d4-d7) تشهد انخفاضاً كبيراً في السرعة. كما هو موضح في جدول المقارنة، يعمل EfficientDet-d7 بسرعة 128 مللي ثانية تقريبًا على GPU T4، بينما يحقق RTDETRv2-x mAP أعلى بنسبة 54.3٪ في 15 مللي ثانية فقط. هذه الميزة في السرعة التي تبلغ حوالي 10 أضعاف تجعل RTDETRv2 (و YOLO26) متفوقة بكثير في تحليلات الفيديو في الوقت الفعلي أو المركبات ذاتية القيادة.

3. ميزة Ultralytics

غالبًا ما يتطلب تنفيذ الأوراق البحثية التعامل مع التبعيات المعطلة وملفات التكوين المعقدة. Ultralytics هذا الأمر من خلال توحيد الواجهة. يمكنك التبديل بين Transformer (RT-DETR) و CNN (YOLO) بسطر واحد من التعليمات البرمجية، مما يبسط خط أنابيب عمليات التعلم الآلي (MLOps).

from ultralytics import RTDETR, YOLO

# Load RTDETRv2 (Transformer)
model_transformer = RTDETR("rtdetr-l.pt")

# Load YOLO26 (The new standard)
model_yolo = YOLO("yolo26l.pt")

# Training is identical
model_yolo.train(data="coco8.yaml", epochs=100)

الخيار الأول: Ultralytics

بينما يقدم RTDETRv2 أداءً ممتازًا، يمثل YOLO26 قمة الكفاءة والدقة. تم إصداره في يناير 2026، وهو يجمع أفضل ميزات المحولات والشبكات العصبية التسلسلية (CNN) في بنية موحدة.

يتبنى YOLO26 التصميم الشامل NMS الذي ابتكره YOLOv10 تحسينه في RTDETRv2، ولكنه يحسنه بشكل أكبر من أجل النشر المتطور. وتشمل الابتكارات الرئيسية ما يلي:

  • إزالة DFL: من خلال إزالة Distribution Focal Loss (فقدان بؤرة التوزيع)، يتم تبسيط بنية النموذج، مما يجعل التصدير إلى ONNX و CoreML وتحسين التوافق مع الأجهزة الطرفية منخفضة الطاقة.
  • MuSGD Optimizer: مزيج من SGD Muon (مستوحى من تدريب LLM)، يضمن هذا المحسن تدريبًا مستقرًا وتقاربًا أسرع، مما يوفر استقرار نموذج اللغة الكبيرة لمهام الرؤية.
  • السرعة: يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يعالج فجوة حرجة في الأجهزة مثل Raspberry Pi حيث لا تتوفر وحدات معالجة الرسومات.
  • وظائف الخسارة المتقدمة: يوفر دمج ProgLoss و STAL تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لقطاعات مثل الزراعة والمراقبة الجوية.

بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين التنوع في الاستخدام والقوة الخام، فإن YOLO26 هو الخيار الموصى به.

تعرف على المزيد حول YOLO26

توصيات حالات الاستخدام

متى تختار RTDETRv2

  • الأجهزة المزودة Tensor : إذا كنت تقوم بالنشر حصريًا على NVIDIA (Server أو Jetson)، فإن RTDETRv2 تستخدم Tensor بكفاءة.
  • المشاهد المزدحمة: تساعد آلية الانتباه العالمية في المشاهد التي تتسم بانسداد شديد، مثل تحليل الحشود أو مراقبة البيع بالتجزئة.

متى تختار EfficientDet

  • صيانة الإرث: إذا كانت البنية التحتية الحالية الخاصة بك مبنية بشكل كبير على TensorFlow .x/2.x ونظام AutoML Google.
  • المقارنة الأكاديمية: مفيدة كأساس لدراسة الآثار المحددة لتوسيع النطاق المركب بمعزل عن التغييرات المعمارية الأخرى.

متى تختار YOLO26

  • Edge AI: إزالة DFL CPU تجعلها الملكة بلا منازع للأجهزة المحمولة وأجهزة إنترنت الأشياء.
  • قيود الوقت الفعلي: للتطبيقات التي تتطلب معدل إطارات في الثانية (FPS) عالٍ إلى جانب دقة عالية، مثل تحليلات الألعاب الرياضية.
  • سهولة الاستخدام: عندما تحتاج إلى تجربة "تشمل البطاريات" مع دعم لتقدير الوضع والتجزئة فور إخراجها من العبوة.

الخلاصة

ساهم كل من RTDETRv2 و EfficientDet بشكل كبير في تطور الرؤية الحاسوبية. أثبت EfficientDet أن التوسع يمكن أن يكون علميًا ومنظمًا، بينما أثبت RTDETRv2 أن محولات Transformers يمكن أن تكون سريعة. ومع ذلك، بالنسبة لغالبية الممارسين في عام 2026، يقدم Ultralytics الحزمة الأكثر إقناعًا: سرعة CNN، وراحة Transformer NMS، والدعم القوي Ultralytics .

مزيد من القراءة


تعليقات