تخطي إلى المحتوى

EfficientDet مقابل RTDETRv2: مقارنة متعمقة بين هياكل الكشف عن الكائنات

يتطلب اختيار البنية المثلى لمشاريع الرؤية الحاسوبية التنقل بين مجموعة متنوعة من الشبكات العصبية. يستكشف هذا الدليل مقارنة تقنية مفصلة بين نهجين متميزين: EfficientDet، وهي عائلة شبكات عصبية تلافيفية (CNN) عالية القابلية للتوسع، و RTDETRv2، وهو نموذج محول في الوقت الفعلي متطور. نقوم بتقييم الاختلافات الهيكلية بينهما، ومنهجيات التدريب، ومدى ملاءمتها للنشر في بيئات الأجهزة المختلفة.

من خلال فهم المفاضلة بين الكفاءة القديمة وقدرات المحولات الحديثة، يمكن للمطورين اتخاذ قرارات مستنيرة. علاوة على ذلك، سوف نستكشف كيف تعمل البدائل الحديثة مثل Ultralytics الجديد على سد الفجوة، حيث توفر سرعة ودقة وسهولة استخدام لا مثيل لها.

فهم EfficientDet

أحدثت EfficientDet ثورة في مجال الكشف عن الأجسام من خلال تقديم نهج قائم على المبادئ لتوسيع نطاق النماذج.

الهندسة المعمارية والمفاهيم الأساسية

في جوهره، يستخدم EfficientDet EfficientNet كعمود فقري ويقدم شبكة هرمية ثنائية الاتجاه (BiFPN). تسمح BiFPN بدمج سهل وسريع للميزات متعددة المقاييس من خلال تطبيق أوزان قابلة للتعلم لتعلم أهمية ميزات الإدخال المختلفة. ويتم دمج ذلك مع طريقة قياس مركبة تقيس بشكل موحد الدقة والعمق والعرض لجميع شبكات العمود الفقري وشبكات الميزات وشبكات التنبؤ بالصندوق/الفئة في نفس الوقت.

نقاط القوة والقيود

تكمن القوة الأساسية لـ EfficientDet في كفاءة معلماته. عند إصداره، حققت نماذج مثل EfficientDet-D0 دقة أعلى باستخدام معلمات وعمليات FLOP أقل مقارنة YOLO السابقة YOLO . وهذا ما جعله جذابًا للغاية للبيئات ذات القيود الحاسوبية الصارمة.

ومع ذلك، يعتمد EfficientDet علىNMS(Non-Maximum Suppression) القياسية أثناء المعالجة اللاحقة لتصفية المربعات المحددة المتداخلة، مما قد يؤدي إلى حدوث اختناقات في زمن الاستجابة في خطوط الإنتاج في الوقت الفعلي. بالإضافة إلى ذلك، على الرغم من أن عملية التدريب موثقة جيدًا، إلا أن ضبط EfficientDet قد يكون أمرًا صعبًا مقارنة بتجارب المطورين المُحسّنة بشكل كبير الموجودة في الأدوات الحديثة.

تعرف على المزيد حول EfficientDet

دعم الأنظمة القديمة

بينما مهد EfficientDet الطريق لشبكات قابلة للتطوير، فإن نشر هذه النماذج على وحدات المعالجة العصبية الحديثة (NPU) غالبًا ما يتطلب تحسينًا يدويًا مكثفًا. من أجل عمليات نشر مبسطة، توفر Ultralytics الأحدث وظيفة التصدير بنقرة واحدة.

استكشاف RTDETRv2

يمثل RTDETRv2 تطور البنى القائمة على المحولات، حيث يغير النموذج التقليدي القائم على شبكات CNNs.

التطورات في المحولات

يعتمد RTDETRv2 على أساس Real-Time Detection Transformer (RT-DETR). وهو يستفيد من آليات الانتباه الشامل، مما يمكّن النموذج من فهم سياقات المشاهد المعقدة دون القيود المحلية للتلافيف القياسية. وتتمثل الميزة المعمارية الأكثر أهمية في تصميمه NMS بشكل أصلي. ومن خلال توقع الكائنات مباشرة من الصورة المدخلة، فإنه يبسط مسار الاستدلال، متجنبًا الضبط التجريبي الذي تتطلبه NMS .

نقاط القوة والضعف

يتفوق RTDETRv2 في البيئات عالية الكثافة حيث تتداخل الكائنات مما يربك شبكات CNN التقليدية. وهو دقيق للغاية في مجموعات البيانات المعيارية المعقدة مثل COCO.

على الرغم من دقتها، تتطلب نماذج المحولات بطبيعة الحال ذاكرة كبيرة. كفاءة التدريب أقل بشكل ملحوظ؛ فهي تتطلب عددًا أكبر بكثير من العصور و CUDA للتقارب مقارنة بشبكات CNN. وهذا يجعل RTDETRv2 أقل مثالية للمطورين الذين يعملون بميزانيات سحابية محدودة أو أولئك الذين يحتاجون إلى نماذج أولية سريعة.

تعرف على المزيد حول RTDETRv2

قيود ذاكرة المحول

عادةً ما يتطلب تدريب نماذج المحولات مثل RTDETRv2 وحدات معالجة رسومات (GPU) متطورة. إذا واجهت أخطاء نفاد الذاكرة (OOM)، ففكر في استخدام نماذج ذات متطلبات ذاكرة أقل أثناء التدريب، مثل Ultralytics YOLO .

مقارنة معايير الأداء

فهم مقاييس الأداء الأولية أمر بالغ الأهمية لاختيار النموذج. يعرض الجدول التالي مقارنة بين EfficientDet و RTDETRv2 عبر أحجام مختلفة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

حالات الاستخدام والتوصيات

RT-DETR الاختيار بين EfficientDet و RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار EfficientDet

يعد EfficientDet خيارًا قويًا لـ:

  • Google و TPU : أنظمة متكاملة بشكل عميق مع واجهات برمجة تطبيقات Google Vision أو TPU حيث يتمتع EfficientDet بتحسين أصلي.
  • أبحاث التوسع المركب: مقارنة أكاديمية تركز على دراسة آثار التوازن بين عمق الشبكة وعرضها وتوسع الدقة.
  • النشر عبر الأجهزة المحمولة باستخدام TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow لأجهزة Android أجهزة Linux المدمجة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
  • سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
  • كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

Ultralytics : تقديم YOLO26

في حين أن EfficientDet و RTDETRv2 قد رسخا مكانتيهما في تاريخ الرؤية الحاسوبية، فإن بيئات الإنتاج الحديثة تتطلب توازناً مثالياً بين السرعة والدقة وتجربة مطورين استثنائية. ويجمع Ultralytics الذي تم إصداره مؤخراً بين أفضل جوانب هذه البنى المختلفة.

يتميز YOLO26 بدمج النظام البيئي المبسط Ultralytics بآليات داخلية مبتكرة.

لماذا تختار YOLO26 بدلاً من المنافسين؟

  • تصميم شامل NMS: مستوحى من محولات مثل RTDETRv2، YOLO26 هو تصميم شامل أصلاً. فهو يلغي الحاجة إلى NMS مما يضمن خطوط إنتاج أسرع وأبسط دون التضخم الهائل في المعلمات الذي تتسم به المحولات الخالصة.
  • MuSGD Optimizer: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD Muon. وهذا يوفر استقرارًا غير مسبوق في التدريب ومعدلات تقارب أسرع بكثير مقارنة بالجداول الزمنية الطويلة التي يتطلبها RTDETRv2.
  • مُحسّن للحافة: مع CPU أسرع بنسبة تصل إلى 43٪، تم تصميم YOLO26 من أجل الذكاء الاصطناعي للحافة. وهو يتفوق بسهولة على نماذج المحولات الثقيلة على الأجهزة المقيدة مثل الهواتف المحمولة والكاميرات الذكية.
  • إزالة DFL: تعمل إزالة Distribution Focal Loss على تبسيط الرسم البياني للنموذج، مما يسهل TensorRT و ONNX بسلاسة.
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يحل مشكلة شائعة في الصور الجوية والروبوتات.
  • تعدد الاستخدامات: على عكس RTDETRv2، الذي يركز بشكل أساسي على الكشف، يدعم YOLO26 بشكل أساسي تقسيم المثيلات، وتقدير الوضع، وتصنيف الصور، والمربعات المحددة الموجهة (OBB) مع تحسينات خاصة بالمهام مثل RLE للوضع وفقدان الزاوية المتخصص لـ OBB.

النظام البيئي المتكامل

باستخدام Ultralytics ، يمكنك إدارة مجموعات البيانات الخاصة بك وتدريب نماذج مثل YOLO26 أو YOLO11 في السحابة، ونشرها بسلاسة عبر واجهات برمجة تطبيقات مرنة.

بساطة الكود مع Ultralytics

تجعل Python Ultralytics Python ، التي يتم صيانتها جيدًا، تدريب النماذج والاستدلال أمرًا بسيطًا. يمكن للمطورين بسهولة قياس أداء النماذج أو تشغيل نصوص التدريب باستخدام الحد الأدنى من التعليمات البرمجية النمطية.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

بالنسبة لأولئك الذين يديرون البنية التحتية القديمة، فإن Ultralytics YOLOv8 خيارًا مستقرًا وقويًا، مما يبرهن على الموثوقية طويلة الأمد لنظام Ultralytics . سواء كنت تستخدم خوارزميات تتبع معقدة في الوقت الفعلي أو خوارزميات بسيطة للكشف عن العيوب، فإن الترقية إلى YOLO26 تضمن أن نظامك مجهز لمواكبة المستقبل، ودقيق للغاية، وفعال من حيث استخدام الذاكرة.


تعليقات