EfficientDet مقابل RTDETRv2: مقارنة متعمقة بين هياكل الكشف عن الكائنات

يتطلب اختيار البنية المثلى لمشاريع رؤية الكمبيوتر التنقل في مشهد متنوع من الشبكات العصبية. يستكشف هذا الدليل مقارنة فنية مفصلة بين نهجين متميزين: EfficientDet، وهي عائلة شبكات عصبية تلافيفية (CNN) عالية التوسع، و RTDETRv2، وهو نموذج محول (transformer) في الوقت الفعلي على أحدث طراز. نقوم بتقييم اختلافاتهم الهيكلية، ومنهجيات التدريب، ومدى ملاءمتهم للنشر عبر بيئات الأجهزة المختلفة.

من خلال فهم المفاضلات بين الكفاءة التقليدية وقدرات المحولات الحديثة، يمكن للمطورين اتخاذ قرارات مستنيرة. علاوة على ذلك، سنستكشف كيف تسد البدائل الحديثة مثل Ultralytics YOLO26 الجديدة هذه الفجوة، مقدمة سرعة ودقة وسهولة استخدام لا مثيل لها.

فهم EfficientDet

أحدثت EfficientDet ثورة في مجال الكشف عن الأجسام من خلال تقديم نهج قائم على المبادئ لتوسيع نطاق النماذج.

المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
المؤسسة:Google
التاريخ: 20 نوفمبر 2019
أرشيف:https://arxiv.org/abs/1911.09070
GitHub:مستودعGoogle
الوثائق:وثائق EfficientDet

المعمارية والمفاهيم الأساسية

في جوهره، يستخدم EfficientDet شبكة EfficientNet كبنية أساسية ويقدم شبكة هرمية ثنائية الاتجاه للميزات (BiFPN). تسمح BiFPN بدمج الميزات متعددة المقاييس بسهولة وسرعة من خلال تطبيق أوزان قابلة للتعلم لمعرفة أهمية ميزات الإدخال المختلفة. يتم دمج ذلك مع طريقة قياس مركبة تقوم بتوسيع دقة وعمق وعرض جميع الشبكات الأساسية وشبكة الميزات وشبكات التنبؤ بالمربع/الفئة في نفس الوقت.

نقاط القوة والقيود

تكمن القوة الأساسية لـ EfficientDet في كفاءة معلماته. عند إصداره، حققت نماذج مثل EfficientDet-D0 دقة أعلى باستخدام معلمات وعمليات FLOP أقل مقارنة YOLO السابقة YOLO . وهذا ما جعله جذابًا للغاية للبيئات ذات القيود الحاسوبية الصارمة.

ومع ذلك، يعتمد EfficientDet علىNMS(Non-Maximum Suppression) القياسية أثناء المعالجة اللاحقة لتصفية المربعات المحددة المتداخلة، مما قد يؤدي إلى حدوث اختناقات في زمن الاستجابة في خطوط الإنتاج في الوقت الفعلي. بالإضافة إلى ذلك، على الرغم من أن عملية التدريب موثقة جيدًا، إلا أن ضبط EfficientDet قد يكون أمرًا صعبًا مقارنة بتجارب المطورين المُحسّنة بشكل كبير الموجودة في الأدوات الحديثة.

تعرف على المزيد حول EfficientDet

دعم الأنظمة القديمة

بينما مهد EfficientDet الطريق لشبكات قابلة للتطوير، فإن نشر هذه النماذج على وحدات المعالجة العصبية الحديثة (NPU) غالبًا ما يتطلب تحسينًا يدويًا مكثفًا. من أجل عمليات نشر مبسطة، توفر Ultralytics الأحدث وظيفة التصدير بنقرة واحدة.

استكشاف RTDETRv2

يمثل RTDETRv2 تطور البنى القائمة على المحولات، حيث يغير النموذج التقليدي القائم على شبكات CNNs.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
أرشيف:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR Repository
المستندات:توثيق RTDETRv2

التطورات في المحولات

RTDETRv2 يعتمد على أساس محول الكشف في الوقت الفعلي (RT-DETR). يستفيد من آليات الانتباه الشامل، مما يمكّن النموذج من فهم سياقات المشاهد المعقدة دون القيود المحلية للالتفافات القياسية. الميزة المعمارية الأكثر أهمية هي تصميمه الخالي من NMS بطبيعته. من خلال التنبؤ بالكائنات مباشرة من الصورة المدخلة، فإنه يبسط مسار الاستدلال، متجنبًا الضبط الاستدلالي المطلوب بواسطة المعالجة اللاحقة لـ NMS.

نقاط القوة والضعف

يتفوق RTDETRv2 في البيئات عالية الكثافة حيث تتداخل الكائنات مما يربك شبكات CNN التقليدية. وهو دقيق للغاية في مجموعات البيانات المعيارية المعقدة مثل COCO.

على الرغم من دقتها، تتطلب نماذج المحولات بطبيعة الحال ذاكرة كبيرة. كفاءة التدريب أقل بشكل ملحوظ؛ فهي تتطلب عددًا أكبر بكثير من الحقب (epochs) وبصمات ذاكرة CUDA أعلى للتقارب مقارنة بشبكات CNN. وهذا يجعل RTDETRv2 أقل مثالية للمطورين الذين يعملون بميزانيات سحابية محدودة أو أولئك الذين يحتاجون إلى نماذج أولية سريعة جدًا.

تعرف على المزيد حول RTDETRv2

قيود ذاكرة المحول

عادةً ما يتطلب تدريب نماذج المحولات مثل RTDETRv2 وحدات معالجة رسومات (GPU) متطورة. إذا واجهت أخطاء نفاد الذاكرة (OOM)، ففكر في استخدام نماذج ذات متطلبات ذاكرة أقل أثناء التدريب، مثل Ultralytics YOLO .

مقارنة معايير الأداء

فهم مقاييس الأداء الأولية أمر بالغ الأهمية لاختيار النموذج. يعرض الجدول التالي مقارنة بين EfficientDet و RTDETRv2 عبر أحجام مختلفة.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

حالات الاستخدام والتوصيات

يعتمد الاختيار بين EfficientDet وRT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار EfficientDet

يعد EfficientDet خيارًا قويًا لـ:

خطوط أنابيب Google Cloud و TPU: الأنظمة المدمجة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
بحث التحجيم المركب: قياس الأداء الأكاديمي الذي يركز على دراسة تأثيرات تحجيم عمق الشبكة وعرضها ودقتها المتوازن.
النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

Ultralytics : تقديم YOLO26

في حين أن EfficientDet و RTDETRv2 قد رسخا مكانتيهما في تاريخ الرؤية الحاسوبية، فإن بيئات الإنتاج الحديثة تتطلب توازناً مثالياً بين السرعة والدقة وتجربة مطورين استثنائية. ويجمع Ultralytics الذي تم إصداره مؤخراً بين أفضل جوانب هذه البنى المختلفة.

يتميز YOLO26 بدمج النظام البيئي المبسط Ultralytics بآليات داخلية مبتكرة.

لماذا تختار YOLO26 بدلاً من المنافسين؟

تصميم شامل خالٍ من NMS: مستوحى من المحولات مثل RTDETRv2، يُعد YOLO26 شاملاً بطبيعته. فهو يلغي المعالجة اللاحقة لـ NMS، مما يضمن مسارات نشر أسرع وأبسط دون التضخم الهائل في المعلمات للمحولات النقية.
مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغات الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 هجينًا من SGD و Muon. وهذا يجلب استقرارًا تدريبيًا غير مسبوق ومعدلات تقارب أسرع بكثير مقارنة بالجداول الزمنية المطولة التي يتطلبها RTDETRv2.
محسّن للحوسبة الطرفية: مع استدلال أسرع بنسبة تصل إلى 43% على CPU، تم بناء YOLO26 لـ الذكاء الاصطناعي الطرفي. إنه يتفوق بسهولة على نماذج المحولات الثقيلة على الأجهزة محدودة الموارد مثل الهواتف المحمولة والكاميرات الذكية.
إزالة DFL: تبسط إزالة Distribution Focal Loss مخطط النموذج، مما يسهل عمليات تصدير TensorRT و ONNX السلسة.
ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يحل عنق زجاجة شائعًا في التصوير الجوي والروبوتات.
تعدد الاستخدامات: على عكس RTDETRv2، الذي يركز بشكل أساسي على detect، يدعم YOLO26 بشكل أصلي تجزئة الكائنات، تقدير الوضعيات، تصنيف الصور، والصناديق المحيطة الموجهة (OBB) مع تحسينات خاصة بالمهام مثل RLE للوضعيات وخسارة الزاوية المتخصصة لـ OBB.

النظام البيئي المتكامل

باستخدام Ultralytics ، يمكنك إدارة مجموعات البيانات الخاصة بك وتدريب نماذج مثل YOLO26 أو YOLO11 في السحابة، ونشرها بسلاسة عبر واجهات برمجة تطبيقات مرنة.

بساطة الشيفرة مع Ultralytics

تجعل Python Ultralytics Python ، التي يتم صيانتها جيدًا، تدريب النماذج والاستدلال أمرًا بسيطًا. يمكن للمطورين بسهولة قياس أداء النماذج أو تشغيل نصوص التدريب باستخدام الحد الأدنى من التعليمات البرمجية النمطية.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference on a test image
predictions = model.predict("image.jpg")

بالنسبة لأولئك الذين يديرون البنية التحتية القديمة، فإن Ultralytics YOLOv8 خيارًا مستقرًا وقويًا، مما يبرهن على الموثوقية طويلة الأمد لنظام Ultralytics . سواء كنت تستخدم خوارزميات تتبع معقدة في الوقت الفعلي أو خوارزميات بسيطة للكشف عن العيوب، فإن الترقية إلى YOLO26 تضمن أن نظامك مجهز لمواكبة المستقبل، ودقيق للغاية، وفعال من حيث استخدام الذاكرة.