RTDETRv2 مقابل EfficientDet: مقارنة تقنية شاملة
في المشهد المتطور للرؤية الحاسوبية، يعد اختيار البنية الصحيحة لاكتشاف الأجسام أمرًا محوريًا لنجاح المشروع. تتعمق هذه المقارنة في RTDETRv2، وهو نموذج متطور قائم على المحولات مصمم للأداء في الوقت الحقيقي، و EfficientDet، وهي عائلة قابلة للتطوير من الشبكات العصبية التلافيفية (CNNs) المحسّنة لتحقيق الكفاءة. نقوم بتحليل ابتكاراتهم المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدة المطورين على اتخاذ قرارات مستنيرة.
نظرة عامة على الطرازات
غالبًا ما يعود الاختيار بين هذين النموذجين إلى القيود المحددة للأجهزة المستهدفة ومتطلبات دقة التطبيق.
RTDETRv2
يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي v2) خطوة مهمة إلى الأمام في تطبيق بنيات المحولات على اكتشاف الأجسام في الوقت الحقيقي. تم تطويره من قبل باحثين في Baidu، وهو يعتمد على نجاح النسخة الأصلية RT-DETRالأصلي، حيث يعمل على تحسين التشفير الهجين وآليات اختيار الاستعلام لتحقيق أحدث دقة مع سرعات استدلال تنافسية على أجهزة GPU .
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2023-04-17
- Arxiv:RT-DETR: تغلبت DETRs على YOLOs في الكشف عن الأجسام في الوقت الحقيقي
- جيثب:مستودعRT-DETR
- المستنداتوثائقRT-DETRv2
EfficientDet
أحدثت EfficientDet، التي طورتها Google Brain، ثورة في هذا المجال عند إطلاقها من خلال تقديم طريقة منهجية لتوسيع نطاق أبعاد النموذج. من خلال الجمع بين العمود الفقري لشبكة EfficientNet وشبكة هرمية ثنائية الاتجاه مرجحة (BiFPPN)، فهي تقدم مجموعة من النماذج (D0-D7) التي تقايض التكلفة الحسابية بالدقة، مما يجعلها متعددة الاستخدامات للغاية بالنسبة لمختلف قيود الموارد.
- المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
- المنظمة:أبحاثGoogle
- التاريخ: 2019-11-20
- اركسيف:EfficientDet: كشف الكائنات القابل للتطوير والفعال
- GitHub:مستودع AutoML
- المستندات:الملف التمهيدي ل EfficientDet
تعرف على المزيد حول EfficientDet
التحليل المعماري
يكمن الاختلاف الجوهري في لبنات البناء الأساسية لكل منهما: أحدهما يستفيد من السياق العالمي للمحولات، بينما يعمل الآخر على تحسين كفاءة الالتفافات.
RTDETRv2: طاقة المحول
يستخدم RTDETRv2 برنامج ترميز هجين يعالج الميزات متعددة المقاييس بكفاءة. وعلى عكس شبكات CNN التقليدية، فإنه يستخدم آلية اختيار استعلام IoU المعالجة الآلية لتركيز الانتباه على الأجزاء الأكثر صلة بالصورة. يسمح ذلك للنموذج بالتعامل مع المشاهد المعقدة ذات الانسداد ومقاييس الأجسام المختلفة بفعالية. تفصل البنية بين التفاعل داخل المقياس والاندماج عبر المقاييس، مما يقلل من النفقات الحسابية الزائدة المرتبطة عادةً بمحوّلات الرؤية (ViTs).
مزايا المحولات
تسمح آلية الانتباه في RTDETRv2 بمجالات استقبال عالمية، مما يمكّن النموذج من فهم العلاقات بين الأجسام البعيدة في المشهد بشكل أفضل من شبكات CNN النموذجية.
EfficientDet: الكفاءة القابلة للتطوير
تم بناء EfficientDet على العمود الفقري EfficientNet ويقدم BiFPPN. تسمح شبكة BiFPPN بدمج الميزات متعددة النطاقات بسهولة وسرعة من خلال تعلم أهمية ميزات الإدخال المختلفة. علاوةً على ذلك، تستخدم EfficientDet طريقة تحجيم مركّبة تعمل على قياس دقة الشبكة وعمقها وعرضها بشكل موحد. وهذا يضمن إمكانية تخصيص النموذج - من D0 الخفيف الوزن لتطبيقات الهاتف المحمول إلى D7 الثقيل لمهام الخادم عالية الدقة.
مقارنة الأداء
تبرز معايير الأداء تمييزًا واضحًا في فلسفة التصميم. يهدف RTDETRRv2 إلى تحقيق أعلى دقة على الأجهزة القوية، في حين يقدم EfficientDet تدرجًا دقيقًا للكفاءة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
كما هو موضح في الجدول، يحقق RTDETRetRv2-x معيارًا mAP متفوقًا في سرعة mAP ) يبلغ 54.3، متفوقًا بذلك على EfficientDet-d7 الأكبر (53.7 mAP) بينما يكون أسرع بكثير على TensorRT (15.03 مللي ثانية مقابل 128.07 مللي ثانية). ومع ذلك، بالنسبة للبيئات المقيدة للغاية، يظل EfficientDet-d0 خيارًا خفيف الوزن بشكل لا يصدق مع الحد الأدنى من المعلمات (3.9 مليون) وعمليات التشغيل من نوع FLOP.
نقاط القوة والضعف
نقاط قوة RTDETRv2:
- دقة عالية: يوفر أداء اكتشاف من الدرجة الأولى، خاصةً على مجموعة بياناتCOCO الصعبة.
- تحسينGPU : الهندسة المعمارية قابلة للتوازي بشكل كبير، مما يجعلها مثالية ل TensorRT على وحدات معالجة الرسومات NVIDIA .
- خالي من المرساة: يلغي الحاجة إلى ضبط صندوق الارتكاز، مما يبسّط عملية التدريب.
نقاط قوة EfficientDet:
- قابلية التوسع: يسمح النطاق D0-D7 بمطابقة حجم النموذج بدقة مع قدرات الأجهزة.
- الحوسبة المنخفضة: تعد المتغيرات الأصغر (D0-D2) ممتازة للاستدلال CPU أو الأجهزة الطرفية المتنقلة.
- تم تأسيسها: بنية ناضجة مع دعم واسع النطاق في أدوات التحويل المختلفة.
نقاط الضعف:
- RTDETRv2: يتطلب ذاكرة CUDA كبيرة للتدريب وهو أبطأ بشكل عام على وحدات المعالجة المركزية بسبب عمليات التحويل.
- EfficientDet: زمن انتقال أعلى في الطرف عالي الدقة (D7) مقارنةً بأجهزة الكشف الحديثة؛ يمكن أن يكون التدريب أبطأ في التقارب.
حالات الاستخدام المثالية
يعتمد اختيار النموذج المناسب بشكل كبير على بيئة التطبيق المحددة.
- اختر RTDETRv2 لأنظمة المراقبة المتطورة أو القيادة الذاتية أو أنظمة الفحص الصناعي حيث تتوفر GPU قوية. قدرتها على تمييز التفاصيل الدقيقة تجعلها مناسبة لمهام مثل الكشف عن الحبوب في التصنيع الطبي أو تحليل صور الأقمار الصناعية المعقدة.
- اختر EfficientDet لأجهزة إنترنت الأشياء التي تعمل بالبطارية أو تطبيقات الأجهزة المحمولة أو السيناريوهات التي تتطلب توافقًا واسعًا عبر مستويات مختلفة من الأجهزة. يتناسب بشكل جيد مع الماسحات الضوئية الذكية للمخزون بالتجزئة أو أنظمة الإنذار الأمنية الأساسية حيث تكون التكلفة واستهلاك الطاقة من الاهتمامات الأساسية.
ميزة Ultralytics YOLO Advantantage
في حين أن كلاً من RTDETRRv2 و EfficientDet لهما مزاياهما, Ultralytics YOLO11 يقدم توليفة مقنعة لأفضل ميزاتهما، مغلفة في نظام بيئي ملائم للمطورين.
لماذا يفضل المطورون Ultralytics
لم يتم تصميم نماذج Ultralytics ليس فقط للمعايير القياسية، ولكن لسهولة الاستخدام في العالم الحقيقي.
- سهولة الاستخدام:واجهة برمجة تطبيقات Ultralytics Python و CLI تقلل بشكل كبير من تعقيدات التدريب والنشر. يمكن للمستخدمين الانتقال من التثبيت إلى التدريب على مجموعة بيانات مخصصة في دقائق.
- نظام بيئي جيد الصيانة: بدعم من مجتمع مزدهر وتحديثات متكررة، يتكامل إطار عمل Ultralytics بسلاسة مع أدوات MLOPS مثل Weights & Biasesو MLFlow و Ultralytics HUB لإدارة البيانات.
- توازن الأداء: يحقق YOLO11 أحدث مقايضات السرعة/الدقة. فهو غالبًا ما يضاهي أو يتجاوز دقة نماذج المحولات مثل RTDETRv2 مع الحفاظ على خاصية سرعة الاستدلال التي تتميز بها شبكات CNN.
- كفاءة الذاكرة: على عكس متطلبات الذاكرة الثقيلة للتدريب القائم على المحولات، تم تحسين نماذج YOLO للاستخدام الفعال GPU مما يسمح بأحجام دفعات أكبر على أجهزة من فئة المستهلك.
- تعدد الاستخدامات: يدعم إطار عمل واحد الكشف عن الكائنات، وتقسيم المثيلات، وتقدير الوضعية، والتصنيف، والكشف عن الكائنات الموجهة (OBB).
كفاءة التدريب
يوفر Ultralytics أوزاناً مُدرّبة مسبقاً تسهّل تعلّم النقل، مما يقلل من وقت التدريب بشكل كبير. إليك مدى سهولة البدء في تدريب نموذج YOLO11 :
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
النشر المبسط
يمكن تصدير نماذج Ultralytics إلى العديد من التنسيقات مثل ONNX TensorRT CoreML OpenVINO بأمر واحد، مما يسهل المسار من البحث إلى الإنتاج. تعرف على المزيد حول أوضاع التصدير.
الخلاصة
في المقارنة بين RTDETRv2 مقابل EfficientDet، يعتمد الفائز على القيود الخاصة بك. يتفوق RTDETRRv2 في البيئات عالية الدقة GPU مما يثبت أن المحولات يمكن أن تكون سريعة. يظل EfficientDet خيارًا قويًا لسيناريوهات الحافة المقيدة للغاية ومنخفضة الطاقة.
ومع ذلك، بالنسبة لغالبية المطورين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام وعالي الأداء, Ultralytics YOLO11 يبرز. إن قدرته على التعامل مع مهام الرؤية المتعددة ضمن نظام بيئي واحد ومتماسك - إلى جانب كفاءة الذاكرة الفائقة وسرعة التدريب - يجعله الخيار الأمثل لتطبيقات الرؤية الحاسوبية الحديثة.
استكشف مقارنات أخرى
لتوسيع فهمك لنماذج اكتشاف الأجسام المتاحة، فكّر في استكشاف هذه المقارنات ذات الصلة:
- YOLO11 مقابل RTDETRv2
- YOLO11 ضد EfficientDet
- RTDETRv2 ضد YOLOv8
- EfficientDet ضد YOLOv8
- RTDETRRv2 ضد YOLOX