EfficientDet مقابل RTDETRv2: مقارنة فنية لاكتشاف الأجسام

لقد تطور مشهد اكتشاف الأجسام بشكل كبير، وانتقل من الشبكات العصبية التلافيفية (CNNs) التقليدية إلى التصميمات الحديثة القائمة على المحولات. من المعالم البارزة في هذا التطور EfficientDet، وهو تصميم CNN قابل للتطوير من Google، و RTDETRv2، وهو محول اكتشاف في الوقت الفعلي من Baidu.

يقدم هذا الدليل مقارنة فنية متعمقة لهذين النموذجين، ويحلل الابتكارات المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية الخاصة بهما. نستكشف أيضًا كيف يعمل Ultralytics YOLO11 كبديل قوي، حيث يقدم نظامًا بيئيًا موحدًا لتطبيقات الرؤية الحاسوبية المتنوعة.

نظرة عامة على النموذج

قبل الخوض في الفروق المعمارية الدقيقة، من الضروري فهم أصول وأهداف كل نموذج الرئيسية.

تفاصيل EfficientDet: المؤلفون: Mingxing Tan و Ruoming Pang و Quoc V. Le
المنظمة: Google Research
التاريخ: 2019-11-20
Arxiv: https://arxiv.org/abs/1911.09070
GitHub: https://github.com/google/automl/tree/master/efficientdet
المستندات: https://github.com/google/automl/tree/master/efficientdet#readme

تفاصيل RTDETRv2: المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
المنظمة: Baidu
التاريخ: 2023-04-17
Arxiv: https://arxiv.org/abs/2304.08069
GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
Docs: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

تعرف على المزيد حول RTDETRv2

تحليل معماري

يكمن الاختلاف الأساسي بين EfficientDet و RTDETRv2 في منهجهما الأساسي لاستخلاص الميزات والتنبؤ بالمربعات المحيطة.

EfficientDet: الكفاءة من خلال التحجيم المركب

تم تصميم EfficientDet لكسر اتجاه مجرد جعل النماذج أكبر لتحقيق دقة أفضل. وهو يستخدم هيكل EfficientNet ويقدم شبكة هرم الميزات ثنائية الاتجاه الموزونة (BiFPN).

BiFPN: على عكس شبكات FPN التقليدية، تتيح BiFPN دمجًا سهلاً للميزات متعددة المقاييس عن طريق إدخال أوزان قابلة للتعلم. يمكّن هذا الشبكة من تعلم أهمية ميزات الإدخال المختلفة.
التحجيم المركب: يقوم EfficientDet في الوقت نفسه بتوسيع نطاق الدقة والعمق والعرض للشبكة باستخدام معامل مركب واحد. يضمن هذا بقاء النموذج (المتغيرات D0 حتى D7) فعالاً عبر مجموعة واسعة من قيود الموارد.

RTDETRv2: محول الكشف في الوقت الفعلي

يبني RTDETRv2 على نجاح DETR (Detection Transformer) ولكنه يعالج التكلفة الحسابية العالية والتقارب البطيء. إنه نموذج خالٍ من المرساة يستفيد من آليات الانتباه الذاتي لنمذجة السياق العام.

وحدة ترميز هجينة: تعالج ميزات متعددة المقاييس عن طريق فصل التفاعل داخل المقياس ودمج المقاييس المتعددة، مما يحسن بشكل كبير سرعة الاستدلال مقارنة بالمحولات القياسية.
تحديد الاستعلام المدرك لـ IoU: تحدد هذه الآلية استعلامات الكائن الأولية عالية الجودة، مما يسرع تقارب التدريب ويحسن دقة الكشف.
مرونة ديناميكية: يتيح RTDETRv2 تعديل سرعة الاستدلال عن طريق تغيير عدد طبقات وحدة فك الترميز دون الحاجة إلى إعادة التدريب، مما يوفر مرونة فريدة لـ الاستدلال في الوقت الفعلي.

استخدام ذاكرة المحولات (Transformer) مقابل الشبكات العصبونية الالتفافية (CNN)

في حين أن المحولات مثل RTDETRv2 تتفوق في التقاط السياق العام، إلا أنها تتطلب عادةً ذاكرة CUDA أكبر بكثير أثناء التدريب مقارنة بالبنى القائمة على CNN مثل EfficientDet أو YOLO نظرًا للتعقيد التربيعي لآليات الانتباه.

مقاييس الأداء

عند اختيار نموذج للنشر، يجب على المطورين الموازنة بين المقايضات بين الدقة (mAP) والسرعة (زمن الوصول) وحجم النموذج (المعلمات). يقارن الجدول أدناه أداء متغيرات EfficientDet مقابل RTDETRv2.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

تحليل:

الدقة: يحقق RTDETRv2 عمومًا mAP أعلى^التحقق النتائج مقارنة بنماذج EfficientDet ذات زمن الوصول المماثل على وحدات معالجة الرسوميات GPUs. على سبيل المثال، RTDETRv2-x يتفوق على EfficientDet-d7 في الدقة مع كونه أسرع بكثير على TensorRT.
السرعة: تم تحسين EfficientDet لـ FLOPs، والذي يرتبط جيدًا بأداء CPU ولكن ليس دائمًا بزمن انتقال GPU. تم تصميم RTDETRv2 خصيصًا لزيادة استخدام GPU إلى أقصى حد، مما يجعله متفوقًا لتطبيقات جانب الخادم عالية الأداء.
كفاءة المعلمات: تظل EfficientDet-d0 خفيفة الوزن للغاية (3.9 مليون معلمة)، مما يجعلها مرشحًا قابلاً للتطبيق للأجهزة القديمة منخفضة الطاقة جدًا حيث لا تتوفر مسرّعات حديثة.

ميزة Ultralytics: بديل فائق

في حين أن EfficientDet و RTDETRv2 هما نموذجان قويان، يجب على المطورين الذين يبحثون عن حل شامل يوازن بين الأداء وسهولة الاستخدام والتنوع أن يفكروا في سلسلة Ultralytics YOLO. توفر نماذج مثل أحدث YOLO11 خياراً مقنعاً لمجموعة واسعة من التطبيقات، من البحث إلى نشر الإنتاج.

لماذا تختار Ultralytics YOLO11؟

سهولة الاستخدام: تشتهر نماذج Ultralytics بتجربة المستخدم المبسطة. باستخدام Python API بسيط، يمكن للمستخدمين تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من التعليمات البرمجية. يتناقض هذا مع ملفات التكوين المعقدة المطلوبة غالبًا لـ EfficientDet أو حلقات التدريب كثيفة الذاكرة الخاصة بـ RTDETR.
تعدد الاستخدامات: على عكس التركيز على مهمة واحدة للعديد من المنافسين، يدعم YOLO11 كلاً من object detection و instance segmentation و classification و pose estimation و oriented object detection (OBB) ضمن إطار عمل واحد.
نظام بيئي مُدار بشكل جيد: توفر Ultralytics نظامًا بيئيًا قويًا يتضمن Ultralytics HUB لإدارة البيانات وتدريب النماذج، بالإضافة إلى وثائق شاملة ودعم المجتمع.
موازنة الأداء: تم تصميم نماذج Ultralytics بدقة لتوفير توازن ممتاز بين السرعة والدقة. وهي مصممة لتكون فعالة من حيث الذاكرة، مما يسمح بالتدريب على وحدات معالجة الرسومات القياسية للمستهلكين حيث قد تواجه نماذج Transformer صعوبة.

تعرف على المزيد حول YOLO11

مثال على التعليمات البرمجية: البدء في استخدام YOLO11

يوضح المثال التالي مدى سهولة تشغيل الاستدلال باستخدام Ultralytics YOLO11، مما يعرض بساطة API مقارنةً بالأطر القديمة.

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")  # 'n' for nano, or try 's', 'm', 'l', 'x'

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

حالات الاستخدام المثالية

يعتمد اختيار النموذج المناسب بشكل كبير على قيود الأجهزة ومتطلبات المشروع المحددة.

متى تستخدم EfficientDet

الأجهزة الطرفية القديمة: إذا كنت تقوم بالنشر على وحدات المعالجة المركزية (CPUs) أو الأجهزة القديمة حيث تكون الالتفافات المنفصلة ذات العمق هي العملية الفعالة الوحيدة.
قيود المعلمات: بالنسبة للتطبيقات التي يكون فيها حجم التخزين المطلق لملف النموذج هو العائق الأساسي (على سبيل المثال، EfficientDet-d0 is < 4MB).

متى تستخدم RTDETRv2

نشر وحدات معالجة الرسوميات المتطورة: عندما يكون لديك حق الوصول إلى وحدات معالجة الرسوميات NVIDIA القوية (مثل T4 و A100) ويمكنك الاستفادة من تحسين TensorRT.
فهم المشهد المعقد: للسيناريوهات التي تتطلب قدرات السياق العام للمحولات، مثل الكشف عن الكائنات في المشاهد المزدحمة أو المحجوبة.

متى تستخدم Ultralytics YOLO11

تطوير سريع: عندما تحتاج إلى الانتقال من مجموعة البيانات إلى النموذج المنشور بسرعة باستخدام الأدوات القياسية مثل Google Colab أو البيئات المحلية.
الذكاء الاصطناعي المتطور في الوقت الفعلي: تم تحسين YOLO11 بشكل كبير للأجهزة الطرفية مثل NVIDIA Jetson و Raspberry Pi، مما يوفر مقايضات فائقة بين FPS/mAP.
متطلبات المهام المتعددة: إذا كان مشروعك يتطلب أقنعة segmentation أو نقاط رئيسية للوضع بالإضافة إلى المربعات المحيطة.
كفاءة الموارد: عندما تكون موارد التدريب محدودة (على سبيل المثال، VRAM محدود)، تكون نماذج YOLO أكثر كفاءة في التدريب من البدائل المستندة إلى Transformer.

الخلاصة

يمثل كل من EfficientDet و RTDETRv2 إنجازات كبيرة في رؤية الحاسوب. دفع EfficientDet حدود الكفاءة من خلال التوسع، بينما أثبت RTDETRv2 أنه يمكن جعل المحولات سريعة بما يكفي لتطبيقات الوقت الفعلي.

ومع ذلك، بالنسبة للغالبية العظمى من المطورين والشركات، تمثل نماذج Ultralytics YOLO الحل الأكثر عملية. من خلال الجمع بين أحدث أداء مع تجربة مطور لا مثيل لها ونظام بيئي غني، تمكنك Ultralytics من بناء حلول الذكاء الاصطناعي القوية بشكل أسرع وأكثر موثوقية.

استكشف المزيد من المقارنات

لمزيد من المعلومات لمساعدتك في اتخاذ قرارك، استكشف هذه المقارنات الأخرى: