EfficientDet مقابل YOLO11: تحقيق التوازن بين الكفاءة والأداء في الوقت الحقيقي
لقد تطور مشهد اكتشاف الأجسام بشكل سريع، مدفوعًا بالحاجة إلى نماذج ليست دقيقة فحسب، بل وفعالة بما يكفي لنشرها في العالم الحقيقي. هناك علامتان بارزتان مهمتان في هذا التطور هما EfficientDet من Google و Ultralytics YOLO11. في حين أن كلا البنيتين تهدفان إلى تحسين المفاضلة بين السرعة والدقة، إلا أنهما تتعاملان مع المشكلة بفلسفات تصميم مختلفة وتستهدفان حالات استخدام أساسية مختلفة.
أحدثت EfficientDet ثورة في هذا المجال من خلال تقديم طريقة منهجية لتوسيع نطاق أبعاد النموذج، مع التركيز بشكل مكثف على كفاءة المعلمات وتكاليف الحوسبة النظرية (FLOPs). في المقابل، يمثل YOLO11 أحدث ما توصلت إليه الرؤية الحاسوبية في الوقت الحقيقي، مع إعطاء الأولوية لسرعة الاستدلال العملي على الأجهزة الحديثة، وتعدد الاستخدامات عبر المهام، وتجربة تركز على المطورين. تتعمق هذه المقارنة الشاملة في المواصفات الفنية والابتكارات المعمارية ومعايير الأداء لمساعدتك في اختيار الأداة المناسبة لمشروعك.
EfficientDet من Google
EfficientDet هو مجموعة من نماذج اكتشاف الأجسام التي طورها فريق Google Brain. تم إصداره في أواخر عام 2019، وتم تصميمه لمعالجة عدم كفاءة أجهزة الكشف السابقة التي كانت تعتمد غالبًا على شبكات أساسية ضخمة أو شبكات دمج الميزات غير المحسّنة.
تفاصيل فنية:
- المؤلفون: مينغشينغ تان، رومينغ بانغ، كوك ف. لي
- المنظمة:Google
- التاريخ: 2019-11-20
- اركسيف:EfficientDet: كشف الكائنات القابل للتطوير والفعال
- جيثب:google
- المستندات:EfficientDet README
الهندسة المعمارية والابتكارات الرئيسية
ويكمن نجاح EfficientDet في مساهمتين معماريتين رئيسيتين تعملان جنباً إلى جنب لتحقيق أقصى قدر من الكفاءة:
- شبكة هرم السمات ثنائية الاتجاه (BiFPPN): تدمج شبكات هرم السمات التقليدية (FPN) ميزات من مقاييس مختلفة بطريقة من أعلى إلى أسفل. وقدمت EfficientDet شبكة هرم السمات ثنائية الاتجاه، والتي تسمح بتدفق المعلومات في كلا الاتجاهين من أعلى إلى أسفل ومن أسفل إلى أعلى. علاوة على ذلك، فهي تستخدم آلية دمج ميزات مرجحة للميزات، حيث تتعلم أهمية كل ميزة من ميزات المدخلات، مما يسمح للشبكة بإعطاء الأولوية للإشارات الأكثر إفادة.
- التحجيم المركب: تُنشئ هذه الطريقة المستوحاة من EfficientNet، عائلة من النماذج (من D0 إلى D7) عن طريق توسيع نطاق دقة وعمق وعرض العمود الفقري وشبكة الميزة وشبكات التنبؤ بشكل موحد. يضمن ذلك أنه مع نمو النموذج، فإنه يحافظ على التوازن بين مكوناته المختلفة، مما يحسن من عدد عمليات التشغيل التلقائي وعدد المعلمات.
العمود الفقري لشبكة EfficientNet
تستخدم EfficientDet شبكة EfficientNet كعمودها الفقري، وهي شبكة تصنيف تم تطويرها أيضًا بواسطة Google. تم تحسين EfficientNet باستخدام البحث عن البنية العصبية (NAS) للعثور على بنية الشبكة الأكثر كفاءة، باستخدام التلافيف القابلة للفصل بعمق شديد لتقليل العمليات الحسابية.
نقاط القوة والضعف
تشتهر EfficientDet بكفاءة بارامتراتها العالية، وتحقق تنافسية mAPتنافسية بمعايير أقل بكثير من العديد من معاصريه. تسمح طبيعته القابلة للتطوير للباحثين باختيار حجم النموذج الذي يناسب ميزانيتهم الحسابية النظرية بدقة.
ومع ذلك، لا تُترجم الكفاءة النظرية دائمًا إلى سرعة عملية. يمكن أن يؤدي الاستخدام المكثف للالتفافات القابلة للفصل على مستوى العمق والاتصال المعقد لشبكة BiFPN إلى استخدام أقل لوحدة GPU . وبناءً على ذلك، غالبًا ما يكون زمن انتقال الاستدلال على وحدات معالجة الرسومات أعلى مقارنةً بالنماذج المحسّنة للمعالجة المتوازية مثل سلسلة YOLO . بالإضافة إلى ذلك، يعد EfficientDet كاشفًا للكائنات فقط، ويفتقر إلى الدعم الأصلي لمهام الرؤية الحاسوبية الأخرى مثل تجزئة المثيل أو تقدير الوضع داخل قاعدة الكود نفسها.
حالات الاستخدام المثالية
- الذكاء الاصطناعي المتطور على وحدات المعالجة المركزية: الأجهزة التي تكون فيها الذاكرة هي القيد الصعب وتسريع GPU غير متوفر.
- البحث الأكاديمي: دراسات تركز على كفاءة الشبكة العصبية وقوانين التوسع.
- تطبيقات منخفضة الطاقة: السيناريوهات التي يكون فيها تقليل استهلاك البطارية (المرتبط بـ FLOPs) أكثر أهمية من زمن الاستجابة الأولي.
تعرف على المزيد حول EfficientDet
Ultralytics YOLO11
Ultralytics YOLO11 هو التكرار الأحدث في سلسلة YOLO (أنت تنظر مرة واحدة فقط) المشهود لها. وهو يعتمد على إرث من الأداء في الوقت الحقيقي، حيث يقدم تحسينات معمارية تدفع حدود الدقة مع الحفاظ على سرعات الاستدلال الفائقة التي يتوقعها المطورون.
تفاصيل فنية:
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمةUltralytics
- التاريخ: 2024-09-27
- جيثب:ultralytics
- المستنداتوثائقYOLO11
البنية والميزات
يستخدم YOLO11 رأس كشف متطور خالٍ من المرساة، مما يلغي الحاجة إلى تكوين صندوق الارتكاز يدويًا ويبسط عملية التدريب. تم تحسين بنية العمود الفقري والرقبة لتحسين قدرات استخراج الميزات، وتحسين الأداء في المهام الصعبة مثل اكتشاف الأجسام الصغيرة والمشاهد المزدحمة.
على عكس تركيز EfficientDet الأساسي على تقليل FLOP، تم تصميم YOLO11 لتحقيق كفاءة مدركة للأجهزة. هذا يعني أنه يتم اختيار طبقاته وعملياته لزيادة الإنتاجية على وحدات معالجة الرسومات ومسرعات NPU.
إطلاق العنان لتعدد الاستخدامات
تدعم هندسة نموذج YOLO11 الواحدة مجموعة واسعة من مهام الرؤية. ضمن نفس الإطار، يمكنك تنفيذ اكتشاف الكائن, تجزئة المثيل, تصنيف الصور, تقدير الوضعيةو الصندوق المحيط الموجه (OBB) الكشف.
نقاط القوة والضعف
تكمن قوة YOLO11 الأساسية في التوازن الاستثنائي بين السرعة والدقة. فهو يوفر دقة فائقة تنافس أو تتفوق على النماذج الأكبر حجمًا مع تشغيله بجزء بسيط من زمن الاستجابة. وهذا يجعلها مثالية لتطبيقات الاستدلال في الوقت الحقيقي. علاوة على ذلك، يضمن نظام Ultralytics البيئي سهولة الاستخدام من خلال واجهة برمجة تطبيقات موحدة، مما يجعل التدريب والنشر سلسًا.
ويتمثل أحد الاعتبارات في أن أصغر متغيرات YOLO11 على الرغم من سرعتها المذهلة، قد تقايض بهامش صغير من الدقة مقارنةً بأكبر النماذج المتاحة في الأوساط الأكاديمية والتي تتسم بثقلها الحسابي. ومع ذلك، بالنسبة للنشر العملي، تكون هذه المقايضة مواتية دائمًا تقريبًا.
حالات الاستخدام المثالية
- الأنظمة المستقلة: الإدراك في الوقت الحقيقي للروبوتات والمركبات ذاتية القيادة.
- الأتمتة الصناعية: مراقبة جودة التصنيع عالية السرعة والكشف عن العيوب.
- المدن الذكية: المراقبة الفعالة لحركة المرور والمراقبة الأمنية.
- التطبيقات التفاعلية: تطبيقات الهاتف المحمول التي تتطلب ملاحظات مرئية فورية.
مقارنة الأداء
عند المقارنة بين EfficientDet و YOLO11 يكمن الاختلاف الأكثر لفتًا للنظر في سرعة الاستدلال، خاصةً على أجهزة GPU . في حين أن نماذج EfficientDet (D0-D7) تُظهر كفاءة جيدة في المعاملات، إلا أن عملياتها المعقدة (مثل BiFPPN) تمنعها من الاستفادة الكاملة من قدرات المعالجة المتوازية.
كما هو موضح في الجدول أدناه، يحقق YOLO11n دقة mAP أعلى (39.5) من EfficientDet-d0 (34.6) بينما يكون أسرع بكثير. والأمر الأكثر إثارة للإعجاب هو أن YOLO11m يضاهي دقة EfficientDet-d5 الأثقل بكثير (51.5 mAP) ولكنه يعمل أسرع 14 مرة تقريبًا على GPU T4 (4.7 مللي ثانية مقابل 67.86 مللي ثانية). تسمح هذه الميزة الهائلة في السرعة لـ YOLO11 بمعالجة تدفقات الفيديو عالية الدقة في الوقت الفعلي، وهو إنجاز يمثل تحديًا لنماذج EfficientDet الأعلى مستوى.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
ميزة Ultralytics
على الرغم من أهمية المقاييس التقنية، إلا أن تجربة المطورين ودعم النظام الإيكولوجي لا يقلان أهمية لنجاح المشروع. توفر Ultralytics مجموعة شاملة من الأدوات التي تبسّط دورة حياة عمليات التشغيل الآلي المتعددة بالكامل، وتقدم مزايا متميزة عن مستودع EfficientDet الذي يركز على البحث.
- سهولة الاستخدام:واجهة برمجة تطبيقات Ultralytics Python و CLI مصممة للبساطة. يمكنك تحميل نموذج متطور وتدريبه ونشره ببضعة أسطر من التعليمات البرمجية، في حين أن EfficientDet غالبًا ما يتطلب ملفات تكوين معقدة وإدارة تبعية في TensorFlow.
- نظام بيئي جيد الصيانة: نماذج Ultralytics مدعومة بمجتمع نشط وتحديثات متكررة. من مستودع GitHub إلى الوثائق الشاملة، يمكن للمطورين الوصول إلى ثروة من الموارد والبرامج التعليمية وقنوات الدعم.
- كفاءة التدريب: تم تحسين YOLO11 من أجل التقارب السريع. وهو يدعم استراتيجيات تحميل البيانات الفعالة واستراتيجيات التعزيز التي تقلل من وقت التدريب. علاوة على ذلك، تسمح متطلبات الذاكرة المنخفضة مقارنةً بالبنى القديمة أو النماذج القائمة على المحولات بالتدريب على وحدات معالجة الرسومات من فئة المستهلكين دون نفاد ذاكرة CUDA .
- مرونة النشر: يدعم الإطار أصلاً تصدير النماذج إلى تنسيقات مختلفة بما في ذلك ONNX, TensorRTو CoreML و OpenVINO. يضمن ذلك إمكانية نشر نموذج YOLO11 الخاص بك في أي مكان، من الخوادم السحابية إلى الأجهزة المتطورة مثل Raspberry Pi.
التدريب العملي مع YOLO11
اختبر بساطة واجهة برمجة تطبيقات Ultralytics . يوضح المثال التالي كيفية تحميل نموذج YOLO11 المدرب مسبقًا وتشغيل الاستدلال على صورة:
from ultralytics import YOLO
# Load a pre-trained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image source
results = model("path/to/image.jpg")
# Display the results
results[0].show()
الخلاصة
يعد كل من EfficientDet و YOLO11 إنجازين بارزين في مجال الرؤية الحاسوبية. تظل EfficientDet مرجعًا قيّمًا لتصميم البنية القابلة للتطوير، وهي مناسبة للتطبيقات المتخصصة التي تكون فيها وحدات FLOP النظرية هي القيد الأساسي.
ومع ذلك، بالنسبة للغالبية العظمى من تطبيقات الرؤية الحاسوبية الحديثة, Ultralytics YOLO11 هو الخيار الأفضل. توفر بنيته توازنًا أفضل بكثير بين الدقة والسرعة، خاصةً على أجهزة GPU المستخدمة في معظم بيئات الإنتاج. وبالإضافة إلى إطار عمل متعدد المهام متعدد الاستخدامات، ونظام بيئي قوي، وسهولة استخدام لا مثيل لها، فإن YOLO11 يمكّن المطورين من بناء ونشر حلول ذكاء اصطناعي عالية الأداء بثقة.
استكشف مقارنات أخرى
لفهم مشهد نماذج اكتشاف الأجسام بشكل أكبر، فكّر في استكشاف هذه المقارنات الإضافية: