YOLO11 EfficientDet: مقارنة تقنية شاملة
يتطلب اختيار الشبكة العصبية المثلى لمشاريع الرؤية الحاسوبية فهمًا عميقًا للبنى المتاحة. يقدم هذا الدليل مقارنة تقنية متعمقة بين Ultralytics YOLO11 و EfficientDet Google. سنستكشف الاختلافات في البنية ومقاييس الأداء وكفاءة التدريب وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرار مستنير بشأن أحمال عمل التعلم الآلي.
خلفيات النموذج والمواصفات
أثر كلا النموذجين بشكل كبير على مشهد التعلم العميق، على الرغم من أنهما ينبعان من فلسفات تصميم وعصور مختلفة لتطوير الذكاء الاصطناعي.
YOLO11
المؤلفون: غلين جوشر وجينغ تشيو
المنظمة: Ultralytics
التاريخ: 2024-09-27
جيت هاب: https://github.com/ultralytics/ultralytics
الوثائق: https://docs.ultralytics.com/models/yolo11/
تفاصيل EfficientDet
المؤلفون: مينغشينغ تان، روومينغ بانغ، وكوك في. لي
المنظمة: Google
التاريخ: 2019-11-20
أرشيف: https://arxiv.org/abs/1911.09070
جيت هاب: https://github.com/google/automl/tree/master/efficientdet
الوثائق: https://github.com/google/automl/tree/master/efficientdet#readme
تعرف على المزيد حول EfficientDet
ميزة النظام البيئي
عند العمل مع نماذج الرؤية الحاسوبية، فإن النظام البيئي المحيط لا يقل أهمية عن النموذج نفسه. يوفر Ultralytics تجربة مطورين لا مثيل لها، حيث يقدم وثائق شاملة ودعمًا نشطًا من المجتمع وإمكانيات تصدير سلسة إلى تنسيقات مثل ONNX و TensorRT.
الابتكارات المعمارية
كفاءة الكشف: BiFPN والتحجيم المركب
تم طرح EfficientDet في أواخر عام 2019، بهدف تحقيق أقصى قدر من الدقة مع تقليل تكلفة الحوسبة إلى الحد الأدنى. ويحقق ذلك بشكل أساسي من خلال آليتين. أولاً، يستخدم EfficientNet backbone الذي يقيس العمق والعرض والدقة بشكل متماسك. ثانياً، أدخل شبكة Bi-directional Feature Pyramid Network (BiFPN)، التي تسمح بدمج الميزات متعددة المقاييس بسهولة وسرعة.
على الرغم من كفاءته العالية في ذلك الوقت، إلا أن اعتماد EfficientDet على مكتبة TensorFlow AutoML يمكن أن يجعله صارمًا. غالبًا ما يجد الباحثون أن تقليم النماذج والتعديلات المخصصة أمرًا صعبًا مقارنة بالأطر الحديثة القائمة PyTorch.
YOLO11: استخراج ميزات محسّن وتعدد الاستخدامات
YOLO11 قفزة كبيرة إلى الأمام في هياكل الكشف عن الأشياء. وهو يعتمد على نجاحات سابقيه، حيث يقدم كتل C3k2 محسنة ووحدة تجميع هرمية مكانية محسنة. تؤدي هذه التحسينات إلى استخراج ميزات فائقة، مما يسمح YOLO11 أنماط بصرية معقدة بوضوح استثنائي.
تتمثل إحدى المزايا الرئيسية لـ YOLO11 في تنوعها. بينما EfficientDet هو نموذج اكتشاف كائنات بحت، يدعم YOLO11 أصلاً تجزئة الكائنات، وتصنيف الصور، وتقدير الوضعيات، ومربعات الإحاطة الموجهة (OBB). علاوة على ذلك، يتميز YOLO11 بمتطلبات ذاكرة منخفضة للغاية أثناء التدريب والاستدلال، مما يجعله متفوقًا بشكل كبير على النماذج القديمة والمحولات البصرية الضخمة عند النشر في بيئات الذكاء الاصطناعي الحافة (edge AI) محدودة الموارد.
الأداء والمعايير
التوازن بين الدقة، المقاسة بمتوسط الدقة (mAP)، وسرعة الاستدلال هو العامل الحاسم في عمليات النشر في العالم الواقعي. يوضح الجدول أدناه الأداء الأولي لكلتا عائلتي النماذج على COCO القياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
كما هو موضح، يحقق YOLO11 توازنًا مثاليًا في الأداء. يحقق YOLO11x أعلى دقة إجمالية (54.7 mAP)، بينما تهيمن متغيرات YOLO11 الأصغر تمامًا في سرعات الاستدلال على GPU (بسرعة تصل إلى 1.5 مللي ثانية على T4 باستخدام TensorRT).
كفاءة التدريب والنظام البيئي
إحدى السمات المميزة Ultralytics هي سهولة استخدامها. غالبًا ما يتطلب تدريب نموذج EfficientDet التنقل TensorFlow تكوينات TensorFlow المعقدة وإدارة سلاسل التبعية المعقدة. في المقابل، YOLO11 تصميم YOLO11 على أساس نظام حديث تمامًا وواضح PyTorch .
هذا النظام البيئي الذي يتم صيانته جيدًا يعني أنه يمكن للمطورين تثبيت الحزمة وتحميل نموذج مدرب مسبقًا والبدء في التدريب على مجموعة بيانات مخصصة باستخدام بضع أسطر من التعليمات البرمجية فقط.
مثال على كود python
فيما يلي مثال قابل للتشغيل بالكامل يوضح بساطة Ultralytics . يقوم هذا البرنامج النصي بتنزيل YOLO11 المدرب مسبقًا، وتدريبه، وتشغيل تنبؤ سريع.
from ultralytics import YOLO
# Initialize a pretrained YOLO11 nano model
model = YOLO("yolo11n.pt")
# Train the model efficiently using the integrated PyTorch engine
# Training efficiency is high, requiring less VRAM than legacy models
results = model.train(data="coco8.yaml", epochs=10, imgsz=640, device="cpu")
# Run real-time inference on a sample image
prediction = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the output bounding boxes
prediction[0].show()
التطلع إلى المستقبل: ميزة YOLO26
على الرغم من أن YOLO11 بقوة استثنائية، إلا أن الفرق التي تبدأ مشاريع جديدة يجب أن تفكر جديًا في Ultralytics ، الذي تم إصداره في يناير 2026. يمثل YOLO26 تحولًا جذريًا في بساطة النشر وأداء الحافة.
تشمل ابتكارات YOLO26 الرئيسية ما يلي:
- تصميم خالٍ من NMS وشامل: من خلال إلغاء قمع غير الحد الأقصى (NMS) أثناء المعالجة اللاحقة، يضمن YOLO26 زمن انتقال متسق ومنخفض للغاية، وهو أمر بالغ الأهمية للروبوتات عالية السرعة والقيادة الذاتية.
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: لعمليات النشر التي تفتقر إلى وحدات GPU مخصصة، تم تحسين YOLO26 خصيصًا لزيادة الإنتاجية على المعالجات القياسية.
- مُحسِّن MuSGD: مستوحى من Kimi K2 من Moonshot AI، يجلب هذا المُحسِّن الهجين استقرار تدريب نماذج LLM إلى الرؤية الحاسوبية، مما يتيح تقاربًا أسرع.
- ProgLoss + STAL: تعمل دوال الخسارة المحسّنة هذه على تعزيز التعرف على الأجسام الصغيرة بشكل كبير، وهو غالبًا ما يمثل نقطة ضعف في تحليل صور الأقمار الصناعية ولقطات الطائرات بدون طيار.
- إزالة DFL: تبسط إزالة Distribution Focal Loss عملية تصدير النموذج إلى الأجهزة الطرفية.
نماذج بديلة للاستكشاف
إذا كان مشروعك يتطلب متطلبات محددة للغاية، فقد ترغب أيضًا في إجراء مقارنة مع RT-DETR للكشف القائم على المحولات، أو نموذج YOLOv8، الذي لا يزال أساسيًا في العديد من عمليات النشر القديمة في المؤسسات.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLO11 و EfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLO11
YOLO11 خيار قوي لـ:
- النشر الإنتاجي على الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف (detect)، والـsegmentation، وتقدير الوضعية (pose estimation)، وOBB ضمن إطار عمل موحد واحد.
- النماذج الأولية والنشر السريع: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام واجهة برمجة تطبيقات Ultralytics Python المبسطة.
متى تختار EfficientDet
يوصى باستخدام EfficientDet في الحالات التالية:
- خطوط أنابيب Google Cloud و TPU: الأنظمة المدمجة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
- بحث التحجيم المركب: قياس الأداء الأكاديمي الذي يركز على دراسة تأثيرات تحجيم عمق الشبكة وعرضها ودقتها المتوازن.
- النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
الخلاصة
كانت EfficientDet بنية رائدة أثبتت جدوى التوسع المركب في اكتشاف الكائنات. ومع ذلك، أدى التقدم السريع في أبحاث الذكاء الاصطناعي إلى ظهور نماذج أكثر قدرة وأسهل في التكامل وأسرع في التشغيل.
بفضل قدراته القوية في أداء المهام المتعددة، وسرعات GPU المذهلة GPU ، وواجهة برمجة التطبيقات (API) التي يمكن القول إنها الأكثر ملاءمة للمطورين في هذا المجال، YOLO11 هو الفائز الواضح في مجال خطوط الرؤية الحديثة. بالنسبة لأولئك الذين يهدفون إلى الحصول على أحدث التقنيات، خاصةً بالنسبة لعمليات النشر التي تعتمد على الحافة أولاً، فإن الترقية إلى YOLO26 توفر المزيج المثالي بين السرعة NMS والدقة التي لا مثيل لها.