YOLOv5 في مواجهة EfficientDet: تقييم بنى كشف الأجسام في الوقت الفعلي

عند البدء في مشروع جديد لـ الرؤية الحاسوبية، فإن اختيار بنية الشبكة العصبية المناسبة يعد أحد أهم القرارات التي ستتخذها. يوفر هذا الدليل مقارنة تقنية متعمقة بين Ultralytics YOLOv5 و EfficientDet من جوجل. من خلال تحليل بنيتهما، ومقاييس الأداء، وأنظمة التدريب، نهدف إلى مساعدة المطورين والباحثين في تحديد أفضل نموذج لـ كشف الأجسام لبيئات النشر الخاصة بهم.

بينما قدمت EfficientDet مفاهيم جديدة في التحجيم المركب ودمج الميزات، أحدثت YOLOv5 ثورة في الصناعة من خلال إتاحة الوصول إلى الذكاء الاصطناعي عالي الأداء عبر تنفيذ PyTorch البديهي للغاية، وتجربة المستخدم المبسطة، والتوازن الفريد بين السرعة والدقة.

Ultralytics YOLOv5: معيار الصناعة للسهولة والوصول

تم إطلاق YOLOv5 في صيف عام 2020، وشكلت تحولاً محورياً في سلسلة YOLO. ومع الانتقال من إطار عمل Darknet المعتمد على C إلى PyTorch الأصلي، أصبحت البنية المفضلة للمطورين الذين يتطلعون إلى بناء وتدريب ونشر النماذج بسرعة.

الابتكارات المعمارية

تُشتهر YOLOv5 ببنيتها المحسنة للغاية التي تعطي الأولوية لدورة حياة تعلم الآلة سلسة. وهي تستخدم هيكلاً أساسياً (Backbone) معدلاً من نوع CSPDarknet53 مقترناً بشبكة تجميع المسارات (PANet) كعنق (Neck)، مما يحسن بشكل كبير من انتشار الميزات عبر مقاييس مكانية متعددة.

تشمل التطورات الرئيسية ما يلي:

  • زيادة البيانات بأسلوب Mosaic: تجمع تقنية التدريب هذه بين أربع صور تدريب متميزة في فسيفساء واحدة. وهذا يجبر النموذج على تعلم كيفية تحديد الأجسام في سياقات مكانية معقدة ويعزز بشكل كبير قدرته على اكتشاف الأهداف الصغيرة.
  • تعلم صناديق الارتساء تلقائياً (Auto-Learning Anchor Boxes): قبل بدء التدريب، تحلل YOLOv5 بيانات التدريب المخصصة لك وتحسب تلقائياً أبعاد صندوق الارتساء المثالية باستخدام خوارزمية k-means.
  • كفاءة الذاكرة: مقارنة بنماذج المحولات (Transformers) الثقيلة، تحافظ YOLOv5 على بصمة ذاكرة أقل بشكل ملحوظ أثناء التدريب والاستدلال، مما يسمح لها بالعمل بسلاسة على الأجهزة الموجهة للمستهلكين.

اعرف المزيد حول YOLOv5

EfficientDet: كشف الأجسام القابل للتحجيم

قُدمت EfficientDet بواسطة Google Research في عام 2019، وتهدف إلى توفير عائلة من كواشف الأجسام القابلة للتحجيم. وهي تعتمد على هيكل تصنيف الصور EfficientNet وتقدم آلية مبتكرة لدمج الميزات.

الابتكارات المعمارية

تكمن القيمة الجوهرية لـ EfficientDet في نهجها المنهجي للتحجيم وتجميع الميزات:

  • BiFPN (شبكة هرم الميزات ثنائية الاتجاه): على عكس شبكات FPN التقليدية التي تنقل المعلومات من الأعلى إلى الأسفل فقط، تتيح BiFPN دمجاً سريعاً وسهلاً للميزات متعددة المقاييس من خلال تقديم أوزان قابلة للتعلم لتحديد أهمية ميزات الإدخال المختلفة.
  • التحجيم المركب: تقوم EfficientDet بتوسيع نطاق الدقة والعمق والعرض بشكل مشترك لجميع شبكات الهيكل الأساسي، وشبكة الميزات، وشبكات التنبؤ بالصناديق/الفئات، مما ينتج نماذج تتراوح من D0 خفيف الوزن إلى D7 الضخم.

اعرف المزيد عن EfficientDet

اختلافات إطارات العمل

بينما تعتمد EfficientDet بشكل كبير على نظام TensorFlow البيئي ومكتبات AutoML، تعمل YOLOv5 بشكل أصلي ضمن PyTorch، مما يوفر للمطورين سير عمل أكثر بديهية و pythonic وقابلية للتصحيح.

مقارنة الأداء والمقاييس

عند مقارنة هذه النماذج، يعد تقييم أدائها على معايير قياسية مثل مجموعة بيانات COCO أمراً حاسماً. يسلط الجدول أدناه الضوء على المقايضات بين الحجم، والطلب الحسابي (FLOPs)، وسرعة الاستدلال.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

تحليل متوازن

YOLOv5 تتألق في مرونة نشرها وتوافقها مع تسريع الأجهزة الخام. لاحظ سرعات TensorRT المذهلة على وحدة معالجة الرسوميات T4. هذا يجعل YOLOv5 مناسبة للغاية لتحليلات الفيديو عالية الإنتاجية وخطوط أنابيب الاستدلال في الوقت الفعلي. علاوة على ذلك، يجعل نظام Ultralytics البيئي التصدير إلى تنسيقات مثل ONNX، و CoreML، و TensorRT أمراً يتم بـ أمر برمجي واحد.

EfficientDet توفر كفاءة معلمات ممتازة. بالنسبة لعدد معين من المعلمات، غالباً ما تستخرج متوسط دقة متوسط (mAP) مرتفعاً. ومع ذلك، فإن هذه الكفاءة النظرية لا تترجم دائماً إلى أوقات استدلال أسرع في الواقع على وحدات معالجة الرسوميات الطرفية (Edge GPUs) بسبب التوجيه المعقد لطبقة BiFPN، والتي قد تكون مقيدة بعرض النطاق الترددي للذاكرة بدلاً من القوة الحسابية.

النظام البيئي وسهولة الاستخدام

تكمن الميزة الحاسمة لاختيار نموذج Ultralytics في النظام البيئي المحيط به. YOLOv5 جزء من مستودع تتم صيانته بكثافة وتطويره بنشاط مع دعم مجتمعي هائل.

مع إدخال منصة Ultralytics، يمكن للمستخدمين الانتقال بسلاسة من جمع البيانات إلى النشر. تدعم هذه المنصة وضع العلامات التلقائي (Auto-annotation)، والتدريب السحابي، ومراقبة النموذج جاهزاً للاستخدام. في المقابل، غالباً ما يتطلب تدريب EfficientDet التنقل عبر تعقيدات واجهات برمجة تطبيقات كشف الأجسام القديمة في TensorFlow، مما قد يمثل منحنى تعلم حاداً للنماذج الأولية السريعة.

علاوة على ذلك، يمتد تنوع YOLOv5 إلى ما هو أبعد من صناديق الإحاطة. من خلال التحديثات المستمرة، يدعم إطار عمل Ultralytics أصلياً تجزئة المثيلات و تصنيف الصور، مما يوفر واجهة برمجة تطبيقات موحدة لمهام رؤية حاسوبية متعددة.

حالات الاستخدام المثالية

  • اختر YOLOv5 عندما: تحتاج إلى نماذج أولية سريعة، وتجربة تدريب خالية من الاحتكاك، ونشر طرفي (edge deployment) محسن للغاية. إنها مثالية للطائرات بدون طيار، و تحليلات التجزئة، وتطبيقات الأجهزة المحمولة حيث يكون زمن الوصول المنخفض أمراً حاسماً.
  • اختر EfficientDet عندما: تعمل بصرامة داخل بيئة Google Cloud/TensorFlow AutoML وتحتاج إلى أقصى دقة لكل معلمة دون قيود صارمة على زمن الوصول في الوقت الفعلي.

الجيل القادم: تبني YOLO26

بينما تظل YOLOv5 خياراً عملياً موثوقاً، فإن مشهد الرؤية الحاسوبية قد تقدم. بالنسبة للمطورين الذين يسعون للحصول على أحدث التقنيات في عام 2026، تمثل YOLO26 القمة الجديدة في تشكيلة Ultralytics.

بالبناء على إرث أسلافها (مثل YOLOv8 و YOLO11)، تقدم YOLO26 ابتكارات رائدة:

  • تصميم من طرف إلى طرف خالٍ من NMS: تلغي YOLO26 أصلياً الحاجة إلى معالجة لاحقة باستخدام خوارزمية كبت غير الحد الأقصى (Non-Maximum Suppression). وهذا يقلل بشكل كبير من تباين زمن الوصول ويبسط بنية النشر.
  • Up to 43% Faster CPU Inference: Heavily optimized for edge AI, it brings unprecedented speeds to low-power edge devices and standard CPUs without dedicated GPUs.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغات الكبيرة (LLM)، يضمن هذا الهجين من SGD و Muon تدريباً مستقراً للغاية وتقارباً سريعاً.
  • وظائف خسارة متقدمة: يؤدي دمج ProgLoss و STAL إلى تحسين التعرف على الأهداف الصغيرة بشكل كبير، وهو أمر حيوي لصور الطائرات بدون طيار عالية الارتفاع و الروبوتات.
  • إزالة DFL: من خلال إزالة توزيع الخسارة البؤرية (Distribution Focal Loss)، يتم تبسيط عملية تصدير النموذج، مما يعزز التوافق عبر مسرعات الأجهزة المتنوعة.

قد يرغب المستخدمون المهتمون باستكشاف بنى حديثة أخرى داخل نظام Ultralytics البيئي أيضاً في مقارنة نماذج مثل YOLOv10 أو RT-DETR.

الترحيل سهل

تم تصميم واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics لتكون متوافقة مع الإصدارات السابقة والمستقبلية. الترقية من YOLOv5 إلى YOLO26 بسيطة حرفياً مثل تغيير سلسلة وزن النموذج في الكود الخاص بك!

مثال برمجي: التدريب والاستنتاج

لتوضيح سهولة استخدام نظام Ultralytics البيئي التي لا تضاهى، إليك كيفية تدريب وتشغيل الاستدلال باستخدام نموذج YOLO حديث. هذا الكود قابل للتشغيل بنسبة 100% ويتعامل مع تنزيل مجموعة البيانات، وحلقات التدريب، والتحقق تلقائياً.

from ultralytics import YOLO

# Load a modern model (Swap 'yolov5s.pt' for 'yolo26n.pt' to test the newest architecture!)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 example dataset for 20 epochs
results = model.train(data="coco8.yaml", epochs=20, imgsz=640)

# Run inference on an image from the web
inference_results = model("https://ultralytics.com/images/bus.jpg")

# Display the image with bounding boxes
inference_results[0].show()

من خلال إعطاء الأولوية لتجربة المستخدم، والحفاظ على نظام بيئي قوي، ودفع حدود الممكن باستمرار بتحديثات مثل YOLO26، تضمن Ultralytics أن المطورين لديهم دائماً أفضل الأدوات المتاحة لحل تحديات الذكاء البصري في العالم الحقيقي.

تعليقات