تخطي إلى المحتوى

YOLOv7 EfficientDet: نظرة متعمقة على بنى الكشف عن الكائنات في الوقت الحقيقي

تطور اكتشاف الأجسام تميز بصراع مستمر بين الدقة والكفاءة. وهناك منافسان قويان في هذا المجال هما YOLOv7، وهو علامة فارقة في عائلة "You Only Look Once" التي تم إصدارها في عام 2022، و EfficientDet، وهي بنية قابلة للتطوير Google تم إصدارها في أواخر عام 2019. على الرغم من أن كلا النموذجين قد أثر بشكل كبير في مجال الرؤية الحاسوبية، إلا أنهما يتعاملان مع مشكلة اكتشاف الأجسام من منطلق فلسفات معمارية مختلفة تمامًا.

يقدم هذا الدليل مقارنة تقنية شاملة لمساعدة المطورين والباحثين والمهندسين على اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بهم. سنستكشف هياكلها الفريدة ومقاييس الأداء المعيارية ومنهجيات التدريب وسيناريوهات النشر المثالية.

نظرة عامة على النموذج والأصول

قبل الخوض في المقاييس، من الضروري فهم أصل هذه النماذج.

YOLOv7: محطة القوة لـ "حقيبة الميزات المجانية"

صدر YOLOv7 في يوليو 2022، YOLOv7 حدود الإمكانيات المتاحة لأجهزة الكشف في الوقت الفعلي. وقد أدخل ابتكارات معمارية مصممة لتحسين عملية التدريب دون زيادة تكاليف الاستدلال، وهو مفهوم أطلق عليه المؤلفون اسم "trainable bag-of-freebies" (حقيبة الهدايا القابلة للتدريب).

تعرف على المزيد حول YOLOv7

EfficientDet: قابل للتطوير وفعال

طور فريق Google برنامج EfficientDet الذي يركز على نهج منهجي للتحجيم. ويجمع البرنامج بين شبكة هرمية ثنائية الاتجاه موزونة (BiFPN) وطريقة تحجيم مركبة تعمل على تحجيم الدقة والعمق والعرض بشكل موحد.

الاختلافات المعمارية

يكمن الاختلاف الأساسي بين هذين النموذجين في كيفية تعاملهما مع تجميع الميزات وقياس النموذج.

هندسة YOLOv7 المعمارية

YOLOv7 شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). تسمح هذه البنية للنموذج بتعلم ميزات أكثر تنوعًا من خلال التحكم في أقصر وأطول مسارات التدرج، مما يعزز قدرة الشبكة على التعلم دون تدمير مسار التدرج الأصلي.

تشمل الميزات المعمارية الرئيسية ما يلي:

  • تحجيم النموذج: على عكس التحجيم المركب في EfficientDet، YOLOv7 سمات البنية (العمق والعرض) في النماذج القائمة على التسلسل في وقت واحد.
  • رأس مساعد من الخشن إلى الدقيق: يستخدم الإشراف العميق حيث يقوم الرأس المساعد بإنشاء تسميات خشنة للتدريب، بينما يتولى الرأس الرئيسي عملية الضبط الدقيق.
  • إعادة تحديد المعلمات: YOLOv7 طبقات RepConv التي تبسط الهياكل المعقدة لوقت التدريب إلى تلافيف قياسية من أجل استنتاج أسرع، وهي تقنية مهمة للاستنتاج في الوقت الفعلي.

بنية EfficientDet

تم بناء EfficientDet على أساس EfficientNet ويقدم BiFPN.

تشمل الميزات المعمارية الرئيسية ما يلي:

  • BiFPN: شبكة هرمية ثنائية الاتجاه مرجحة تسمح بدمج السمات متعددة المستويات بسهولة وسرعة. تتعلم أهمية السمات المدخلة المختلفة وتطبق بشكل متكرر دمج السمات متعددة المستويات من أعلى إلى أسفل ومن أسفل إلى أعلى.
  • التحجيم المركب: معامل بسيط ولكنه فعال يعمل على زيادة عرض الشبكة وعمقها ودقتها بشكل مشترك، مما يسمح بإنشاء مجموعة من النماذج (من D0 إلى D7) تستهدف قيود الموارد المختلفة.

مقارنة الأداء

عند مقارنة الأداء، ننظر إلى متوسط الدقة (mAP) في COCO مقابل سرعة الاستدلال.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

تحليل نقدي

  1. الكمون: YOLOv7 بكثير على GPU . على سبيل المثال، يحقق YOLOv7x 53.1٪ mAP TensorRT تبلغ ~11.5 مللي ثانية، في حين أن EfficientDet-d7 يتطلب ~128 مللي ثانية لتحقيق 53.7٪ mAP أعلى قليلاً. وهذا يجعل YOLOv7 أسرع YOLOv7 10 مرات في سيناريوهات الدقة العالية.
  2. الكفاءة: EfficientDet-d0 إلى d2 خفيفة للغاية من حيث FLOPs، مما يجعلها مناسبة لوحدات المعالجة المركزية منخفضة الطاقة للغاية حيث لا يتوفر GPU . ومع ذلك، مع التدرج إلى D4 وما فوق، تقل مكاسب الكفاءة مقارنة YOLO .
  3. الدقة: على الرغم من أن EfficientDet-d7 يصل إلى دقة مذهلة، إلا أن التكلفة الحسابية باهظة بالنسبة للتطبيقات في الوقت الفعلي. YOLOv7 "نقطة مثالية" أفضل، حيث يحافظ على دقة عالية دون التضحية بالقدرات في الوقت الفعلي.

التدريب والنظام البيئي

يحدد النظام البيئي المحيط بالنموذج مدى عمليته بالنسبة للمطورين. وهنا تكمن القيمة الكبيرة التي يوفرها Ultralytics .

نظام EfficientDet البيئي

تستند EfficientDet بشكل أساسي على نظام TensorFlow . وعلى الرغم من قوتها، فإن دمجها في خطوط الإنتاج الحديثة غالبًا ما يتطلب التعامل مع تبعيات معقدة.

  • التعقيد: قد يكون من الصعب تحسين تنشيطات BiFPN و swish على بعض مسرعات الحافة مقارنة بالتلافيف القياسية.
  • الصيانة: يتم تحديث العديد من المستودعات بشكل أقل تكرارًا مقارنة بدورة الإصدار السريعة YOLO .

ميزة النظام الإيكولوجي لـ Ultralytics

إحدى المزايا البارزة لاستخدام Ultralytics مثل YOLOv7 والتكرارات الأحدث) هي النظام البيئي جيد الصيانة.

  • سهولة الاستخدام: Ultralytics Python موحدة تعمل على تبسيط التدريب والتحقق والنشر.
  • كفاءة التدريب: تستخدم YOLO GPU القياسية بفعالية، مما يقلل من الوقت والتكلفة المرتبطين بالتدريب على مجموعات البيانات المخصصة.
  • متطلبات الذاكرة: مقارنةً بأجهزة الكشف القديمة ذات المرحلتين أو النماذج الثقيلة القائمة على المحولات، يتطلب YOLOv7 CUDA أقل أثناء التدريب، مما يسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية.

تدريب مبسط مع Ultralytics

تدريب YOLO أمر سهل باستخدام Python . إليك كيفية بدء عملية التدريب:

from ultralytics import YOLO

# Load a model
model = YOLO("yolov7.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

توصيات حالات الاستخدام

متى تختار YOLOv7

YOLOv7 الخيار المفضل للتطبيقات في الوقت الحقيقي حيث يكون زمن الاستجابة أمراً بالغ الأهمية.

  • القيادة الذاتية: يكتشف المشاة والمركبات واللافتات بمعدلات إطارات عالية، مما يضمن اتخاذ قرارات آمنة.
  • الروبوتات: مثالية لدمج الرؤية الحاسوبية في الروبوتات، مما يسمح للروبوتات بالتنقل والتفاعل مع البيئات الديناميكية.
  • تحليلات الفيديو: تعالج عدة تدفقات فيديو في وقت واحد لأغراض الأمن أو تحليلات البيع بالتجزئة دون الحاجة إلى مجموعات حوسبة ضخمة.

متى تختار EfficientDet

يظل EfficientDet مناسبًا لسيناريوهات محددة منخفضة الطاقة أو عندما يكون حجم النموذج (بالميغابايت) هو القيد الأساسي بدلاً من زمن الاستجابة.

  • التطبيقات المحمولة: تعد الإصدارات الأصغر حجماً مثل D0-D1 مناسبة للأجهزة المحمولة التي تكون مساحة التخزين فيها محدودة للغاية.
  • الأنظمة القديمة: في البيئات التي تم تحسينها بالفعل بشكل كبير لنظم TensorFlow، قد يوفر EfficientDet تكاملاً أسهل.
  • البحث الأكاديمي: مفيد لدراسة تأثيرات تقنيات تحجيم المركبات أو دمج الميزات حيث لا يكون الاستدلال في الوقت الفعلي هو الهدف الأساسي.

المستقبل: الترقية إلى YOLO26

في حين أن YOLOv7 أداة فعالة، فإن مجال الرؤية الحاسوبية يتطور بسرعة. بالنسبة للمطورين الذين يبحثون عن أفضل أداء على الإطلاق، يمثل نموذج YOLO26، الذي تم إصداره في يناير 2026، أحدث ما توصلت إليه التكنولوجيا.

يعتمد YOLO26 على إرث YOLOs السابق مع تصميم NMS من البداية إلى النهاية. وهذا يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، مما يبسط خطوط الإنتاج ويعزز سرعة الاستدلال.

تشمل المزايا الرئيسية لـ YOLO26 مقارنةً بـ YOLOv7 EfficientDet ما يلي:

  • MuSGD Optimizer: مزيج من SGD Muon، يجلب ابتكارات تدريب LLM إلى الرؤية الحاسوبية من أجل تدريب أكثر استقرارًا وتقاربًا أسرع.
  • تحسين الحافة: مع إزالة Distribution Focal Loss (DFL)، أصبح YOLO26 أسرع بنسبة تصل إلى 43٪ على CPU، مما يجعله أكثر ملاءمة للأجهزة الطرفية من EfficientDet.
  • تعدد الاستخدامات المحسّن: بالإضافة إلى الكشف، يوفر YOLO26 أداءً متطورًا في تقدير الوضع، وتقسيم الحالات، ومربع الحدود الموجه (OBB)، كل ذلك في إطار عمل واحد.
  • ProgLoss + STAL: توفر وظائف الخسارة المحسّنة تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والصور الجوية.

تعرف على المزيد حول YOLO26

الخلاصة

لقد حجز كل YOLOv7 EfficientDet مكانهما في تاريخ الرؤية الحاسوبية. فقد أدخل EfficientDet مبادئ قياس أنيقة، بينما YOLOv7 نهج "bag-of-freebies" لتحقيق السرعة في الوقت الفعلي. ومع ذلك، بالنسبة لخطوط الإنتاج الحديثة التي تتطلب توازن الأداء وسهولة الاستخدام والتنوع، فإن Ultralytics — الذي يجسده YOLOv7 YOLO26 الأحدث — يوفر ميزة واضحة.

مع متطلبات ذاكرة أقل أثناء التدريب وتصدير سلس إلى تنسيقات مثل ONNX و TensorRT، تضمن Ultralytics أن تكون رحلتك من مجموعة البيانات إلى النشر سلسة قدر الإمكان.

مزيد من القراءة


تعليقات