تخطي إلى المحتوى

EfficientDet مقابل YOLOv10: تطور كفاءة الكشف عن الأجسام

في المشهد المتطور بسرعة لرؤية الحاسوب، فإن السعي لتحقيق التوازن الأمثل بين الكفاءة الحسابية ودقة الاكتشاف مستمر. هناك بنيتان حددتا عصرهما وهما EfficientDet، وهي عائلة نماذج قابلة للتطوير من Google Research، و YOLOv10، وهو أحدث كاشف شامل في الوقت الفعلي من الباحثين في جامعة Tsinghua.

تستكشف هذه المقارنة الفروق الدقيقة التقنية لكلا النموذجين، وتدرس كيف تعمل فلسفة التصميم الحديثة لـ YOLOv10 على تحسين المفاهيم الأساسية التي قدمها EfficientDet. سنقوم بتحليل بنياتهما ومقاييس الأداء ومدى ملاءمتهما للنشر في العالم الحقيقي.

أصول النموذج ونظرة عامة

ويساعد فهم السياق التاريخي لهذه النماذج على تقدير القفزات التكنولوجية التي تحققت في السنوات الأخيرة.

EfficientDet

تم تقديم EfficientDet في أواخر عام 2019، بهدف حل عدم كفاءة تحجيم نماذج الكشف عن الأجسام. واقترح طريقة تحجيم مركبة توسع الدقة والعمق والعرض بشكل موحد.

YOLOv10

يدفع YOLOv10، الذي تم إصداره في مايو 2024، حدود الاكتشاف في الوقت الفعلي عن طريق إلغاء الحاجة إلى تثبيط غير الأقصى (NMS) أثناء المعالجة اللاحقة، مما يؤدي إلى زمن انتقال أقل ونشر مبسط.

تعرف على المزيد حول YOLOv10

نظرة معمارية متعمقة

يكمن الاختلاف الأساسي بين هذه النماذج في منهجها لدمج الميزات والمعالجة اللاحقة.

EfficientDet: التحجيم المركب و BiFPN

تم تصميم EfficientDet على EfficientNet backbone. السمة المميزة له هي شبكة Bi-directional Feature Pyramid Network (BiFPN). على عكس FPNs التقليدية التي تجمع الميزات من مقاييس مختلفة، يقدم BiFPN أوزانًا قابلة للتعلم للتأكيد على الميزات الأكثر أهمية أثناء الدمج. كما أنه يضيف مسارات من أعلى إلى أسفل ومن أسفل إلى أعلى لتسهيل تدفق المعلومات بشكل أفضل.

على الرغم من كفاءته النظرية من حيث FLOPs (عمليات الفاصلة العائمة في الثانية)، إلا أن الاستخدام المكثف للالتفافات المنفصلة حسب العمق وهيكل BiFPN المعقد يمكن أن يؤدي في بعض الأحيان إلى إنتاجية أقل على أجهزة NVIDIA GPU مقارنة بالبنى الأبسط.

YOLOv10: كشف شامل وخالي من NMS

يقدم YOLOv10 نقلة نوعية عن طريق إزالة الاعتماد على NMS. تولد أجهزة الكشف في الوقت الفعلي التقليدية العديد من التنبؤات الزائدة التي يجب تصفيتها، مما يخلق عنق الزجاجة في زمن الوصول. يستخدم YOLOv10 تعيينات مزدوجة متسقة أثناء التدريب: رأس واحد إلى متعدد لإشارات إشرافية غنية ورأس واحد إلى واحد لاستدلال دقيق وخالي من NMS.

بالإضافة إلى ذلك، يستخدم YOLOv10 تصميم نموذج شامل مدفوع بالكفاءة والدقة. يتضمن ذلك رؤوس classify خفيفة الوزن، وفصل مكاني-قنواتي لخفض معدل أخذ العينات، وتصميم كتل موجه بالترتيب، مما يضمن أن كل معلمة تساهم بشكل فعال في أداء النموذج.

ميزة الاستدلال الخالي من NMS

تثبيط غير الأقصى (NMS) هو خطوة ما بعد المعالجة تستخدم لتصفية مربعات الإحاطة المتداخلة. إنه تسلسلي ومكلف حسابيًا، وغالبًا ما يختلف في السرعة اعتمادًا على عدد الكائنات التي تم الكشف عنها. من خلال تصميم بنية تتنبأ بشكل طبيعي بمربع واحد لكل كائن (من طرف إلى طرف)، يثبت YOLOv10 زمن انتقال الاستدلال، مما يجعله قابلاً للتنبؤ بدرجة كبيرة لتطبيقات edge AI.

تحليل الأداء: السرعة مقابل الدقة

عند مقارنة الأداء، يُظهر YOLOv10 مزايا كبيرة على الأجهزة الحديثة، وخاصة وحدات معالجة الرسومات GPUs. في حين تم تحسين EfficientDet لـ FLOPs، تم تحسين YOLOv10 لوقت الاستجابة والإنتاجية الفعليين.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

النقاط الرئيسية

  • زمن الوصول لوحدة معالجة الرسوميات (GPU): يوفر YOLOv10 انخفاضًا كبيرًا في وقت الاستدلال. على سبيل المثال، يحقق YOLOv10b قيمة mAP أعلى (52.7) من EfficientDet-d6 (52.6) مع كونه أسرع بأكثر من 13 مرة على وحدة معالجة الرسوميات T4 (6.54 مللي ثانية مقابل 89.29 مللي ثانية).
  • كفاءة المعلمات: تتطلب نماذج YOLOv10 عمومًا عددًا أقل من المعلمات لتحقيق دقة مماثلة. المتغير YOLOv10n خفيف الوزن للغاية (2.3 مليون معلمة)، مما يجعله مثاليًا لعمليات النشر على الأجهزة المحمولة.
  • الدقة: في الطرف العلوي، يحقق YOLOv10x أحدث mAP يبلغ 54.4، متجاوزًا أكبر متغير EfficientDet-d7 مع الحفاظ على جزء صغير من زمن الانتقال.

كفاءة التدريب وسهولة الاستخدام

أحد أهم العوامل الحاسمة للمطورين هو سهولة دمج هذه النماذج في سير العمل الحالية.

فوائد النظام الإيكولوجي لـ Ultralytics

تم دمج YOLOv10 في نظام Ultralytics البيئي، مما يوفر ميزة كبيرة في سهولة الاستخدام و الصيانة. يستفيد المستخدمون من واجهة برمجة تطبيقات Python موحدة تعمل على توحيد التدريب والتحقق والنشر عبر أجيال النماذج المختلفة.

  • واجهة برمجة تطبيقات بسيطة: تدريب نموذج في 3 أسطر من التعليمات البرمجية.
  • الوثائق: أدلة وأمثلة شاملة.
  • المجتمع: مجتمع واسع ونشط يقدم الدعم والتحديثات.
  • كفاءة الذاكرة: تم تحسين نماذج Ultralytics YOLO لتقليل استخدام ذاكرة CUDA أثناء التدريب مقارنةً بالبنى الأقدم أو النماذج الثقيلة القائمة على المحولات.

مثال على التعليمات البرمجية

تدريب YOLOv10 باستخدام Ultralytics أمر في غاية السهولة. يعتني الإطار بزيادة البيانات، وضبط المعلمات الفائقة، والتسجيل تلقائيًا.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
# efficiently using available GPU resources
model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Run inference on an image
results = model("path/to/image.jpg")

في المقابل، غالبًا ما يتطلب إعادة إنتاج نتائج EfficientDet تكوينات TensorFlow معقدة أو إصدارات معينة من مكتبات AutoML، والتي يمكن أن تكون أقل سهولة في الاستخدام للنماذج الأولية السريعة.

حالات الاستخدام المثالية

لكلا النموذجين مزاياهما، لكن مجالات تطبيقهما المثالية تختلف بناءً على خصائصهما المعمارية.

YOLOv10: تطبيقات الوقت الفعلي والحافة

نظرًا لتصميمها الخالي من NMS وزمن الوصول المنخفض، فإن YOLOv10 هو الخيار الأفضل للمهام الحساسة للوقت.

  • الأنظمة الذاتية: أمر بالغ الأهمية بالنسبة للسيارات ذاتية القيادة والطائرات بدون طيار حيث تمنع القرارات التي تتخذ في أجزاء من الألف من الثانية وقوع الحوادث.
  • التصنيع: مراقبة الجودة عالية السرعة على السيور الناقلة حيث تتحرك الأشياء بسرعة.
  • البيع بالتجزئة الذكي: إدارة المخزون في الوقت الفعلي وتحليلات العملاء باستخدام الأجهزة الطرفية.
  • تطبيقات الهاتف المحمول: يسمح الحجم الصغير لـ YOLOv10n بالنشر السلس على أجهزة iOS و Android عبر CoreML أو TFLite.

EfficientDet: الأنظمة الأكاديمية والقديمة

تظل EfficientDet ذات صلة في سياقات محددة:

  • وحدات المعالجة المركزية محدودة الموارد: تم تحسين متغيرات EfficientDet الأصغر (d0، d1) بشكل كبير لأنظمة FLOP المنخفضة، وأحيانًا تعمل بشكل جيد على الأجهزة القديمة التي تعمل بوحدة المعالجة المركزية فقط.
  • خطوط الأساس للبحث: إنها بمثابة خط أساس ممتاز للبحث الأكاديمي الذي يقارن قوانين القياس في الشبكات العصبية.
  • خطوط المعالجة الحالية: قد تجد المؤسسات التي لديها خطوط معالجة TensorFlow قديمة أنه من الأسهل الحفاظ على عمليات نشر EfficientDet الحالية بدلاً من الترحيل.

ملخص نقاط القوة والضعف

YOLOv10

  • نقاط القوة:
    • بدون NMS: نشر حقيقي من طرف إلى طرف يبسط التكامل.
    • موازنة الأداء: توازن لا مثيل له بين السرعة والدقة على وحدات معالجة الرسومات GPUs.
    • تنوع الاستخدامات: القدرة على التعامل مع مهام الكشف المتنوعة بكفاءة.
    • مُدار بشكل جيد: مدعوم من قبل نظام Ultralytics البيئي مع تحديثات متكررة.
  • نقاط الضعف:
    • باعتبارها بنية أحدث، قد يكون لديها سنوات أقل من اختبارات الاستقرار طويلة الأجل مقارنة بنماذج حقبة 2019، على الرغم من أن التبني السريع يخفف من ذلك.

EfficientDet

  • نقاط القوة:
    • قابلية التوسع: طريقة القياس المركب أنيقة وفعالة من الناحية النظرية.
    • كفاءة المعلمات: نسبة جيدة بين الدقة والمعلمات في ذلك الوقت.
  • نقاط الضعف:
    • الاستدلال البطيء: غالبًا ما يكون الاستخدام المكثف للالتفافات ذات العمق أبطأ على وحدات معالجة الرسومات (GPUs) من الالتفافات القياسية الخاصة بـ YOLO.
    • التعقيد: يضيف BiFPN تعقيدًا معماريًا يمكن أن يكون من الصعب تصحيحه أو تحسينه لمسرعات الأجهزة المخصصة.

الخلاصة

في حين أن EfficientDet كانت بنية رائدة قدمت مفاهيم مهمة في توسيع نطاق النموذج، فإن YOLOv10 تمثل المعيار الحديث للكشف عن الكائنات. يسمح التحول نحو البنى الخالية من NMS والشاملة لـ YOLOv10 بتقديم أداء فائق وهو أمر بالغ الأهمية لتطبيقات الوقت الفعلي اليوم.

بالنسبة للمطورين والباحثين الذين يتطلعون إلى بناء أنظمة رؤية قوية وعالية الأداء، يقدم YOLOv10 - والنظام البيئي الأوسع لـ Ultralytics - مزيجًا مقنعًا من السرعة والدقة وتجربة المطور. تقلل القدرة على تدريب النماذج وتصديرها ونشرها بسلاسة باستخدام نظام أساسي موحد بشكل كبير من الوقت اللازم لطرحها في السوق.

يجب على المهتمين بأحدث التطورات المطلقة أيضًا استكشاف Ultralytics YOLO11، الذي يزيد من تحسين هذه القدرات لمجموعة واسعة من مهام رؤية الكمبيوتر بما في ذلك segmentation و pose estimation و oriented object detection.

استكشف مقارنات أخرى

لاتخاذ القرار الأكثر استنارة، ضع في اعتبارك مراجعة هذه المقارنات الفنية ذات الصلة:


تعليقات