تخطي إلى المحتوى

EfficientDet مقابل YOLOv10: تطور كفاءة اكتشاف الأجسام

في المشهد سريع التطور في مجال الرؤية الحاسوبية، لا يزال البحث عن التوازن الأمثل بين الكفاءة الحسابية ودقة الكشف مستمرًا. هناك نوعان من البنى التي حددت عصر كل منهما هما EfficientDet، وهي عائلة نماذج قابلة للتطوير من Google Research، و YOLOv10وهو أحدث كاشف متكامل في الوقت الحقيقي من باحثين في جامعة تسينغهوا.

تستكشف هذه المقارنة الفروق الفنية الدقيقة لكلا النموذجين، وتبحث في كيفية تحسين فلسفة التصميم الحديثة لـ YOLOv10 للمفاهيم الأساسية التي قدمها EfficientDet. سنقوم بتحليل بنيتهما ومقاييس أدائهما ومدى ملاءمتها للنشر في العالم الحقيقي.

أصول النموذج ونظرة عامة

ويساعد فهم السياق التاريخي لهذه النماذج على تقدير القفزات التكنولوجية التي تحققت في السنوات الأخيرة.

EfficientDet

تم تقديم EfficientDet في أواخر عام 2019، بهدف حل مشكلة عدم كفاءة نماذج الكشف عن الأجسام التي لا تتسم بالكفاءة. اقترحت طريقة تحجيم مركبة تعمل على قياس الدقة والعمق والعرض بشكل موحد.

YOLOv10

تم إصدار YOLOv10 في مايو 2024، وهو يدفع حدود الكشف في الوقت الفعلي من خلال إلغاء الحاجة إلى الكبح غير الأقصىNMS أثناء المعالجة اللاحقة، مما يؤدي إلى زمن استجابة أقل ونشر مبسط.

اعرف المزيد عن YOLOv10

نظرة معمارية متعمقة

يكمن الاختلاف الأساسي بين هذه النماذج في نهجها في دمج الميزات والمعالجة اللاحقة.

EfficientDet: التحجيم المركب و BiFPPN

تم بناء EfficientDet على العمود الفقري EfficientNet. السمة المميزة لها هي الشبكة الهرمية ثنائية الاتجاه (BiFPPN). على عكس الشبكات الهرمية للخصائص التقليدية التي تجمع الميزات من مقاييس مختلفة، تقدم الشبكة الهرمية الثنائية الاتجاه أوزانًا قابلة للتعلم للتأكيد على الميزات الأكثر أهمية أثناء الدمج. كما أنها تضيف مسارات من أعلى إلى أسفل ومن أسفل إلى أعلى لتسهيل تدفق المعلومات بشكل أفضل.

على الرغم من كفاءتها النظرية من حيث عمليات النقطة العائمة في الثانية (FLOPs)، فإن الاستخدام المكثف للالتفافات القابلة للفصل من حيث العمق وبنية BiFPPN المعقدة يمكن أن يؤدي أحيانًا إلى إنتاجية أقل على أجهزة GPU مقارنةً بالبنى الأبسط.

YOLOv10: الكشف من النهاية إلى النهاية NMS

يُحدث YOLOv10 نقلة نوعية من خلال إزالة الاعتماد على NMS. تولد أجهزة الكشف في الوقت الحقيقي التقليدية العديد من التنبؤات الزائدة عن الحاجة التي يجب تصفيتها، مما يخلق عنق زجاجة زمن الاستجابة. يستخدم YOLOv10 تعيينات مزدوجة متسقة أثناء التدريب: رأس واحد إلى عدة رؤوس للإشارات الإشرافية الغنية ورأس واحد إلى واحد للاستدلال الدقيق NMS.

بالإضافة إلى ذلك، يستخدم YOLOv10 تصميم نموذج شامل قائم على الكفاءة والدقة. يتضمن ذلك رؤوس تصنيف خفيفة الوزن، وفصل القناة المكانية عن القناة المكانية وتصميم الكتلة الموجهة بالترتيب، مما يضمن مساهمة كل معلمة بفعالية في أداء النموذج.

مزايا الاستدلال NMS

الكبت غير الأقصىNMS) هو خطوة معالجة لاحقة تُستخدم لتصفية المربعات المحدودة المتداخلة. وهي خطوة متسلسلة ومكلفة حسابيًا، وغالبًا ما تتفاوت سرعتها اعتمادًا على عدد الكائنات المكتشفة. من خلال تصميم بنية تتنبأ بشكل طبيعي بمربع واحد لكل كائن (من النهاية إلى النهاية)، يعمل YOLOv10 على استقرار زمن انتقال الاستدلال، مما يجعله قابلاً للتنبؤ بدرجة كبيرة لتطبيقات الذكاء الاصطناعي المتطورة.

تحليل الأداء: السرعة مقابل الدقة

عند مقارنة الأداء، يُظهر YOLOv10 مزايا كبيرة على الأجهزة الحديثة، خاصةً وحدات معالجة الرسومات. في حين تم تحسين EfficientDet من أجل FLOPs، تم تحسين YOLOv10 من أجل زمن الاستجابة الفعلي والإنتاجية.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

النقاط الرئيسية

  • زمن انتقالGPU : يوفر YOLOv10 انخفاضًا كبيرًا في وقت الاستدلال. على سبيل المثال، يحقق YOLOv10b mAP أعلى (52.7) من EfficientDet-d6 (52.6) بينما يكون أسرع بأكثر من 13 مرة على GPU T4 (6.54 مللي ثانية مقابل 89.29 مللي ثانية).
  • كفاءة البارامترات: تتطلب نماذج YOLOv10 عمومًا عددًا أقل من المعلمات للحصول على دقة مماثلة. متغير YOLOv10n خفيف الوزن للغاية (2.3 مليون بارامتر)، مما يجعله مثاليًا لعمليات النشر المتنقلة.
  • الدقة: في النهاية العالية، يحقق YOLOv10x دقة mAP في الدقة تبلغ 54.4، متجاوزًا بذلك أكبر متغير EfficientDet-d7 مع الحفاظ على جزء بسيط من زمن الاستجابة.

كفاءة التدريب وسهولة الاستخدام

أحد أهم العوامل الحاسمة بالنسبة للمطورين هو سهولة دمج هذه النماذج في عمليات سير العمل الحالية.

مزايا نظام Ultralytics البيئي

تم دمج YOLOv10 في منظومة Ultralytics مما يوفر ميزة كبيرة في سهولة الاستخدام والصيانة. ويستفيد المستخدمون من واجهة برمجة تطبيقاتPython API الموحدة التي تعمل على توحيد التدريب والتحقق من الصحة والنشر عبر أجيال مختلفة من النماذج.

  • واجهة برمجة تطبيقات بسيطة: تدريب نموذج في 3 أسطر من التعليمات البرمجية.
  • التوثيق: أدلة وأمثلة شاملة.
  • مجتمع: مجتمع واسع ونشط يقدم الدعم والتحديثات.
  • كفاءة الذاكرة: تم تحسين نماذج Ultralytics YOLO لتقليل استخدام ذاكرة CUDA أثناء التدريب مقارنةً بالبنى القديمة أو النماذج القائمة على المحولات الثقيلة.

مثال على الكود

يعد تدريب YOLOv10 باستخدام Ultralytics أمرًا بسيطًا ومباشرًا. يتعامل إطار العمل مع زيادة البيانات، وضبط المعلمة الفائقة، والتسجيل تلقائيًا.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
# efficiently using available GPU resources
model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Run inference on an image
results = model("path/to/image.jpg")

في المقابل، غالبًا ما يتطلب استنساخ نتائج EfficientDet تكوينات TensorFlow معقدة أو إصدارات محددة من مكتبات AutoML، والتي يمكن أن تكون أقل سهولة في الاستخدام للنماذج الأولية السريعة.

حالات الاستخدام المثالية

يتمتع كلا النموذجين بمزاياه، ولكن تختلف مجالات تطبيقهما المثالية بناءً على خصائصهما المعمارية.

YOLOv10: تطبيقات الوقت الحقيقي والتطبيقات المتطورة

نظرًا لتصميمه NMS ووقت الاستجابة المنخفض، فإن YOLOv10 هو الخيار الأفضل للمهام الحساسة للوقت.

  • الأنظمة ذاتية القيادة: أمر بالغ الأهمية للسيارات ذاتية القيادة والطائرات بدون طيار حيث تمنع القرارات التي تستغرق أجزاء من الثانية وقوع الحوادث.
  • التصنيع: مراقبة الجودة عالية السرعة على السيور الناقلة حيث تتحرك الأجسام بسرعة.
  • البيع بالتجزئة الذكي: إدارة المخزون في الوقت الفعلي وتحليلات العملاء باستخدام الأجهزة المتطورة.
  • تطبيقات الهاتف المحمول: يسمح الحجم الصغير لـ YOLOv10n بالنشر السلس على أجهزة iOS و Android عبر CoreML أو TFLite.

EfficientDet: الأنظمة الأكاديمية والقديمة

تظل EfficientDet ذات صلة في سياقات محددة:

  • وحدات المعالجة المركزية المحدودة الموارد: تم تحسين متغيرات EfficientDet الأصغر (d0، d1) بشكل كبير لأنظمة وحدات المعالجة المركزية منخفضة FLOP، وأحيانًا ما يكون أداؤها جيدًا على الأجهزة القديمة التي CPU.
  • خطوط الأساس البحثية: إنه بمثابة خط أساس ممتاز للبحث الأكاديمي الذي يقارن قوانين القياس في الشبكات العصبية.
  • خطوط الأنابيب الحالية: قد تجد المؤسسات التي لديها خطوط أنابيب TensorFlow قديمة أنه من الأسهل الحفاظ على عمليات نشر EfficientDet الحالية بدلاً من الترحيل.

ملخص نقاط القوة والضعف

YOLOv10

  • نقاط القوة:
    • NMS: النشر الحقيقي من البداية إلى النهاية يبسّط عملية التكامل.
    • توازن الأداء: مفاضلة لا مثيل لها بين السرعة والدقة على وحدات معالجة الرسومات.
    • تعدد الاستخدامات: قادرة على التعامل مع مهام الكشف المتنوعة بكفاءة.
    • مُعتنى به جيدًا: مدعومة بنظام Ultralytics البيئي مع تحديثات متكررة.
  • نقاط الضعف:
    • وباعتبارها بنية أحدث، فقد يكون لديها عدد أقل من سنوات اختبار الاستقرار على المدى الطويل مقارنةً بطرازات حقبة 2019، على الرغم من أن الاعتماد السريع يخفف من ذلك.

EfficientDet

  • نقاط القوة:
    • قابلية التوسع: طريقة القياس المركب أنيقة وفعالة من الناحية النظرية.
    • كفاءة المعلمة: نسبة الدقة إلى المعلمة جيدة بالنسبة لوقتها.
  • نقاط الضعف:
    • الاستدلال البطيء: غالبًا ما يكون الاستخدام المكثف للالتفافات العميقة أبطأ على وحدات معالجة الرسومات من الالتفافات القياسية في YOLO.
    • التعقيد: تضيف BiFPPN تعقيدًا معماريًا قد يكون من الصعب تصحيحه أو تحسينه لمسرعات الأجهزة المخصصة.

الخلاصة

في حين أن EfficientDet كانت بنية رائدة قدمت مفاهيم مهمة في توسيع نطاق النموذج, YOLOv10 يمثل المعيار الحديث لاكتشاف الكائنات. يسمح التحول نحو البنى الشاملة NMS ل YOLOv10 بتقديم أداء فائق وهو أمر بالغ الأهمية لتطبيقات الوقت الحقيقي اليوم.

للمطورين والباحثين الذين يتطلعون إلى بناء أنظمة رؤية قوية وعالية الأداء, YOLOv10ونظام Ultralytics الأوسع نطاقًا - ونظام Ultralytics البيئي الأوسع نطاقًا - مزيجًا مقنعًا من السرعة والدقة وتجربة المطورين. تقلل القدرة على تدريب النماذج وتصديرها ونشرها بسلاسة باستخدام منصة موحدة بشكل كبير من الوقت اللازم للوصول إلى السوق.

يجب على المهتمين بأحدث التطورات المطلقة أن يستكشفوا أيضًا Ultralytics YOLO11الذي يعمل على تحسين هذه الإمكانيات بشكل أكبر لمجموعة أوسع من مهام الرؤية الحاسوبية بما في ذلك التجزئة وتقدير الوضعية واكتشاف الأجسام الموجهة.

استكشف مقارنات أخرى

لاتخاذ القرار الأكثر استنارة، فكّر في مراجعة هذه المقارنات الفنية ذات الصلة:


تعليقات