تخطي إلى المحتوى

DAMO-YOLO مقابل YOLOv7: مقارنة فنية مفصلة

يُعد اختيار البنية المثالية لـ الكشف عن العناصر قرارًا محوريًا في تطوير الرؤية الحاسوبية. غالبًا ما تتطلب هذه الخطوة موازنة زمن الوصول للاستدلال مقابل دقة الكشف، مع مراعاة قيود أجهزة النشر. تدرس هذه المقارنة الفنية DAMO-YOLO و YOLOv7، وهما نموذجان مؤثران تم إصدارهما في عام 2022 وقد دفعا حدود الكشف في الوقت الفعلي. نحلل ابتكاراتهم المعمارية وأداء المعايير وسيناريوهات التطبيق المثالية لمساعدتك في التنقل في عملية اختيار النموذج الخاص بك.

DAMO-YOLO: البحث عن الهندسة المعمارية العصبية لكفاءة الحافة

تم تطوير DAMO-YOLO بواسطة مجموعة Alibaba مع التركيز بشكل خاص على زيادة الأداء إلى أقصى حد للتطبيقات الصناعية. وهي تتميز بدمج البحث في الهندسة المعمارية العصبية (NAS) لأتمتة تصميم هيكلها الأساسي، مما يضمن الكفاءة المثلى.

الابتكارات المعمارية

تقدم DAMO-YOLO العديد من التقنيات المتطورة التي تهدف إلى تقليل النفقات الحسابية مع الحفاظ على دقة عالية:

  1. العمود الفقري MAE-NAS (GiraffeNet): بخلاف الأعمدة الفقرية التقليدية المصممة يدويًا، تستخدم DAMO-YOLO نهج كفاءة واعية بالطريقة (MAE) NAS. ينتج عن هذا سلسلة أعمدة فقرية تسمى GiraffeNet، والتي توفر مقايضة فائقة بين عمليات الفاصلة العائمة (FLOPs) وزمن الوصول في ظل قيود الأجهزة المختلفة.
  2. RepGFPN الفعال: يتميز النموذج بشبكة هرم الميزات المعممة (GFPN) المحسّنة بإعادة التهيئة. تتيح "RepGFPN" هذه دمجًا فعالًا للميزات متعددة المقاييس، وهو أمر ضروري لاكتشاف الكائنات ذات الأحجام المختلفة دون التكلفة الحسابية الكبيرة المرتبطة بشبكات FPN القياسية.
  3. ZeroHead: تصميم "ZeroHead" جديد يبسط رأس detect بشكل كبير. من خلال فصل مهام classify والانحدار وإزالة الطبقة المحددة المعقدة، فإنه يقلل من عدد معلمات الرأس إلى الصفر أثناء الاستدلال، مما يوفر الذاكرة ويزيد السرعة.
  4. AlignedOTA: لتحسين استقرار التدريب ودقته، يستخدم DAMO-YOLO إستراتيجية AlignedOTA، وهي إستراتيجية ديناميكية لإسناد الملصقات تحل مشكلة عدم التوافق بين الثقة في التصنيف ودقة الانحدار.

نقاط القوة وحالات الاستخدام

تتفوق DAMO-YOLO في البيئات التي يكون فيها زمن الانتقال أمرًا بالغ الأهمية. تعتبر المتغيرات الأصغر (Tiny/Small) فعالة بشكل خاص لعمليات نشر الذكاء الاصطناعي الطرفي.

  • الأتمتة الصناعية: مثالية لخطوط التجميع عالية السرعة حيث تُحتسب الملّي ثانية.
  • تطبيقات الهاتف المحمول: العدد المنخفض للمعلمات يجعلها مناسبة للتشغيل على الهواتف الذكية ذات القدرة الحاسوبية المحدودة.

تعرف على المزيد حول DAMO-YOLO

YOLOv7: تحسين الدقة في الوقت الفعلي

وضعت YOLOv7، التي أُصدرت قبل DAMO-YOLO بوقت قصير، معيارًا جديدًا لأحدث أداء في نطاق 5 إطارات في الثانية إلى 160 إطارًا في الثانية. وقد ركزت بشكل كبير على تحسين عملية التدريب وتدفق التدرج لتحقيق دقة أعلى دون زيادة تكاليف الاستدلال.

الابتكارات المعمارية

قدم YOLOv7 طرق "حقيبة الميزات المجانية" التي تعمل على تحسين الدقة أثناء التدريب دون التأثير على هيكل نموذج الاستدلال:

  1. E-ELAN (شبكة تجميع الطبقات الفعالة الممتدة): تتحكم هذه البنية في أقصر وأطول مسارات التدرج، مما يسمح للشبكة بتعلم المزيد من الميزات المتنوعة. إنه يحسن القدرة التعليمية لـ "cardinality" دون تدمير حالة مسار التدرج الأصلية.
  2. توسيع النموذج للنماذج القائمة على التسلسل: يقترح YOLOv7 طريقة توسيع مركبة تعمل على توسيع العمق والعرض في وقت واحد للهياكل المعمارية القائمة على التسلسل، مما يضمن الاستخدام الأمثل للمعلمات.
  3. حقيبة التدريب المجانية القابلة للتدريب: يتم استخدام تقنيات مثل إعادة المعلمات المخطط لها والإشراف على الرأس الإضافي (من الخشن إلى الدقيق). تعمل هذه التقنيات على تحسين قوة النموذج ودقته أثناء التدريب ولكن يتم دمجها أو التخلص منها أثناء الاستدلال، مما يحافظ على سرعة النموذج.

نقاط القوة وحالات الاستخدام

YOLOv7 هو مركز قوة للكشف عن الأجسام للأغراض العامة، حيث يوفر متوسط الدقة المتوسطة (mAP) ممتازًا على مجموعات البيانات القياسية مثل MS COCO.

  • المراقبة الذكية للمدن: دقتها العالية تجعلها موثوقة في الكشف عن المشاة والمركبات في البيئات الحضرية المعقدة.
  • الأنظمة الذاتية: مناسبة للروبوتات والطائرات بدون طيار التي تتطلب detect موثوقًا به على نطاقات أطول حيث تكون مدخلات الدقة العالية مفيدة.

تعرف على المزيد حول YOLOv7

مقارنة الأداء

يقارن الجدول التالي أداء DAMO-YOLO و YOLOv7. في حين أن DAMO-YOLO غالبًا ما يحقق وقت استجابة أقل (سرعة أعلى) لحجمه، إلا أن YOLOv7 يحافظ عمومًا على سمعة قوية من حيث الدقة، لا سيما في تكويناته الأكبر.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

توضح البيانات أنه بالنسبة للبيئات المقيدة للغاية، يقدم DAMO-YOLO حلاً خفيف الوزن للغاية (8.5 مليون معامل للإصدار الصغير). ومع ذلك، يدفع YOLOv7 حدود الدقة مع تحقيق متغير X الخاص به 53.1% mAP، وإن كان ذلك بتكاليف حسابية أعلى.

المفاضلات في الهيكلة

في حين أن العمود الفقري القائم على NAS الخاص بـ DAMO-YOLO يحسن تحديداً زمن الوصول، فإن التصميم المعماري اليدوي لـ YOLOv7 يركز على كفاءة تدفق التدرج. يجب على المستخدمين قياس أداء كليهما على أجهزتهم المحددة، حيث أن FLOPs النظرية لا ترتبط دائماً تماماً بـ سرعة الاستدلال الواقعية.

ميزة Ultralytics: لماذا الترقية؟

في حين أن كلاً من DAMO-YOLO و YOLOv7 يمثلان إنجازات كبيرة في تاريخ رؤية الكمبيوتر، إلا أن المجال يتطور بسرعة. بالنسبة للمطورين الذين يبحثون عن الحلول الأكثر قوة وتنوعًا وسهولة في الاستخدام، فإن Ultralytics YOLO11 و YOLOv8 هما الخياران الموصى بهما.

تم تصميم نماذج Ultralytics ليس فقط كتحف بحثية ولكن كأدوات إنتاج شاملة. إنها تعالج مشاكل "الميل الأخير" في نشر الذكاء الاصطناعي - سهولة الاستخدام والتكامل والصيانة.

المزايا الرئيسية لنماذج Ultralytics

  • سهولة الاستخدام: مع Python API و CLI موحدين، يمكنك تدريب نموذج حديث في بضعة أسطر من التعليمات البرمجية. ليست هناك حاجة لتعديل ملفات التكوين المعقدة يدويًا أو المعاناة مع التبعيات.
  • نظام بيئي مُدار بشكل جيد: توفر Ultralytics نظامًا بيئيًا مزدهرًا مع تحديثات متكررة، وتحديد الأخطاء وإصلاحها بسرعة. الدعم متاح بسهولة من خلال الوثائق الشاملة وقنوات المجتمع النشطة.
  • موازنة الأداء: تستخدم نماذج مثل YOLO11 رؤوس اكتشاف متقدمة خالية من المرساة وهياكل أساسية مُحسَّنة لتحقيق نسب دقة إلى سرعة فائقة مقارنةً بكل من YOLOv7 و DAMO-YOLO.
  • تعدد الاستخدامات: على عكس النماذج القديمة التي غالبًا ما تقتصر على الاكتشاف، تدعم Ultralytics YOLO كلاً من instance segmentation و pose estimation و oriented object detection (OBB) و classification خارج الصندوق.
  • كفاءة التدريب: تضمن الأوزان المدربة مسبقًا ومحملات البيانات المحسّنة تقاربًا أسرع، مما يوفر ساعات وحدة معالجة الرسوميات (GPU) والطاقة.
from ultralytics import YOLO

# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")

# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

تعرف على المزيد حول YOLO11

الخلاصة

لكل من DAMO-YOLO و YOLOv7 مزايا متميزة. DAMO-YOLO هو مرشح قوي للمشاريع التي يكون فيها سرعة الاستدلال الطرفي هي القيد الأساسي، وذلك بالاستفادة من NAS لتقليل المللي ثانية. يظل YOLOv7 خيارًا قويًا للباحثين الذين يبحثون عن detect عالي الدقة مع سلالة معمارية مثبتة.

ومع ذلك، بالنسبة لمعظم التطبيقات التجارية والبحثية اليوم، يقدم النظام البيئي Ultralytics YOLO تجربة فائقة. من خلال الجمع بين أحدث أداء مع سهولة الاستخدام وتعدد الاستخدامات التي لا مثيل لها، تسمح نماذج Ultralytics للمطورين بالتركيز على بناء القيمة بدلاً من تصحيح التعليمات البرمجية. سواء كنت تقوم بالنشر على خادم سحابي أو جهاز طرفي مثل NVIDIA Jetson، فإن Ultralytics يوفر المسار الأكثر انسيابية للوصول إلى مرحلة الإنتاج.

نماذج أخرى

إذا كنت تستكشف هياكل الكشف عن الكائنات، فقد تكون مهتمًا أيضًا بهذه النماذج:

  • Ultralytics YOLOv8: نموذج متعدد الاستخدامات يدعم مهام الكشف والتقسيم وتحديد الوضع.
  • Ultralytics YOLO11: أحدث تطور في سلسلة YOLO، حيث يوفر كفاءة متطورة.
  • RT-DETR: كاشف قائم على المحولات في الوقت الفعلي يتجنب تأخيرات NMS.
  • YOLOv9: يتميز بمعلومات التدرج القابلة للبرمجة (PGI) للتعلم المحسن.
  • YOLOv10: يركز على التدريب الشامل بدون NMS لتقليل زمن الوصول.

تعليقات