تخطي إلى المحتوى

DAMO-YOLO مقابل YOLOv8: نظرة فنية متعمقة

إن مشهد اكتشاف الأجسام يتطور باستمرار، حيث يسعى الباحثون والمهندسون جاهدين لتحقيق التوازن بين المتطلبات المتنافسة المتمثلة في السرعة والدقة والكفاءة الحسابية. من التصميمات البارزة التي أحدثت موجات كبيرة في مجتمع رؤية الكمبيوتر DAMO-YOLO، الذي طورته مجموعة Alibaba، و YOLOv8، الذي أنشأته Ultralytics.

يستكشف هذا التحليل الفني الابتكارات المعمارية ومقاييس الأداء وقابلية الاستخدام العملية لكلا النموذجين. في حين أن DAMO-YOLO يقدم مفاهيم بحثية جديدة مثل Neural Architecture Search (NAS)، تركز Ultralytics YOLOv8 على تقديم نظام user-friendly ecosystem قوي يعمل على تبسيط سير العمل من التدريب إلى النشر.

تحليل الأداء: السرعة والدقة

لفهم كيفية مقارنة هذه النماذج في سيناريوهات العالم الحقيقي، نحلل أدائها على مجموعة بيانات COCO القياسية. تسلط المقاييس أدناه الضوء على المفاضلات بين متوسط الدقة (mAP)، وسرعة الاستدلال على أجهزة مختلفة، وتعقيد النموذج.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

النقاط الرئيسية

تكشف البيانات عن مزايا متميزة اعتمادًا على هدف النشر:

  • أداء الحافة: نموذج YOLOv8n (Nano) هو الرائد بلا منازع للبيئات محدودة الموارد. مع 3.2 مليون معلمة فقط و 8.7 مليار FLOPs، فإنه يحقق أسرع سرعات استدلال على كل من CPU و GPU. وهذا يجعله مثاليًا لتطبيقات الأجهزة المحمولة أو أجهزة إنترنت الأشياء حيث الذاكرة والطاقة نادرتان.
  • أقصى دقة: بالنسبة للتطبيقات التي تكون فيها الدقة ذات أهمية قصوى، يحقق YOLOv8x أعلى قيمة mAP تبلغ 53.9%. في حين أن نماذج DAMO-YOLO تعمل بشكل جيد، فإن أكبر متغير YOLOv8 يدفع حدود دقة الكشف إلى أبعد من ذلك.
  • المقايضات في الكمون: تُظهر DAMO-YOLO إنتاجية رائعة على وحدات معالجة الرسومات المخصصة (مثل T4)، مدفوعة بالعمود الفقري المحسن بواسطة NAS. ومع ذلك، تحافظ Ultralytics YOLOv8 على توازن فائق عبر مجموعة واسعة من الأجهزة، بما في ذلك وحدات المعالجة المركزية، مما يضمن مرونة نشر أوسع.

DAMO-YOLO: ابتكار مدفوع بالبحث

DAMO-YOLO هو نتاج مبادرات البحث لمجموعة Alibaba. الاسم يرمز إلى "الاكتشاف والمغامرة والزخم والتوقعات"، مما يعكس التركيز على استكشاف آفاق معمارية جديدة.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، يي لون هوانغ، يوان تشانغ، و شيو يو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

أبرز الملامح المعمارية

تدمج DAMO-YOLO العديد من التقنيات المتقدمة لتحسين المفاضلة بين زمن الانتقال والدقة:

  1. العمود الفقري MAE-NAS: يستخدم البحث في بنية الشبكة العصبية (NAS) لاكتشاف هياكل شبكة فعالة تلقائيًا، وتحديدًا باستخدام طريقة تسمى MAE-NAS.
  2. RepGFPN Neck: تُستخدم شبكة Generalized Feature Pyramid Network (GFPN) ذات المعلمات الكثيفة لزيادة تدفق المعلومات بين مستويات القياس المختلفة، مما يحسن من detect الأجسام على مسافات متفاوتة.
  3. ZeroHead: لموازنة العنق الثقيل، يستخدم النموذج "ZeroHead" خفيف الوزن، مما يقلل العبء الحسابي في مرحلة الاكتشاف النهائية.
  4. AlignedOTA: إستراتيجية ديناميكية لإسناد الملصقات تعمل على محاذاة مهام التصنيف والانحدار أثناء التدريب، مما يساعد النموذج على التقارب بشكل أكثر فعالية.

تعرف على المزيد حول DAMO-YOLO

Ultralytics YOLOv8: معيار النظام البيئي

يمثل YOLOv8 تحسينًا لبنية YOLO مع التركيز على سهولة الاستخدام والتنوع والأداء الحديث. على عكس نماذج البحث البحتة، تم تصميم YOLOv8 كمنتج للمطورين، مع التركيز على نظام بيئي مُدار جيدًا وسهولة التكامل.

المؤلفون: جلين جوتشر، أيوش تشوراسيا، و جينغ تشيو
المنظمة:Ultralytics
التاريخ: 2023-01-10
المستندات:Ultralytics YOLOv8

نقاط القوة المعمارية

  • الكشف الخالي من المرتكزات (Anchor-Free Detection): يزيل YOLOv8 مربعات الارتكاز، مما يقلل من عدد المعلمات الفائقة التي يحتاج المطورون إلى ضبطها ويبسط عملية التدريب.
  • وحدة C2f: يستبدل التصميم وحدة C3 بوحدة C2f، مما يوفر معلومات تدفق تدرج أكثر ثراءً مع الحفاظ على بصمة خفيفة الوزن.
  • رأس منفصل: من خلال فصل مهام التصنيف والانحدار في الرأس، يحقق النموذج دقة تحديد موقع أعلى.
  • إطار عمل موحد: ربما تكون أقوى ميزة معمارية فيه هي دعمه الأصلي لمهام رؤية متعددة - instance segmentation و pose estimation و classification و object detection الموجه (OBB) - كل ذلك داخل قاعدة بيانات واحدة.

هل تعلم؟

توفر Ultralytics مسارًا سلسًا لتصدير النماذج إلى تنسيقات مُحسَّنة مثل ONNX و TensorRT و CoreML و OpenVINO. تضمن إمكانية التصدير هذه إمكانية تشغيل النماذج المدربة بكفاءة على أي منصة أجهزة تقريبًا.

تعرف على المزيد حول YOLOv8

سهولة الاستخدام وتجربة المطور

يكمن الاختلاف الأهم بين النموذجين في سهولة استخدامهما والنظام البيئي المحيط بهما.

نماذج Ultralytics YOLO مشهورة بتجربة "من الصفر إلى البطل". مع تثبيت PIP بسيط، يحصل المطورون على حق الوصول إلى CLI قوي و Python API. هذا يقلل من حاجز الدخول بشكل كبير مقارنة بمستودعات الأبحاث التي تتطلب غالبًا إعدادات بيئة معقدة.

كفاءة التدريب

تم تصميم نماذج Ultralytics لتحقيق كفاءة التدريب. إنها تستخدم ذاكرة CUDA بكفاءة، مما يسمح بأحجام دفعات أكبر أو التدريب على وحدات معالجة الرسومات من فئة المستهلك. علاوة على ذلك، فإن توفر الأوزان المدربة مسبقًا عالية الجودة يسرع التقارب، مما يوفر وقتًا وطاقة حسابية ثمينة.

إليك مثال كامل وقابل للتشغيل لكيفية التحميل والتوقع باستخدام نموذج YOLOv8 في ثلاثة أسطر فقط من Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

على النقيض من ذلك، في حين أن DAMO-YOLO يقدم أداءً قويًا، إلا أنه يتطلب عمومًا المزيد من التهيئة اليدوية والإلمام بالأطر الموجهة نحو البحث، مما يجعله أقل سهولة للنماذج الأولية السريعة أو التكامل التجاري.

الخلاصة: اختيار الأداة المناسبة

يعتبر كل من DAMO-YOLO و YOLOv8 إنجازات استثنائية في رؤية الحاسوب.

DAMO-YOLO هو خيار ممتاز للباحثين المهتمين بالبحث عن البنية العصبية وأولئك الذين يقومون بالنشر تحديدًا على الأجهزة حيث تم تحسين هيكلها الأساسي المخصص بالكامل.

ومع ذلك، بالنسبة لمعظم المطورين والباحثين والمؤسسات، يقدم Ultralytics YOLOv8YOLO11 الأحدث) عرض قيمة فائق:

  1. تنوع الاستخدامات: القدرة على التعامل مع الكشف، والتقسيم، والوضعية، و OBB في إطار عمل واحد.
  2. سهولة الاستخدام: وثائق لا مثيل لها، و API بسيط، و دعم مجتمعي قوي.
  3. النشر: يغطي الدعم المكثف لأوضاع التصدير كل شيء بدءًا من الهواتف المحمولة وحتى الخوادم السحابية.
  4. توازن الأداء: نسبة ممتازة بين الدقة والسرعة، خاصة على وحدات المعالجة المركزية والأجهزة الطرفية.

بالنسبة لأولئك الذين يتطلعون إلى البقاء في الطليعة المطلقة، نوصي أيضًا بالتحقق من YOLO11، الذي يعتمد على نقاط قوة YOLOv8 بكفاءة ودقة أكبر.

استكشف مقارنات النماذج الأخرى

لمساعدتك في اتخاذ القرار الأكثر استنارة لمشاريع رؤية الكمبيوتر الخاصة بك، استكشف هذه المقارنات التفصيلية الإضافية:


تعليقات