تخطي إلى المحتوى

DAMO-YOLO مقابل YOLOv10: نظرة متعمقة في تطور الكشف عن الأجسام

يعد اختيار نموذج الكشف عن الكائنات الصحيح قرارًا محوريًا يؤثر على كل شيء بدءًا من تكاليف النشر وحتى تجربة المستخدم. تستكشف هذه المقارنة الفنية الاختلافات بين DAMO-YOLO، وهو نموذج مدفوع بالبحث من مجموعة Alibaba، و YOLOv10، وهو أحدث كاشف في الوقت الفعلي من طرف إلى طرف تم تطويره بواسطة باحثين في جامعة Tsinghua ودمجه في نظام Ultralytics البيئي.

في حين أن كلا النموذجين يهدفان إلى تحسين المفاضلة بين السرعة والدقة، إلا أنهما يستخدمان استراتيجيات معمارية مختلفة تمامًا. يتعمق هذا التحليل في مواصفاتهما التقنية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك على التنقل في المشهد المعقد لـ رؤية الكمبيوتر.

مقاييس الأداء

يوفر الجدول أدناه مقارنة مباشرة للكفاءة والدقة على مجموعة بيانات COCO. تشمل النقاط الرئيسية كفاءة المعلمات وسرعات الاستدلال، حيث تُظهر YOLOv10 مزايا كبيرة بسبب تصميمها الخالي من NMS.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

DAMO-YOLO: ابتكار مدفوع بالبحث

يمثل DAMO-YOLO، الذي تم إصداره في أواخر عام 2022، جهدًا كبيرًا من قبل مجموعة علي بابا لدفع حدود كاشفات نمط YOLO من خلال البحث المتقدم عن البنية العصبية وتقنيات دمج الميزات المبتكرة.

تفاصيل فنية:
المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, et al.
المنظمة:Alibaba Group
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

تعرف على المزيد حول DAMO-YOLO

البنية والميزات الرئيسية

تدمج DAMO-YOLO العديد من المفاهيم المتطورة لتحقيق أدائها:

  1. البحث عن التصميم العصبي (NAS): على عكس النماذج ذات الأعمدة الفقرية المصممة يدويًا، يستخدم DAMO-YOLO تقنية MAE-NAS لاكتشاف هياكل الشبكة الفعالة تلقائيًا، وتحسين عمق الشبكة وعرضها للقيود المحددة للأجهزة.
  2. RepGFPN Neck: تستخدم شبكة الأهرامات المميزة هذه إعادة التهيئة لإدارة feature fusion بكفاءة. يسمح بهياكل معقدة في وقت التدريب تنهار إلى كتل أبسط في وقت الاستدلال، مما يحافظ على الدقة مع زيادة السرعة.
  3. ZeroHead & AlignedOTA: يستخدم النموذج تصميم "ZeroHead" لتقليل تعقيد رأس الكشف ويوظف AlignedOTA (تعيين النقل الأمثل) للتعامل مع تعيين التسميات أثناء التدريب، وحل المشكلات المتعلقة بعدم التوافق بين مهام classify والانحدار.

اعتبارات التعقيد

في حين أن DAMO-YOLO يقدم ابتكارات رائعة، إلا أن اعتماده على NAS والمكونات المتخصصة يمكن أن يجعل خط أنابيب التدريب أكثر تعقيداً وأقل سهولة للمطورين الذين يحتاجون إلى تخصيص سريع أو نشر على أجهزة متنوعة دون ضبط مكثف.

نقاط القوة والضعف

  • نقاط القوة: يوفر DAMO-YOLO دقة قوية، خاصة بالنسبة لوقت إصداره، وقدم مفاهيم جديدة مثل تحسين التقطير للنماذج الأصغر.
  • نقاط الضعف: يرتبط النظام البيئي المحيط بـ DAMO-YOLO بشكل أساسي بإطار عمل MMDetection، والذي قد يمثل منحنى تعليميًا أكثر حدة مقارنة بـ نظام Ultralytics البيئي سهل الاستخدام. بالإضافة إلى ذلك، فإنه يتطلب معالجة لاحقة تقليدية لـ NMS، مما يزيد من زمن الوصول.

YOLOv10: عصر الكشف الشامل في الوقت الفعلي

يمثل YOLOv10، الذي تم إصداره في مايو 2024 بواسطة باحثين في جامعة تسينغ هوا، نقلة نوعية في سلالة YOLO. من خلال إلغاء الحاجة إلى Non-Maximum Suppression (NMS)، فإنه يحقق أداءً شاملاً حقيقيًا، مما يقلل بشكل كبير من زمن الوصول للاستدلال.

تفاصيل فنية:
المؤلفون: Ao Wang, Hui Chen, Lihao Liu, et al.
المنظمة:Tsinghua University
التاريخ: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
المستندات:https://docs.ultralytics.com/models/yolov10/


تعرف على المزيد حول YOLOv10

الهندسة المعمارية والابتكارات

يركز YOLOv10 على الكفاءة الشاملة، ويستهدف كلاً من البنية ومسار ما بعد المعالجة:

  1. تصميم بدون NMS: من خلال إستراتيجية تسمى تعيينات مزدوجة متسقة، يتم تدريب YOLOv10 بتعيينات تسمية متعددة إلى واحد وواحد إلى واحد. يتيح ذلك للنموذج توقع أفضل مربع واحد لكل كائن أثناء الاستدلال، مما يجعل NMS قديمًا. هذه ميزة حاسمة لـ الاستدلال في الوقت الفعلي حيث يمكن أن تصبح المعالجة اللاحقة في كثير من الأحيان عنق الزجاجة.
  2. تصميم شامل للكفاءة والدقة: يتميز التصميم برأس classify خفيف الوزن وتقليل أخذ العينات المترابط مكانيًا وقنواتيًا. تعمل هذه التحسينات على تقليل التكرار الحسابي، مما يؤدي إلى انخفاض FLOPs وعدد المعلمات مقارنة بالأجيال السابقة.
  3. Rank-Guided Block Design: يقوم النموذج بتكييف تصميم الكتلة الداخلية الخاص به بناءً على التكرار في المراحل المختلفة، وذلك باستخدام كتل معكوسة مدمجة (CIB) حيث تكون الكفاءة مطلوبة والانتباه الذاتي الجزئي (PSA) حيث يكون تحسين الميزات أمرًا بالغ الأهمية.

سهولة الاستخدام مع Ultralytics

تتمثل إحدى أهم مزايا YOLOv10 في تكاملها السلس في نظام Ultralytics البيئي. يمكن للمطورين تدريب YOLOv10 والتحقق من صحته ونشره باستخدام نفس واجهة برمجة التطبيقات (API) البسيطة المستخدمة في YOLOv8 و YOLO11.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

تحليل مقارن

عند مقارنة DAMO-YOLO و YOLOv10، يكمن التمييز في نهجهما في الكفاءة ونظامهما البيئي التشغيلي.

السرعة وزمن الوصول

يتمتع YOLOv10 بميزة واضحة في زمن الوصول في العالم الحقيقي. تتطلب نماذج YOLO القياسية (و DAMO-YOLO) قمع غير الأقصى (NMS) لتصفية مربعات الإحاطة المتداخلة. يختلف وقت تنفيذ NMS مع عدد الكائنات التي تم الكشف عنها، مما يتسبب في زمن وصول غير متوقع. يوفر تصميم YOLOv10 الشامل زمن وصول حتمي، مما يجعله متفوقًا للتطبيقات ذات المهام الحرجة مثل القيادة الذاتية أو الروبوتات الصناعية عالية السرعة.

كفاءة الموارد

كما هو موضح في جدول الأداء، يحقق YOLOv10s قيمة mAP أعلى (46.7٪) من DAMO-YOLO-S (46.0٪) مع استخدام أقل من نصف عدد المعلمات (7.2 مليون مقابل 16.3 مليون). هذا البصمة الذاكرة المنخفضة أمر بالغ الأهمية للنشر على الحافة. تشتهر نماذج Ultralytics بـ متطلبات الذاكرة المنخفضة أثناء التدريب والاستدلال، مما يتيح التدريب على وحدات معالجة الرسومات (GPUs) من الدرجة الاستهلاكية حيث قد تواجه البنى الأخرى صعوبات مع أخطاء نفاد الذاكرة (OOM).

النظام الإيكولوجي والدعم

في حين أن DAMO-YOLO هو مساهمة أكاديمية قوية، إلا أن YOLOv10 يستفيد من نظام Ultralytics البيئي الذي تتم صيانته جيداً. وهذا يشمل:

  • تطوير نشط: تحديثات متكررة وإصلاح للأخطاء.
  • دعم المجتمع: مجتمع ضخم من المطورين على GitHub و Discord.
  • الوثائق: وثائق شاملة تغطي كل شيء بدءًا من زيادة البيانات وحتى النشر.
  • كفاءة التدريب: إجراءات مبسطة تدعم ميزات مثل الدقة المختلطة التلقائية (AMP) والتدريب متعدد وحدات معالجة الرسوميات (multi-GPU) خارج الصندوق.

ما وراء الاكتشاف

إذا كان مشروعك يتطلب تنوعًا يتجاوز مربعات الإحاطة - مثل تقطيع المثيلات أو تقدير الوضعية أو الكشف عن الكائنات الموجهة (OBB) - ففكر في استكشاف YOLO11 أو YOLOv8. في حين أن YOLOv10 يتفوق في الكشف النقي، فإن عائلة Ultralytics الأوسع تقدم حلولًا حديثة لهذه الاحتياجات المعقدة متعددة المهام.

حالات الاستخدام المثالية

متى تختار YOLOv10

  • الذكاء الاصطناعي المتطور وإنترنت الأشياء: إن العدد المنخفض للمعلمات (على سبيل المثال، YOLOv10n عند 2.3 مليون معلمة) يجعله مثاليًا للأجهزة مثل Raspberry Pi أو NVIDIA Jetson.
  • تحليلات الفيديو الآنية: يضمن التخلص من NMS معدلات إطارات ثابتة، وهو أمر ضروري لمراقبة حركة المرور أو موجزات الأمان.
  • تطوير سريع: الفرق التي تحتاج إلى الانتقال من البيانات إلى النشر بسرعة ستستفيد من ultralytics واجهة برمجة تطبيقات python و Ultralytics HUB.

متى يجب التفكير في DAMO-YOLO

  • البحث الأكاديمي: قد يجد الباحثون الذين يدرسون البحث عن الهندسة المعمارية العصبية (NAS) أو تحسين هرم الميزات أن بنية DAMO-YOLO مرجعًا قيمًا.
  • خطوط الأنابيب القديمة: قد تجد المشاريع المدمجة بالفعل بعمق في إطار MMDetection أنه من الأسهل اعتماد DAMO-YOLO بدلاً من تبديل الأطر.

الخلاصة

يمثل كلا النموذجين علامات بارزة في مجال رؤية الكمبيوتر. عرض DAMO-YOLO قوة NAS ودمج الميزات المتقدمة في عام 2022. ومع ذلك، بالنسبة للتطبيقات الحديثة في عام 2024 وما بعده، يقدم YOLOv10 حزمة أكثر جاذبية. تحل بنيته الشاملة الخالية من NMS عنق الزجاجة الذي طال أمده في الكشف عن الكائنات، بينما يضمن تكامله في نظام Ultralytics البيئي سهولة الوصول إليه وصيانته ونشره.

بالنسبة للمطورين الباحثين عن أفضل توازن بين السرعة والدقة وسهولة الاستخدام، فإن YOLOv10—إلى جانب YOLO11 متعدد الاستخدامات—يقف كخيار متفوق لبناء حلول ذكاء اصطناعي قوية.


تعليقات