DAMO-YOLO مقابل YOLOv7: تقييم كاشفات الكائنات في الوقت الفعلي

أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور نماذج عالية الكفاءة لاكتشاف الأجسام، مصممة لتحقيق التوازن بين الدقة والتكلفة الحسابية. ومن النماذج البارزة التي تم طرحها في عام 2022 YOLO ونموذج YOLOv7. في حين أن كلا النموذجين يهدفان إلى توسيع حدود مهام الرؤية في الوقت الفعلي، إلا أنهما يحققان نتائجهما من خلال نماذج معمارية ومنهجيات تدريب مختلفة تمامًا.

تستكشف هذه المقارنة التقنية الشاملة النهجين المتميزين لكلا النموذجين، وتفحص هياكلهما وإمكانيات نشرهما ومقاييس أدائهما لمساعدة مهندسي التعلم الآلي على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم.

أصول النموذج والبيانات الوصفية

قبل الخوض في التحليل التقني العميق، من الضروري وضع أصول هذين النموذجين للرؤية الحاسوبية في سياقها.

DAMO-YOLO

تم تطويرYOLO من قبل باحثين في مجموعة Alibaba Group،YOLO تقديمه لتحسين السرعة والدقة من خلال البحث والتحليل الآلي للبنية.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 23 نوفمبر 2022
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

تعرف على المزيد حول DAMO-YOLO

YOLOv7

تم إصدار YOLOv7 في منتصف عام 2022 باعتباره أحدث تقنية في هذا المجال، YOLOv7 الاستدلال في الوقت الفعلي من خلال إدخال "حقيبة الهدايا" القابلة للتدريب دون زيادة تكاليف النشر.

المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 6 يوليو 2022
أرشيف:2207.02696
الوثائق:وثائق YOLOv7

تعرف على المزيد حول YOLOv7

النظام البيئي المدعوم

YOLOv7 دعم YOLOv7 رسميًا ضمن Ultralytics مما يتيح التدريب والتحقق والتصدير بسلاسة باستخدام واجهة برمجة تطبيقات موحدة.

الابتكارات المعمارية

YOLO: NAS والتقطير

يدمج DAMO-YOLO العديد من التقنيات المتطورة الموجهة نحو أقصى قدر من الكفاءة:

هياكل NAS الخلفية: يستخدم بحث البنية العصبية (NAS) لتصميم هياكل خلفية مثالية تلقائيًا (MAE-NAS) مصممة خصيصًا للبيئات الحساسة للتأخير.
RepGFPN الفعال: شبكة هرمية للميزات المعممة (Generalized Feature Pyramid Network) معدلة تعزز بشكل كبير كفاءة دمج الميزات عبر مقاييس متعددة.
ZeroHead & AlignedOTA: يدمج رأس detect خفيف الوزن واستراتيجية محسّنة لتعيين التسميات (AlignedOTA) لتقليل الحمل الحسابي.
تعزيز التقطير: يستفيد بشكل كبير من تقطير المعرفة أثناء التدريب لتعزيز أداء متغيرات النموذج الأصغر دون زيادة عدد معلماتها.

YOLOv7: E-ELAN و Bag-of-Freebies

YOLOv7 نهجًا هندسيًا أكثر هيكليًا، مع التركيز على تحسين مسار التدرج واستراتيجيات التدريب القوية.

بنية E-ELAN: تسمح شبكة تجميع الطبقات الفعالة الموسعة للنموذج بتعلم ميزات أكثر تنوعًا من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقارب تعلم فعال.
قياس النموذج: يقدم طريقة قياس مركبة مصممة خصيصًا للنماذج القائمة على الربط، مع قياس العمق والعرض في وقت واحد للمحاذاة الهيكلية.
مجموعة من التحسينات القابلة للتدريب: تستخدم تقنيات مثل الالتفافات المعاد تحديد معاملاتها (RepConv) بدون اتصالات هوية، واستراتيجيات تعيين التسميات الديناميكية، التي تعزز الدقة أثناء التدريب دون التأثير على سرعة الاستدلال.

تحليل الأداء

عند تقييم متوسط الدقة (mAP) والسرعة والكفاءة، يُظهر كلا النموذجين مقاييس رائعة، على الرغم من أنهما يستهدفان قطاعات مختلفة قليلاً. YOLOv7 بشكل كبير على GPU عالي الدقة، بينما تهدف هياكلYOLO المشتقة من NAS إلى نشر CPU Edge منخفضة التأخير بشكل كبير.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

كما يتضح من المقاييس، بينما يوفر DAMO-YOLO متغيرات خفيفة الوزن للغاية (مثل النموذج الصغير الذي يحتوي على 8.5 مليون معلمة فقط)، يحقق YOLOv7 ذروة دقة إجمالية أعلى، حيث يصل YOLOv7x إلى 53.1 mAP مثير للإعجاب على مجموعة بيانات COCO.

ميزة النظام البيئي لـ Ultralytics

على الرغم من أهمية الهندسة النظرية، فإن قابلية تطبيق النموذج عمليًا تتحدد بواسطة نظامه البيئي. تستفيد النماذج التي تدعمها Ultralytics مثل YOLOv7 من نظام بيئي جيد الصيانة وسهولة استخدام لا مثيل لها.

توازن الأداء: تحقق نماذج Ultralytics باستمرار توازنًا مثاليًا بين سرعة الاستدلال ودقة detect، مما يجعلها مثالية لكل من الأجهزة الطرفية ونشر النماذج المستندة إلى السحابة.
متطلبات الذاكرة: على عكس النماذج الأثقل القائمة على المحولات (transformers)، تحافظ نماذج Ultralytics YOLO على متطلبات ذاكرة CUDA منخفضة أثناء التدريب. وهذا يسمح بأحجام دفعات أكبر، مما يبسط عملية التدريب حتى على الأجهزة الاستهلاكية.
تعدد الاستخدامات: يمتد إطار عمل Ultralytics بما يتجاوز الكشف عن الكائنات إلى مهام مثل تجزئة الكائنات وتقدير الوضعيات، مما يمنح المطورين مجموعة أدوات رؤية حاسوبية كاملة.

كفاءة التدريب

تتيح لك Ultralytics الانتقال بسلاسة من مجموعات البيانات إلى نموذج مدرب بالكامل في غضون دقائق معدودة، وذلك بالاستفادة من أدوات تحميل البيانات عالية التحسين والأوزان المدربة مسبقًا.

مثال برمجي: تدريب YOLOv7 باستخدام Ultralytics

يمكنك دمج YOLOv7 خط أنابيب الرؤية الحاسوبية الخاص بك بسهولة فائقة باستخدامPython Ultralytics Python .

from ultralytics import YOLO

# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)

المعيار الجديد: تقديم YOLO26

في حين أن YOLOv7 YOLO إنجازات مهمة في عام 2022، فإن مجال الذكاء الاصطناعي للرؤية يتطور بسرعة. بالنسبة للفرق التي تبدأ مشاريع جديدة اليوم، فإن النموذج الموصى به هو Ultralytics المتطور، الذي تم إصداره في يناير 2026.

يقدم YOLO26 قفزة جيلية في الأداء وسهولة الاستخدام، حيث يدمج أحدث الابتكارات:

تصميم شامل خالٍ من NMS: يُعد YOLO26 شاملاً بطبيعته. عن طريق إلغاء المعالجة اللاحقة لقمع غير الأقصى (NMS)، يقدم منطق نشر أسرع وأبسط—وهو تحول نموذجي كان رائداً في البداية بواسطة YOLOv10.
مُحسِّن MuSGD: مستوحى من ابتكارات نماذج اللغات الكبيرة مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 هجينًا من SGD و Muon. يضمن هذا المُحسِّن ديناميكيات تدريب مستقرة للغاية ومعدلات تقارب أسرع بشكل كبير.
استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): مع الإزالة المستهدفة لـ Distribution Focal Loss (DFL) والتحسينات الهيكلية العميقة، تم تحسين YOLO26 بشكل كبير للحوسبة الطرفية منخفضة الطاقة، متفوقًا على الأجيال السابقة على الأجهزة غير المزودة بوحدات GPU.
ProgLoss + STAL: تدمج دوال خسارة جديدة متقدمة تستهدف وتحسن بشكل صريح التعرف على الأجسام الصغيرة، وهي قدرة أساسية للتطبيقات في الصور الجوية، والروبوتات، ومراقبة الأمن.
تحسينات خاصة بالمهام: بالإضافة إلى detect القياسي، يتميز YOLO26 بتحسينات مخصصة لمهام متنوعة، بما في ذلك النمذجة الأولية متعددة المقاييس لـ segmentation، و RLE لتقدير الوضعية، وخسائر زاوية محددة لـ الصناديق المحيطة الموجهة (OBB).

تعرف على المزيد حول YOLO26

حالات الاستخدام المثالية

يعتمد اختيار البنية الصحيحة كليًا على بيئة النشر المستهدفة وقيود المشروع لديك.

متى تختارYOLO:

أنت تعمل في بيئات حافة شديدة التقييد ومحدودة الموارد حيث يجب الحفاظ على عدد المعلمات الأولية منخفضًا للغاية (على سبيل المثال، المتحكمات الدقيقة).
أنت تستخدم خطوط أنابيب التعلم الآلي الآلي المدمجة بشكل خاص مع خدمات السحابة الخاصة بشركة Alibaba.

متى تختار YOLOv7:

لديك GPU قديمة تم تحسينها بالفعل للاستدلال عالي الدقة القائم على المرجع.
أنت تعمل في بيئات تتطلب دقة في الوقت الفعلي، مثل المركبات ذاتية القيادة عالية السرعة أو الروبوتات المتطورة.

متى تختار YOLO26 (موصى به):

أنت تقوم ببناء تطبيق رؤية حاسوبية جديد من الصفر وتحتاج إلى أحدث ما توصلت إليه التكنولوجيا من حيث الدقة وسرعة الاستدلال CPU.
تحتاج إلى نشر سريع وسلس (مثل التصدير إلى CoreML أو TensorRT) دون التعامل مع قيود NMS .
تريد الاستفادة من الإمكانات الكاملة Ultralytics للتدريب على السحابة وإدارة مجموعات البيانات والنشر التلقائي.

بالاستفادة من النظام البيئي القوي لنماذج Ultralytics، يمكن للمطورين تقليل وقت الهندسة بشكل كبير مع تأمين أداء تنبؤي من الدرجة الأولى لتطبيقاتهم في العالم الحقيقي.