DAMO-YOLO في مواجهة YOLOv7: تقييم كاشفات الأجسام في الوقت الفعلي
أدى التطور السريع في الرؤية الحاسوبية إلى إنتاج نماذج كشف أجسام عالية الكفاءة مصممة لتحقيق التوازن بين الدقة والتكلفة الحسابية. نموذجان بارزان تم تقديمهما في عام 2022 هما DAMO-YOLO و YOLOv7. وفي حين يهدف كلاهما إلى دفع حدود مهام الرؤية في الوقت الفعلي، فإنهما يحققان نتائجهما من خلال نماذج معمارية ومنهجيات تدريب مختلفة تماماً.
يستكشف هذا المقارنة الفنية الشاملة الأساليب المميزة لكلا النموذجين، مع فحص بنيتهما، وإمكانية النشر، ومقاييس الأداء لمساعدة مهندسي تعلم الآلة على اختيار الأداة المناسبة لـ تطبيقات الرؤية الحاسوبية الخاصة بهم.
أصول النموذج وبياناته الوصفية
قبل الغوص في التحليل الفني العميق، من الضروري وضع سياق لنشأة نموذجي الرؤية الحاسوبية هذين.
DAMO-YOLO
تم تطوير DAMO-YOLO بواسطة باحثين في مجموعة Alibaba، وتم تقديمه لتحسين كل من السرعة والدقة من خلال البحث الآلي عن البنية والتقطير.
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المنظمة: Alibaba Group
- التاريخ: 23 نوفمبر 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
YOLOv7
أصدر YOLOv7 كنموذج رائد في منتصف عام 2022، وقد دفع الاستدلال في الوقت الفعلي إلى أبعد من ذلك من خلال تقديم "حقيبة من الميزات المجانية" القابلة للتدريب دون زيادة تكاليف النشر.
- المؤلفون: Chien-Yao Wang وAlexey Bochkovskiy وHong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
- التاريخ: 6 يوليو 2022
- Arxiv: 2207.02696
- المستندات: توثيق YOLOv7
يتم دعم YOLOv7 رسمياً ضمن نظام Ultralytics البيئي، مما يسمح بالتدريب والتحقق والتصدير السلس باستخدام واجهة برمجة تطبيقات (API) موحدة.
الابتكارات المعمارية
DAMO-YOLO: البحث عن البنية العصبية (NAS) والتقطير
يدمج DAMO-YOLO العديد من التقنيات المتطورة الموجهة نحو أقصى قدر من الكفاءة:
- البنى الأساسية NAS: يستخدم البحث عن البنية العصبية (NAS) لتصميم هياكل أساسية مثالية تلقائياً (MAE-NAS) مصممة خصيصاً للبيئات التي تعتمد على زمن انتقال حرج.
- RepGFPN الفعالة: شبكة هرمية ميزات عامة معدلة تعزز بشكل كبير كفاءة دمج الميزات عبر مقاييس متعددة.
- ZeroHead و AlignedOTA: يدمج رأس كشف خفيف الوزن واستراتيجية محسنة لتعيين التسميات (AlignedOTA) لتقليل العبء الحسابي.
- تعزيز التقطير: يستفيد بشكل كبير من تقطير المعرفة أثناء التدريب لتعزيز أداء متغيرات النماذج الأصغر دون زيادة عدد معاييرها.
YOLOv7: E-ELAN وحقيبة الميزات المجانية
اتخذ YOLOv7 نهجاً هندسياً هيكلياً أكثر، حيث ركز على تحسين مسار التدرج واستراتيجيات التدريب القوية.
- بنية E-ELAN: تسمح شبكة تجميع الطبقات الفعالة الموسعة للنموذج بتعلم ميزات أكثر تنوعاً من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقارب التعلم الفعال.
- قياس النموذج: يقدم طريقة قياس مركبة مصممة للنماذج القائمة على التسلسل، مما يوسع العمق والعرض في وقت واحد للمحاذاة الهيكلية.
- حقيبة الميزات المجانية القابلة للتدريب: توظف تقنيات مثل الالتفافات المعاد تهيئتها (RepConv) بدون اتصالات هوية، واستراتيجيات تعيين التسميات الديناميكية، التي تعزز الدقة أثناء التدريب دون التأثير على سرعة الاستدلال.
تحليل الأداء
عند تقييم متوسط دقة متوسطة (mAP)، والسرعة، والكفاءة، يظهر كلا النموذجين مقاييس مبهرة، على الرغم من أنهما يستهدفان قطاعات مختلفة قليلاً. يركز YOLOv7 بشكل كبير على نشر GPU عالي الدقة، بينما تهدف هياكل DAMO-YOLO المشتقة من NAS إلى النشر الهجومي منخفض زمن الانتقال على وحدات المعالجة المركزية (CPU) والأجهزة الطرفية (Edge).
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
كما يظهر في المقاييس، بينما يوفر DAMO-YOLO متغيرات خفيفة الوزن للغاية (مثل النموذج المصغر بـ 8.5 مليون معامل فقط)، يحقق YOLOv7 ذروة دقة إجمالية أعلى، حيث يصل YOLOv7x إلى 53.1 mAP مبهرة على مجموعة بيانات COCO.
ميزة نظام Ultralytics البيئي
على الرغم من أن البنية النظرية مهمة، إلا أن قابلية تطبيق النموذج يتم تحديدها من خلال نظامه البيئي. تستفيد النماذج المدعومة من Ultralytics، مثل YOLOv7، من نظام بيئي جيد الصيانة و سهولة استخدام لا مثيل لها.
- توازن الأداء: تحقق نماذج Ultralytics باستمرار توازناً مثالياً بين سرعة الاستدلال ودقة الكشف، مما يجعلها مثالية لكل من الأجهزة الطرفية ونشر النماذج القائمة على السحابة.
- متطلبات الذاكرة: على عكس النماذج الأثقل المعتمدة على Transformer، تحافظ نماذج Ultralytics YOLO على متطلبات ذاكرة CUDA منخفضة أثناء التدريب. وهذا يسمح بـ أحجام دفعات أكبر، مما يبسط عملية التدريب حتى على الأجهزة الاستهلاكية.
- تعدد الاستخدامات: يمتد إطار عمل Ultralytics إلى ما هو أبعد من كشف الأجسام إلى مهام مثل تجزئة المثيلات وتقدير الوضع، مما يمنح المطورين مجموعة أدوات رؤية حاسوبية كاملة.
تسمح لك حزمة Ultralytics بالانتقال بسلاسة من مجموعات البيانات إلى نموذج مدرب بالكامل في دقائق معدودة، من خلال الاستفادة من محملات البيانات المحسنة للغاية والأوزان المدربة مسبقاً.
مثال برمجي: تدريب YOLOv7 باستخدام Ultralytics
يعد دمج YOLOv7 في خط أنابيب الرؤية الحاسوبية الخاص بك أمراً بسيطاً للغاية باستخدام واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics.
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)المعيار الجديد: تقديم YOLO26
بينما مثل YOLOv7 و DAMO-YOLO اختراقات كبيرة في عام 2022، إلا أن مجال ذكاء الرؤية يتحرك بسرعة. بالنسبة للفرق التي تبدأ مشاريع جديدة اليوم، فإن النموذج الموصى به هو النموذج المتطور Ultralytics YOLO26، الذي تم إصداره في يناير 2026.
يقدم YOLO26 قفزة جيلية في الأداء وسهولة الاستخدام، حيث يدمج ابتكارات أحدث التقنيات:
- تصميم كامل من الطرف إلى الطرف بدون NMS: يعتبر YOLO26 أصلياً من الطرف إلى الطرف. ومن خلال التخلص من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يقدم منطق نشر أسرع وأبسط—وهو تحول نموذجي كان رائداً في البداية بواسطة YOLOv10.
- محسن MuSGD: مستوحى من ابتكارات نماذج اللغة الكبيرة مثل Kimi K2 لشركة Moonshot AI، يستخدم YOLO26 هجيناً من SGD و Muon. يضمن هذا المحسن ديناميكيات تدريب مستقرة للغاية ومعدلات تقارب أسرع بشكل كبير.
- استدلال أسرع بنسبة تصل إلى 43% على CPU: مع الإزالة المستهدفة لـ Distribution Focal Loss (DFL) والتحسينات الهيكلية العميقة، تم تحسين YOLO26 بشكل كبير للحوسبة الطرفية منخفضة الطاقة، متفوقاً على الأجيال السابقة على الأجهزة التي لا تحتوي على GPU.
- ProgLoss + STAL: يدمج وظائف خسارة جديدة متقدمة تستهدف وتحسن بشكل صريح التعرف على الأجسام الصغيرة، وهي قدرة أساسية للتطبيقات في الصور الجوية والروبوتات ومراقبة الأمن.
- تحسينات خاصة بالمهمة: بالإضافة إلى الكشف القياسي، يتميز YOLO26 بتحسينات مصممة لمهام متنوعة، بما في ذلك النماذج الأولية متعددة المقاييس للتجزئة، و RLE لتقدير الوضع، وخسائر زاوية محددة لـ صناديق التقييد الموجهة (OBB).
حالات الاستخدام المثالية
يعتمد اختيار البنية الصحيحة كلياً على بيئة النشر المستهدفة وقيود المشروع.
متى تختار DAMO-YOLO:
- إذا كنت تعمل في بيئات طرفية مقيدة للغاية ومحدودة الموارد حيث يجب إبقاء عدد المعايير الخام منخفضاً جداً (مثل المتحكمات الدقيقة).
- إذا كنت تستخدم خطوط أنابيب تعلم آلي آلية مدمجة خصيصاً مع خدمات سحابة Alibaba الخاصة.
متى تختار YOLOv7:
- إذا كان لديك خطوط أنابيب GPU قديمة تم تحسينها بالفعل للاستدلال عالي الدقة القائم على المرساة.
- إذا كنت تعمل في بيئات تكون فيها الدقة في الوقت الفعلي أمراً بالغ الأهمية، مثل المركبات ذاتية القيادة عالية السرعة أو الروبوتات المتقدمة.
متى تختار YOLO26 (موصى به):
- إذا كنت تبني تطبيق رؤية حاسوبية جديداً من الصفر وتحتاج إلى أحدث التقنيات في كل من الدقة وسرعة استدلال CPU/الطرف.
- إذا كنت تتطلب نشراً سريعاً وسلساً (مثل التصدير إلى CoreML أو TensorRT) دون التعامل مع قيود عامل NMS.
- إذا كنت ترغب في الاستفادة من الإمكانات الكاملة لـ منصة Ultralytics للتدريب السحابي وإدارة مجموعات البيانات والنشر الآلي.
من خلال الاستفادة من النظام البيئي القوي لنماذج Ultralytics، يمكن للمطورين تقليل وقت الهندسة بشكل كبير مع تأمين أداء تنبئي من الطراز الأول لتطبيقاتهم في العالم الحقيقي.