DAMO-YOLO مقابل YOLO26: مقارنة تقنية لكاشفات الأجسام في الوقت الفعلي
شهد تطور اكتشاف الأجسام في الوقت الفعلي تقدمًا سريعًا، مدفوعًا بالحاجة إلى نماذج توازن بين السرعة والدقة وكفاءة النشر. تقدم هذه المقالة مقارنة تقنية شاملة بين DAMO-YOLO، الذي طورته مجموعة Alibaba، و YOLO26، أحدث إصدار من Ultralytics. سنقوم بتحليل بنيتها المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدة المطورين والباحثين على اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بهم.
نظرة عامة على DAMO-YOLO
DAMO-YOLO هي طريقة سريعة ودقيقة لاكتشاف الأجسام، قدمها باحثون في مجموعة Alibaba في أواخر عام 2022. لقد صُممت لدفع حدود الأداء من خلال دمج العديد من التقنيات المتطورة في إطار عمل YOLO. تتمثل الفلسفة الأساسية وراء DAMO-YOLO في استخدام البحث عن البنية العصبية (NAS) لاكتشاف البنى الأساسية الفعالة تلقائيًا، جنبًا إلى جنب مع عنق إعادة المعايرة الثقيل.
تشمل الميزات المعمارية الرئيسية ما يلي:
- العمود الفقري MAE-NAS: استخدام نهج التشفير التلقائي المقنع (MAE) للبحث عن هياكل العمود الفقري المثلى في ظل قيود زمن الاستجابة المختلفة.
- RepGFPN الفعال: شبكة هرم الميزات المعممة (GFPN) المحسّنة بشكل كبير بإعادة المعايرة لتحسين كفاءة دمج الميزات دون التضحية بالسرعة أثناء الاستدلال.
- ZeroHead: تصميم رأس خفيف الوزن يقلل من الحمل الحسابي.
- AlignedOTA: استراتيجية محسّنة لتخصيص التسميات تحل مشكلات عدم المحاذاة بين مهام التصنيف والانحدار.
- تحسين التقطير: يتم استخدام خط أنابيب تقطير قوي لتعزيز دقة النماذج الأصغر باستخدام نماذج معلم أكبر.
المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المنظمة:مجموعة Alibaba
التاريخ: 23 نوفمبر 2022
الروابط:Arxiv, GitHub
نظرة عامة على YOLO26
تم إصداره في يناير 2026 بواسطة Ultralytics، يمثل YOLO26 قفزة كبيرة إلى الأمام في الرؤية الحاسوبية المحسّنة للأجهزة الطرفية. صُمم خصيصًا للأجهزة الطرفية ومنخفضة الطاقة، ويركز على تبسيط خط أنابيب النشر مع تعزيز الدقة في المهام الصعبة مثل اكتشاف الأجسام الصغيرة.
يتميز YOLO26 بالعديد من الابتكارات الرئيسية:
- تصميم خالٍ من NMS من البداية إلى النهاية: من خلال التخلص من الحاجة إلى معالجة NMS اللاحقة (Non-Maximum Suppression)، يبسط YOLO26 منطق النشر ويقلل من تباين زمن الاستجابة، وهو مفهوم تم ابتكاره لأول مرة في YOLOv10.
- إزالة DFL: تؤدي إزالة Distribution Focal Loss (DFL) إلى تبسيط بنية إخراج النموذج، مما يجعل التصدير إلى تنسيقات مثل ONNX و TensorRT أكثر وضوحًا وتوافقًا مع مجموعة واسعة من الأجهزة.
- مُحسِّن MuSGD: مُحسِّن هجين جديد يجمع بين SGD و Muon، مستوحى من تقنيات تدريب LLM من Kimi K2 لـ Moonshot AI. يؤدي هذا إلى ديناميكيات تدريب أكثر استقرارًا وتقارب أسرع.
- ProgLoss + STAL: مزيج موازنة الخسارة التدريجية (Progressive Loss Balancing) وتخصيص التسميات الواعي للأهداف الصغيرة (STAL) يعزز الأداء بشكل كبير على الأجسام الصغيرة، معالجة نقطة ضعف شائعة في كاشفات الوقت الفعلي.
المؤلفون: جلين جوشر وجينغ كيو
المنظمة:Ultralytics
التاريخ: 14 يناير 2026
الروابط:وثائق Ultralytics, GitHub
تحليل مقارن
الهندسة المعمارية وفلسفة التصميم
يكمن الاختلاف الأبرز في مسار الاستدلال. يتبع DAMO-YOLO سير عمل كاشف تقليدي يتطلب NMS لتصفية مربعات الإحاطة المتداخلة. على الرغم من فعاليته، يمكن أن يشكل NMS عنق زجاجة في التطبيقات عالية الإنتاجية ويعقد النشر على بعض المسرعات.
على النقيض، فإن YOLO26 هو بطبيعته شامل (end-to-end). يتنبأ النموذج بالمجموعة النهائية من مربعات الإحاطة مباشرة. هذا التصميم الخالي من NMS لا يقلل فقط من زمن استجابة الاستدلال—خاصة على الأجهزة الطرفية المعتمدة على CPU حيث يكون NMS مكلفًا—بل يبسط أيضًا رمز التكامل المطلوب لتشغيل النموذج في بيئات الإنتاج.
بساطة النشر
تعني بنية YOLO26 الخالية من NMS أنك لست بحاجة إلى تنفيذ منطق معالجة لاحقة معقد في C++ أو CUDA عند النشر على الأجهزة الطرفية. ناتج النموذج هو نتيجة detect النهائية.
منهجيات التدريب
يعتمد DAMO-YOLO بشكل كبير على تقطير المعرفة (Knowledge Distillation) لتحقيق أدائه العالي، خاصة بالنسبة لإصداراته الأصغر. يضيف هذا تعقيدًا إلى مسار التدريب، حيث يجب تدريب نموذج معلم قوي أولاً.
يقدم YOLO26 مُحسِّن MuSGD، مما يسد الفجوة بين تحسين نماذج اللغة الكبيرة (LLM) ورؤية الكمبيوتر. يسمح هذا لـ YOLO26 بتحقيق تقارب متطور دون الاعتماد بالضرورة على إعدادات تقطير معقدة، على الرغم من أن أوضاع تدريب Ultralytics تدعم تكوينات متقدمة متنوعة. علاوة على ذلك، يقوم ProgLoss الخاص بـ YOLO26 بضبط أوزان الخسارة ديناميكيًا أثناء التدريب لتحقيق استقرار عملية التعلم.
مقاييس الأداء
عند مقارنة الأداء على مجموعة بيانات COCO، يُظهر كلا النموذجين نتائج مبهرة، ولكن تبرز مفاضلات واضحة فيما يتعلق بالسرعة والكفاءة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تحليل:
- كفاءة المعلمات: يُظهر YOLO26 كفاءة معلمات أفضل بكثير. على سبيل المثال،
YOLO26sيحقق 48.6 mAP مع 9.5 مليون معلمة، بينماDAMO-YOLOsيحقق 46.0 mAP مع 16.3 مليون معلمة. وهذا يجعل نماذج YOLO26 أخف للتخزين وأسرع للتحميل. - سرعة الاستدلال: YOLO26n سريع للغاية، حيث يسجل 1.7 مللي ثانية على وحدة معالجة رسوميات T4 باستخدام TensorRT، مقارنة بحوالي 2.32 مللي ثانية لإصدار Tiny DAMO. تُعد سرعة CPU لـ YOLO26 أيضًا نقطة بارزة، حيث تم تحسينها خصيصًا للأجهزة مثل Raspberry Pi أو الهواتف المحمولة حيث لا تتوفر وحدات معالجة الرسوميات (GPUs).
- الدقة: عند مقاييس مماثلة (مثل المتوسط/الكبير)، يتفوق YOLO26 باستمرار على DAMO-YOLO في mAP، ويرجع ذلك على الأرجح إلى استراتيجية التعيين المتقدمة STAL والبنية المحسنة.
التنوع ودعم المهام
بينما يركز DAMO-YOLO بشكل أساسي على اكتشاف الكائنات، يضمن النظام البيئي لـ Ultralytics أن يكون YOLO26 قوة متعددة المهام.
- DAMO-YOLO: متخصص في اكتشاف الكائنات.
- YOLO26: يدعم اكتشاف الكائنات، تجزئة الكائنات (Instance Segmentation)، تصنيف الصور، تقدير الوضعيات، واكتشاف مربعات الإحاطة الموجهة (OBB) جاهزًا للاستخدام.
تتيح هذه المرونة للمطورين استخدام واجهة برمجة تطبيقات موحدة واحدة لمجموعة متنوعة من مشاكل رؤية الكمبيوتر، مما يقلل من منحنى التعلم والديون التقنية.
سهولة الاستخدام والنظام البيئي
إحدى أقوى مزايا YOLO26 هي النظام البيئي لـ Ultralytics المحيط به.
DAMO-YOLO يوفر قاعدة تعليمات برمجية يمكن للباحثين استخدامها لإعادة إنتاج النتائج، ولكن قد يفتقر إلى التوثيق الشامل والصيانة ودعم المجتمع الموجود في المكتبات الأكثر تركيزًا على المنتجات.
YOLO26 يستفيد من:
- واجهة برمجة تطبيقات بسيطة: واجهة برمجة تطبيقات (API) متسقة في python و واجهة CLI (
yolo predict ...) تجعل التدريب والنشر متاحين للمبتدئين والخبراء على حد سواء. - الوثائق: أدلة شاملة تغطي كل شيء بدءًا من التدريب على مجموعات البيانات المخصصة وصولاً إلى تصدير النماذج لأجهزة iOS و Android.
- عمليات التكامل: اتصال سلس مع أدوات مثل Comet و Weights & Biases و Roboflow لدعم عمليات MLOps.
- الصيانة: تحديثات متكررة لمعالجة الأخطاء وتقديم ميزات جديدة، مما يضمن بقاء النموذج ذا صلة.
مثال برمجي: تشغيل YOLO26
from ultralytics import YOLO
# Load a pretrained YOLO26n model
model = YOLO("yolo26n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()
حالات الاستخدام
متى تختار DAMO-YOLO
- تطبيقات البحث: إذا كان عملك يتضمن دراسة البحث عن البنية العصبية (NAS) أو استكشاف تقنيات إعادة التوصيف الجديدة، فإن DAMO-YOLO يوفر أرضية خصبة للبحث الأكاديمي.
- قيود الإرث المحددة: إذا كانت بنية عمل (pipeline) موجودة مبنية بشكل صارم حول تنسيق الإخراج المحدد أو استراتيجيات تعيين الارتساء لـ DAMO-YOLO، وكانت إعادة الهيكلة غير ممكنة.
متى تختار YOLO26
- النشر على الحافة: للتطبيقات على Raspberry Pi أو الأجهزة المحمولة أو الأنظمة المدمجة حيث تكون سرعة استدلال وحدة المعالجة المركزية (CPU) والبصمة المنخفضة للذاكرة حاسمة.
- الأنظمة في الوقت الفعلي: طبيعة YOLO26 الخالية من NMS تجعله مثاليًا لمتطلبات زمن الاستجابة المنخفض للغاية في الروبوتات أو القيادة الذاتية.
- مشاريع المهام المتعددة: إذا كان مشروعك يتطلب detect الكائنات و segment الأقنعة وتقدير الوضعيات في وقت واحد، فإن YOLO26 يغطي جميع الجوانب بإطار عمل واحد.
- التطوير التجاري: الاستقرار والدعم وسهولة التصدير إلى تنسيقات مثل CoreML و OpenVINO تجعله الخيار الأفضل لبرامج الإنتاج.
الخلاصة
يمثل كلا النموذجين إنجازات مهمة في رؤية الكمبيوتر. قدم DAMO-YOLO مفاهيم رائعة في NAS ودمج الميزات الفعال. ومع ذلك، فإن YOLO26 يحسن أحدث التقنيات من خلال التركيز على قابلية النشر العملي و استقرار التدريب و الكفاءة الحاسوبية. بفضل تصميمه الشامل الخالي من NMS، وكفاءة المعلمات الفائقة، ودعم نظام Ultralytics البيئي القوي، يبرز YOLO26 كخيار موصى به لتطبيقات رؤية الكمبيوتر الحديثة في الوقت الفعلي.
للمهتمين باستكشاف خيارات أخرى ضمن عائلة Ultralytics، تظل نماذج مثل YOLO11 و YOLOv8 بدائل قوية لمهام detect الأغراض العامة.