YOLO26 مقابل DAMO-YOLO: تطوير الكشف عن الكائنات في الوقت الفعلي
في المشهد المتطور بسرعة لرؤية الكمبيوتر، يعد اختيار نموذج الكشف عن الكائنات المناسب أمرًا بالغ الأهمية لتحقيق التوازن بين الدقة والسرعة وجدوى النشر. تستكشف هذه المقارنة YOLO26، أحدث عرض محسّن للحوسبة الطرفية من Ultralytics، وDAMO-YOLO، وهو كاشف عالي الأداء طورته مجموعة Alibaba. يقدم كلا النموذجين ابتكارات معمارية مهمة، لكنهما يستهدفان أولويات مختلفة قليلاً في مسار النشر.
نظرة عامة على النموذج
Ultralytics YOLO26
YOLO26 يمثل نقلة نوعية نحو البساطة وكفاءة الحوسبة الطرفية. تم إصداره في يناير 2026، وقد تم تصميمه للتخلص من تعقيدات المعالجة اللاحقة التقليدية مع تقديم أداء متطور على الأجهزة ذات قيود CPU. وهو يدعم بشكل أصلي مجموعة واسعة من المهام بما في ذلك الكشف عن الكائنات، تجزئة الكائنات، تقدير الوضعيات، التصنيف، والكشف عن الصناديق المحيطة الموجهة (OBB).
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 14 يناير 2026
- GitHub:Ultralytics Repository
DAMO-YOLO
DAMO-YOLO يركز على تحسين المفاضلة بين السرعة والدقة من خلال البحث المتقدم في البنية العصبية (NAS) وإعادة التوسيط الكثيفة. تم تطويره بواسطة فريق TinyVision في Alibaba، ويقدم مكونات جديدة مثل RepGFPN و ZeroHead لزيادة كفاءة استخلاص الميزات إلى أقصى حد، مستهدفًا بشكل أساسي سيناريوهات GPU للأغراض العامة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 23 نوفمبر 2022
- أرشيف:ورقة DAMO-YOLO البحثية
- GitHub:مستودع DAMO-YOLO
مقارنة البنية التقنية
من طرف إلى طرف مقابل NMS التقليدي
يكمن الاختلاف التشغيلي الأكثر أهمية في كيفية إنهاء التنبؤات.
YOLO26 يستخدم تصميمًا أصيلًا من طرف إلى طرف وخاليًا من NMS. من خلال توليد التنبؤات النهائية مباشرة من الشبكة، فإنه يلغي الحاجة إلى Non-Maximum Suppression (NMS). يقلل هذا الإزالة للمعالجة اللاحقة من تباين زمن الوصول ويبسط مسارات النشر، خاصة على الأجهزة الطرفية مثل Raspberry Pi أو الأجهزة المحمولة حيث يمكن أن تكون عمليات NMS عنق الزجاجة. وقد تم ريادة هذا النهج بنجاح في YOLOv10 وتم تحسينه هنا.
DAMO-YOLO يعتمد على رأس تنبؤ كثيف أكثر تقليدية (ZeroHead) يتطلب NMS لتصفية الصناديق المتداخلة. على الرغم من فعاليته، يضيف هذا خطوة حسابية أثناء الاستدلال تتناسب مع عدد الكائنات المكتشفة، مما قد يؤدي إلى تقلبات في زمن الوصول في المشاهد المزدحمة.
ابتكار التدريب: MuSGD مقابل NAS
YOLO26 يقدم مُحسِّن MuSGD، وهو مزيج من SGD وMuon. مستوحى من الإنجازات في تدريب نماذج اللغات الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يوفر هذا المُحسِّن ديناميكيات تدريب أكثر استقرارًا وتقاربًا أسرع، مما يسمح للمستخدمين بتحقيق الأداء الأمثل بعدد أقل من الحقب.
DAMO-YOLO يستفيد من البحث في البنية العصبية (NAS) عبر طريقة MAE-NAS لاكتشاف هياكل العمود الفقري الفعالة تلقائيًا. كما يستخدم RepGFPN الفعال، وهو عنق إعادة توسيط كثيف يدمج الميزات على مستويات متعددة. على الرغم من قوتها، قد تكون هذه البنى المشتقة من NAS أقل سهولة في التعديل أو الضبط الدقيق مقارنة بالكتل المبسطة المصممة يدويًا في نماذج Ultralytics.
دوال الخسارة
YOLO26 يزيل Distribution Focal Loss (DFL) لتبسيط إمكانية التصدير إلى تنسيقات مثل CoreML وTensorRT. بدلاً من ذلك، يستخدم ProgLoss وSmall-Target-Aware Label Assignment (STAL)، مما يعزز الأداء بشكل كبير على الكائنات الصغيرة - وهي نقطة ضعف شائعة في قطاعات مثل الصور الجوية والتحليل الطبي.
DAMO-YOLO يستخدم AlignedOTA، وهي استراتيجية تعيين تسميات تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار. ويركز على ضمان تعيين نقاط الارتكاز عالية الجودة للحقائق الأرضية الأكثر صلة أثناء التدريب.
تحسين الحوسبة الطرفية في YOLO26
بإزالة DFL و NMS، يحقق YOLO26 ما يصل إلى 43% استدلالًا أسرع على CPU مقارنة بالأجيال السابقة. وهذا يجعله مناسبًا بشكل فريد لتطبيقات "الذكاء الاصطناعي الطرفي" حيث لا تتوفر موارد GPU، مثل إدارة مواقف السيارات الذكية على الجهاز.
مقاييس الأداء
يسلط الجدول التالي الضوء على اختلافات الأداء. يُظهر YOLO26 كفاءة فائقة، خاصة في عدد المعلمات و FLOPs، مع الحفاظ على دقة تنافسية أو متفوقة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
النقاط الرئيسية
- الكفاءة: YOLO26n (Nano) أصغر بحوالي 3.5 مرة في عدد المعلمات وأقل بـ 3.3 مرة في FLOPs من DAMO-YOLOt مع تحقيق دقة مماثلة. هذا الانخفاض الكبير في الوزن الحسابي يجعل YOLO26 أفضل بكثير للنشر على الأجهزة المحمولة وإنترنت الأشياء.
- توسيع الدقة: مع توسع النماذج، يتفوق YOLO26m على DAMO-YOLOm بما يقرب من 4.0 mAP مع استخدام عدد أقل من المعلمات (20.4 مليون مقابل 28.2 مليون).
- السرعة: يقدم YOLO26 باستمرار أوقات استدلال أسرع على وحدات معالجة الرسوميات T4 (GPUs) عبر جميع المقاييس، وهو أمر بالغ الأهمية للتطبيقات عالية الإنتاجية مثل تحليلات الفيديو.
سهولة الاستخدام والنظام البيئي
البساطة والتوثيق
إحدى السمات المميزة لـ تستخدم Ultralytics تتميز النماذج بسهولة الاستخدام. حيث أن YOLO26 مدمج في ultralytics حزمة python، مما يتيح للمستخدمين تدريب النماذج والتحقق منها ونشرها ببضعة أسطر فقط من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pretrained YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset
results = model.train(data="coco8.yaml", epochs=100)
على النقيض، يُعد DAMO-YOLO مستودعًا موجهًا للبحث. فبينما يوفر نصوصًا برمجية للتدريب والاستدلال، إلا أنه يفتقر إلى واجهة برمجة التطبيقات الموحدة (API)، والأدلة الشاملة، ودعم أنظمة التشغيل الواسع (Windows، Linux، macOS) الذي توفره منظومة Ultralytics.
النشر والتصدير
يدعم YOLO26 التصدير بنقرة واحدة إلى أكثر من 10 تنسيقات بما في ذلك ONNX، OpenVINO، CoreML، وTFLite. تُعد هذه المرونة حيوية للمهندسين الذين ينتقلون من مرحلة البحث إلى الإنتاج. ويضمن إزالة الوحدات المعقدة مثل DFL أن تكون هذه الصادرات قوية ومتوافقة مع مجموعة واسعة من مسرعات الأجهزة.
يعتمد DAMO-YOLO على خطوات إعادة تحديد المعلمات (re-parameterization) محددة يجب التعامل معها بعناية أثناء التصدير. فإذا لم يتم "التبديل" بشكل صحيح من وضع التدريب إلى وضع النشر، فقد يتدهور أداء النموذج أو يفشل في العمل، مما يضيف طبقة من التعقيد للمستخدم.
حالات الاستخدام في العالم الحقيقي
السيناريوهات المثالية لـ YOLO26
- الأجهزة الطرفية وإنترنت الأشياء (IoT): نظرًا لبصمته الذاكرية الضئيلة (بدءًا من 2.4 مليون معلمة)، يُعد YOLO26 مثاليًا لـكاميرات المراقبة والطائرات بدون طيار حيث تكون الطاقة وذاكرة الوصول العشوائي (RAM) محدودة.
- تحليلات الرياضات في الوقت الفعلي: يضمن التصميم الخالي من NMS زمن استجابة ثابتًا، وهو أمر بالغ الأهمية لتتبع الأجسام سريعة الحركة في التطبيقات الرياضية.
- الأنظمة متعددة المهام: نظرًا لأن YOLO26 يدعم segment وpose وobb بشكل أصلي، فهو الخيار الأمثل للمسارات المعقدة مثل المعالجة الروبوتية التي تتطلب تحديد الاتجاه ونقاط الإمساك.
السيناريوهات المثالية لـ DAMO-YOLO
- البحث الأكاديمي: إن استخدامه لـ NAS وتقنيات التقطير المتقدمة يجعله مرشحًا قويًا للباحثين الذين يدرسون منهجيات البحث المعماري.
- خوادم GPU عالية الأداء: في السيناريوهات التي لا توجد فيها قيود على الأجهزة وكل جزء من الدقة مهم في معايير محددة، يمكن الاستفادة من البنية الأساسية الثقيلة لـ DAMO-YOLO بفعالية.
الخلاصة
بينما قدم DAMO-YOLO مفاهيم رائعة في البحث المعماري وإعادة تحديد المعلمات في عام 2022، يمثل YOLO26 أحدث ما توصلت إليه التكنولوجيا لعام 2026. من خلال التركيز على البساطة الشاملة، وإزالة الاختناقات مثل NMS وDFL، وتقليل عدد المعلمات بشكل كبير، يقدم YOLO26 حلاً أكثر عملية وسرعة وسهولة في الاستخدام لمطوري الذكاء الاصطناعي الحديثين.
للمستخدمين الذين يتطلعون إلى نشر حلول رؤية حاسوبية قوية اليوم، فإن التكامل السلس مع منصة Ultralytics وكفاءة الأداء الهائلة لكل واط يجعلان YOLO26 التوصية الواضحة.
مزيد من القراءة
للمهتمين بالنهج المعمارية الأخرى، استكشف هذه النماذج ذات الصلة في الوثائق:
- YOLO11 - معيار الجيل السابق للتنوع والدقة.
- RT-DETR - كاشف في الوقت الفعلي يعتمد على المحولات (transformer-based) ويوفر أيضًا استدلالًا خاليًا من NMS.
- YOLOv10 - الرائد في نهج التدريب الشامل الخالي من NMS المستخدم في YOLO26.