YOLO26 مقابل DAMO-YOLO: مقارنة تقنية لكاشفات الأشياء في الوقت الفعلي
عند اختيار نموذج رؤية حاسوبية متطور، يعد العثور على التوازن الأمثل بين سرعة الاستدلال والدقة وسهولة النشر أمراً بالغ الأهمية. يقارن هذا الدليل الشامل بين نموذجين بارزين في مشهد رؤية الذكاء الاصطناعي: Ultralytics YOLO26 وDAMO-YOLO. بينما تدفع كلتا البنيتين حدود اكتشاف الأشياء في الوقت الفعلي، فإن فلسفات التصميم الأساسية وحالات الاستخدام المقصودة لهما تختلف بشكل كبير.
الابتكارات المعمارية والتصميم
Ultralytics YOLO26: معيار الرؤية الذي يركز على الحافة
تم تطوير YOLO26 بواسطة Glenn Jocher وJing Qiu في Ultralytics وتم إصداره في 14 يناير 2026، ويمثل قفزة هائلة إلى الأمام في سلالة YOLO. لقد تم تصميمه من الألف إلى الياء للحوسبة المتطورة، حيث يمزج بسلاسة بين ممارسات تدريب LLM المتطورة وبنيات الرؤية المتقدمة.
تشمل الاختراقات المعمارية الرئيسية لـ YOLO26 ما يلي:
- تصميم من طرف إلى طرف بدون NMS: بناءً على العمل الرائد من YOLOv10، فإن YOLO26 هو نموذج من طرف إلى طرف أصلياً. من خلال القضاء التام على كبت غير الأقصى (NMS) أثناء المعالجة اللاحقة، فإنه يضمن زمن انتقال حتمي ويبسط خطوط أنابيب النشر بشكل كبير.
- إزالة DFL: تؤدي إزالة Distribution Focal Loss إلى تبسيط مخطط النموذج. وهذا يجعل التصدير إلى أطر النشر مثل ONNX وTensorRT أكثر سلاسة ويضمن توافقاً أفضل مع أجهزة الحافة منخفضة الطاقة.
- مُحسِّن MuSGD: مستوحى من Kimi K2 لشركة Moonshot AI، يجمع هذا الهجين بين Stochastic Gradient Descent (SGD) وMuon ليجلب ابتكارات تدريب LLM إلى رؤية الكمبيوتر، مما يؤدي إلى تدريب مستقر بشكل ملحوظ وتقارب سريع.
- ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهو ضرورة حاسمة لـ تحليل الصور الجوية القائم على الطائرات بدون طيار وخطوط أنابيب الروبوتات المعقدة.
DAMO-YOLO: البحث عن البنية العصبية على نطاق واسع
تم تطوير DAMO-YOLO بواسطة Xianzhe Xu وYiqi Jiang وWeihua Chen وYilun Huang وYuan Zhang وXiuyu Sun من Alibaba Group (تم إصداره في 23 نوفمبر 2022)، ويركز بشكل كبير على اكتشاف البنية المؤتمت. يستخدم البحث، المفصل في ورقة arXiv الخاصة بهم، البحث عن البنية العصبية (NAS) للعثور على الهياكل الأساسية المثالية ضمن ميزانيات زمن انتقال صارمة.
تشمل الميزات المعمارية الرئيسية لـ DAMO-YOLO ما يلي:
- هيكل MAE-NAS: يستخدم بحثاً تطورياً متعدد الأهداف لتصميم هياكل أساسية تلقائياً توازن بين الدقة وسرعة النشر المستهدفة.
- Efficient RepGFPN: تصميم عنق ثقيل قوي يحسن دمج الميزات عبر مقاييس مختلفة، مما يجعله قادراً للغاية على معالجة المشاهد المرئية المعقدة.
- ZeroHead: رأس كشف مبسط بشكل جذري مصمم لتقليل العبء الحسابي في طبقات التنبؤ النهائية.
بينما تعد بنية DAMO-YOLO التي تعتمد على NAS ممتازة لقيود أجهزة محددة ومحددة مسبقاً، فإن التصميم الخالي من NMS وإزالة DFL في YOLO26 تجعله خياراً أكثر تنوعاً وقابلية للتنبؤ عبر مجموعة واسعة من بيئات الحافة والسحابة المتغيرة.
مقارنة الأداء والمقاييس
تكشف مقارنة مباشرة لمتغيرات النموذج المدربة على مجموعة بيانات COCO القياسية عن ملفات تعريف أداء متميزة. يوضح الجدول أدناه المقايضات بين الدقة (mAP) والسرعة والبصمة الحسابية (المعلمات وFLOPs).
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تحليل الأداء
عند تحليل البيانات، يميل توازن الأداء بشدة نحو YOLO26 للتطبيقات الحديثة. يعد متغير Nano (YOLO26n) خفيف الوزن بشكل استثنائي بـ 2.4 مليون معلمة فقط، مما يوفر سرعات فائقة تبلغ 1.7 مللي ثانية على وحدة معالجة الرسومات NVIDIA T4. علاوة على ذلك، تم تصميم YOLO26 خصيصاً لتقديم سرعة استدلال وحدة معالجة مركزية أسرع بنسبة 43%، مما يجعله البطل بلا منازع لأجهزة الحافة التي تفتقر إلى مسرعات GPU مخصصة.
بينما يتفوق DAMO-YOLOt قليلاً على YOLO26n في mAP الصافي، فإنه يفعل ذلك على حساب الحاجة إلى ما يقرب من أربعة أضعاف عدد المعلمات (8.5 مليون). بينما ننتقل إلى المتغيرات الأكبر، يتفوق YOLO26 باستمرار على DAMO-YOLO في الدقة مع الحفاظ على بصمة ذاكرة أصغر، واستخدام ذاكرة CUDA أقل أثناء التدريب، وسرعات TensorRT أسرع بشكل كبير.
النظام البيئي وسهولة الاستخدام وكفاءة التدريب
لا تكمن القوة الحقيقية لنموذج التعلم الآلي في مقاييسه الأولية فحسب، بل في مدى سهولة استخدامه من قبل المطورين والباحثين.
ميزة Ultralytics
يضمن اختيار نموذج Ultralytics الوصول إلى نظام بيئي مصقول للغاية يركز على المطورين. يتم تجريد سير العمل المعقد الذي يتضمن زيادة البيانات وضبط المعلمات الفائقة وتتبع التجارب القوي في أوامر بديهية.
علاوة على ذلك، يوفر YOLO26 تنوعاً لا مثيل له. بينما يعد DAMO-YOLO كاشفاً للأشياء فقط، يوفر YOLO26 تحسينات شاملة خاصة بالمهمة عبر مجالات متعددة خارج الصندوق:
- تجزئة المثيلات: باستخدام خسارة تجزئة دلالية متخصصة ونماذج أولية متعددة المقاييس.
- تقدير الوضع: الاستفادة من تقدير احتمالية السجل المتبقي (RLE) المتقدم.
- مربع التحديد الموجه (OBB): دمج دوال خسارة زاوية متخصصة لحل مشاكل الحدود الصعبة بشكل مثالي.
- تصنيف الصور: لتصنيف الصور العالمي السريع وخفيف الوزن.
منهجيات التدريب
يتضمن تدريب DAMO-YOLO غالباً عملية تقطير معقدة حيث يقوم نموذج "معلم" كبير بتدريب نموذج "طالب" أصغر. بينما تنتزع هذه التقنية مكاسب دقة هامشية، فإنها تتطلب ذاكرة GPU واسعة النطاق ودورات تدريب أطول.
على العكس من ذلك، متطلبات الذاكرة لـ YOLO26 أقل بكثير. بفضل مُحسِّن MuSGD، يتم تدريب YOLO26 بسرعة وكفاءة على أجهزة المستهلك العادية. إليك مدى سهولة تدريب نموذج YOLO26 باستخدام واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics المدعومة بـ PyTorch:
from ultralytics import YOLO
# Initialize the natively end-to-end YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train on a custom dataset effortlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the optimized, NMS-free model
model.export(format="onnx")تطبيقات العالم الحقيقي
يعتمد الاختيار بين هذه البنيات في النهاية على بيئة النشر الخاصة بك.
الذكاء الاصطناعي للحافة وأجهزة إنترنت الأشياء
بالنسبة لكاميرات البيع بالتجزئة الذكية أو أجهزة مراقبة الزراعة الآلية أو الروبوتات، تكون موارد الحوسبة محدودة للغاية. هنا، YOLO26 هو الخيار النهائي. إن استدلال وحدة المعالجة المركزية الأسرع بنسبة 43%، وخط الأنابيب الخالي تماماً من NMS، والبصمة الصغيرة للمعلمات تسمح له بالعمل بسلاسة على أجهزة الحافة مثل Raspberry Pi دون التضحية بالدقة الحاسمة.
التصنيع عالي السرعة ومراقبة الجودة
في خطوط أتمتة التصنيع سريعة الوتيرة، يتطلب اكتشاف العيوب على أحزمة النقل سريعة الحركة حداً أدنى من زمن الانتقال الحتمي. بينما يمكن لـ DAMO-YOLO الأداء بشكل كافٍ على تكوينات GPU معينة، فإن زمن الانتقال المتقلب الذي يتم إدخاله بواسطة معالجة NMS اللاحقة التقليدية يمكن أن يؤدي إلى إلغاء مزامنة المشغلات الروبوتية. تضمن طبيعة YOLO26 من طرف إلى طرف أوقات معالجة إطارات متسقة وقابلة للتنبؤ، مما يضمن تكاملاً لا تشوبه شائبة في الروبوتات الصناعية عالية السرعة.
الطائرات بدون طيار والتصوير الجوي
يعد اكتشاف الأشياء الصغيرة من ارتفاعات عالية أمراً صعباً للغاية. يؤدي دمج ProgLoss وSTAL في YOLO26 إلى تحسين التعرف على الأشياء الصغيرة بشكل كبير. سواء كنت تتتبع الحياة البرية أو تحلل ازدحام المرور من المركبات الجوية بدون طيار، يحدد YOLO26 باستمرار الأشياء ذات مساحة البكسل الأصغر التي تفوتها البنيات الأقدم، بما في ذلك DAMO-YOLO، بشكل متكرر.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLO26 وDAMO-YOLO على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLO26
يعتبر YOLO26 خياراً قوياً لـ:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
متى تختار DAMO-YOLO
يُنصح بـ DAMO-YOLO من أجل:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
خاتمة
بينما يظل DAMO-YOLO دراسة رائعة في قدرات البحث عن البنية العصبية لأهداف الأجهزة المحددة، فإن Ultralytics YOLO26 يمثل الحل المتفوق والشامل لممارسي الذكاء الاصطناعي المعاصرين. بفضل بنيته الخالية من NMS من طرف إلى طرف، ومتطلبات الذاكرة الأقل بكثير، ومُحسِّن MuSGD الهجين، ونظام بيئي مصان بشكل لا تشوبه شائبة، يمكّن YOLO26 المطورين من بناء ونشر أنظمة رؤية متطورة بشكل أسرع وأكثر موثوقية من أي وقت مضى.