تخطي إلى المحتوى

DAMO-YOLO مقابل YOLO26: تحليل معماريات الجيل التالي للكشف عن الكائنات في الوقت الفعلي

يتطور مجال الرؤية الحاسوبية باستمرار، مدفوعًا بالحاجة إلى بنى هندسية توازن بين الدقة العالية والاستدلال منخفض التأخير. تتعمق هذه المقارنة في التعقيدات التقنية لـ YOLO و Ultralytics وتستكشف ابتكاراتهما الهندسية ومنهجيات التدريب وحالات الاستخدام المثالية.

سواء كنت تقوم بنشر نماذج الرؤية على الأجهزة الطرفية أو إنشاء خطوط أنابيب سحابية عالية الإنتاجية، فإن فهم الفروق الدقيقة بين هذه النماذج أمر بالغ الأهمية لاتخاذ قرارات معمارية مستنيرة في مجال تطوير الذكاء الاصطناعي الحديث.

YOLO: البحث عن بنية عصبية على نطاق واسع

DAMO-YOLO، الذي طورته مجموعة Alibaba، تم إصداره في 23 نوفمبر 2022. صممه Xianzhe Xu و Yiqi Jiang و Weihua Chen و Yilun Huang و Yuan Zhang و Xiuyu Sun، ويركز النموذج بشكل كبير على الاكتشاف الآلي للبنى المعمارية الفعالة باستخدام البحث عن البنية العصبية (NAS).

يمكنك مراجعة البحث الأصلي في ورقة ArXiv الخاصة بهم أو استكشاف شفرة المصدر في مستودعYOLO .

الميزات المعمارية الرئيسية

يقدم DAMO-YOLO العديد من الابتكارات التقنية المصممة لدفع حدود اكتشاف الكائنات في الوقت الفعلي:

  • أعمدة MAE-NAS الفقرية: يستخدم DAMO-YOLO بحثًا تطوريًا متعدد الأهداف للعثور على أعمدة فقرية مثلى. يكتشف نهج NAS هذا معماريات توازن بدقة بين دقة الكشف وسرعة الاستدلال على أجهزة معينة.
  • RepGFPN الفعال: تصميم ذو عنق ثقيل يحسن بشكل كبير دمج الميزات، وهو مفيد للغاية عند تحليل المشاهد المعقدة كتلك الموجودة في الصور الجوية.
  • ZeroHead Design: رأس detect مبسط للغاية يقلل من التعقيد الحسابي لطبقات التنبؤ النهائية.
  • AlignedOTA والتقطير: يستخدم DAMO-YOLO تعيين النقل الأمثل المحاذي (AlignedOTA) لحل غموض تعيين التسميات، مقترنًا باستراتيجية تعزيز تقطير المعرفة القوية لزيادة دقة النماذج الطلابية الأصغر باستخدام شبكات معلم أكبر.

تعرف على المزيد حول DAMO-YOLO

ميزة Ultralytics: YOLO26

صدر في 14 يناير 2026، بقلم جلين جوشر وجينغ تشيو في Ultralytics، يمثل YOLO26 قمة الذكاء الاصطناعي البصري عالي الأداء والمتاح للجميع. بناءً على إرث YOLO11 و YOLOv10، تم تصميم YOLO26 من الألف إلى الياء من أجل النشر المتطور، والتنوع متعدد الوسائط، وسهولة الاستخدام التي لا مثيل لها.

ابتكارات YOLO26

يقدم Ultralytics العديد من الميزات الرائدة التي تجعله الخيار الأمثل لتطبيقات الرؤية الحاسوبية الحديثة:

  • تصميم شامل بدون NMS: يلغي YOLO26 بطبيعته المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). كان هذا النهج الشامل، الذي كان رائداً في البداية في YOLOv10، يبسط مسارات النشر بشكل كبير ويضمن استدلالًا محددًا ومنخفض زمن الاستجابة.
  • سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: مُحسّن معماريًا للحوسبة الطرفية، يقدم YOLO26 سرعة استثنائية على الأجهزة الطرفية وCPUs القياسية، مما يجعله مثاليًا لأجهزة إنترنت الأشياء (IoT) التي تعمل بالبطارية.
  • مُحسِّن MuSGD: مستوحى من تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يدمج YOLO26 هجينًا من SGD و Muon. وهذا يجلب استقرار تدريب نماذج اللغة الكبيرة إلى الرؤية الحاسوبية، مما يؤدي إلى تقارب أسرع وأكثر موثوقية.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يتم تبسيط مخطط النموذج، مما يتيح التصدير السلس إلى تنسيقات مثل ONNX و TensorRT.
  • ProgLoss + STAL: توفر دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة حاسمة لـعمليات الطائرات بدون طيار والزراعة.

تحسينات خاصة بالمهام

يتضمن YOLO26 تحسينات متخصصة عبر طرق متعددة: نموذج أولي متعدد المقاييس لتقسيم المثيلات، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع، وفقدان الزاوية المتقدم للتخفيف من مشاكل الحدود في الكشف عن الصندوق المحيط الموجه (OBB).

تعرف على المزيد حول YOLO26

مقارنة الأداء

عند تقييم هذه النماذج، فإن التوازن بين الدقة (mAP) وكفاءة الحوسبة (السرعة/FLOPs) أمر بالغ الأهمية. يوضح الجدول أدناه مقارنة بين هذه النماذج باستخدام COCO القياسية في الصناعة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

كما هو موضح أعلاه، يقدم YOLO26 باستمرار دقة أعلى بعدد أقل بكثير من المعلمات وعمليات FLOPs، مما ينتج عنه بنية أكثر كفاءة للتدريب والاستدلال على حد سواء.

كفاءة التدريب وسهولة الاستخدام

تعقيداتYOLO

بينماYOLO دقة تنافسية، فإن منهجية التدريب الخاصة به معقدة للغاية. الاعتماد على البحث في البنية العصبية (NAS) والتقطير المعرفي المكثف يعني أن تدريب نموذج مخصص غالبًا ما يتطلب GPU كبيرة ومعرفة متخصصة. هذه العملية متعددة المراحل — تدريب نموذج معلم ضخم لتقطيره إلى نموذج طالب أصغر — يمكن أن تشكل عائقًا أمام فرق الهندسة الرشيقة التي تحاول التكرار السريع على مجموعات البيانات المخصصة.

Ultralytics المبسطة

على النقيض، تم تصميم Ultralytics YOLO26 لسهولة الاستخدام "من الصفر إلى الاحتراف". يتم تجريد دورة حياة التدريب والتحقق والنشر بأكملها خلف واجهة برمجة تطبيقات Python و CLI نظيفة وموحدة. علاوة على ذلك، يتطلب YOLO26 ذاكرة CUDA أقل بكثير أثناء التدريب مقارنة بالنماذج القائمة على المحولات مثل RT-DETR، مما يتيح للباحثين تدريب نماذج متطورة على أجهزة المستهلكين.

فيما يلي مثال على مدى سهولة تدريب وتقييم وتصدير نموذج YOLO26 باستخدام Ultralytics :

from ultralytics import YOLO

# Load the latest YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Evaluate the model's performance on the validation set
metrics = model.val()

# Run inference on a sample image
results = model("https://ultralytics.com/images/bus.jpg")
results[0].show()

# Export the model to ONNX format for deployment
model.export(format="onnx")

بالنسبة للفرق التي تفضل بيئة خالية من الأكواد، توفر Ultralytics واجهة سهلة الاستخدام لتعليق مجموعات البيانات والتدريب السحابي والنشر السلس.

تطبيقات عملية في أرض الواقع

يعتمد اختيار البنية الصحيحة بشكل كبير على بيئة النشر المستهدفة وقيود الأجهزة.

مراقبة الجودة الصناعية

بالنسبة لأتمتة التصنيع عالية السرعة، يمكن لـ YOLO أن يعمل بشكل جيد على GPU المخصصة. ومع ذلك، فإن YOLO26 هو الخيار المفضل لخطوط التجميع الحديثة. يضمن تصميمه الشامل NMS زمن انتقال حتمي وخالي من التذبذب، وهو أمر ضروري عند مزامنة البيانات المرئية مع المشغلات الروبوتية في الوقت الفعلي.

الذكاء الاصطناعي الحافة والأجهزة المحمولة

يتطلب نشر الرؤية الحاسوبية على الأجهزة التي تعمل بالبطارية كفاءة قصوى. بينما يعتمد DAMO-YOLO على رقاب RepGFPN محددة، تم تحسين YOLO26n (Nano) خصيصًا للحوسبة الطرفية. إن إزالة DFL الخاصة به واستدلال أسرع بنسبة 43% على وحدة المعالجة المركزية (CPU) تجعله الحل الأمثل للكاميرات الذكية وتطبيقات الهاتف المحمول وأنظمة إنذار الأمان.

متطلبات المشروع متعدد الوسائط

إذا كان المشروع يتطلب أكثر من مجرد اكتشاف الكائنات — مثل تحليل آليات اللاعبين في الرياضة باستخدام تقدير الوضع، أو استخراج حدود البكسل الدقيقة باستخدام تقسيم المثيل —فإن YOLO26 يوفر دعمًا أصليًا لجميع هذه المهام ضمن قاعدة كود واحدة موحدة.YOLO بشكل صارم على اكتشاف المربعات المحيطة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين DAMO-YOLO وYOLO26 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

DAMO-YOLO خيار قوي لـ:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
  • خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار YOLO26

يوصى باستخدام YOLO26 في الحالات التالية:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

الخلاصة

تمثل كلتا البنيتين إنجازات مهمة في مجال التعلم العميق. يقدم DAMO-YOLO لمحة رائعة عن قوة البحث عن البنية العصبية وتقنيات التقطير المصممة خصيصًا لمعايير الأجهزة المحددة.

ومع ذلك، بالنسبة للمطورين والباحثين والشركات التي تبحث عن حل جاهز للإنتاج، فإن Ultralytics يبرز كخيار متميز. إن الجمع بين تصميمه الشامل NMS، ومكاسب CPU الهائلة CPU ، وتعدد الاستخدامات المتعددة الوسائط، والتكامل في Ultralytics الذي يتم صيانته جيدًا، يجعله الأداة الأكثر قوة وعملية لحل تحديات الرؤية الحاسوبية في العالم الواقعي اليوم.

للمستخدمين المهتمين باستكشاف نماذج أخرى ضمن Ultralytics تتوفر وثائق شاملة عن YOLO11و YOLOv8و RT-DETR.


تعليقات