Meet YOLO26: next-gen vision AI.

Link to this sectionمقارنة بين YOLOv9 و DAMO-YOLO#

أدى التطور السريع للرؤية الحاسوبية إلى إنتاج مجموعة من البنى القوية المصممة خصيصًا لتلبية قيود النشر ومتطلبات الدقة المتنوعة. ومن أبرز النماذج في هذا المجال YOLOv9، الذي يشتهر بقدرته الفائقة على معالجة اختناقات المعلومات، وDAMO-YOLO، الذي يركز بشكل كبير على البحث في بنية الشبكات العصبية (NAS) وهرميات الميزات الفعالة.

يقدم هذا الدليل مقارنة تقنية متعمقة بين YOLOv9 و DAMO-YOLO، مسلطاً الضوء على اختلافاتهم المعمارية، ومنهجيات التدريب، وسيناريوهات النشر المثالية. سنستكشف أيضاً كيف توفر منظومة Ultralytics مساراً سلساً من التطوير إلى الإنتاج، ولماذا أصبحت النماذج الحديثة مثل YOLO26 هي المعيار الموصى به للمشاريع الجديدة.

Link to this sectionغوص معمق في البنية#

إن فهم الآليات الأساسية التي تحرك كل نموذج يكشف عن سبب اختلاف أدائها عبر المقاييس المختلفة.

Link to this sectionYOLOv9: معلومات التدرج القابلة للبرمجة#

صُمم YOLOv9 لمعالجة فقدان المعلومات الذي يحدث بشكل مباشر أثناء تدفق البيانات عبر الشبكات العصبية العميقة.

المؤلفون: Chien-Yao Wang, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
التاريخ: 21 فبراير 2024
روابط: Arxiv, GitHub, المستندات

اعرف المزيد عن YOLOv9

يقدم YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تضمن PGI الاحتفاظ بالمعلومات المكانية والدلالية الحيوية أثناء عملية التغذية الأمامية، مما يمنع تدهور التدرجات المستخدمة لتحديث الأوزان. وتكمل GELAN ذلك من خلال زيادة كفاءة البارامترات إلى أقصى حد، مما يسمح للنموذج بتحقيق متوسط دقة (mAP) متطور مع عمليات حسابية (FLOPs) أقل من العديد من شبكات CNN التقليدية.

Link to this sectionDAMO-YOLO: الكفاءة المدفوعة بـ NAS#

طورت شركة Alibaba Group نموذج DAMO-YOLO، الذي يتبنى نهجاً مختلفاً، حيث يستفيد من البحث المعماري الآلي للعثور على التوازن الأمثل بين السرعة والدقة.

المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 23 نوفمبر 2022
روابط: Arxiv, GitHub

تعرف على المزيد حول DAMO-YOLO

يعتمد DAMO-YOLO على هيكل أساسي من نوع MAE-NAS (المشفرات التلقائية المقنعة للبحث في بنية الشبكات العصبية) لتوليد هياكل شبكة فعالة تلقائياً. ويستخدم RepGFPN (شبكة هرمية للميزات المعممة وإعادة المعايرة) لدمج الميزات بشكل قوي، وتصميم "ZeroHead" لتقليل العبء الحسابي لرأس الكشف. بالإضافة إلى ذلك، يدمج تقنية AlignedOTA لتعيين الملصقات وتقطير المعرفة لتعزيز أداء متغيراته الأصغر.

دور NAS في الرؤية الحاسوبية

يعمل البحث في بنية الشبكات العصبية (NAS) على أتمتة تصميم الشبكات العصبية الاصطناعية. وعلى الرغم من قدرته على إنتاج نماذج عالية الكفاءة مثل DAMO-YOLO، فإنه غالباً ما يتطلب موارد حسابية هائلة للبحث في مساحة البنية، وهو ما يتناقض مع فلسفة التصميم الحتمية لنماذج مثل YOLOv9.

Link to this sectionمقارنة الأداء والمقاييس#

عند اختيار نموذج للكشف عن الكائنات، يعد الموازنة بين الدقة والسرعة والبصمة الحسابية أمراً بالغ الأهمية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionتحليل#

  • الدقة مقابل البارامترات: يُظهر YOLOv9 عموماً نسبة بارامترات إلى دقة متفوقة. على سبيل المثال، يحقق YOLOv9c دقة mAP تبلغ 53.0% مع 25.3 مليون بارامتر، بينما يحقق DAMO-YOLOl دقة mAP تبلغ 50.8% ولكنه يتطلب بارامترات أكثر بكثير (42.1 مليون).
  • سرعة الاستدلال: توفر بنية DAMO-YOLO سرعات استدلال تنافسية باستخدام TensorRT على وحدات معالجة الرسومات T4، متفوقة قليلاً على YOLOv9 في الفئات المتوسطة. ومع ذلك، تترجم كفاءة YOLOv9 في العمليات الحسابية (FLOPs) وعدد البارامترات إلى كفاءة ذاكرة GPU استثنائية.
  • متطلبات الذاكرة: تُظهر نماذج Ultralytics YOLO، بما في ذلك YOLOv9، عادةً استهلاكاً أقل للذاكرة أثناء التدريب والاستدلال مقارنة بالنماذج المعقدة المولدة بواسطة NAS أو هياكل المحولات (Transformers) الثقيلة، مما يجعلها سهلة الوصول للنشر على أجهزة الحافة (edge hardware) المحدودة.

Link to this sectionميزة نظام Ultralytics البيئي#

في حين أن المقاييس النظرية مهمة، فإن التنفيذ العملي يحدد بشكل كبير نجاح المشروع. وهنا تتفوق منصة Ultralytics ومنظومتها البرمجية الشاملة على المستودعات المستقلة مثل DAMO-YOLO.

Link to this sectionسهولة الاستخدام وكفاءة التدريب#

يتطلب تدريب نموذج YOLOv9 مخصص حداً أدنى من الأكواد الجاهزة (boilerplate). حيث تعمل واجهة برمجة تطبيقات Ultralytics Python على تجريد العمليات المعقدة مثل تعزيز البيانات، والتدريب الموزع، وتحسين الأجهزة.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

على العكس من ذلك، يتطلب استخدام DAMO-YOLO غالباً التعامل مع ملفات تكوين جامدة وسلاسل تبعية معقدة خاصة بخط أنابيب التدريب الفريد الخاص به، مما يؤدي إلى منحنى تعلم أكثر صعوبة.

Link to this sectionتعدد الاستخدامات عبر المهام#

من السمات المميزة لنماذج Ultralytics هي تعدد استخداماتها المتأصل. فبالإضافة إلى الكشف القياسي عن مربعات الإحاطة، يدعم إطار عمل Ultralytics بسلاسة مهام مثل تجزئة المثيلات، وتقدير الوضعية، وتصنيف الصور، ومربعات الإحاطة الموجهة (OBB). أما DAMO-YOLO فهو مُحسن بشكل صارم للكشف عن الكائنات ثنائية الأبعاد، مما يتطلب إعادة هندسة كبيرة للتكيف مع نماذج بصرية أخرى.

التصدير إلى أجهزة الحافة

تعمل Ultralytics على تبسيط خط أنابيب النشر من خلال توفير تصدير للنموذج بضغطة واحدة إلى تنسيقات مثل TensorRT، وOpenVINO، وCoreML، مما يضمن أقصى أداء بغض النظر عن جهازك المستهدف.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين YOLOv9 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات المنظومة البرمجية.

Link to this sectionمتى تختار YOLOv9#

YOLOv9 هي خيار قوي لـ:

  • أبحاث اختناق المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس أداء الكشف عالي الدقة: السيناريوهات التي تكون فيها أداء معيار COCO القوي لـ YOLOv9 مطلوباً كنقطة مرجعية للمقارنات المعمارية.

Link to this sectionمتى تختار DAMO-YOLO#

يوصى باستخدام DAMO-YOLO من أجل:

  • تحليلات الفيديو ذات الإنتاجية العالية: معالجة تدفقات الفيديو ذات معدل الإطارات العالي على بنية تحتية ثابتة لوحدات GPU من NVIDIA حيث يكون إنتاجية الدفعة-1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعية: السيناريوهات ذات قيود زمن انتقال GPU صارمة على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث في البنية العصبية: دراسة تأثيرات البحث الآلي في البنية (MAE-NAS) والهياكل الأساسية المعاد برمجتها بكفاءة على أداء الاكتشاف.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionالمستقبل: الانتقال إلى YOLO26#

بينما يمثل كل من YOLOv9 و DAMO-YOLO معالم تاريخية قوية، تحولت الرؤية الحاسوبية الحديثة نحو هياكل أصلية متكاملة (end-to-end). بالنسبة لأي تطوير جديد، فإن YOLO26 هو المعيار الموصى به.

تم إطلاق YOLO26 في عام 2026، وهو يبني على نجاحات أسلافه، ويقدم قفزة نوعية في كل من الدقة وسهولة النشر.

Link to this sectionابتكارات YOLO26 الرئيسية#

  • تصميم متكامل بدون NMS: يلغي YOLO26 المعالجة اللاحقة لـ Non-Maximum Suppression (NMS) تماماً. وهذا يخلق خط أنابيب نشر مبسطاً وأصلياً متكاملاً، وهو إنجاز تم ابتكاره لأول مرة في YOLOv10.
  • إزالة DFL: تمت إزالة Distribution Focal Loss لتبسيط التصدير وتحسين التوافق مع أجهزة الحافة/الأجهزة منخفضة الطاقة.
  • زيادة سرعة استدلال CPU حتى 43%: من خلال إزالة المعالجة اللاحقة المعقدة وتحسين الالتفافات الأساسية، يعد YOLO26 مناسباً بشكل فريد لسيناريوهات حوسبة الحافة التي تفتقر إلى وحدات معالجة رسومات مخصصة.
  • محسن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة، يستخدم YOLO26 مزيجاً هجيناً من SGD و Muon (MuSGD) لضمان عمليات تدريب أكثر استقراراً وأوقات تقارب أسرع بشكل ملحوظ.
  • ProgLoss + STAL: توفر دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، مما يجعل YOLO26 مثالياً للصور الجوية عالية الارتفاع وأجهزة IoT.

إذا كنت تبحث حالياً في YOLO11 أو YOLOv8 لمشروعك القادم، فإن الترقية إلى YOLO26 تضمن لك استخدام إطار عمل رؤية ذكي الأكثر تحسيناً وتطوراً والمتاح اليوم.

Link to this sectionملخص#

يعتمد اختيار النموذج المناسب على قيودك التشغيلية المحددة:

  • DAMO-YOLO يقدم لمحة رائعة عن التحسين المعتمد على NAS، مما يوفر سرعات تنافسية لملفات تعريف أجهزة محددة جداً حيث تتألق بنية RepGFPN الخاصة به.
  • YOLOv9 هو خيار ممتاز للباحثين الذين يركزون على الاحتفاظ بالتفاصيل البصرية الدقيقة، مستفيدين من بنية PGI الخاصة به لمنع فقدان المعلومات في الشبكات العميقة.
  • Ultralytics YOLO26 يمثل الخيار النهائي لتطبيقات المؤسسات والبحوث الحديثة. إن سهولة استخدامه التي لا تضاهى، وبنيته الخالية من NMS، وتحسينات تدريب MuSGD المتطورة تجعله النموذج الأكثر موثوقية ودقة وسهولة في النشر في مجال الرؤية الحاسوبية.
المساهمون

التعليقات