YOLOv9 مقابل DAMO-YOLO: مقارنة تقنية لنماذج كشف الأشياء

أدى التطور السريع في الرؤية الحاسوبية إلى إنتاج مجموعة من البنى القوية المصممة خصيصًا لتلبية قيود النشر ومتطلبات الدقة المتنوعة. من أبرز المساهمات في هذا المجال YOLOv9، الذي يشتهر بمعالجته القوية لعنق زجاجة المعلومات، و DAMO-YOLO، الذي يركز بشكل كبير على البحث في بنية الشبكات العصبية (NAS) وأهرامات الميزات الفعالة.

يقدم هذا الدليل مقارنة تقنية متعمقة بين YOLOv9 و DAMO-YOLO، مع تسليط الضوء على اختلافات بنيتهما، ومنهجيات التدريب، وسيناريوهات النشر المثالية. سنستكشف أيضًا كيف يوفر نظام Ultralytics البيئي مسارًا سلسًا من التطوير إلى الإنتاج، ولماذا أصبحت النماذج الحديثة مثل YOLO26 هي المعيار الموصى به للمشاريع الجديدة.

نظرة معمارية متعمقة

يكشف فهم الآليات الأساسية التي تحرك كل نموذج عن سبب أدائها المختلف عبر المقاييس المتنوعة.

YOLOv9: معلومات التدرج القابلة للبرمجة

تم تصميم YOLOv9 لمعالجة فقدان المعلومات الذي يحدث أثناء تدفق البيانات عبر الشبكات العصبية العميقة بشكل مباشر.

المؤلفون: Chien-Yao Wang, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، Academia Sinica، تايوان
التاريخ: 21 فبراير 2024
روابط: Arxiv, GitHub, Docs

اعرف المزيد حول YOLOv9

يقدم YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) و شبكة تجميع الطبقات الفعالة المعممة (GELAN). تضمن PGI الاحتفاظ بالمعلومات المكانية والدلالية الحيوية أثناء عملية التغذية الأمامية، مما يمنع تدهور التدرجات المستخدمة لتحديثات الأوزان. تكمل GELAN ذلك من خلال تعظيم كفاءة المعلمات، مما يسمح للنموذج بتحقيق متوسط دقة (mAP) متطور مع FLOPs أقل من العديد من شبكات CNN التقليدية.

DAMO-YOLO: الكفاءة المدفوعة بـ NAS

تم تطويره بواسطة مجموعة Alibaba، ويتبع DAMO-YOLO نهجًا مختلفًا، حيث يستفيد من البحث المعماري المؤتمت لإيجاد التوازن الأمثل بين السرعة والدقة.

المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 23 نوفمبر 2022
روابط: Arxiv, GitHub

اعرف المزيد عن DAMO-YOLO

يعتمد DAMO-YOLO على عمود فقري من نوع MAE-NAS (المشفرات التلقائية المقنعة للبحث في البنية العصبية) لإنشاء هياكل شبكة فعالة تلقائيًا. ويستخدم شبكة هرم ميزات معممة معاد معاملتها (RepGFPN) لدمج ميزات قوي، وتصميم "ZeroHead" لتقليل العبء الحسابي لرأس الكشف. بالإضافة إلى ذلك، فإنه يدمج AlignedOTA لتعيين التصنيفات وتقطير المعرفة لتعزيز أداء متغيراته الأصغر.

دور NAS في الرؤية الحاسوبية

يعمل البحث في البنية العصبية (NAS) على أتمتة تصميم الشبكات العصبية الاصطناعية. وعلى الرغم من قدرته على إنتاج نماذج عالية الكفاءة مثل DAMO-YOLO، إلا أنه غالبًا ما يتطلب موارد حسابية هائلة للبحث في مساحة البنية، مما يتناقض مع فلسفة التصميم الأكثر حتمية لنماذج مثل YOLOv9.

مقارنة الأداء والمقاييس

عند اختيار نموذج كشف الأشياء، يعد تحقيق التوازن بين الدقة والسرعة والبصمة الحسابية أمرًا بالغ الأهمية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

التحليل

  • الدقة مقابل المعلمات: يظهر YOLOv9 عمومًا نسبة متفوقة بين المعلمات والدقة. على سبيل المثال، يحقق YOLOv9c دقة 53.0% mAP مع 25.3 مليون معلمة، بينما يحقق DAMO-YOLOl دقة 50.8% mAP ولكنه يتطلب معلمات أكثر بكثير (42.1 مليون).
  • سرعة الاستنتاج: توفر بنية DAMO-YOLO سرعات استنتاج تنافسية عبر TensorRT على وحدات معالجة الرسومات T4، متفوقة قليلًا على YOLOv9 في المستويات المتوسطة. ومع ذلك، فإن كفاءة YOLOv9 في FLOPs وعدد المعلمات تترجم إلى كفاءة ذاكرة GPU استثنائية.
  • متطلبات الذاكرة: تظهر نماذج Ultralytics YOLO، بما في ذلك YOLOv9، عادةً استخدامًا أقل للذاكرة أثناء التدريب والاستنتاج مقارنة بالنماذج المعقدة المولدة بواسطة NAS أو بنى Transformer الثقيلة، مما يجعلها سهلة الوصول للغاية للنشر على أجهزة الحافة المقيدة.

ميزة نظام Ultralytics البيئي

على الرغم من أهمية المقاييس النظرية، فإن التنفيذ العملي يملي نجاح المشروع بشكل كبير. وهنا تتفوق منصة Ultralytics ونظامها البرمجي الشامل على المستودعات المستقلة مثل DAMO-YOLO.

سهولة الاستخدام وكفاءة التدريب

يتطلب تدريب نموذج YOLOv9 مخصص حدًا أدنى من العمل الروتيني. توفر Python API من Ultralytics تجريدًا للعمليات المعقدة مثل تعزيز البيانات، والتدريب الموزع، وتحسين الأجهزة.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

على العكس من ذلك، يتطلب استخدام DAMO-YOLO غالبًا التنقل عبر ملفات تهيئة جامدة وسلاسل تبعية معقدة خاصة بخط أنابيب التدريب الفريد الخاص به، مما يؤدي إلى منحنى تعلم أكثر حدة.

تعدد الاستخدامات عبر المهام

من السمات المميزة لنماذج Ultralytics تنوعها المتأصل. فبالإضافة إلى كشف الصناديق المحيطة القياسية، يدعم إطار عمل Ultralytics بسلاسة مهام مثل تقسيم المثيل، و تقدير الوضع، و تصنيف الصور، وكشف الصناديق المحيطة الموجهة (OBB). تم تحسين DAMO-YOLO بدقة لكشف الأشياء ثنائية الأبعاد، مما يتطلب إعادة هندسة كبيرة للتكيف مع النماذج البصرية الأخرى.

التصدير إلى أجهزة الحافة

تعمل Ultralytics على تبسيط خط أنابيب النشر من خلال تقديم تصدير نموذج بنقرة واحدة إلى تنسيقات مثل TensorRT، و OpenVINO، و CoreML، مما يضمن أقصى أداء بغض النظر عن أجهزتك المستهدفة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv9 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv9

يعتبر YOLOv9 خياراً قوياً لـ:

  • أبحاث عنق زجاجة المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس أداء الاكتشاف عالي الدقة: السيناريوهات التي تحتاج فيها إلى أداء قياس COCO القوي لـ YOLOv9 كنقطة مرجعية للمقارنات المعمارية.

متى تختار DAMO-YOLO

يُنصح بـ DAMO-YOLO من أجل:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
  • خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

المستقبل: الانتقال إلى YOLO26

بينما يمثل YOLOv9 و DAMO-YOLO معالم تاريخية قوية، تحولت الرؤية الحاسوبية الحديثة نحو بنى شاملة (end-to-end) أصيلة. لأي تطوير جديد، YOLO26 هو المعيار الموصى به.

أُطلق YOLO26 في عام 2026، وهو يبني على نجاحات سابقاته، ويقدم قفزة في كل من الدقة وبساطة النشر.

ابتكارات YOLO26 الرئيسية

  • تصميم شامل بدون NMS: يلغي YOLO26 معالجة كبت غير الأقصى (NMS) تمامًا. هذا يخلق خط أنابيب نشر مبسطًا وشاملًا أصليًا، وهو إنجاز تم ابتكاره لأول مرة في YOLOv10.
  • إزالة DFL: تمت إزالة Distribution Focal Loss لتبسيط التصدير وتحسين التوافق مع أجهزة الحافة/الأجهزة منخفضة الطاقة.
  • سرعة استنتاج أسرع على CPU بنسبة تصل إلى 43%: من خلال إزالة المعالجة اللاحقة المعقدة وتحسين التلافيف الأساسية، يعد YOLO26 مناسبًا بشكل فريد لسيناريوهات حوسبة الحافة التي تفتقر إلى وحدات معالجة رسومات مخصصة.
  • مُحسِّن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM)، يستخدم YOLO26 هجينًا من SGD و Muon (MuSGD) لضمان عمليات تدريب أكثر استقرارًا وأوقات تقارب أسرع بشكل ملحوظ.
  • ProgLoss + STAL: توفر دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأشياء الصغيرة، مما يجعل YOLO26 مثاليًا للصور الجوية عالية الارتفاع وأجهزة إنترنت الأشياء (IoT).

إذا كنت تبحث حاليًا في YOLO11 أو YOLOv8 لمشروعك القادم، فإن الترقية إلى YOLO26 تضمن لك استخدام أكثر إطارات عمل ذكاء الرؤية تحسينًا وتطورًا المتاحة اليوم.

ملخص

يعتمد اختيار النموذج الصحيح على قيودك التشغيلية المحددة:

  • DAMO-YOLO يقدم لمحة رائعة عن التحسين المدفوع بـ NAS، مما يوفر سرعات تنافسية لملفات تعريف أجهزة محددة للغاية حيث تتألق بنية RepGFPN الخاصة به.
  • YOLOv9 هو خيار ممتاز للباحثين الذين يركزون على الاحتفاظ بالتفاصيل البصرية الدقيقة، مستفيدين من بنية PGI الخاصة به لمنع فقدان المعلومات في الشبكات العميقة.
  • Ultralytics YOLO26 يمثل الخيار النهائي لتطبيقات المؤسسات والأبحاث الحديثة. إن سهولة استخدامه التي لا مثيل لها، وبنيته الخالية من NMS، وتحسينات تدريب MuSGD المتطورة تجعله النموذج الأكثر موثوقية ودقة وقابلية للنشر بسهولة في مشهد الرؤية الحاسوبية.

التعليقات