DAMO-YOLO مقابل YOLOv9: التطورات في detect الكائنات في الوقت الفعلي

يتطور مجال اكتشاف الأجسام باستمرار، حيث يعمل الباحثون على توسيع حدود الدقة والكمون والكفاءة. هناك بنيةان بارزتان أحدثتا ضجة كبيرة في مجتمع الرؤية الحاسوبية، وهما YOLO التي طورتها مجموعة Alibaba، و YOLOv9التي طورها باحثون في أكاديمية سينيكا.

بينما يهدف كلا النموذجين إلى حل مشكلة الكشف في الوقت الفعلي، فإنهما يتعاملان مع المشكلة بفلسفتين معماريتين مختلفتين.YOLO البحث في الهندسة العصبية (NAS) وإعادة المعلمات بشكل مكثف لتحسين زمن الاستجابة المنخفض، بينما YOLOv9 مفاهيم مثل معلومات التدرج القابلة للبرمجة (PGI) لتعظيم الاحتفاظ بالمعلومات أثناء عملية التعلم العميق.

YOLO: الكفاءة من خلال البحث في البنية العصبية

تم تقديم YOLO (البحث عن بنية عصبية محسّنة بالتقطير لمرة واحدة فقط) في أواخر عام 2022، مع التركيز على تحقيق التوازن التام بين الأداء والسرعة للتطبيقات الصناعية.

المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة:مجموعة Alibaba
التاريخ: 2022-11-23
Arxiv:YOLO: تقرير عن تصميم الكشف عن الأجسام في الوقت الفعلي
GitHub:YOLO

الميزات المعمارية الرئيسية

YOLO بناءً على ثلاث تقنيات أساسية تهدف إلى تحقيق أقصى أداء من موارد الأجهزة المحدودة:

الهيكل الأساسي MAE-NAS: على عكس الهياكل الأساسية المصممة يدويًا،YOLO بحثًا عن بنية عصبية قائم على التشفير التلقائي المقنع (MAE) للعثور على البنية الشبكية المثلى. وينتج عن ذلك بنية مصممة رياضيًا خصيصًا لقيود حسابية محددة.
RepGFPN الفعال: يستخدم شبكة هرمية عامة للميزات (GFPN) معززة بآليات إعادة تحديد المعلمات. وهذا يسمح للنموذج بالاستفادة من مزايا دمج الميزات المعقدة متعددة المستويات أثناء التدريب، مع الانكماش إلى بنية أبسط وأسرع أثناء الاستدلال.
ZeroHead & AlignedOTA: يتم الحفاظ على رأس الكشف، المسمى "ZeroHead"، خفيف الوزن للغاية لتقليل العبء الحسابي للطبقات النهائية من المخرجات. علاوة على ذلك، تعمل استراتيجية تعيين التسميات، AlignedOTA، على حل مشكلات عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.

نقاط القوة والضعف

YOLO القوة الأساسية لـYOLO نسبة الكمون إلى الدقة. بالنسبة للأجهزة الصناعية المحددة، يمكن أن يوفر العمود الفقري المشتق من NAS إنتاجية فائقة. ومع ذلك، فإن اعتماد النموذج على خط أنابيب تدريب تقطير معقد — حيث يجب أولاً تدريب نموذج "معلم" أكبر لتوجيه النموذج الأصغر — يمكن أن يجعل عملية التدريب مرهقة للمطورين الذين يحتاجون إلى تكرارات سريعة. بالإضافة إلى ذلك،YOLO النظام البيئي المحيط بـYOLO أقل نشاطًا مقارنة YOLO الأوسع نطاقًا، مما قد يحد من الدعم لأهداف النشر الأحدث.

YOLOv9: التعلم باستخدام التدرجات القابلة للبرمجة

YOLOv9، الذي تم إصداره في أوائل عام 2024، يعالج مشكلة فقدان المعلومات في الشبكات العميقة. مع ازدياد عمق الشبكات العصبية التلافيفية، غالبًا ما يتم فقدان البيانات الأساسية المطلوبة لتعيين المدخلات إلى المخرجات — وهي ظاهرة تُعرف باسم عنق الزجاجة المعلوماتي.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة:معهد علوم المعلومات، أكاديمية سينكا
التاريخ: 2024-02-21
Arxiv:YOLOv9: تعلم ما تريد تعلمه باستخدام معلومات التدرج القابلة للبرمجة
GitHub:WongKinYiu/yolov9

الميزات المعمارية الرئيسية

YOLOv9 مفهومين ثوريين للتخفيف من فقدان المعلومات:

معلومات التدرج القابلة للبرمجة (PGI): PGI هو إطار عمل إشرافي إضافي يولد تدرجات موثوقة لتحديث أوزان الشبكة، مما يضمن احتفاظ الطبقات العميقة بالمعلومات الدلالية الهامة. ويشمل فرعًا إضافيًا قابلًا للعكس يُستخدم فقط أثناء التدريب ويتم إزالته للاستدلال، دون تكبد أي تكلفة إضافية عند النشر.
GELAN (شبكة تجميع الطبقات الفعالة المعممة): تجمع هذه البنية بين أفضل ميزات CSPNet و ELAN. تم تصميم GELAN لتكون خفيفة الوزن وسريعة مع دعم كتل حسابية متنوعة، مما يسمح بعدد معلمات يتم التحكم فيه بدقة دون التضحية بمجال الاستقبال.

نقاط القوة والضعف

YOLOv9 بالدقة، حيث يضع معايير جديدة في COCO . إن قدرته على الاحتفاظ بالمعلومات تجعله استثنائيًا في اكتشاف الأجسام الصعبة التي قد تفوت النماذج الأخرى. ومع ذلك، فإن التعقيد المعماري الذي أدخلته الفروع الإضافية يمكن أن يجعل تعديل قاعدة الكود للمهام المخصصة أكثر صعوبة مقارنة بالتصميمات الأكثر بساطة والوحدات النمطية. على الرغم من فعاليتها العالية على وحدات معالجة الرسومات (GPU)، إلا أن تجميعات الطبقات المحددة قد لا تكون مُحسّنة بالكامل لجميع الأجهزة الطرفية CPU مقارنة بالنماذج المصممة خصيصًا لتلك الأهداف.

تعرف على المزيد حول YOLOv9

مقارنة الأداء

يوضح الجدول التالي مقاييس أداءYOLO YOLOv9. لاحظ التوازن بين عدد المعلمات والحمل الحسابي (FLOPs) والدقة (mAP).

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

بينما YOLOv9 يحقق دقة قصوى أعلى بشكل عام (تصل إلى 55.6٪ mAP)، يقدم YOLO أداءً تنافسيًا في نظام النماذج الصغيرة، على الرغم من ارتفاع عدد المعلمات في النسخة "الصغيرة". YOLOv9t أخف بكثير من حيث FLOPs (7.7G مقابل 18.1G)، مما يجعله أفضل للأجهزة ذات الموارد المحدودة للغاية على الرغم من انخفاض mAP.

ميزة Ultralytics: تقديم YOLO26

في حين YOLOv9 YOLO YOLOv9 إنجازات أكاديمية مهمة، فإن المطورين الذين يركزون على الإنتاج في العالم الواقعي غالبًا ما يحتاجون إلى مزيج من الأداء المتطور وسهولة الاستخدام ومرونة النشر. وهنا تبرز Ultralytics كخيار متميز لتطبيقات الذكاء الاصطناعي الحديثة.

لماذا YOLO26؟

صدر YOLO26 في يناير 2026، وهو يعتمد على إرث الأجيال السابقة، ولكنه يقدم تغييرات جوهرية في البنية واستقرار التدريب.

تصميم شامل NMS: على عكس YOLOv9 YOLO اللذين يتطلبان عادةً استخدام تقنية Non-Maximum Suppression (NMS) لتصفية المربعات المحددة المكررة، فإن YOLO26 شامل بطبيعته. وهذا يلغي خطوة NMS تمامًا، مما يقلل من زمن الاستدلال والتباين، ويبسط خطوط الإنتاج بشكل كبير.
مُحسِّن MuSGD: مستوحى من الابتكارات في تدريب نموذج اللغة الكبيرة (LLM)، يستخدم YOLO26 مُحسِّن MuSGD. يوفر هذا المزيج من SGD Muon (من Moonshot AI's Kimi K2) استقرارًا غير مسبوق للتدريب، مما يضمن تقاربًا أسرع ويقلل من الحاجة إلى ضبط المعلمات الفائقة بشكل مكثف.
كفاءة الحافة أولاً: من خلال إزالة فقدان التركيز التوزيعي (DFL) وتحسين بنية CPU ، يحقق YOLO26 سرعات CPU أسرع بنسبة تصل إلى 43٪. وهذا يجعله الخيار المثالي للحوسبة الطرفية على أجهزة مثل Raspberry Pi أو الهواتف المحمولة التي لا تحتوي على وحدات معالجة رسومات (GPU).
تحسين اكتشاف الأجسام الصغيرة: مع إدخال ProgLoss + STAL (التعلم الذاتي للمرساة)، يشهد YOLO26 تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مطلب أساسي لصور الطائرات بدون طيار وأجهزة استشعار إنترنت الأشياء.

سير عمل مبسط مع Ultralytics

انسَ خطوط التقطير المعقدة أو إعدادات البيئة اليدوية. مع Ultralytics ، يمكنك إدارة مجموعات البيانات الخاصة بك، وتدريب نماذج YOLO26 في السحابة، ونشرها بأي تنسيق (ONNX، TensorRT، CoreML) بنقرة واحدة.

تنوع لا مثيل له

في حين أنYOLO في الأساس نموذج للكشف، فإن Ultralytics يضمن أن YOLO26 يدعم مجموعة كاملة من المهام الجاهزة للاستخدام. سواء كنت بحاجة إلى تقسيم المثيلات، أو تقدير الوضع باستخدام تقدير الاحتمالية اللوغاريتمية المتبقية (RLE)، أو الكشف عن الصناديق المحددة الموجهة (OBB) للمسوحات الجوية، تظل واجهة برمجة التطبيقات (API) متسقة وبسيطة.

تعرف على المزيد حول YOLO26

مثال على الكود: التدريب باستخدام Ultralytics

تقوم Ultralytics Python بتبسيط تعقيدات تدريب النماذج المتقدمة. يمكنك التبديل بين YOLOv9 YOLO26 بسلاسة.

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 model
# Pre-trained on COCO for instant transfer learning
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
# No complex configuration files or distillation steps required
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Use GPU 0
)

# Run inference with NMS-free speed
# Results are ready immediately without post-processing tuning
results = model("https://ultralytics.com/images/bus.jpg")

الخلاصة

يعتمد اختيار النموذج المناسب على القيود الخاصة بك. يعد YOLO منافسًا قويًا إذا كنت تبحث في بنى NAS أو لديك أجهزة تستفيد بشكل خاص من بنية RepGFPN الخاصة به. YOLOv9 هو خيار ممتاز للسيناريوهات التي تتطلب أعلى دقة ممكنة في المعايير الأكاديمية مثل COCO.

ومع ذلك، بالنسبة للمطورين والشركات التي تبحث عن حل جاهز للإنتاج، فإن Ultralytics يقدم الحزمة الأكثر جاذبية. تصميمهNMS، CPU ، والتكامل مع Ultralytics يقلل بشكل كبير من وقت طرح المنتج في السوق. من خلال الجمع بين القوة النظرية للنماذج السابقة والابتكارات العملية مثل مُحسّن MuSGD، يضمن YOLO26 أنك لا تحصل فقط على نموذج، بل على حل رؤية كامل ومستقبلي.

DAMO-YOLO مقابل YOLOv9: التطورات في detect الكائنات في الوقت الفعلي

YOLO: الكفاءة من خلال البحث في البنية العصبية

الميزات المعمارية الرئيسية

نقاط القوة والضعف

YOLOv9: التعلم باستخدام التدرجات القابلة للبرمجة

الميزات المعمارية الرئيسية

نقاط القوة والضعف

مقارنة الأداء

ميزة Ultralytics: تقديم YOLO26

لماذا YOLO26؟

تنوع لا مثيل له

مثال على الكود: التدريب باستخدام Ultralytics

الخلاصة

تعليقات