تخطي إلى المحتوى

YOLOv9 RTDETRv2: نظرة متعمقة على بنى الكشف في الوقت الحقيقي

في عالم الرؤية الحاسوبية سريع التطور، يعد اختيار نموذج الكشف عن الأجسام المناسب أمراً بالغ الأهمية لتحقيق التوازن بين السرعة والدقة وقيود النشر. يقدم هذا الدليل مقارنة تقنية شاملة بين YOLOv9، المعروف بمعلومات التدرج القابلة للبرمجة وكفاءته، و RTDETRv2، وهو كاشف رائد يعتمد على محول في الوقت الفعلي. من خلال تحليل هياكلهما ومقاييس الأداء وحالات الاستخدام، يمكن للمطورين اتخاذ قرارات مستنيرة لتطبيقاتهم المحددة.

معيار الأداء

يعرض الجدول التالي مقارنة مباشرة بين المقاييس الرئيسية. تشير القيم المكتوبة بالخط العريض إلى أفضل أداء في كل فئة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9 يمثل قفزة كبيرة في سلسلة You Only Look Once، حيث يركز على حل مشكلة اختناق المعلومات في الشبكات العميقة. ويقدم GELAN (شبكة تجميع الطبقات العامة الفعالة) و PGI (معلومات التدرج القابلة للبرمجة) للاحتفاظ بخصائص البيانات المهمة في جميع طبقات الشبكة العميقة.

تعرف على المزيد حول YOLOv9

الابتكارات المعمارية الرئيسية

  • هندسة GELAN: تجمع هذه الهندسة المبتكرة بين مزايا CSPNet و ELAN، مما يؤدي إلى تحسين تخطيط مسار التدرج. وهي تتيح بنية خفيفة الوزن تحافظ على سرعة استدلال عالية مع تجميع الميزات بفعالية على مستويات مختلفة.
  • معلومات التدرج القابلة للبرمجة (PGI): غالبًا ما تعاني الشبكات العميقة من فقدان المعلومات أثناء مرور البيانات عبر الطبقات. تقدم PGI فرعًا إضافيًا للإشراف لتوجيه تحديثات التدرج، مما يضمن أن الفرع الرئيسي يتعلم ميزات قوية دون تكلفة إضافية أثناء الاستدلال.
  • الكفاءة: تتميز المتغيرات "t" (صغيرة) و"s" (صغيرة جدًا) بشكل خاص بعدد معلماتها المنخفض للغاية (يبدأ من 2.0 مليون)، مما يجعلها مناسبة بشكل استثنائي لنشر الذكاء الاصطناعي المتطور حيث الذاكرة محدودة.

المواصفات الفنية

لماذا تختار YOLOv9؟

YOLOv9 في السيناريوهات التي تكون فيها الموارد الحاسوبية محدودة ولكن تتطلب دقة عالية. يضمن فقدان PGI المبتكر أن تتعلم حتى النماذج الأصغر بشكل فعال، مما يوفر نسبة معلمات إلى دقة فائقة مقارنة بالعديد من النماذج السابقة.

RTDETRv2: محولات الوقت الفعلي

يعتمد RTDETRv2 على نجاح RT-DETR الأصلي، حيث يعمل على تحسين "Bag-of-Freebies" لمحولات الكشف في الوقت الفعلي. ويهدف إلى التغلب على YOLO من خلال الاستفادة من قدرات السياق العالمي للمحولات مع التخفيف من تكلفتها الحسابية العالية.

تعرف على المزيد حول RT-DETR

الابتكارات المعمارية الرئيسية

  • المشفّر الهجين: يعالج RTDETRv2 الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق والاندماج عبر النطاقات، مما يقلل من التكلفة المرتفعة عادةً لمشفّرات المحولات.
  • اختيار الاستعلاماتIoU: تعمل هذه الآلية على تحسين التهيئة عن طريق اختيار ميزات التشفير عالية الجودة كاستعلامات كائنات، مما يساعد على تقريب المشفر بشكل أسرع.
  • العينات الديناميكية: يشتمل خط الأساس المحسّن على استراتيجيات عينات مرنة أثناء التدريب، مما يعزز سرعة التقارب والدقة النهائية دون إضافة تأخير في الاستدلال.
  • تصميم بدون مرساة: مثل سابقه، فهو بدون مرساة، مما يبسط عملية تعليق البيانات وتدريب خط الأنابيب من خلال إزالة الحاجة إلى ضبط مربع المرساة.

المواصفات الفنية

  • المؤلفون: Wenyu Lv، Yian Zhao، وآخرون.
  • المنظمة: بايدو
  • التاريخ: 17 أبريل 2023 (الإصدار 1)، يوليو 2024 (الإصدار 2)
  • المرجع:arXiv:2304.08069
  • المستودع:GitHub

مقارنة نقدية: السرعة والدقة والكفاءة

عند الاختيار بين هاتين البنيتين، تظهر عدة مفاضلات.

سرعة الاستدلال والكمون

يحتفظ YOLOv9 بصدارة سرعة الاستدلال الأولية، لا سيما على GPU . يحقق نموذج YOLOv9t، الذي يحتوي على 2.0 مليون معلمة فقط، زمن انتقال منخفض للغاية (2.3 مللي ثانية على T4 TensorRT)، مما يجعله أسرع من أصغر متغير RTDETRv2-s الذي يبلغ زمن انتقاله حوالي 5.03 مللي ثانية. بالنسبة لمعالجة الفيديو في الوقت الفعلي حيث كل مللي ثانية مهمة، مثل المركبات ذاتية القيادة أو التصنيع عالي السرعة، YOLOv9 ميزة واضحة في الإنتاجية.

الدقة وكشف الأجسام الصغيرة

بينما يحقق YOLOv9 معدل mAP ضخم يبلغ 55.6٪، فإن RTDETRv2 يتمتع بقدرة تنافسية عالية في نطاق النماذج المتوسطة إلى الكبيرة. يصل RTDETRv2-x إلى mAP يبلغ 54.3٪، وهو أقل قليلاً من YOLOv9 ولكنه غالبًا ما يظهر استقرارًا أفضل في المشاهد المعقدة بسبب المجال الاستقبالي الشامل للمحولات. تتميز المحولات بشكل طبيعي بفهمها للسياق بين الكائنات، مما يقلل من الإيجابيات الخاطئة في البيئات المزدحمة مثل تحليلات البيع بالتجزئة. ومع ذلك، تم ضبط بنية GELAN YOLOv9 خصيصًا للاحتفاظ بالتفاصيل الدقيقة، مما يمنحها في كثير من الأحيان ميزة في اكتشاف الكائنات الأصغر والأصعب في الرؤية.

متطلبات الموارد والذاكرة

هذا هو أحد العوامل الرئيسية التي تميزه عن غيره. تتطلب بنية RTDETRv2 القائمة على المحولات عادةً CUDA أكبر أثناء التدريب والاستدلال مقارنةً بـ YOLOv9 القائم على CNN.

  • YOLOv9: استهلاك ذاكرة فعال للغاية. يمكن تشغيل النماذج الصغيرة جدًا بسهولة على أجهزة حافة الشبكة مثل Raspberry Pi أو الهواتف المحمولة.
  • RTDETRv2: على الرغم من تحسينها من أجل السرعة في الوقت الفعلي، لا تزال آليات الانتباه تتطلب تكلفة ذاكرة أعلى، مما يجعلها في كثير من الأحيان أكثر ملاءمة للنشر من جانب الخادم أو وحدات معالجة الرسومات الطرفية القوية مثل NVIDIA Orin.

التكامل مع Ultralytics

يمكن دمج كلا النموذجين بسلاسة في سير العمل باستخدام Ultralytics Python الذي يلغي إجراءات الإعداد المعقدة.

سهولة الاستخدام والنظام البيئي

يوفر Ultralytics موحدة للتدريب والتحقق والنشر. سواء اخترت كفاءة CNN في YOLOv9 قوة المحول في RTDETRv2 (عبر RT-DETR )، تظل واجهة برمجة التطبيقات (API) متسقة. وهذا يتيح للمطورين تبديل النماذج بسطر واحد من التعليمات البرمجية لاختبار البنية الأكثر ملاءمة لمجموعة البيانات الخاصة بهم.

from ultralytics import RTDETR, YOLO

# Load YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=100)

# Load RT-DETR model (RTDETRv2 architecture compatible)
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr.train(data="coco8.yaml", epochs=100)

كفاءة التدريب

تشتهر Ultralytics بكفاءتها في التدريب. يطبق إطار العمل إعدادات افتراضية ذكية للمعلمات الفائقة، وزيادة البيانات تلقائيًا، وإدارة الذاكرة بكفاءة. وهذا مفيد بشكل خاص عند العمل مع YOLOv9 حيث يمكن للمستخدمين الاستفادة من الأوزان المدربة مسبقًا لتقليل وقت التدريب وتكلفة الحوسبة بشكل كبير مقارنة بتدريب المحولات من الصفر.

الاستعداد للمستقبل: حالة YOLO26

على الرغم من أن YOLOv9 RTDETRv2 خياران ممتازان، إلا أن مجال ابتكار الذكاء الاصطناعي لا يتوقف أبدًا. بالنسبة للمطورين الذين يبحثون عن أحدث ما توصلت إليه التكنولوجيا من حيث الأداء وسهولة النشر، فإن YOLO26 هو الخيار الموصى به.

تعرف على المزيد حول YOLO26

يقدم YOLO26 العديد من الميزات المتطورة التي تعالج قيود الأجيال السابقة:

  • NMS من البداية إلى النهاية: على عكس YOLOv9 يتطلب معالجة لاحقة لـ Non-Maximum Suppression (NMS)، وعلى غرار طبيعة RTDETRv2 من البداية إلى النهاية، فإن YOLO26 NMS بشكل أساسي. وهذا يبسط عملية التصدير إلى ONNX و TensorRT ويقلل من زمن انتقال النشر.
  • MuSGD Optimizer: مستوحى من تدريب LLM، يجمع هذا المحسن SGD Muon لتحقيق تقارب واستقرار أسرع، مما يحل بعض مشكلات عدم الاستقرار في التدريب التي غالبًا ما تظهر في البنى المعقدة.
  • سرعة فائقة: تم تحسين YOLO26 خصيصًا CPU دلال المتطور، ويوفر CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالإصدارات السابقة، مما يسد الفجوة بين دقة الخادم وقيود الأجهزة المتطورة.
  • تنوع المهام: بينما يركز RTDETRv2 بشكل أساسي على الكشف، يوفر YOLO26 أداءً متطورًا في مجالات التجزئة وتقدير الوضع و OBB، مما يجعله أداة عالمية لمهام الرؤية المتنوعة.

الخلاصة

يقدم كل من YOLOv9 RTDETRv2 مزايا جذابة. YOLOv9 هو بطل الكفاءة، حيث يقدم نسب سرعة ودقة لا تضاهى للنشر المتطور والبيئات ذات الموارد المحدودة. يوفر RTDETRv2 بديلاً قوياً للسيناريوهات التي تستفيد من السياق العالمي وبنيات المحولات، خاصة على الأجهزة القوية.

ومع ذلك، للحصول على تجربة أكثر بساطة وأقل زمن استجابة وأوسع دعم للمهام، يوفر Ultralytics — وبالتحديد نموذج YOLO26 الجديد — الحل الأقوى والأكثر استعدادًا للمستقبل لتطبيقات الرؤية الحاسوبية الحديثة.

مزيد من القراءة

استكشف مقارنات أخرى لترى كيف تقارن هذه النماذج مع المنافسين:


تعليقات