تخطي إلى المحتوى

YOLOv9 ضد RTDETRv2: مقارنة فنية لـ detect الكائنات

يعد اختيار بنية الكشف عن الكائنات الصحيحة قرارًا محوريًا في تطوير الرؤية الحاسوبية، وغالبًا ما يتطلب من المطورين الموازنة بين المفاضلات بين الدقة وزمن انتقال الاستدلال والحمل الحسابي الزائد. يقدم هذا التحليل مقارنة فنية شاملة بين YOLOv9، وهي بنية قائمة على CNN مُحسَّنة لتحقيق الكفاءة، و RTDETRv2، وهو نموذج قائم على المحولات مصمم للكشف عالي الدقة.

YOLOv9: إعادة تعريف كفاءة الشبكات العصبونية الالتفافية (CNN)

YOLOv9 يمثل تطوراً هاماً في سلسلةYOLO) التي تركز على حل مشكلة عنق الزجاجة المعلوماتية المتأصلة في الشبكات العصبية العميقة. من خلال تقديم مفاهيم معمارية جديدة، يحقق هذا البرنامج أحدث أداء مع الحفاظ على البصمة خفيفة الوزن التي تتميز بها عائلة YOLO .

الهيكل الأساسي

يقدم YOLOv9 ابتكارين أساسيين: معلومات التدرج القابلة للبرمجة (PGI) و شبكة تجميع الطبقات الفعالة المعممة (GELAN). تعالج PGI مشكلة فقدان معلومات البيانات أثناء انتشارها عبر الطبقات العميقة، مما يضمن الحفاظ على معلومات التدرج الموثوقة لتحديثات النموذج. تعمل GELAN على تحسين استخدام المعلمات، مما يسمح للنموذج بتحقيق دقة أعلى مع عدد أقل من عمليات الفاصلة العائمة (FLOPs) مقارنة بالبنى الالتفافية التقليدية.

تكامل النظام الإيكولوجي لـ Ultralytics

تم دمج YOLOv9 بالكامل في نظام Ultralytics البيئي، مما يوفر للمطورين وصولاً سلسًا إلى أدوات التدريب والتحقق والنشر. يضمن هذا التكامل أن يتمكن المستخدمون من الاستفادة من نفس واجهة برمجة التطبيقات البسيطة المستخدمة لـ YOLO11 و YOLOv8، مما يقلل بشكل كبير من حاجز الدخول لمهام رؤية الكمبيوتر المتقدمة.

تعرف على المزيد حول YOLOv9

RTDETRv2: منافس المحولات

RTDETRv2 يبني على نجاح Real-Time Detection Transformer (RT-DETR)، وتحسين الأساس لتعزيز معالجة النطاق الديناميكي واستقرار التدريب. كنموذج قائم على المحولات، فإنه يستفيد من آليات الاهتمام الذاتي لالتقاط السياق العالمي، والذي يمكن أن يكون مفيدًا لتمييز الكائنات في المشاهد المعقدة.

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • Arxiv:arXiv:2407.17140
  • GitHub:RT-DETR GitHub Repository

الهيكل الأساسي

على عكس شبكات CNN التي تعالج الصور في بقع محلية، تستخدم RTDETRv2 هيكل transformer لمعالجة ميزات الصورة. يسمح هذا النهج للنموذج بفهم العلاقات بين الأجزاء البعيدة من الصورة، مما قد يحسن الدقة في البيئات المزدحمة. ومع ذلك، تأتي آلية الانتباه العالمية هذه عادةً بتكاليف ذاكرة وحساب أعلى، خاصة أثناء التدريب.

تعرف على المزيد حول RT-DETR

مقارنة الأداء

تُبرز البيانات التالية مقاييس الأداء لأحجام النماذج المختلفة على مجموعة بيانات COCO. تركز المقارنة على متوسط الدقة (mAP) وسرعة الاستدلال والتعقيد الحسابي.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

تحليل المقاييس

  • أقصى دقة: يحقق نموذج YOLOv9e قيمة 55.6% mAP ملحوظة، متجاوزًا أكبر نموذج RTDETRv2-x (54.3% mAP). يوضح هذا أن الابتكارات المعمارية في YOLOv9 تسد الفجوة بشكل فعال بين CNNs والمحولات، حتى أنها تتفوق عليها في دقة المستوى الأعلى.
  • الكفاءة: يقدم YOLOv9 باستمرار أداءً أعلى لكل معلمة. على سبيل المثال، يحقق YOLOv9c نسبة 53.0٪ mAP مع 25.3 مليون معلمة فقط و 102.1B FLOPs، في حين أن RTDETRv2-l المماثل يتطلب 42 مليون معلمة و 136B FLOPs للوصول إلى 53.4٪ mAP. هذه الكفاءة تجعل YOLOv9 أخف وزنًا بشكل ملحوظ للتخزين وأسرع في التنفيذ.
  • سرعة الاستدلال: في التطبيقات في الوقت الفعلي، السرعة أمر بالغ الأهمية. توفر متغيرات YOLOv9 الأصغر، مثل YOLOv9t، زمن انتقال منخفض للغاية (2.3 مللي ثانية على TensorRT)، مما يجعلها مثالية لعمليات نشر الذكاء الاصطناعي الطرفية حيث قد تكون نماذج RTDETRv2 ثقيلة جدًا.

كفاءة التدريب والنظام البيئي

أحد أهم العوامل الحاسمة للمطورين هو سهولة التدريب والموارد المطلوبة لضبط النماذج بدقة على مجموعات بيانات مخصصة.

متطلبات الذاكرة

تشتهر النماذج القائمة على المحولات (Transformer) مثل RTDETRv2 باستهلاكها العالي للذاكرة أثناء التدريب بسبب التعقيد التربيعي لآليات الانتباه الذاتي. غالبًا ما يستلزم ذلك استخدام وحدات معالجة رسومية (GPU) متطورة للمؤسسات مع ذاكرة VRAM ضخمة. في المقابل، يحافظ YOLOv9 على كفاءة الذاكرة للشبكات العصبونية الالتفافية (CNN)، مما يسمح بالتدريب على أجهزة من الدرجة الاستهلاكية. هذا الحاجز الأقل للدخول يضفي طابعًا ديمقراطيًا على الوصول إلى أحدث ما توصلت إليه تقنيات الكشف عن الكائنات.

ميزة Ultralytics

يوفر اختيار نموذج داخل النظام البيئي لـ Ultralytics مزايا واضحة تتجاوز مقاييس الأداء الخام:

  1. سهولة الاستخدام: يختزل Python API الخاص بـ Ultralytics حلقات التدريب المعقدة إلى بضعة أسطر من التعليمات البرمجية.
  2. نظام بيئي مُدار بشكل جيد: تضمن التحديثات المتكررة التوافق مع أحدث إصدارات PyTorch وتنسيقات التصدير (ONNX، TensorRT، CoreML) وبرامج تشغيل الأجهزة.
  3. تعدد الاستخدامات: في حين أن RTDETRv2 هو في الأساس كاشف للأجسام، فإن إطار عمل Ultralytics يدعم مجموعة واسعة من المهام بما في ذلك instance segmentation و pose estimation و oriented bounding box (OBB) detection عبر عائلات النماذج الخاصة به.

مثال على التعليمات البرمجية

تدريب YOLOv9 باستخدام حزمة Ultralytics أمر في غاية السهولة. توضح مقتطفة التعليمات البرمجية التالية كيفية تحميل نموذج مُدرَّب مسبقًا وتدريبه على مجموعة بيانات مخصصة:

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

إمكانية التصدير

يمكن بسهولة تصدير نماذج Ultralytics إلى تنسيقات مختلفة للنشر. على سبيل المثال، التصدير إلى ONNX لتحقيق توافق أوسع:

model.export(format="onnx")

حالات الاستخدام المثالية

متى تختار YOLOv9

يعتبر YOLOv9 الخيار الأمثل لأغلبية تطبيقات رؤية الكمبيوتر، خاصةً عندما يكون التوازن بين السرعة والدقة وكفاءة الموارد مطلوبًا.

  • النشر الطرفي: تستفيد أجهزة مثل NVIDIA Jetson أو Raspberry Pi من انخفاض FLOPs وعدد المعلمات في YOLOv9.
  • تحليلات الفيديو الآنية: تتطلب موجزات الأمان وأنظمة مراقبة حركة المرور معدلات الإطارات العالية التي توفرها YOLOv9.
  • التدريب محدود الموارد: لا يزال بإمكان الفرق التي ليس لديها إمكانية الوصول إلى مجموعات GPU ضخمة إجراء تعديلات دقيقة على أحدث الطرازات.

متى تفكر في RTDETRv2

يعتبر RTDETRv2 مناسبًا للسيناريوهات المتخصصة حيث:

  • Global Context is Crucial: المشاهد ذات الانسداد العالي أو التي تكون فيها context من وحدات البكسل البعيدة ضرورية للغاية لـ classify.
  • الأجهزة غير محدودة: عمليات النشر على وحدات معالجة الرسومات (GPUs) من فئة الخوادم حيث تكون قيود الذاكرة والحساب ضئيلة.
  • تفضيل خالٍ من المرتكزات (Anchor-Free Preference): الباحثون الذين يتطلعون تحديدًا إلى تجربة بنى قائمة على المحولات النقية والخالية من المرتكزات.

الخلاصة

في حين أن RTDETRv2 يوضح إمكانات المحولات في الكشف عن الكائنات، فإن YOLOv9 يظهر كخيار عملي فائق لمعظم المطورين والباحثين. فهو يوفر دقة قصوى أعلى (55.6% mAP) مع كفاءة أفضل بكثير، واستخدام أقل للذاكرة، وسرعات استدلال أسرع. عند دمجه مع الدعم القوي والوثائق الشاملة وسهولة الاستخدام التي يوفرها النظام البيئي Ultralytics، يوفر YOLOv9 مسارًا أكثر انسيابية من النموذج الأولي إلى الإنتاج.

بالنسبة لأولئك الذين يتطلعون إلى استكشاف أحدث ما توصلت إليه تكنولوجيا رؤية الكمبيوتر، نوصي أيضًا بالتحقق من YOLO11، الذي يدفع حدود السرعة والدقة إلى أبعد من ذلك.

استكشف نماذج أخرى

  • YOLO11: أحدث تطور في سلسلة YOLO، مُحسّن للمهام المتنوعة بما في ذلك تقسيم الصور وتقدير الوضعيات.
  • YOLOv8: نموذج شائع ومتعدد الاستخدامات، معروف بموثوقيته ودعم المجتمع الواسع له.
  • RT-DETR: استكشاف التنفيذ الأصلي لـ Real-Time Detection Transformer داخل إطار عمل Ultralytics.

تعليقات