RTDETRv2 مقابل YOLOv9: مقارنة بين محولات الكشف اللحظي والشبكات العصبية التلافيفية

شهد مجال الرؤية الحاسوبية تباعداً رائعاً في الفلسفات المعمارية، وتحديداً بين الشبكات العصبية التلافيفية (CNNs) والنماذج القائمة على المحولات (Transformers). عند مقارنة RTDETRv2 و YOLOv9، فإن المطورين يقومون فعلياً بتقييم المقايضات بين آليات الانتباه العالمية ومعلومات التدرج القابلة للبرمجة. يمثل كلا النموذجين ذروة نماذجهم الخاصة، حيث يدفعان حدود الكشف عن الأجسام في الوقت الفعلي.

مقدمة عن النماذج

RTDETRv2: محول الكشف اللحظي

تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي من خلال تقديم "مجموعة من الإضافات المجانية" (Bag-of-Freebies) لتعزيز محول الكشف اللحظي الأساسي. إنه يعالج الاختناق التقليدي للمحولات - سرعة الاستدلال - مما يجعلها قابلة للتطبيق في حالات الاستخدام اللحظي.

  • المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
  • المنظمة: Baidu
  • التاريخ: 2024-07-24
  • روابط: Arxiv، GitHub

من الخصائص المميزة لـ RTDETRv2 تصميمه الأصلي القائم على النهاية للنهاية بدون NMS. من خلال إزالة قمع غير الأعظم (NMS) تماماً أثناء المعالجة اللاحقة، يعمل النموذج على استقرار زمن انتقال الاستدلال وتبسيط خط أنابيب النشر. تسمح آلية الانتباه العالمية للنموذج بالتفوق في فهم المشاهد المعقدة والحشود الكثيفة، حيث يقوم بتقييم سياق الصورة بالكامل في وقت واحد.

تعرف على المزيد حول RTDETRv2

YOLOv9: معلومات التدرج القابلة للبرمجة

تعتبر YOLOv9 معمارية عالية الكفاءة تعتمد على CNN، وتعالج مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وهي تقدم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).

تعتمد YOLOv9 على أسس الشبكة العصبية التلافيفية المثبتة ولكنها تزيد من كفاءة المعلمات إلى أقصى حد. من خلال الاحتفاظ بالمعلومات الحاسمة أثناء عملية التغذية الأمامية، فإنها تضمن تحديثات موثوقة للأوزان، مما ينتج عنه نموذج خفيف الوزن للغاية ودقيق جداً. ومع ذلك، على عكس RTDETRv2، لا تزال YOLOv9 تعتمد على معالجة NMS اللاحقة القياسية.

اعرف المزيد حول YOLOv9

الأداء وكفاءة الموارد

عند تقييم هذه النماذج للإنتاج، يعد تحقيق التوازن بين متوسط الدقة المتوسطة (mAP) والتكلفة الحسابية أمراً بالغ الأهمية. يوضح الجدول أدناه أداءها على مجموعة بيانات MS COCO.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

متطلبات الذاكرة وكفاءة التدريب

تشتهر المحولات مثل RTDETRv2 بأنها تستهلك ذاكرة مكثفة أثناء التدريب، وغالباً ما تتطلب ذاكرة CUDA كبيرة وجداول تدريب أطول للتقارب الكامل. في المقابل، توفر معماريات CNN مثل YOLOv9 ونماذج Ultralytics YOLO الأخرى استهلاكاً أقل بكثير للذاكرة، مما يسمح للمطورين بالتدريب بأحجام دفعات أكبر على أجهزة المستهلكين.

التدريب الفعال

لتحقيق أقصى استفادة من الأجهزة، فكر في استخدام منصة Ultralytics لتبسيط التدريب السحابي. إنها تتعامل تلقائياً مع إعداد البيئة وتحديد حجم الدفعات الأمثل.

ميزة Ultralytics: النظام البيئي وسهولة الاستخدام

في حين أن البحث في المستودعات المستقلة مثل صفحات GitHub الرسمية لـ RTDETRv2 أو YOLOv9 يمكن أن يكون تعليمياً للغاية، فإن بيئات الإنتاج تتطلب الاستقرار وسهولة الاستخدام ونظاماً بيئياً مُداراً بشكل جيد. يوفر دمج هذه النماذج من خلال واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics تجربة تطوير سلسة.

واجهة برمجة تطبيقات موحدة وتعدد الاستخدامات

يقوم إطار عمل Ultralytics بتجريد تعقيدات تحميل البيانات، والزيادات، والتدريب الموزع. علاوة على ذلك، في حين أن RTDETRv2 الأصلي يركز حصرياً على الكشف، يسمح نظام Ultralytics البيئي للمستخدمين بالانتقال بسهولة بين الكشف عن الأجسام، وتجزئة المثيلات، وتقدير الوضع.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

مع توثيق قوي، وتتبع التجارب التلقائي، وإمكانيات تصدير سلسة إلى تنسيقات مثل ONNX، وTensorRT، وOpenVINO، تقلل Ultralytics بشكل كبير الوقت من النموذج الأولي إلى الإنتاج.

حالات الاستخدام المثالية

أين يتفوق RTDETRv2

بفضل آلية الانتباه العالمية الخاصة به، يعد RTDETRv2 قوة حقيقية لـ المعالجة من جانب الخادم والبيئات التي يكون فيها السياق العالمي أمراً بالغ الأهمية. إنه يتفوق في:

  • التصوير الطبي: تحديد التشوهات الطفيفة حيث يكون السياق المحيط حاسماً.
  • المراقبة الجوية: رصد الأجسام الصغيرة في لقطات الطائرات بدون طيار عالية الدقة دون التحيزات المكانية لتلافيف CNN التقليدية.
  • تحليل الحشود الكثيفة: تتبع الأفراد حيث يؤدي الانسداد الشديد عادةً إلى إرباك النماذج القائمة على الركائز.

أين تتفوق YOLOv9

تعتبر YOLOv9 بطلة عمليات النشر على الحافة المقيدة بالموارد. كفاءتها الحسابية تجعلها مثالية لـ:

  • الروبوتات: التنقل في الوقت الفعلي وتجنب العقبات حيث يلزم حد أدنى من زمن الانتقال.
  • إنترنت الأشياء للمدن الذكية: النشر على أجهزة الحافة مثل NVIDIA Jetson لمراقبة حركة المرور.
  • التفتيش الصناعي: مراقبة جودة خط التجميع عالي السرعة التي تتطلب معدل إطارات عالٍ في الثانية (FPS).

المستقبل: مرحباً بـ Ultralytics YOLO26

بينما تمثل YOLOv9 و RTDETRv2 قفزات هائلة إلى الأمام، تطور المشهد بسرعة. بالنسبة لعمليات النشر الحديثة، يمثل الإصدار الجديد Ultralytics YOLO26 التآزر النهائي بين الفلسفتين المعمارتين.

من خلال أخذ أفضل جوانب المحولات و CNNs، تضع YOLO26 معياراً جديداً:

  • تصميم أصلي للنهاية للنهاية بدون NMS: مثل RTDETRv2، تعتبر YOLO26 أصلية من النهاية للنهاية، مما يلغي تماماً معالجة NMS اللاحقة لخطوط أنابيب نشر أسرع وأبسط وأكثر قابلية للتنبؤ.
  • محسن MuSGD: مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، تستخدم YOLO26 مزيجاً من SGD و Muon. وهذا يجلب استقراراً لا مثيل له في التدريب وتقارباً سريعاً في الرؤية الحاسوبية.
  • استدلال أسرع بنسبة تصل إلى 43% على CPU: على عكس المحولات الثقيلة، تم تحسين YOLO26 بشكل كبير لحوسبة الحافة والأجهزة التي لا تحتوي على GPUs.
  • إزالة DFL: تعمل إزالة خسارة التوزيع البؤري (Distribution Focal Loss) على تبسيط رسم النموذج بشكل كبير، مما يضمن تصديراً خالياً من العيوب إلى أجهزة الحافة منخفضة الطاقة ووحدات المعالجة العصبية (NPUs) المدمجة.
  • ProgLoss + STAL: تعمل دوال الخسارة المحسنة هذه على تعزيز التعرف على الأجسام الصغيرة بشكل كبير، وهي ميزة حاسمة لمجموعات بيانات إنترنت الأشياء والبيانات الجوية.

بالنسبة للفرق التي تتطلع إلى بدء مشروع جديد للرؤية الحاسوبية، نوصي بشدة بتقييم YOLO26. إنها توفر أناقة خلوية من NMS كالمحولات مع السرعة الفائقة وكفاءة التدريب لمعمارية YOLO عالية التحسين.

اعرف المزيد عن YOLO26

ملخص

يعتمد الاختيار بين RTDETRv2 و YOLOv9 إلى حد كبير على أجهزة النشر الخاصة بك واحتياجات الدقة المحددة. يوفر RTDETRv2 دقة متطورة ووعياً بالسياق للتطبيقات المدعومة بالخادم، بينما توفر YOLOv9 كفاءة استثنائية لأجهزة الحافة.

ومع ذلك، من خلال الاستفادة من نظام Ultralytics البيئي الناضج، يمكن للمطورين التجربة بسهولة مع كليهما. علاوة على ذلك، مع إدخال نماذج أحدث مثل YOLO11 و YOLO26 الأصلية للنهاية للنهاية، لم يكن العثور على التوازن المثالي بين الاستدلال عالي السرعة، ودعم المهام المتنوعة، وانخفاض استهلاك الذاكرة أسهل من أي وقت مضى.

التعليقات