RTDETRv2 مقابل DAMO-YOLO: دليل شامل لاكتشاف الكائنات في الوقت الفعلي الحديث

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، حيث يسعى الباحثون والمهندسون لبناء نماذج تحقق توازناً مثالياً بين السرعة والدقة والكفاءة. ومن أبرز البنيات التي أحدثت ضجة كبيرة في هذا المجال RTDETRv2، الذي طورته شركة Baidu، وDAMO-YOLO، الذي ابتكره Alibaba Group. يدفع كلا النموذجين حدود اكتشاف الكائنات في الوقت الفعلي، لكنهما يتبنيان فلسفات معمارية مختلفة جذرياً لتحقيق نتائجهما المثيرة للإعجاب.

في هذه المقارنة التقنية، سنتعمق في بنيات هذه النماذج، ومنهجيات التدريب، وقدرات النشر في العالم الحقيقي. كما سنستكشف كيف تتنافس هذه النماذج مع النظام البيئي الأوسع، ولا سيما منصة Ultralytics المحسنة للغاية وبنية YOLO26 الرائدة.

الابتكارات المعمارية

يعد فهم الآليات الأساسية لهذه النماذج أمراً بالغ الأهمية لـ مهندسي تعلم الآلة المكلفين باختيار الأداة المناسبة لبيئات الإنتاج.

RTDETRv2: نهج Transformer

بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 مشفراً هجيناً ومفكك transformer. يسمح هذا التصميم للنموذج بمعالجة السياق العالمي بفعالية عالية، مما يجعله متميزاً بشكل استثنائي في التمييز بين الكائنات المتداخلة في المشاهد الكثيفة. الميزة الأكثر أهمية لهذه البنية هي تصميمها الأصلي الذي لا يعتمد على NMS (قمع غير الحد الأقصى). من خلال التخلص من خطوة المعالجة اللاحقة لـ NMS، يبسط RTDETRv2 مسار الاستدلال ويضمن استقراراً أكبر في زمن الانتقال عبر تكوينات الأجهزة المختلفة.

تعرف على المزيد حول RTDETRv2

DAMO-YOLO: تعزيز كفاءة CNN

من ناحية أخرى، يظل DAMO-YOLO متجذراً في سلالة YOLO القائمة على CNN الناجحة للغاية، ولكنه يقدم العديد من التحسينات الرائدة. إنه يستفيد من البحث عن البنية العصبية (NAS) لتحسين عموده الفقري، مما يضمن أقصى قدر من كفاءة استخراج الميزات. علاوة على ذلك، فهو يدمج RepGFPN فعالاً (شبكة هرمية للميزات المعممة المعاد تشكيلها) وتصميماً من النوع ZeroHead، إلى جانب تقنيات AlignedOTA وتقنيات تحسين التقطير. تسمح هذه الابتكارات لـ DAMO-YOLO بتحقيق سرعات استدلال سريعة مع الحفاظ على درجة mAPval تنافسية للغاية.

تعرف على المزيد حول DAMO-YOLO

الاختلاف المعماري

بينما يركز RTDETRv2 على الاستفادة من آليات الانتباه لفهم الميزات العالمية دون NMS، يزيد DAMO-YOLO من كفاءة CNN التقليدية من خلال NAS والتقطير المتقدم، مما يتطلب معالجة لاحقة قياسية ولكنه يوفر مزايا سرعة متميزة على بعض الأجهزة.

مقارنة الأداء والمقاييس

عند تقييم النماذج للنشر، تكون مقاييس الأداء مثل متوسط دقة الدقة (mAP)، وسرعة الاستدلال، وعدد المعلمات أمراً بالغ الأهمية. فيما يلي مقارنة تفصيلية لعائلتي النماذج.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

تحليل النتائج

كما يظهر في الجدول، يحقق RTDETRv2-x أعلى دقة بـ mAPval يبلغ 54.3، مما يبرز قوة بنية transformer في عمليات التحقق المعقدة مثل مجموعة بيانات COCO. ومع ذلك، يأتي هذا على حساب معلمات (76M) وFLOPs أعلى بكثير.

على العكس من ذلك، يتميز DAMO-YOLOt (الصغير) بخفة الوزن بشكل استثنائي، حيث يتطلب 8.5M معلمات فقط، مما يجعله خياراً سريعاً للغاية للبيئات التي تكون فيها ذاكرة CUDA مقيدة بشدة. يوفر DAMO-YOLO عموماً مقايضة مفيدة بين السرعة والدقة للأجهزة الطرفية القديمة.

النظام البيئي، وسهولة الاستخدام، وميزة Ultralytics

بينما توفر المستودعات المستقلة مثل RT-DETR GitHub الرسمي وDAMO-YOLO GitHub الكود الخام لتدريب هذه النماذج، فإن دمجها في خطوط أنابيب الإنتاج غالباً ما يتطلب الكثير من الكود النموذجي والتحسين اليدوي.

وهنا يأتي دور نظام Ultralytics البيئي الذي يبسط تجربة المطور بشكل كبير. تدمج Ultralytics نماذج مثل RTDETRv2 مباشرة في واجهة برمجة تطبيقات موحدة، مما يسمح للمستخدمين بتدريب النماذج والتحقق منها وتصديرها بسطر واحد من الكود. علاوة على ذلك، تشتهر نماذج Ultralytics بمتطلبات ذاكرتها الدنيا أثناء التدريب مقارنة بالمستودعات المستقلة الثقيلة القائمة على transformer.

مثال على الكود: تكامل سلس

إليك مدى سهولة الاستفادة من مكتبة Ultralytics Python لتشغيل الاستدلال. تظل واجهة برمجة التطبيقات متسقة سواء كنت تستخدم نموذج transformer أو CNN متطوراً.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()
تصدير النماذج للإنتاج

باستخدام واجهة برمجة تطبيقات Ultralytics، يمكنك تصدير نماذجك المدربة بسلاسة إلى تنسيقات مثل TensorRT أو ONNX أو CoreML بأمر بسيط model.export(format="engine")، مما يقلل بشكل كبير من عوائق النشر.

حالات الاستخدام المثالية

يعتمد الاختيار بين هذه البنيات كلياً على متطلبات مشروعك المحددة:

  • يتفوق RTDETRv2 في المعالجة من جانب الخادم حيث تتوفر ذاكرة VRAM بكثرة. إدراكه للسياق العالمي مثالي لـ التصوير الطبي وتحليل الحشود الكثيفة حيث تكثر الانسدادات.
  • يعد DAMO-YOLO مناسباً جداً لـ تطبيقات إنترنت الأشياء المدمجة وخطوط الفحص الصناعي سريعة الحركة حيث تعتبر أعداد المعلمات المنخفضة وFPS العالية متطلبات صارمة.

المستقبل: Ultralytics YOLO26

بينما تتمتع كل من RTDETRv2 وDAMO-YOLO بمزاياهما، فإن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمشاريع الجديدة، يمثل أحدث Ultralytics YOLO26 التوليف النهائي للسرعة والدقة وتجربة المطور.

يتبنى YOLO26 تصميماً نهائياً بدون NMS، مما يلتقط الفائدة الأساسية للمحولات (transformers) دون العبء الحسابي الهائل. إنه يدمج محسن MuSGD المبتكر—المستوحى من تدريب نماذج اللغة الكبيرة—للحصول على تقارب سريع ومستقر. علاوة على ذلك، مع إزالة DFL (تمت إزالة توزيع الخسارة البؤرية لتبسيط التصدير وتحسين التوافق مع الأجهزة الطرفية/منخفضة الطاقة)، يحقق YOLO26 استدلالاً أسرع بـ 43% على وحدة المعالجة المركزية، مما يجعله البطل بلا منازع لـ الحوسبة الطرفية. بالإضافة إلى ذلك، توفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء، والروبوتات، والصور الجوية.

على عكس النماذج المقتصرة بدقة على المربعات المحيطة، توفر عائلة YOLO26 تنوعاً لا مثيل له، حيث تدعم مهام تتراوح من تجزئة المثيلات وتقدير الوضعية إلى المربعات المحيطة الموجهة (OBB)، وكلها تُدار بسلاسة عبر منصة Ultralytics البديهية.

استكشف YOLO26 على المنصة

تفاصيل النموذج والمراجع

RTDETRv2

  • المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
  • المنظمة: Baidu
  • التاريخ: 2024-07-24
  • Arxiv: 2407.17140
  • GitHub: مستودع RT-DETR

DAMO-YOLO

للمستخدمين المهتمين باستكشاف مقارنات أخرى، تحقق من أدلتنا حول RTDETRv2 مقابل YOLO11 أو DAMO-YOLO مقابل YOLOv8 لرؤية كيفية أداء هذه النماذج مقابل الأجيال السابقة من عائلة Ultralytics.

التعليقات