تخطي إلى المحتوى

DAMO-YOLO مقابل RTDETRv2: موازنة السرعة ودقة المحولات

غالبًا ما ينطوي اختيار بنية الكشف عن الكائنات المثالية على التنقل بين المفاضلة بين زمن الوصول للاستدلال ودقة الكشف. تقارن هذه المقارنة الفنية بين DAMO-YOLO، وهو كاشف عالي السرعة تم تحسينه بواسطة مجموعة Alibaba، و RTDETRv2، وهو الجيل الثاني من محول الكشف في الوقت الفعلي من Baidu. نحلل ابتكاراتهم المعمارية ومعايير الأداء ومدى ملاءمتهم للنشر لمساعدتك في اتخاذ قرارات مستنيرة لتطبيقات رؤية الحاسوب الخاصة بك.

DAMO-YOLO: تحسين لخفض زمن الوصول

يمثل DAMO-YOLO خطوة مهمة في تطور تصميمات YOLO، مع التركيز بشكل كبير على زيادة السرعة إلى أقصى حد دون المساس بالدقة بشكل كبير. تم تطويره بواسطة مجموعة Alibaba، وهو يستخدم تقنيات البحث المتقدمة عن البنية العصبية (NAS) لتكييف هيكل الشبكة لتحقيق الكفاءة.

أبرز الملامح المعمارية

تدمج DAMO-YOLO العديد من التقنيات الجديدة لتبسيط خط أنابيب detect:

  • العمود الفقري المدعوم من NAS: يستخدم النموذج البحث عن بنية الشبكة العصبية (NAS) لاكتشاف بنية أساسية فعالة تلقائيًا (MAE-NAS). يضمن هذا النهج تحسين عمق الشبكة وعرضها للقيود الخاصة بالأجهزة.
  • RepGFPN Neck: يتميز بنسخة فعالة من شبكة Generalized Feature Pyramid Network (GFPN) المعروفة باسم RepGFPN. يعزز هذا المكون feature fusion عبر مختلف المقاييس مع الحفاظ على التحكم في زمن الوصول المنخفض.
  • ZeroHead: تصميم رأس مبسط يطلق عليه "ZeroHead" يفصل بين مهام classify والانحدار، مما يقلل من العبء الحسابي لطبقات التوقع النهائية.
  • AlignedOTA: لتحقيق استقرار التدريب، يستخدم DAMO-YOLO إستراتيجية AlignedOTA (إسناد النقل الأمثل)، وهي إستراتيجية لإسناد الملصقات تعمل على محاذاة أهداف التصنيف والانحدار لتحسين التقارب.

تعرف على المزيد حول DAMO-YOLO

RTDETRv2: تطور المحولات في الوقت الفعلي

RTDETRv2 يبني على نجاح RT-DETR الأصلي، أول كاشف للكائنات يعتمد على transformer لتحقيق أداء في الوقت الفعلي. تم تطوير RTDETRv2 بواسطة Baidu، ويقدم "bag-of-freebies" لتعزيز استقرار التدريب ودقته دون تكبد تكاليف استدلال إضافية.

أبرز الملامح المعمارية

يستفيد RTDETRv2 من نقاط قوة محولات الرؤية مع التخفيف من الاختناقات التقليدية في السرعة:

  • وحدة ترميز هجينة: يستخدم التصميم وحدة ترميز هجينة تعالج ميزات متعددة المقاييس بكفاءة، وتفصل التفاعل داخل المقياس ودمج المقاييس المتعددة لتوفير التكاليف الحسابية.
  • تحديد الاستعلام المدرك لـ IoU: تحدد هذه الآلية استعلامات الكائن الأولية عالية الجودة بناءً على درجات التقاطع على الاتحاد (IoU)، مما يؤدي إلى تقارب أسرع للتدريب.
  • تكوين قابل للتكيف: يوفر RTDETRv2 تكوينات مرنة لوحدة فك الترميز وتحديد الاستعلام، مما يسمح للمستخدمين بضبط النموذج لمتطلبات السرعة/الدقة المحددة.
  • تصميم خالٍ من المرتكزات (Anchor-Free Design): مثل سابقه، فهو خالٍ من المرتكزات تمامًا، مما يلغي الحاجة إلى الضبط التجريبي لمربعات الارتكاز و Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة.

تعرف على المزيد حول RTDETRv2

مقارنة فنية: الأداء والكفاءة

يكمن التمييز الأساسي بين هذين النموذجين في جذورهما المعمارية - CNN مقابل Transformer - وكيف يؤثر ذلك على ملف تعريف الأداء الخاص بهما.

تحليل المقاييس

يحدد الجدول أدناه المقاييس الرئيسية على مجموعة بيانات COCO. في حين أن RTDETRv2 يهيمن من حيث متوسط الدقة (mAP)، فإن DAMO-YOLO يُظهر إنتاجية فائقة (FPS) وعدد معلمات أقل لمتغيراته الأصغر.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

تحليل المفاضلات

DAMO-YOLO يتفوق في البيئات التي يكون فيها كل جزء من الثانية مهمًا، مثل الفرز الصناعي عالي التردد. البديل 'Tiny' (t) الخاص به خفيف الوزن بشكل استثنائي. وعلى العكس من ذلك، يوفر RTDETRv2 سقف دقة أعلى، مما يجعله مفضلاً للمشاهد المعقدة حيث يكون فقدان كائن ما أمرًا بالغ الأهمية، كما هو الحال في الملاحة المستقلة أو المراقبة التفصيلية.

الهيكلة مقابل التطبيق الواقعي

  1. Global Context vs. Local Features: تسمح آلية الانتباه المستندة إلى المحولات في RTDETRv2 بفهم context العالمي بشكل أفضل من DAMO-YOLO المستند إلى الشبكات العصبونية التفافية (CNN). ينتج عن هذا أداء أفضل في المشاهد المزدحمة أو عند انسداد الأجسام. ومع ذلك، يأتي هذا الانتباه العالمي على حساب استهلاك أعلى للذاكرة وأوقات تدريب أبطأ.

  2. تحسين الأجهزة: تم تحسين العمود الفقري لـ DAMO-YOLO المستند إلى NAS بشكل كبير لاستنتاج GPU، مما يحقق زمن انتقال منخفض للغاية. بينما RTDETRv2 في الوقت الفعلي، يتطلب عمومًا أجهزة أكثر قوة لمطابقة معدلات الإطارات لأجهزة الكشف بنمط YOLO.

ميزة Ultralytics: لماذا تختار YOLO11؟

في حين أن DAMO-YOLO و RTDETRv2 يقدمان فوائد متخصصة، فإن Ultralytics YOLO11 يبرز كحل أكثر توازناً وسهولة في الاستخدام للمطورين للغالبية العظمى من التطبيقات الواقعية.

تجربة مطور فائقة ونظام بيئي

تتمثل إحدى أهم التحديات التي تواجه النماذج الأكاديمية مثل DAMO-YOLO أو RTDETRv2 في التكامل. تحل Ultralytics هذه المشكلة من خلال نظام بيئي قوي:

  • سهولة الاستخدام: مع Python API و CLI موحدين، يمكنك تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر فقط من التعليمات البرمجية.
  • نظام بيئي مُدار بشكل جيد: يتم دعم نماذج Ultralytics من خلال التطوير النشط و الوثائق الشاملة ومجتمع كبير. وهذا يضمن التوافق مع أحدث مكتبات الأجهزة والبرامج.
  • كفاءة التدريب: تم تصميم YOLO11 للتدريب بشكل أسرع ويتطلب ذاكرة GPU (VRAM) أقل بكثير من النماذج القائمة على المحولات مثل RTDETRv2. وهذا يجعل الذكاء الاصطناعي عالي الأداء في متناول الجميع حتى على الأجهزة الاستهلاكية.

تنوع لا مثيل له

على عكس DAMO-YOLO و RTDETRv2، اللذين يركزان في المقام الأول على bounding box detection، يدعم YOLO11 أصلاً مجموعة واسعة من مهام رؤية الكمبيوتر:

موازنة الأداء

يحقق YOLO11 دقة متطورة تنافس أو تتجاوز RTDETRv2 في العديد من المعايير مع الحفاظ على سرعة وكفاءة الاستدلال التي تميز عائلة YOLO.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

تعرف على المزيد حول YOLO11

الخلاصة

يعتمد الاختيار بين DAMO-YOLO و RTDETRv2 على القيود المحددة لديك:

  • اختر DAMO-YOLO إذا كان القيد الأساسي لديك هو زمن الوصول وكنت تنشر على الأجهزة الطرفية حيث يكون الحد الأدنى لعدد المعلمات أمرًا بالغ الأهمية.
  • اختر RTDETRv2 إذا كنت تتطلب أعلى دقة ممكنة في المشاهد المعقدة ولديك الميزانية الحسابية لدعم بنية المحولات.

ومع ذلك، للحصول على حل شامل يجمع بين الأداء العالي وسهولة الاستخدام والقدرة متعددة المهام، يظل Ultralytics YOLO11 هو الخيار الموصى به. إن تقليل مساحة الذاكرة أثناء التدريب، جنبًا إلى جنب مع نظام بيئي ناضج، يسرع الرحلة من النموذج الأولي إلى الإنتاج.

استكشف نماذج أخرى

لفهم مشهد الكشف عن الكائنات بشكل أكبر، استكشف هذه المقارنات:


تعليقات