RTDETRv2 مقابل DAMO-YOLO: مقارنة فنية للكشف عن الأجسام
يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين الدقة والسرعة والتكلفة الحسابية. تقدم هذه الصفحة مقارنة فنية مفصلة بين نموذجين قويين: RTDETRv2، وهو نموذج قائم على المحولات (transformers) معروف بدقته العالية، و DAMO-YOLO، وهو نموذج قائم على الشبكات العصبونية الالتفافية (CNN) ومُحسَّن للسرعة والكفاءة. سوف نستكشف الاختلافات المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشروع الرؤية الحاسوبية الخاص بك.
RTDETRv2: كشف عالي الدقة في الوقت الفعلي Transformer
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو نموذج حديث للكشف عن الكائنات من Baidu يعطي الأولوية للدقة العالية مع الحفاظ على الأداء في الوقت الفعلي. وهو يعتمد على إطار DETR، ويستفيد من قوة المحولات لتحقيق نتائج مبهرة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17
- Arxiv: https://arxiv.org/abs/2304.08069
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
تتمحور بنية RTDETRv2 حول محول رؤية (ViT)، مما يسمح لها بمعالجة الصور بمنظور عالمي. على عكس شبكات CNN التقليدية التي تستخدم نوافذ منزلقة، يمكن لآلية الانتباه الذاتي في المحولات أن تزن أهمية جميع مناطق الصورة في وقت واحد.
- تصميم قائم على المحوّل: جوهر RTDETRv2 هو هيكل وحدة الترميز-فك الترميز الخاص به، والذي يتفوق في التقاط التبعيات طويلة المدى والعلاقات المعقدة بين الكائنات في المشهد.
- العمود الفقري الهجين: يستخدم نهجًا هجينًا، باستخدام عمود CNN الفقري لاستخراج الميزات الأولية قبل تغذية الميزات في طبقات المحولات. يجمع هذا بين نقاط القوة في الميزات المحلية لشبكات CNN مع نمذجة السياق العالمي للمحولات.
- الكشف بدون نقاط ارتكاز: باعتباره كاشفًا خاليًا من نقاط الارتكاز، فإن RTDETRv2 يبسط مسار الكشف عن طريق التنبؤ مباشرةً بمواقع الكائنات دون الاعتماد على مربعات ارتكاز محددة مسبقًا، مما يقلل من التعقيد ومشكلات الضبط المحتملة.
نقاط القوة والضعف
نقاط القوة:
- دقة عالية: تتيح بنية المحولات فهمًا سياقيًا فائقًا، مما يؤدي إلى أحدث درجات mAP، خاصة في المشاهد المعقدة التي تحتوي على كائنات محجوبة أو صغيرة.
- استخلاص ميزات قوي: يلتقط السياق العام بشكل فعال، مما يجعله مرنًا للتغيرات في حجم الكائن ومظهره.
- إمكانية التشغيل في الوقت الفعلي: على الرغم من أنه مكثف حسابيًا، إلا أن RTDETRv2 مُحسَّن للاستدلال في الوقت الفعلي، خاصةً عند تسريعه بأدوات مثل TensorRT على وحدات معالجة الرسوميات NVIDIA GPUs.
نقاط الضعف:
- تكلفة حسابية عالية: المحولات تتطلب الكثير من الموارد، مما يؤدي إلى أحجام نماذج أكبر، والمزيد من العمليات الحسابية (FLOPs)، وزيادة استخدام الذاكرة مقارنةً بالنماذج القائمة على CNN.
- تدريب أبطأ: يتطلب تدريب نماذج المحولات عادةً المزيد من الموارد الحاسوبية والوقت. غالبًا ما يحتاجون إلى ذاكرة CUDA أكبر بكثير من نماذج مثل Ultralytics YOLOv8.
DAMO-YOLO: كشف عالي الأداء وفعال
DAMO-YOLO هو نموذج سريع ودقيق للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا. يقدم العديد من التقنيات المبتكرة لعائلة YOLO، مع التركيز على تحقيق توازن مثالي بين السرعة والدقة من خلال تصميمات معمارية متقدمة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تم بناء DAMO-YOLO على أساس CNN ولكنه يتضمن تقنيات حديثة لتوسيع حدود الأداء.
- العمود الفقري المدعوم بالبحث في الهندسة العصبية (NAS): يستخدم عمودًا فقريًا تم إنشاؤه بواسطة البحث في الهندسة العصبية (NAS)، والذي يكتشف تلقائيًا بنية شبكة مثالية لاستخلاص الميزات.
- عنق RepGFPN الفعال: يتميز النموذج بتصميم عنق فعال يسمى RepGFPN، والذي يدمج بفعالية الميزات من مقاييس مختلفة مع الحفاظ على نفقات حسابية منخفضة.
- ZeroHead و AlignedOTA: يقدم DAMO-YOLO ZeroHead مع طبقة خطية واحدة للتصنيف والانحدار، مما يقلل من التعقيد. كما يستخدم AlignedOTA، وهي إستراتيجية متقدمة لتعيين التسميات، لتحسين استقرار التدريب ودقته.
نقاط القوة والضعف
نقاط القوة:
- سرعة استثنائية: تم تحسين DAMO-YOLO بشكل كبير للاستدلال السريع، مما يجعله أحد أفضل المؤدين للتطبيقات في الوقت الفعلي على أجهزة GPU.
- كفاءة عالية: يحقق النموذج توازنًا رائعًا بين السرعة والدقة مع عدد قليل نسبيًا من المعلمات و FLOPs، خاصة في متغيراته الأصغر.
- مكونات مبتكرة: إن استخدام NAS و RepGFPN و ZeroHead يدل على اتباع نهج استشرافي لتصميم الكاشف.
نقاط الضعف:
- دقة قصوى أقل: على الرغم من كفاءته العالية، قد لا تصل أكبر نماذجه إلى نفس الدقة القصوى مثل أكبر النماذج المستندة إلى المحولات مثل RTDETRv2-x في السيناريوهات شديدة التعقيد.
- النظام البيئي وسهولة الاستخدام: كنموذج يركز على البحث، قد يفتقر إلى تجربة المستخدم المبسطة والوثائق الشاملة والنظام البيئي المتكامل الموجود في أطر عمل مثل Ultralytics.
مقارنة الأداء: الدقة والسرعة
تكمن المفاضلة الأساسية بين RTDETRv2 و DAMO-YOLO في الدقة مقابل السرعة. تحقق نماذج RTDETRv2 باستمرار قيم mAP أعلى، حيث يصل نموذج RTDETRv2-x إلى 54.3 mAP. هذا يجعله خيارًا قويًا للتطبيقات التي تكون فيها الدقة غير قابلة للتفاوض.
في المقابل، يتفوق DAMO-YOLO في زمن انتقال الاستدلال. نموذج DAMO-YOLO-t أسرع بكثير من أي متغير RTDETRv2، مما يجعله مثاليًا للتطبيقات التي تتطلب زمن انتقال منخفض للغاية على الأجهزة الطرفية. يعتمد الاختيار على ما إذا كان التطبيق يمكنه تحمل انخفاض طفيف في الدقة لتحقيق مكسب كبير في السرعة.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT (مللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
ميزة Ultralytics: لماذا تختار Ultralytics YOLO؟
في حين أن RTDETRv2 و DAMO-YOLO قويان، غالبًا ما توفر النماذج من نظام Ultralytics YOLO البيئي، مثل أحدث YOLO11، حزمة شاملة أكثر جاذبية للمطورين والباحثين.
- سهولة الاستخدام: تم تصميم نماذج Ultralytics لتجربة مستخدم مبسطة مع واجهة برمجة تطبيقات Python بسيطة و توثيق شامل و أوامر CLI مباشرة.
- نظام بيئي مُدار بشكل جيد: تعمل منصة Ultralytics HUB المتكاملة على تبسيط إدارة البيانات والتدريب والنشر، وهي مدعومة بالتطوير النشط ودعم المجتمع القوي.
- موازنة الأداء: تم تحسين نماذج Ultralytics بشكل كبير لتحقيق توازن ممتاز بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من سيناريوهات النشر الواقعية.
- كفاءة الذاكرة والتدريب: تم تصميم نماذج Ultralytics YOLO للاستخدام الفعال للذاكرة، وعادةً ما تتطلب ذاكرة CUDA ووقتًا أقل للتدريب مقارنةً بالنماذج القائمة على المحولات. كما أنها تأتي مع أوزان مُدرَّبة مسبقًا متاحة بسهولة على مجموعات البيانات مثل COCO.
- تنوع الاستخدامات: تدعم نماذج مثل YOLO11 مهام رؤية متعددة تتجاوز الاكتشاف، بما في ذلك تقسيم الحالات، وتصنيف الصور، وتقدير الوضعية، واكتشاف مربعات الإحاطة الموجهة (OBB)، مما يوفر حلاً موحدًا.
الخلاصة: ما هو النموذج المناسب لك؟
يعتمد الاختيار بين RTDETRv2 و DAMO-YOLO بشكل كبير على الاحتياجات المحددة لمشروعك.
-
اختر RTDETRv2 إذا كان تطبيقك يتطلب أعلى دقة ممكنة ولديك الموارد الحسابية للتعامل مع حجمه الأكبر واستدلاله الأبطأ، كما هو الحال في تحليل التصوير الطبي أو الفحص الصناعي عالي الدقة.
-
اختر DAMO-YOLO إذا كانت أولويتك هي أقصى سرعة استدلال على أجهزة GPU لتطبيقات الوقت الفعلي مثل المراقبة بالفيديو أو الروبوتات، ويمكنك قبول مقايضة طفيفة في الدقة.
ومع ذلك، بالنسبة لمعظم المطورين الذين يبحثون عن حل قوي وسهل الاستخدام وعالي الأداء، تقدم نماذج Ultralytics YOLO مثل YOLO11 الخيار الأفضل على الإطلاق. فهي توفر توازنًا فائقًا بين السرعة والدقة، وتعدد استخدامات استثنائي، وهي مدعومة بنظام بيئي شامل يسرع التطوير من البحث إلى الإنتاج.
استكشف مقارنات النماذج الأخرى
إذا كنت مهتمًا بمعرفة كيف تقارن هذه النماذج بالبنى الأخرى، فراجع صفحات المقارنة الأخرى الخاصة بنا:
- YOLOv8 ضد DAMO-YOLO
- YOLO11 ضد DAMO-YOLO
- YOLOv8 ضد RTDETR
- YOLO11 ضد RTDETR
- EfficientDet ضد DAMO-YOLO
- EfficientDet ضد RTDETR
- YOLOX ضد DAMO-YOLO