DAMO-YOLO مقابل RTDETRv2: مقارنة فنية
يُعد اختيار نموذج الكشف عن الأجسام المناسب قرارًا بالغ الأهمية يوازن بين الدقة والسرعة والتكلفة الحسابية. تتعمق هذه المقارنة في بنيتين قويتين: DAMO-YOLO، وهو كاشف عالي السرعة من مجموعة Alibaba، و RTDETRv2، وهو نموذج محولات في الوقت الفعلي عالي الدقة من Baidu. سوف نستكشف الاختلافات المعمارية ومعايير الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لمشروع الرؤية الحاسوبية الخاص بك.
DAMO-YOLO: كشف سريع ودقيق
DAMO-YOLO هو نموذج للكشف عن الأجسام تم تطويره بواسطة مجموعة علي بابا، وهو مصمم لتحقيق توازن فائق بين السرعة والدقة. يتضمن العديد من التقنيات المبتكرة لتعزيز أداء كاشفات الأجسام بنمط YOLO.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمة: مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv: https://arxiv.org/abs/2211.15444v2
- GitHub: https://github.com/tinyvision/DAMO-YOLO
- المستندات: https://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تعتمد DAMO-YOLO على النموذج الكلاسيكي لكاشف الكائنات أحادي المرحلة مع العديد من الابتكارات الرئيسية:
- العمود الفقري المدعوم بالبحث في الهندسة العصبية (NAS): يستخدم البحث في الهندسة العصبية (NAS) لإنشاء شبكة عمود فقري مُحسَّنة. يتيح ذلك للنموذج العثور على بنية عالية الكفاءة مصممة خصيصًا للأجهزة وأهداف الأداء المحددة.
- عنق RepGFPN الفعال: يستخدم النموذج إصدارًا فعالاً من شبكة هرم الميزات المعممة (GFPN) لدمج الميزات. يجمع هيكل العنق هذا بفعالية بين الميزات من مقاييس مختلفة مع الحفاظ على خفة الوزن الحسابية.
- ZeroHead: أحد الابتكارات الرئيسية هو ZeroHead، الذي يفصل بين رأسي التصنيف والانحدار لتقليل النفقات الحسابية وتحسين الأداء. يعمل هذا التصميم على تبسيط بنية الرأس دون التضحية بالدقة.
- تعيين تسميات AlignedOTA: يستخدم DAMO-YOLO نظام AlignedOTA (تعيين النقل الأمثل) لتعيين التسميات للتنبؤات أثناء التدريب. تضمن هذه الاستراتيجية المتقدمة تحديد نقاط الارتكاز الأنسب لكل هدف حقيقي، ممّا يؤدي إلى تقارب أفضل للتدريب ودقة أعلى.
نقاط القوة والضعف
نقاط القوة:
- سرعة استدلال استثنائية: توفر نماذج DAMO-YOLO، وخاصةً المتغيرات الأصغر، زمن انتقال منخفض جدًا على أجهزة GPU، مما يجعلها مثالية للاستدلال في الوقت الفعلي.
- كفاءة عالية: يحقق النموذج توازنًا قويًا بين السرعة والدقة مع عدد قليل نسبيًا من المعلمات و FLOPs.
- هندسة قابلة للتطوير: وهي متوفرة بأحجام متعددة (Tiny، Small، Medium، Large)، مما يسمح للمطورين باختيار النموذج المناسب لقيود الموارد المحددة الخاصة بهم.
نقاط الضعف:
- قيود الدقة: على الرغم من السرعة، قد لا تتطابق ذروة الدقة مع دقة النماذج الأكثر تعقيدًا والقائمة على المحولات في السيناريوهات الصعبة التي تحتوي على العديد من الكائنات الصغيرة أو المسدودة.
- النظام البيئي وسهولة الاستخدام: النظام البيئي المحيط بـ DAMO-YOLO أقل تطوراً مقارنة بالأطر الأكثر انتشارًا، مما قد يتطلب المزيد من الجهد للتكامل والنشر.
RTDETRv2: كشف عالي الدقة في الوقت الفعلي Transformer
RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار الثاني) هو نموذج حديث للكشف عن الكائنات من Baidu يستفيد من قوة المحولات لتقديم دقة عالية مع الحفاظ على الأداء في الوقت الحقيقي. إنه تطور لـ RT-DETR الأصلي، ويتضمن "حقيبة من الأشياء المجانية" لزيادة تحسين قدراته.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (RT-DETR الأصلي)، 2024-07-24 (تحسينات RTDETRv2)
- Arxiv: https://arxiv.org/abs/2304.08069 (الأصلي), https://arxiv.org/abs/2407.17140 (v2)
- GitHub: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستندات: https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
البنية والميزات الرئيسية
يعتمد RTDETRv2 على إطار عمل DETR (DEtection TRansformer)، الذي يعيد تصور الكشف عن الأجسام كمشكلة تنبؤ مباشرة بالمجموعة.
- تصميم CNN-Transformer الهجين: يستخدم عمود CNN فقري تقليديًا (مثل ResNet) لاستخراج خرائط الميزات الأولية، والتي يتم تغذيتها بعد ذلك في وحدة transformer لترميز وفك التشفير.
- نمذجة السياق الشامل: تسمح آلية الانتباه الذاتي الخاصة بالمحول (transformer) للنموذج بالتقاط العلاقات الشاملة بين الأجزاء المختلفة من الصورة. وهذا يجعله جيدًا بشكل استثنائي في اكتشاف الكائنات في المشاهد المعقدة والمزدحمة.
- End-to-End Detection: مثل النماذج الأخرى القائمة على DETR، فإن RTDETRv2 شامل ويزيل الحاجة إلى المكونات المصممة يدويًا مثل Non-Maximum Suppression (NMS)، ممّا يبسط مسار الكشف.
- نهج خالٍ من المربعات المحورية (Anchor-Free Approach): النموذج خالٍ من المربعات المحورية (anchor-free)، مما يتجنب التعقيدات المرتبطة بتصميم وضبط المربعات المحورية.
نقاط القوة والضعف
نقاط القوة:
- دقة هي الأحدث على مستوى التقنية: يحقق RTDETRv2 نتائج mAP عالية جدًا، وغالبًا ما يتفوق على أدوات الكشف الأخرى في الوقت الفعلي، خاصةً في السيناريوهات ذات التوزيعات الكثيفة للكائنات.
- المتانة في المشاهد المعقدة: إن آلية الانتباه العام تجعله فعالاً للغاية في التمييز بين الكائنات المتداخلة وفهم سياق المشهد الأوسع.
- مسار مبسط: إن التصميم الشامل والخالي من NMS يجعل مرحلة ما بعد المعالجة أكثر نظافة وأكثر وضوحًا.
نقاط الضعف:
- تكلفة حسابية أعلى: عادةً ما تكون البنى القائمة على المحولات (Transformer) أكثر تطلبًا من حيث المعلمات وعمليات الفاصلة العائمة في الثانية (FLOPs) واستخدام الذاكرة مقارنة بنماذج CNN النقية.
- استدلال أبطأ: على الرغم من أنها مُحسَّنة للاستخدام في الوقت الفعلي، إلا أن سرعة الاستدلال الخاصة بها أبطأ بشكل عام من أسرع النماذج المستندة إلى YOLO.
- تعقيد التدريب: قد يكون تدريب المحولات (transformers) أكثر استهلاكًا للموارد ويتطلب جداول تدريب أطول وذاكرة أكبر من الشبكات العصبونية الالتفافية (CNNs).
مقارنة الأداء والتدريب
معايير الأداء
إليك مقارنة تفصيلية للأداء بين متغيرات DAMO-YOLO و RTDETRv2 على مجموعة بيانات COCO val.
النموذج | الحجم (بالبكسل) |
mAPval 50-95 |
السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) |
السرعة T4 TensorRT (مللي ثانية) |
المعلمات (M) |
FLOPs (B) |
---|---|---|---|---|---|---|
DAMO-YOLO-t | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
DAMO-YOLO-s | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
DAMO-YOLO-m | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
DAMO-YOLO-l | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20.0 | 60.0 |
RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36.0 | 100.0 |
RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42.0 | 136.0 |
RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76.0 | 259.0 |
من الجدول، يمكننا استخلاص عدة استنتاجات:
- الدقة: يحقق RTDETRv2 باستمرار mAP أعلى عبر أحجام النماذج القابلة للمقارنة، حيث يصل أكبر متغير له إلى 54.3 mAP مثير للإعجاب.
- السرعة: يحتفظ DAMO-YOLO بميزة واضحة في سرعة الاستدلال، حيث أن نموذجه الصغير أسرع بأكثر من الضعف من أصغر نموذج RTDETRv2 على وحدة معالجة الرسوميات T4.
- الكفاءة: نماذج DAMO-YOLO أكثر كفاءة من حيث المعلمات والعمليات الحسابية. على سبيل المثال، تحقق DAMO-YOLO-m قيمة 49.2 mAP مع 28.2 مليون معلمة، في حين أن RTDETRv2-s تحتاج إلى 20.0 مليون معلمة للوصول إلى 48.1 mAP مماثلة ولكنها أبطأ.
حالات الاستخدام المثالية
-
DAMO-YOLO هو الأنسب للتطبيقات التي تكون فيها السرعة ذات أهمية قصوى، مثل:
- المراقبة بالفيديو في الوقت الفعلي: معالجة موجزات الفيديو عالية الإطارات لتطبيقات مثل أنظمة إنذار الأمان.
- عمليات نشر الذكاء الاصطناعي الطرفية: التشغيل على الأجهزة ذات الموارد المحدودة مثل NVIDIA Jetson أو Raspberry Pi.
- الروبوتات: تمكين الإدراك السريع للروبوتات التي تتطلب اتخاذ قرارات سريعة، كما هو موضح في دور الذكاء الاصطناعي في الروبوتات.
-
يتفوق RTDETRv2 في السيناريوهات التي تكون فيها الدقة هي الأولوية القصوى:
- القيادة الذاتية: اكتشاف المشاة والمركبات والعقبات بشكل موثوق في البيئات الحضرية المعقدة.
- الأمن عالي المخاطر: تحديد التهديدات في الأماكن العامة المزدحمة حيث الدقة أمر بالغ الأهمية.
- تحليلات البيع بالتجزئة: حساب وتتبع عدد كبير من المنتجات بدقة على الرفوف أو العملاء في المتجر.
ميزة Ultralytics: YOLOv8 و YOLO11
في حين أن كلاً من DAMO-YOLO و RTDETRv2 هما نموذجان قويان، فإن نظام Ultralytics YOLO البيئي، الذي يضم نماذج مثل YOLOv8 وأحدث Ultralytics YOLO11، يقدم بديلاً مقنعًا غالبًا ما يوفر حزمة شاملة فائقة للمطورين والباحثين.
تشمل المزايا الرئيسية لاستخدام نماذج Ultralytics ما يلي:
- سهولة الاستخدام: واجهة برمجة تطبيقات Python مبسطة، و توثيق شامل، و استخدام CLI مباشر يجعل التدريب والتحقق والنشر بسيطًا بشكل لا يصدق.
- نظام بيئي مُدار بشكل جيد: توفر Ultralytics تطويرًا نشطًا ودعمًا مجتمعيًا قويًا عبر GitHub وتحديثات متكررة وتكاملاً سلسًا مع Ultralytics HUB لـ MLOps شامل.
- موازنة الأداء: تم تحسين نماذج Ultralytics بشكل كبير لتحقيق توازن ممتاز بين السرعة والدقة، مما يجعلها مناسبة لمجموعة واسعة من التطبيقات بدءًا من الأجهزة الطرفية وصولًا إلى الخوادم السحابية.
- كفاءة الذاكرة: تم تصميم نماذج Ultralytics YOLO لتكون فعالة من حيث الذاكرة، وعادةً ما تتطلب ذاكرة CUDA أقل للتدريب والاستدلال مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2، والتي تُعرف بأنها تستهلك الكثير من الموارد.
- تنوع الاستخدامات: نماذج مثل YOLOv8 و YOLO11 هي أطر عمل متعددة المهام تدعم أصلاً اكتشاف الأجسام، وتقسيم الحالات، وتصنيف الصور، وتقدير الوضعية، ومربعات الإحاطة الموجهة (OBB)، مما يوفر حلاً موحدًا يفتقر إليه DAMO-YOLO و RTDETRv2.
- كفاءة التدريب: استفد من أوقات التدريب السريعة، والتقارب الفعال، والأوزان المدربة مسبقًا المتاحة بسهولة على مجموعات البيانات الشائعة مثل COCO.
الخلاصة
يعتبر كل من DAMO-YOLO و RTDETRv2 نموذجين استثنائيين لاكتشاف الكائنات يدفعان حدود السرعة والدقة على التوالي. DAMO-YOLO هو الخيار الأمثل للتطبيقات التي تتطلب أقل زمن انتقال ممكن على أجهزة GPU. في المقابل، RTDETRv2 هو النموذج المفضل عندما يكون تحقيق أعلى دقة أمرًا غير قابل للتفاوض، خاصة في البيئات المرئية المعقدة.
ومع ذلك، بالنسبة لغالبية المطورين والباحثين، تقدم نماذج Ultralytics مثل YOLO11 الحل الأكثر عملية وفعالية. فهي توفر توازنًا فائقًا بين السرعة والدقة وسهولة الاستخدام التي لا مثيل لها وتعدد الاستخدامات في المهام المتعددة، وهي مدعومة بنظام بيئي قوي ويتم صيانته بنشاط. هذا المزيج يجعل نماذج Ultralytics YOLO الخيار الموصى به لبناء تطبيقات رؤية الكمبيوتر عالية الأداء في العالم الحقيقي.
استكشف نماذج أخرى
قد يجد المستخدمون المهتمون بـ DAMO-YOLO و RTDETRv2 هذه المقارنات ذات صلة أيضًا:
- YOLOv8 ضد DAMO-YOLO
- YOLO11 ضد DAMO-YOLO
- YOLOv8 ضد RT-DETR
- YOLO11 ضد RT-DETR
- EfficientDet ضد DAMO-YOLO
- YOLOX ضد DAMO-YOLO
- YOLOv7 ضد RT-DETR