تخطي إلى المحتوى

PP-YOLOE+ ضد RTDETRv2: مقارنة فنية

غالبًا ما يتضمن التنقل في مشهد نماذج اكتشاف الكائنات الحديثة الاختيار بين بنى الشبكات العصبية التلافيفية (CNN) الراسخة والتصميمات الناشئة القائمة على المحولات. تفحص هذه المقارنة الفنية PP-YOLOE+ و RTDETRv2، وهما نموذجان عالي الأداء نشأا من Baidu. في حين أن PP-YOLOE+ يمثل تطور شبكات CNN الفعالة والخالية من المرساة داخل نظام PaddlePaddle البيئي، فإن RTDETRv2 (Real-Time Detection Transformer الإصدار 2) يدفع حدود الدقة باستخدام محولات الرؤية.

يشرح هذا التحليل ابتكاراتهم المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدتك في اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بك.

PP-YOLOE+: CNN الفعال الخالي من نقاط الارتكاز

PP-YOLOE+ هو أحدث كاشف للأجسام الصناعية تم تطويره بواسطة فريق PaddlePaddle. إنه بمثابة ترقية لـ PP-YOLOE، مع التركيز على تحسين التوازن بين كفاءة التدريب وسرعة الاستدلال ودقة الـ detect. استنادًا إلى مبادئ عائلة YOLO (You Only Look Once)، فإنه ينشئ هيكلية مبسطة خالية من الارتكاز ومحسّنة للنشر العملي في العالم الحقيقي.

الهندسة المعمارية والميزات الأساسية

يستخدم PP-YOLOE+ CSPResNet backbone قابلة للتطوير، والتي تستخرج الميزات بكفاءة على نطاقات متعددة. تتميز بنيته باستخدام CSPPAN (شبكة تجميع المسار الجزئي عبر المراحل)، والتي تعزز دمج الميزات. والابتكار الرئيسي هو Efficient Task-aligned Head (ET-Head)، الذي يفصل بين مهام التصنيف وتحديد الموقع مع ضمان توافقها أثناء التدريب عبر Task Alignment Learning (TAL). يلغي هذا النهج الحاجة إلى الضبط الدقيق لمعلمات anchor box الحساسة.

نقاط القوة والقيود

تكمن القوة الأساسية لـ PP-YOLOE+ في سرعة الاستدلال الخاصة بها. تم تصميمه ليعمل بسرعة فائقة على أجهزة متنوعة، من وحدات معالجة الرسومات (GPUs) الخاصة بالخوادم إلى الأجهزة الطرفية، دون التضحية بدقة كبيرة. يعمل التصميم الخالي من المرساة على تبسيط مسار التدريب، مما يسهل التكيف مع مجموعات البيانات الجديدة.

ومع ذلك، فإن اعتماده على إطار عمل PaddlePaddle يمكن أن يكون عقبة أمام الفرق المدمجة بعمق في أنظمة PyTorch أو TensorFlow البيئية. يمكن أن يؤدي نقل النماذج أو العثور على أدوات نشر متوافقة خارج مجموعة Baidu إلى إحداث احتكاك.

تعرف على المزيد حول PP-YOLOE+

RTDETRv2: قوة المحولات

يمثل RTDETRv2 نقلة نوعية كبيرة في مجال الكشف عن الأجسام في الزمن الحقيقي من خلال تكييف بنية Transformer بنجاح - المصممة أصلاً لمعالجة اللغة الطبيعية - لمهام الرؤية بسرعات تنافسية. يعالج التكلفة الحسابية العالية المرتبطة عادةً بالمحولات، ويقدم "Bag-of-Freebies" الذي يعزز خط الأساس الأصلي لـ RT-DETR.

الهندسة المعمارية والميزات الأساسية

يستخدم RTDETRv2 وحدة ترميز هجينة تعالج ميزات متعددة المقاييس بكفاءة، وتفصل التفاعلات داخل المقياس عن دمج المقاييس المتعددة. يتيح هذا التصميم التقاط السياق الشامل - العلاقات بين الأجزاء البعيدة من الصورة - بشكل أكثر فعالية من المجالات الاستقبالية المحلية للشبكات العصبونية الالتفافية (CNNs). إنه يستخدم آلية اختيار الاستعلام المدرك لـ IoU لتهيئة استعلامات الكائنات، مما يثبت التدريب ويحسن جودة الاكتشاف النهائية. يقدم تحديث الإصدار 2 وحدة فك ترميز مرنة تتيح للمستخدمين ضبط سرعة الاستدلال عن طريق تعديل طبقات وحدة فك الترميز دون إعادة التدريب.

نقاط القوة والقيود

الميزة البارزة في RTDETRv2 هي دقته في المشاهد المعقدة، خاصةً عندما تكون الكائنات محجوبة أو تفتقر إلى تمييز بصري واضح. تسمح آلية الانتباه الذاتي للنموذج "بالتفكير" في المشهد بشكل شامل.

كثافة الموارد

في حين أن كلمة "Real-Time" موجودة في الاسم، فإن النماذج المستندة إلى المحولات مثل RTDETRv2 تستهلك عمومًا موارد أكثر من CNNs. تتطلب عادةً ذاكرة CUDA أكبر بكثير أثناء التدريب ولديها FLOPs أعلى، مما قد يعقد النشر على الأجهزة الطرفية ذات الذاكرة المحدودة مقارنة بـ CNNs الفعالة مثل YOLO.

تعرف على المزيد حول RTDETRv2

تحليل الأداء: السرعة مقابل الدقة

غالبًا ما يعتمد الاختيار بين هذين النموذجين على القيود المحددة لبيئة النشر. يوضح الجدول أدناه المقايضات، ويقارن بين متوسط الدقة (mAP) وزمن الوصول للاستدلال.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

النقاط الرئيسية:

  • كفاءة النموذج الصغير: في الطرف الأصغر من الطيف، يكون PP-YOLOE+s أسرع بمرتين تقريبًا من RTDETRv2-s (2.62 مللي ثانية مقابل 5.03 مللي ثانية) مع استخدام عدد أقل بكثير من المعلمات (7.93 مليون مقابل 20 مليون).
  • أقصى دقة:RTDETRv2 يوفر عمومًا دقة أعلى لكل معلمة في النطاق المتوسط (نماذج M و L). ومع ذلك، فإن أكبر PP-YOLOE+x يطابق أو يتجاوز بشكل طفيف دقة RTDETRv2-x (54.7 مقابل 54.3 mAP) مع الحفاظ على زمن انتقال أقل قليلاً.
  • الحمل الحسابي: تُظهر نماذج RTDETRv2 باستمرار أعداد FLOPs أعلى، مما يشير إلى حمل حسابي أثقل يؤثر على عمر البطارية وتوليد الحرارة في الأنظمة المدمجة.

تطبيقات عملية في أرض الواقع

متى تختار PP-YOLOE+

  • تصنيع عالي السرعة: لخطوط التجميع التي تتطلب مراقبة جودة عالية FPS حيث يهم زمن الوصول بالمللي ثانية.
  • الأجهزة الطرفية: عند النشر على أجهزة ذات ميزانيات طاقة محدودة، مثل الطائرات بدون طيار أو الماسحات الضوئية المحمولة، حيث يكون عدد FLOPs والمعلمات الأقل أمرًا بالغ الأهمية.
  • النظام البيئي PaddlePaddle: إذا كانت بنيتك التحتية الحالية مبنية بالفعل حول إطار عمل PaddlePaddle الخاص بـ Baidu.

متى تختار RTDETRv2

  • سيناريوهات معقدة: بالنسبة للقيادة الذاتية أو مراقبة حركة المرور حيث يكون فهم العلاقة بين الكائنات (السياق) بنفس أهمية الكشف عنها.
  • المشاهد المزدحمة: في تطبيقات المراقبة ذات الانسداد الشديد، تساعد آلية الانتباه العالمي الخاصة بـ transformer في الحفاظ على تتبع واتساق detect أفضل من شبكات CNN النقية.

ميزة Ultralytics: لماذا يبرز YOLO11

بينما يعد PP-YOLOE+ و RTDETRv2 نموذجين هائلين، فإن Ultralytics YOLO11 يقدم بديلاً مقنعًا غالبًا ما يكون بمثابة الخيار الأفضل لغالبية المطورين والباحثين.

  • سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطور. باستخدام Python API و CLI بسيطين، يمكنك تدريب النماذج والتحقق من صحتها ونشرها في دقائق. على عكس التكوين المعقد المطلوب غالبًا لـ PaddleDetection أو قواعد التعليمات البرمجية البحثية مثل RT-DETR، تعمل نماذج Ultralytics YOLO "خارج الصندوق".
  • نظام بيئي مُدار بشكل جيد: نظام Ultralytics البيئي نابض بالحياة ويتم تحديثه بنشاط. يتضمن عمليات تكامل سلسة مع أدوات شرح البيانات، وتتبع التجارب (مثل MLflow و Comet)، والنشر.
  • موازنة الأداء: تم تصميم YOLO11 لتوفير الموازنة المثالية بين السرعة والدقة. غالبًا ما يضاهي أو يتفوق على دقة نماذج المحولات مع الاحتفاظ بسرعة وكفاءة ذاكرة الشبكات العصبونية الالتفافية (CNNs).
  • كفاءة الذاكرة: إحدى المزايا الحاسمة لـ YOLO11 هي بصمة الذاكرة المنخفضة. يمكن أن يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 كميات هائلة من GPU VRAM. تم تحسين YOLO11 للتدريب بكفاءة على الأجهزة من الدرجة الاستهلاكية.
  • تنوع الاستخدامات: على عكس العديد من المنافسين الذين يركزون فقط على الصناديق المحيطة، يدعم بنية نموذج YOLO11 واحد الكشف عن الكائنات، و تقسيم المثيلات، و تقدير الوضعية، و التصنيف، و الكشف عن الكائنات الموجهة (OBB).

مثال: تدريب YOLO11 في Python

يوضح المثال التالي بساطة سير عمل Ultralytics مقارنةً بإعدادات الإطار الأكثر تعقيدًا:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

الخلاصة

يعرض كل من PP-YOLOE+ و RTDETRv2 التطورات السريعة في رؤية الكمبيوتر. يُعد PP-YOLOE+ خيارًا ممتازًا لأولئك المدمجين بعمق في نظام PaddlePaddle البيئي الذين يحتاجون إلى كفاءة أولية، بينما يوضح RTDETRv2 الإمكانات عالية الدقة للمحولات.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام ومدعوم من المجتمع ولا يضر بالأداء، يظل Ultralytics YOLO11 هو المعيار الموصى به. إن توازنه بين استخدام الذاكرة المنخفض والسرعة العالية والقدرات متعددة المهام يجعله الخيار الأكثر عملية لنقل حلول الذكاء الاصطناعي من النموذج الأولي إلى الإنتاج.

استكشف مقارنات أخرى


تعليقات