تخطي إلى المحتوى

PP-YOLOE+ مقابل RTDETRv2: مقارنة تقنية

غالبًا ما ينطوي التنقل في مشهد النماذج الحديثة للكشف عن الأجسام على الاختيار بين بنيات الشبكات العصبية التلافيفية (CNN) الراسخة والتصاميم الناشئة القائمة على المحولات. تبحث هذه المقارنة التقنية في نموذج PP-YOLOE+ و RTDETRv2، وهما نموذجان عالي الأداء من بايدو. في حين أن PP-YOLOE+ يمثل تطور الشبكات العصبية الفعالة الخالية من المرساة ضمن منظومة PaddlePaddle فإن RTDETRv2 (الإصدار 2 من محول الكشف في الوقت الحقيقي) يدفع حدود الدقة باستخدام محولات الرؤية.

يشرح هذا التحليل ابتكاراتهم المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدتك في اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بك.

PP-YOLOE+: شبكة CNN الفعالة الخالية من المرساة

PP-YOLOE+ هو أحدث كاشف للأجسام الصناعية طوره فريق PaddlePaddle . وهو بمثابة ترقية لـ PP-YOLOE، مع التركيز على تحسين التوازن بين كفاءة التدريب وسرعة الاستدلال ودقة الكشف. وهو مبني على مبادئ عائلة YOLO (أنت تنظر مرة واحدة فقط)، وهو ينشئ بنية مبسطة وخالية من المراسي ومُحسّنة للنشر العملي في العالم الحقيقي.

البنية والميزات الأساسية

يستخدم PP-YOLOE+ العمود الفقري لشبكة تجميع المسار الجزئي المتقاطع (CSPResNet ) القابلة للتطوير، والتي تستخرج الميزات بكفاءة على مستويات متعددة. وتتميز بنيتها باستخدام عنق شبكة تجميع المسار الجزئي المتقاطع ( CSPPAN )، مما يعزز دمج الميزات. ويتمثل الابتكار الرئيسي في الرأس الفعال المحاذي للمهام (ET-Head)، والذي يفصل بين مهام التصنيف والتوطين مع ضمان محاذاة هذه المهام أثناء التدريب من خلال تعلم محاذاة المهام (TAL). هذا النهج يلغي الحاجة إلى ضبط المعلمة الفائقة الحساسة لصندوق الارتكاز.

نقاط القوة والقيود

تكمن قوة PP-YOLOE+ الأساسية في سرعة الاستدلال. فقد تم تصميمه ليعمل بسرعة فائقة على أجهزة متنوعة، بدءًا من وحدات معالجة الرسومات على مستوى الخادم إلى الأجهزة المتطورة، دون التضحية بالدقة الكبيرة. يبسّط التصميم الخالي من المراسي خط أنابيب التدريب، مما يسهل التكيف مع مجموعات البيانات الجديدة.

ومع ذلك، فإن اعتمادها على PaddlePaddle يمكن أن يكون عقبة أمام الفرق المندمجة بعمق في إطار عمل PyTorch أو أنظمة TensorFlow البيئية. يمكن أن يؤدي نقل النماذج أو العثور على أدوات نشر متوافقة خارج مجموعة بايدو إلى حدوث احتكاك.

تعرف على المزيد حول PP-YOLOE+

RTDETRv2: محول الطاقة

يمثل RTDETRv2 قفزة كبيرة في الكشف عن الأجسام في الوقت الحقيقي من خلال تكييف بنية المحولات بنجاح - المصممة في الأصل لمعالجة اللغة الطبيعية - لمهام الرؤية بسرعات تنافسية. وهو يعالج التكلفة الحسابية العالية المرتبطة عادةً بالمحولات، حيث يقدم "حقيبة من المجانية" التي تعزز خط الأساس الأصلي RT-DETR .

البنية والميزات الأساسية

يستخدم RTDETRv2 برنامج ترميز هجين يعالج الميزات متعددة النطاقات بكفاءة، ويفصل التفاعلات داخل النطاق عن الاندماج عبر النطاقات. يسمح له هذا التصميم بالتقاط علاقات السياق العالمي - العلاقاتبين الأجزاء البعيدة من الصورة - بشكل أكثر فعالية من مجالات الاستقبال المحلية لشبكات CNN. ويستخدم آلية اختيار استعلامIoU الاستعلامات لتهيئة استعلامات الكائنات، مما يعمل على استقرار التدريب وتحسين جودة الكشف النهائي. يقدّم تحديث الإصدار 2 وحدة فك ترميز مرنة تسمح للمستخدمين بضبط سرعة الاستدلال من خلال تعديل طبقات وحدة فك الترميز دون إعادة التدريب.

نقاط القوة والقيود

تتمثل الميزة البارزة في RTDETRv2 في دقته في المشاهد المعقدة، خاصةً عندما تكون الأجسام محجوبة أو تفتقر إلى التمييز البصري الواضح. تسمح آلية الانتباه الذاتي للنموذج "بالتفكير" في المشهد على مستوى العالم.

كثافة الموارد

على الرغم من وجود "الوقت الحقيقي" في الاسم، إلا أن النماذج القائمة على المحولات مثل RTDETRv2 تكون عادةً أكثر استهلاكاً للموارد من شبكات CNN. وعادةً ما تتطلب ذاكرةCUDA أكثر بكثير أثناء التدريب ولديها عمليات FLOP أعلى، مما قد يعقّد عملية النشر على الأجهزة ذات الذاكرة المحدودة مقارنةً بنماذج CNN الفعالة مثل YOLO.

تعرف على المزيد حول RTDETRv2

تحليل الأداء: السرعة مقابل الدقة

غالبًا ما يعود الاختيار بين هذين النموذجين إلى القيود المحددة لبيئة النشر. يوضّح الجدول أدناه المفاضلة بين النموذجين، ويقارن بين متوسط متوسط الدقة (mAP) وزمن الاستنتاج.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

الوجبات السريعة الرئيسية:

  • كفاءة النموذج الصغير: في الطرف الأصغر من الطيف، تبلغ سرعة PP-YOLOE+s ضعف سرعة RTDETRv2-s تقريبًا (2.62 مللي ثانية مقابل 5.03 مللي ثانية) مع استخدام عدد أقل بكثير من المعلمات (7.93 مليون مقابل 20 مليون).
  • دقة الذروة: يوفرRTDETRv2 بشكل عام دقة أعلى لكل معلمة في النطاق المتوسط (الطرازان M و L). ومع ذلك، فإن أكبر PP-YOLOE+x يطابق بشكل أساسي دقة RTDETRv2-x أو يتجاوزها قليلاً (54.7 مقابل 54.3 mAP) مع الحفاظ على زمن وصول أقل قليلاً.
  • حمل الحوسبة: تُظهر نماذج RTDETRv2 باستمرار أعداداً أعلى من وحدات FLOPs، مما يشير إلى حمل حسابي أثقل يؤثر على عمر البطارية وتوليد الحرارة في الأنظمة المدمجة.

تطبيقات عملية في أرض الواقع

متى تختار PP-YOLOE+

  • التصنيع عالي السرعة: بالنسبة لخطوط التجميع التي تتطلب مراقبة جودة عالية في الثانية حيث يكون زمن الاستجابة بالمللي ثانية مهمًا.
  • أجهزة الحافة: عند النشر على الأجهزة ذات ميزانيات الطاقة المحدودة، مثل الطائرات بدون طيار أو الماسحات الضوئية المحمولة، حيث يكون انخفاض عدد وحدات FLOP وعدد المعلمات أمرًا بالغ الأهمية.
  • نظامPaddlePaddle البيئي: إذا كانت بنيتك التحتية الحالية مبنية بالفعل حول إطار عمل PaddlePaddle من Baidu.

متى تختار RTDETRv2

  • السيناريوهات المعقدة: للقيادة الذاتية أو مراقبة حركة المرور حيث يكون فهم العلاقة بين الأجسام (السياق) بنفس أهمية اكتشافها.
  • المشاهد المزدحمة: في تطبيقات المراقبة ذات الانسداد الشديد، تساعد آلية الانتباه العالمي للمحول في الحفاظ على اتساق التتبع والكشف بشكل أفضل من شبكات CNN النقية.

ميزة Ultralytics : لماذا YOLO11

في حين أن PP-YOLOE+ وRTDETRv2 من النماذج الهائلة, Ultralytics YOLO11 يقدم بديلاً مقنعًا غالبًا ما يكون الخيار الأفضل لغالبية المطورين والباحثين.

  • سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطورين. باستخدام واجهة برمجة تطبيقات Python API و CLI بسيطة، يمكنك تدريب النماذج والتحقق من صحتها ونشرها في دقائق. على عكس التكوين المعقد الذي غالبًا ما يكون مطلوبًا ل PaddleDetection أو قواعد البرمجة البحثية مثل RT-DETR تعمل نماذج Ultralytics YOLO "خارج الصندوق".
  • نظام بيئي جيد الصيانة: نظام Ultralytics البيئي نابض بالحياة ويتم تحديثه بنشاط. وهو يتضمن تكاملات سلسة مع أدوات للتعليق التوضيحي للبيانات وتتبع التجارب (مثل MLflow و Comet) والنشر.
  • ميزان الأداء:YOLO11 مصمم لتوفير المفاضلة المثلى بين السرعة والدقة. فهو غالبًا ما يضاهي أو يتفوق على دقة نماذج المحولات مع الاحتفاظ بالسرعة وكفاءة الذاكرة التي تتميز بها شبكات CNN.
  • كفاءة الذاكرة: تتمثل إحدى المزايا المهمة لـ YOLO11 في انخفاض بصمة الذاكرة. يمكن أن يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 كميات هائلة من ذاكرة VRAM GPU . تم تحسين YOLO11 لتدريبها بكفاءة على أجهزة من فئة المستهلكين.
  • تعدد الاستخدامات: على عكس العديد من المنافسين الذين يركزون فقط على المربعات المحدودة، تدعم بنية نموذج YOLO11 الواحدة اكتشاف الكائنات، وتقسيم المثيلات، وتقدير الوضعية، والتصنيف، واكتشاف الكائنات الموجهة (OBB).

مثال: تدريب YOLO11 في Python

يوضح المثال التالي بساطة سير عمل Ultralytics مقارنةً بإعدادات إطار العمل الأكثر تعقيدًا:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")

# Train the model on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

الخلاصة

يُظهر كل من PP-YOLOE+ وRTDETRv2 التقدم السريع في الرؤية الحاسوبية. ويُعد PP-YOLOE+ خيارًا ممتازًا لأولئك المندمجين بعمق في نظام PaddlePaddle الذي يتطلب كفاءة أولية، بينما يوضح RTDETRv2 الإمكانات العالية الدقة للمحولات.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام ومدعوم من المجتمع ولا يتنازل عن الأداء, Ultralytics YOLO11 يظل المعيار الموصى به. إن توازنه بين الاستخدام المنخفض للذاكرة والسرعة العالية والقدرات متعددة المهام يجعله الخيار الأكثر عملية لنقل حلول الذكاء الاصطناعي من النموذج الأولي إلى الإنتاج.

استكشف مقارنات أخرى


تعليقات