PP-YOLOE+ مقابل RTDETRv2: دليل شامل لمعماريات اكتشاف الأشياء في الوقت الفعلي

شهد مجال الرؤية الحاسوبية تطوراً هائلاً في السنوات الأخيرة، لا سيما في نطاق اكتشاف الأشياء في الوقت الفعلي. قد يعني اختيار المعمارية المناسبة للنشر الفرق بين تطبيق بطيء يستهلك الكثير من الذاكرة ونظام عالي الكفاءة وسريع الاستجابة. في هذه المقارنة التقنية، نستكشف نموذجين بارزين من Baidu: نموذج PP-YOLOE+ القائم على شبكات CNN ونموذج RTDETRv2 القائم على تقنية Transformer. سنقوم بتحليل معمارياتهما، ومقاييس الأداء، وحالات الاستخدام المثالية، مع فحص كيفية مقارنتهما بمنصة Ultralytics YOLO26 المتطورة.

PP-YOLOE+: تطوير نموذج CNN

تم تطوير PP-YOLOE+ كتكرار لسابقاته، وهو يتجاوز الحدود التي يمكن أن تحققها الشبكات العصبية التلافيفية (CNNs) التقليدية في اكتشاف الأشياء. إنه كاشف قادر جداً لا يعتمد على الصناديق الراسية (anchor-free)، حيث يعتمد على الآليات الأساسية لسلسلة YOLO مع تقديم تحسينات محددة لنظام PaddlePaddle البيئي.

تفاصيل النموذج:

العمارة والمنهجيات

يعتمد PP-YOLOE+ على هيكل أساسي (backbone) مُحسن بشكل كبير وشبكة هرمية ميزات مخصصة لتجميع الميزات متعددة المقاييس بفعالية. يستخدم تصميماً خالياً من الصناديق الراسية، مما يبسط عملية الضبط الإرشادي المطلوبة عادةً لإنشاء صناديق الارتساء (anchor boxes). علاوة على ذلك، تتضمن منهجية التدريب الخاصة به استراتيجيات متقدمة لتخصيص التسميات لمطابقة التنبؤات بشكل أفضل مع الصناديق الحقيقية (ground truth boxes) أثناء مرحلة التعلم.

نقاط القوة وحالات الاستخدام

تكمن القوة الأساسية لنموذج PP-YOLOE+ في أدائه القوي على خوادم الأجهزة القياسية وتكامله العميق مع أدوات Baidu. وهو مناسب تماماً لسير العمل الصناعي التقليدي، مثل اكتشاف العيوب الساكن في بيئات التصنيع حيث لا تكون قيود الأجهزة مقيدة بشكل مفرط.

تعرف على المزيد حول PP-YOLOE+

اعتبارات النظام البيئي

على الرغم من أن PP-YOLOE+ يوفر دقة قوية، إلا أن نشره خارج نظامه البيئي الأصلي قد يتطلب أحياناً خطوات تحويل إضافية، على عكس تنسيقات التصدير الأصلية المتاحة بسهولة في خطوط إنتاج Ultralytics الحديثة.

RTDETRv2: محولات الاكتشاف في الوقت الفعلي

بالابتعاد عن شبكات CNN البحتة، يمثل RTDETRv2 (اختصار لـ Real-Time Detection Transformer الإصدار 2) قفزة نحو آليات الانتباه لمهام الرؤية الحاسوبية. إنه يحاول الجمع بين فهم السياق العالمي لتقنية Transformer وزمن الانتقال المنخفض المطلوب للتطبيقات الواقعية.

تفاصيل النموذج:

العمارة والمنهجيات

يستفيد RTDETRv2 من معمارية هجينة، تجمع بين هيكل أساسي CNN لاستخراج الميزات مع مشفر-فك تشفير (encoder-decoder) مُبسط لـ Transformer. من الخصائص المميزة لـ RTDETRv2 تصميمه الأصلي من البداية إلى النهاية الذي يتجاوز معالجة ما بعد اكتشاف الأشياء التقليدية عبر خوارزمية NMS. كما يقدم ميزات مثل الاكتشاف متعدد المقاييس ومعالجة المشاهد المعقدة، مستخدماً الانتباه الذاتي (self-attention) لفهم العلاقات المكانية بين الأشياء البعيدة.

نقاط القوة وحالات الاستخدام

تجعل معمارية Transformer نموذج RTDETRv2 فعالاً للغاية في السيناريوهات التي يكون فيها فهم السياق العالمي أمراً بالغ الأهمية. ومع ذلك، تتطلب نماذج Transformer عادةً ذاكرة CUDA أعلى بكثير أثناء التدريب والاستدلال مقارنة بشبكات CNN خفيفة الوزن. إنه الأنسب للبيئات ذات الأجهزة غير المقيدة، مثل تحليلات الفيديو القائمة على السحابة والتي تعمل على خوادم GPU قوية.

تعرف على المزيد حول RTDETR

مقارنة الأداء والمقاييس

عند تقييم هذه النماذج، فإن المقايضة بين متوسط دقة الاكتشاف (mAP) والتكلفة الحسابية (المقاسة بـ FLOPs وزمن الاستدلال) هي أمر بالغ الأهمية. يوضح الجدول أدناه المقاييس الرئيسية لمختلف أحجام كل من PP-YOLOE+ و RTDETRv2.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

بينما يُظهر RTDETRv2 متوسط دقة (mAP) قوياً على حساب عدد معاملات أعلى و FLOPs أكبر، غالباً ما يواجه المطورون الذين يتطلعون للنشر على أجهزة طرفية مقيدة اختناقات بسبب متطلبات الذاكرة العالية التي تتسم بها طبقات Transformer.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين PP-YOLOE+ و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار PP-YOLOE+

يعتبر PP-YOLOE+ خياراً قوياً لـ:

  • تكامل نظام PaddlePaddle البيئي: المنظمات ذات البنية التحتية الحالية المبنية على إطار عمل Baidu's PaddlePaddle والأدوات المرتبطة به.
  • نشر حافة Paddle Lite: النشر على أجهزة تحتوي على نوى استدلال مُحسَّنة للغاية خصيصًا لمحرك Paddle Lite أو محرك استدلال Paddle.
  • الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة للكشف على خوادم GPU قوية حيث لا يمثل الاعتماد على إطار العمل مصدر قلق.

متى تختار RT-DETR

يُوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics: تقديم YOLO26

بينما يمثل كل من PP-YOLOE+ و RTDETRv2 معالم مهمة، يحتاج المطور الحديث إلى نظام بيئي يوازن بشكل مثالي بين الأداء الفائق وسهولة الاستخدام المبسطة. توفر منصة Ultralytics ونموذج YOLO26 الرائد هذا بالضبط.

تم إصداره في يناير 2026، ويضع YOLO26 المعيار الجديد للرؤية الحاسوبية الموجهة للأجهزة الطرفية (edge-first). إنه يحل بأناقة عقبات النشر المرتبطة بالمعماريات القديمة بينما يتفوق عليها في السرعة والدقة.

الابتكارات المعمارية

يقدم YOLO26 العديد من التحسينات الرائدة التي تتفوق على شبكات CNN التقليدية ونماذج Transformer الثقيلة:

  • تصميم من البداية إلى النهاية بدون NMS: مثل RTDETRv2، يعد YOLO26 أصلياً من البداية إلى النهاية. من خلال إلغاء معالجة ما بعد الاكتشاف NMS، فإنه يوفر نشراً أسرع وأبسط مع تقليل تذبذب زمن الاستجابة، مما يجعله مثالياً لـ الروبوتات والأنظمة المستقلة في الوقت الفعلي.
  • استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال التحسينات المعمارية العميقة، يتفوق YOLO26 بشكل كبير على النماذج المنافسة على الأجهزة الطرفية التي تفتقر إلى وحدات معالجة رسوميات (GPUs) منفصلة، مما يجعله الخيار الأول لتطبيقات إنترنت الأشياء (IoT) و المدن الذكية.
  • مُحسن MuSGD: مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM)، يستخدم YOLO26 مزيجاً من SGD و Muon. وهذا يوفر مسارات تدريب أكثر استقراراً وتقارباً أسرع بشكل ملحوظ، مما يقلل بشكل كبير من ساعات تدريب GPU.
  • دالة ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهو مجال كانت تعاني فيه نماذج مثل PP-YOLOE+ تاريخياً، مما يثبت أهميته الحاسمة لـ الصور الجوية وتطبيقات الطائرات بدون طيار.
  • إزالة DFL: تبسط إزالة دالة Distribution Focal Loss عملية التصدير، مما يضمن توافقاً سلساً عبر مختلف الأجهزة الطرفية والأجهزة منخفضة الطاقة.

اعرف المزيد عن YOLO26

تعدد الاستخدامات الخاصة بالمهام

على عكس كاشفات الأشياء المتخصصة، يتميز YOLO26 بتعدد استخدامات عالٍ، حيث يدعم تجزئة المثيل (Instance Segmentation)، و تقدير الوضعية (Pose Estimation)، و التصنيف (Classification)، و صناديق التحديد الموجهة (OBB). وهو يتضمن تحسينات مصممة خصيصاً مثل RLE لتقدير الوضعية ودالة خسارة زاوية متخصصة لـ OBB.

سهولة استخدام لا تضاهى

أحد أكبر عيوب اعتماد معماريات معقدة مثل RTDETRv2 هو منحنى التعلم الحاد وعمليات التكامل غير المترابطة. يقوم نظام Ultralytics البيئي بتجريد هذه التعقيدات بالكامل من خلال واجهة برمجة تطبيقات Python بديهية ومنصة شاملة قائمة على الويب.

سواء كنت تدرب مجموعات بيانات مخصصة أو تجري استدلالاً سريعاً، فإن العملية سلسة:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

تعني متطلبات الذاكرة الأقل التي تتميز بها نماذج Ultralytics YOLO أنه يمكنك التدريب بشكل أسرع والنشر على أجهزة أرخص مقارنة بنظيراتها القائمة على Transformer. علاوة على ذلك، يضمن التطوير النشط والتوثيق عالمي المستوى بقاء خطوط الإنتاج الخاصة بك مستقرة.

بالنسبة للفرق التي تستكشف البدائل، يظل YOLO11 سابقاً مدعوماً بشكل كبير وقادراً بشكل استثنائي داخل النظام البيئي، مما يوفر أساساً ممتازاً لعمليات دمج الأجهزة القديمة. قد تجد أيضاً أنه من المفيد قراءة مقارنتنا حول YOLO11 مقابل RTDETR.

ملخص

لقد قدم PP-YOLOE+ و RTDETRv2 مساهمات كبيرة في تطور الرؤية الحاسوبية، مما أثبت جدوى خطوط إنتاج CNN المتقدمة ومحولات الوقت الفعلي، على التوالي. ومع ذلك، بالنسبة للمؤسسات التي تتطلع إلى نشر تطبيقات رؤية حاسوبية قوية ومتعددة الاستخدامات ومُحسنة للغاية في عام 2026، يوفر Ultralytics YOLO26 حلاً لا مثيل له. إن معماريته الخالية من NMS أصلاً، والاستدلال الأسرع بشكل ملحوظ على وحدة المعالجة المركزية، والنظام البيئي المبسط، تمكن المطورين من الانتقال من التصور إلى الإنتاج القابل للتوسع أسرع من أي وقت مضى.

التعليقات