تخطي إلى المحتوى

RTDETRv2 مقابل PP-YOLOE+: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات

شهد مجال اكتشاف الكائنات تطوراً سريعاً، حيث انقسم إلى نموذجين معماريين مهيمنين: الشبكات العصبية التلافيفية (CNN) والمحولات. تحلل هذه المقارنة معلمتين هامتين في هذا الخط الزمني: RTDETRv2 (Real-Time Detection Transformer v2)، الذي يجلب قوة المحولات إلى التطبيقات في الوقت الفعلي، و PP-YOLOE+، وهو كاشف عالي التحسين قائم على CNN من PaddlePaddle .

على الرغم من أن كلا النموذجين يرتقيان بمستوى الدقة والسرعة، إلا أنهما يخدمان احتياجات هندسية مختلفة. يشرح هذا الدليل هياكلهما ومقاييس أدائهما وواقع نشرهما لمساعدتك في اختيار الأداة المثلى لخط أنابيب الرؤية الحاسوبية لديك.

مقارنة مقاييس الأداء

يُقارن الجدول التالي أداء نماذج مختلفة من حيث الحجم. تجدر الإشارة إلى أن RTDETRv2 يوفر عمومًا دقة أعلى (mAP) عند مقارنة النماذج من حيث الحجم، وذلك بفضل هندسته التحويلية التي تتيح له التعامل بشكل أفضل مع الميزات البصرية المعقدة، على الرغم من أن ذلك غالبًا ما يكون بتكلفة حسابية أعلى مقارنة بالتحسينات الخفيفة لشبكات CNN.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

RTDETRv2: تطور المحولات

يمثل RTDETRv2 قفزة كبيرة في تطبيق Vision Transformers (ViT) على السيناريوهات في الوقت الفعلي. بناءً على نجاح RT-DETR الأصلي، تقدم هذه النسخة "Bag-of-Freebies" الذي يعزز استقرار التدريب والدقة النهائية دون زيادة زمن الاستدلال.

الميزات المعمارية الرئيسية

يستخدم RTDETRv2 مشفرًا هجينًا يعالج الميزات متعددة النطاقات بكفاءة. على عكس شبكات CNN النقية، فإنه يستخدم آليات الانتباه لالتقاط السياق العام، مما يجعله قويًا بشكل استثنائي في مواجهة حالات الحجب والمشاهد المزدحمة. ومن الخصائص المميزة له قدرته على إجراء الكشف من البداية إلى النهاية، مما يلغي في كثير من الأحيان الحاجة إلى القمع غير الأقصى (NMS)، على الرغم من أن التطبيقات العملية قد تستمر في استخدام استراتيجيات فعالة لاختيار الاستعلامات.

ميزة المحولات (Transformer)

تتفوق المحولات في نمذجة التبعيات بعيدة المدى في الصورة. إذا كان تطبيقك يتضمن اكتشاف كائنات متناثرة أو محجوبة بشدة، فإن آلية الانتباه في RTDETRv2 غالبًا ما تتفوق على الحقول الاستقبالية التقليدية لشبكات CNN.

تعرف على المزيد حول RT-DETR

PP-YOLOE+: معيار CNN المُحسّن

PP-YOLOE+ هو تطور لـ PP-YOLOE، تم تصميمه ضمن PaddlePaddle . وهو يركز على تحسين YOLO الكلاسيكية بآليات متقدمة خالية من المراسي وتعيين علامات ديناميكي، وتحديدًا استراتيجية تعلم محاذاة المهام (TAL).

الميزات المعمارية الرئيسية

يستخدم النموذج هيكل CSPRepResStage، الذي يجمع بين مزايا تدفق التدرج في CSPNet وقدرة إعادة المعلمات في RepVGG. وهذا يسمح للنموذج بأن يكون له هيكل معقد أثناء التدريب، ولكن هيكل مبسط وأسرع أثناء الاستدلال. ويقلل رأسه الخالي من المراسي من مساحة البحث عن المعلمات الفائقة، مما يجعله أسهل في التكيف مع مجموعات البيانات الجديدة مقارنة بأسلافه القائمة على المراسي مثل YOLOv4.

مقارنة نقدية: الهندسة المعمارية وحالات الاستخدام

1. كفاءة التدريب والتقارب

RTDETRv2، كونه قائمًا على المحولات، كان يتطلب في الماضي جداول تدريب أطول للتقارب مقارنة بشبكات CNN. ومع ذلك، فإن تحسينات الإصدار v2 تخفف من ذلك بشكل كبير، مما يسمح بفترات تدريب قابلة للتكيف. في المقابل، يستفيد PP-YOLOE+ من التقارب السريع الذي تتميز به شبكات CNN، ولكنه قد يصل إلى مرحلة الاستقرار في وقت مبكر من حيث الدقة في مجموعات البيانات الضخمة مثل Objects365.

2. الاستدلال والنشر

بينما يوفر RTDETRv2 توازنًا مذهلاً بين السرعة والدقة على وحدات معالجة الرسومات (مثل NVIDIA )، يمكن أن تكون المحولات أثقل على الذاكرة وأبطأ على وحدات المعالجة المركزية الطرفية مقارنة بشبكات CNN. يتألق PP-YOLOE+ في السيناريوهات التي تتطلب توافقًا واسعًا مع الأجهزة، خاصة على الأجهزة الطرفية القديمة حيث تكون مسرعات CNN أكثر شيوعًا من وحدات المعالجة المركزية NPUs الملائمة للمحولات.

3. النظام البيئي والصيانة

PP-YOLOE+ مرتبط ارتباطًا وثيقًا PaddlePaddle . على الرغم من قوته، إلا أن هذا قد يشكل عائقًا للفرق المعتادة على PyTorch. RTDETRv2 لديه PyTorch رسمية، ولكنه غالبًا ما يتطلب إعدادات بيئة محددة. هذا التجزؤ يسلط الضوء على قيمة المنصة الموحدة.

ميزة Ultralytics: تقديم YOLO26

على الرغم من أن RTDETRv2 و PP-YOLOE+ رائعتان، إلا أن المطورين غالبًا ما يواجهون تحديات تتعلق بتجزئة النظام البيئي، وتعقيد عمليات التصدير، وعدم توافق الأجهزة. تعالج Ultralytics هذه المشكلات من خلال توحيد الأداء المتطور مع تجربة مطورين لا مثيل لها.

تعرف على المزيد حول YOLO26

لماذا YOLO26 هو الخيار الأفضل

بالنسبة لعام 2026، Ultralytics تعريف المعيار من خلال YOLO26، وهو نموذج يجمع بين أفضل سمات شبكات CNN وTransformers مع التخلص من العقبات التي تواجه كل منهما.

  • تصميم شامل NMS: مثل RTDETRv2، YOLO26 هو تصميم شامل أصلاً. فهو يلغي تماماً خطوة NMS . هذا الاختراق، الذي تم ابتكاره لأول مرة في YOLOv10، يؤدي إلى انخفاض تباين زمن الوصول وتبسيط منطق النشر، وهو أمر بالغ الأهمية لأنظمة السلامة في الوقت الفعلي.
  • توازن الأداء: يحقق YOLO26 "المثلث الذهبي" من حيث السرعة والدقة والحجم. مع CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة، فإنه يفتح إمكانات في الوقت الفعلي على Raspberry Pi والأجهزة المحمولة التي تكافح النماذج الثقيلة في دعمها.
  • ديناميكيات التدريب المتقدمة: من خلال دمج MuSGD Optimizer— وهو مزيج من SGD Muon (مستوحى من تدريب LLM) — يوفر YOLO26 استقرار تدريب نموذج اللغة الكبيرة للرؤية. وبالاقتران مع ProgLoss و STAL (Soft Task Alignment Learning)، فإنه يوفر تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو نقطة ضعف شائعة في البنى الأخرى.
  • تعدد الاستخدامات: على عكس PP-YOLOE+ الذي يعتبر في المقام الأول أداة كشف، يدعم YOLO26 بشكل أساسي مجموعة كاملة من المهام بما في ذلك تقسيم الحالات، وتقدير الوضع، ومربع الحدود الموجه (OBB)، والتصنيف.
  • سهولة الاستخدام والنظام البيئي: تتيح لك Ultralytics الانتقال من تعليق البيانات إلى النشر في غضون دقائق. مع انخفاض متطلبات الذاكرة أثناء التدريب، يمكنك تدريب مجموعات أكبر على وحدات معالجة الرسومات (GPU) الاستهلاكية، مما يتيح تجنب التكاليف المرتفعة لذاكرة VRAM المرتبطة برؤوس الكشف عن المحولات.

مثال على التكامل السلس

لا يتطلب تشغيل نموذج متطور ملفات تكوين معقدة أو تبديل إطار العمل. مع Ultralytics لا يتطلب الأمر سوى ثلاث أسطر من Python:

from ultralytics import YOLO

# Load the NMS-free, highly efficient YOLO26 model
model = YOLO("yolo26n.pt")  # Nano version for edge deployment

# Train on a custom dataset with MuSGD optimizer enabled by default
# Results are automatically logged to the Ultralytics Platform
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with zero post-processing overhead
results = model("https://ultralytics.com/images/bus.jpg")

الخلاصة والتوصيات

يعتمد الاختيار بين RTDETRv2 و PP-YOLOE+ إلى حد كبير على القيود القديمة الخاصة بك.

  • اختر RTDETRv2 إذا كان لديك وصول إلى وحدات معالجة رسومات قوية (GPU) وكانت مشكلتك تتعلق بمشاهد مزدحمة حيث لا يمكن التنازل عن الاهتمام الشامل.
  • اختر PP-YOLOE+ إذا كنت بالفعل جزءًا من نظام Baidu PaddlePaddle وتحتاج إلى أساس CNN قوي.

ومع ذلك، بالنسبة للغالبية العظمى من المشاريع الجديدة في عام 2026، فإن Ultralytics هو المسار الموصى به. تعمل ميزة DFL Removal الخاصة به على تبسيط التصدير إلى تنسيقات مثل TensorRT و ONNX بينما تضمن بنيةNMS الخاصة به زمن انتقال حتمي. إلى جانب مجتمع مفتوح المصدر نابض بالحياة ويتم صيانته جيدًا، يضمن YOLO26 أن يكون مسار الرؤية الحاسوبية الخاص بك مستقبليًا وفعالًا وأسهل في التوسع.

لاستكشاف الإمكانات الكاملة لهذه النماذج، تفضل بزيارة Ultralytics أو ابدأ التدريب اليوم على Ultralytics .


تعليقات