PP-YOLOE+ مقابل RTDETRv2: دليل شامل لهياكل الكشف عن الكائنات في الوقت الفعلي

شهد مجال الرؤية الحاسوبية تطوراً هائلاً في السنوات الأخيرة، لا سيما في مجال الكشف عن الأجسام في الوقت الفعلي. قد يعني اختيار البنية المناسبة لنشر التطبيق الفرق بين تطبيق بطيء ويستهلك الكثير من الذاكرة ونظام عالي الأداء وسريع الاستجابة. في هذه المقارنة الفنية، نستكشف نموذجين بارزين من Baidu: PP-YOLOE+ القائم على CNN و RTDETRv2 القائم على المحول. سنقوم بتحليل هياكلهما ومقاييس الأداء وحالات الاستخدام المثالية، مع دراسة كيفية مقارنتهما بمنصة Ultralytics المتطورة.

PP-YOLOE+: تطوير نموذج CNN

تم تطوير PP-YOLOE+ كتكرار على أسلافه، وهو يدفع حدود ما يمكن أن تحققه الشبكات العصبية التلافيفية التقليدية (CNNs) في اكتشاف الكائنات. إنه كاشف خالٍ من المرساة عالي الكفاءة يعتمد على الميكانيكا الأساسية لسلسلة YOLO مع تقديم تحسينات محددة لنظام PaddlePaddle البيئي.

تفاصيل النموذج:

المؤلفون: PaddlePaddle Authors
المنظمة: Baidu
التاريخ: 2022-04-02
Arxiv: 2203.16250
GitHub: مستودع PaddleDetection
المستندات: وثائق PP-YOLOE+

المعمارية والمنهجيات

يعتمد PP-YOLOE+ على بنية أساسية محسّنة بشكل كبير وشبكة هرمية مخصصة لتجميع الميزات متعددة النطاقات بشكل فعال. ويستخدم تصميمًا خاليًا من المراسي، مما يبسط عملية الضبط التجريبي التي تتطلبها عادةً عملية إنشاء مربعات المراسي. علاوة على ذلك، تتضمن منهجية التدريب الخاصة به استراتيجيات متقدمة لتعيين التسميات من أجل مطابقة التنبؤات بشكل أفضل مع مربعات الحقيقة الأرضية خلال مرحلة التعلم.

نقاط القوة وحالات الاستخدام

تكمن القوة الأساسية لـ PP-YOLOE+ في أدائها القوي على أجهزة الخادم القياسية وتكاملها العميق مع أدوات Baidu. وهي مناسبة تمامًا لعمليات سير العمل الصناعية التقليدية، مثل الكشف عن العيوب الثابتة في بيئات التصنيع حيث لا تكون قيود الأجهزة مفرطة.

تعرف على المزيد حول PP-YOLOE+

اعتبارات النظام الإيكولوجي

بينما يوفر PP-YOLOE+ دقة عالية، فإن نشره خارج نظامه البيئي الأصلي قد يتطلب أحيانًا خطوات تحويل إضافية، على عكس تنسيقات التصدير الأصلية المتوفرة بسهولة في Ultralytics الحديثة.

RTDETRv2: محولات الكشف في الوقت الحقيقي

بالابتعاد عن شبكات CNN البحتة، يمثل RTDETRv2 (Real-Time Detection Transformer version 2) قفزة نوعية في الآليات القائمة على الانتباه لمهام الرؤية الحاسوبية. وهو يحاول الجمع بين فهم السياق العام للمحولات والكمون المنخفض المطلوب للتطبيقات الواقعية.

تفاصيل النموذج:

المؤلفون: وينيو ليو، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: 2407.17140
GitHub: RT-DETRv2
المستندات: RTDETRv2 README

المعمارية والمنهجيات

يستفيد RTDETRv2 من بنية هجينة، تجمع بين شبكة CNN الأساسية لاستخراج الميزات ومشفّر-مفكّك محوّل مبسّط. ومن الخصائص المميزة لـ RTDETRv2 تصميمه الأصلي الشامل الذي يتجاوز المعالجة اللاحقة التقليدية لـ Non-Maximum Suppression (NMS). كما يقدم ميزات مثل الكشف متعدد المقاييس ومعالجة المشاهد المعقدة، باستخدام الانتباه الذاتي لفهم العلاقات المكانية بين الأجسام البعيدة.

نقاط القوة وحالات الاستخدام

تجعل بنية المحول RTDETRv2 فعالة للغاية في السيناريوهات التي يكون فيها فهم السياق العام أمرًا بالغ الأهمية. ومع ذلك، تتطلب نماذج المحولات عادةً CUDA أعلى بكثير أثناء التدريب والاستدلال مقارنةً بشبكات CNN خفيفة الوزن. وهي الأنسب للبيئات ذات الأجهزة غير المقيدة، مثل تحليلات الفيديو المستندة إلى السحابة والتي تعمل على GPU قوية.

تعرف على المزيد حول RTDETR

مقارنة الأداء والمقاييس

عند تقييم هذه النماذج، فإن المفاضلة بين متوسط الدقة (mAP) والتكلفة الحسابية (المقاسة بوحدة FLOPs وزمن الاستدلال) هي أمر بالغ الأهمية. يوضح الجدول أدناه المقاييس الرئيسية لمختلف المقاييس لكل من PP-YOLOE+ و RTDETRv2.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
PP-YOLOE+t	640	39.9	-	2.84	4.85	19.15
PP-YOLOE+s	640	43.7	-	2.62	7.93	17.36
PP-YOLOE+m	640	49.8	-	5.56	23.43	49.91
PP-YOLOE+l	640	52.9	-	8.36	52.2	110.07
PP-YOLOE+x	640	54.7	-	14.3	98.42	206.59

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

بينما يُظهر RTDETRv2 mAP قويًا mAP حساب عدد أكبر من المعلمات وعمليات FLOP، غالبًا ما يواجه المطورون الذين يسعون إلى النشر على أجهزة حافة مقيدة عقبات بسبب متطلبات الذاكرة الكبيرة التي تتميز بها طبقات المحولات.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين PP-YOLOE+ وRT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار PP-YOLOE+

PP-YOLOE+ هو خيار قوي لـ:

تكامل منظومة PaddlePaddle: المنظمات ذات البنية التحتية الحالية المبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
نشر Paddle Lite على الحوسبة الطرفية: النشر على أجهزة بنواة استدلال محسّنة للغاية خصيصًا لمحرك استدلال Paddle Lite أو Paddle.
الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة detect على خوادم GPU القوية حيث لا يمثل الاعتماد على الإطار مشكلة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

Ultralytics : تقديم YOLO26

في حين أن كلا من PP-YOLOE+ و RTDETRv2 يمثلان إنجازين هامين، إلا أن المطورين المعاصرين يحتاجون إلى نظام بيئي يحقق التوازن المثالي بين الأداء الفائق وسهولة الاستخدام. Ultralytics ونموذج YOLO26 المبتكر يوفران ذلك بالضبط.

صدر YOLO26 في يناير 2026، وهو يضع معيارًا جديدًا للذكاء الاصطناعي للرؤية المتمحور حول الحافة. فهو يحل بذكاء العقبات التي تواجه النشر المرتبطة بالبنى القديمة، ويتفوق عليها في السرعة والدقة.

الابتكارات المعمارية

يقدم YOLO26 العديد من التحسينات الرائدة التي تتفوق على الشبكات العصبية الاصطناعية التقليدية والمحولات الثقيلة:

تصميم خالٍ من NMS وشامل: مثل RTDETRv2، فإن YOLO26 شامل بطبيعته. من خلال إلغاء معالجة قمع غير الحد الأقصى (NMS) اللاحقة، فإنه يوفر نشرًا أسرع وأبسط مع تقليل تذبذب زمن الانتقال، وهو مثالي للروبوتات في الوقت الفعلي والأنظمة الذاتية.
استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال التحسينات المعمارية العميقة، يتفوق YOLO26 بشكل كبير على النماذج المنافسة على الأجهزة الطرفية التي تفتقر إلى وحدات GPU منفصلة، مما يجعله الخيار الأول لتطبيقات إنترنت الأشياء والمدن الذكية.
مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM)، يستخدم YOLO26 هجينًا من SGD و Muon. وهذا يوفر مسارات تدريب أكثر استقرارًا وتقاربًا أسرع بشكل ملحوظ، مما يقلل بشكل كبير من ساعات تدريب GPU.
ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال تعاني فيه نماذج مثل PP-YOLOE+ تاريخيًا، مما يثبت أهميته الحاسمة لـالتصوير الجوي وتطبيقات الطائرات بدون طيار.
إزالة DFL: تبسط إزالة Distribution Focal Loss عملية التصدير، مما يضمن توافقاً سلساً عبر مختلف الأجهزة الطرفية ومنخفضة الطاقة.

تعرف على المزيد حول YOLO26

تنوع مهام محددة

على عكس أجهزة الكشف المتخصصة عن الأشياء، يتميز YOLO26 بتعدد استخداماته، حيث يدعم تقسيم المثيلات وتقدير الوضع والتصنيف ومربعات الحدود الموجهة (OBB). ويشمل تحسينات مخصصة مثل RLE للوضع وفقدان الزاوية المتخصص لـ OBB.

سهولة استخدام لا مثيل لها

أحد أكبر عيوب اعتماد بنى معقدة مثل RTDETRv2 هو منحنى التعلم الحاد وعمليات التكامل المتفرقة. يعمل Ultralytics على تجريد هذه التعقيدات بالكامل من خلال Python سهلة الاستخدام ومنصة شاملة قائمة على الويب.

سواء كنت تقوم بتدريب مجموعات بيانات مخصصة أو تشغيل استدلال سريع، فإن العملية تتم بسلاسة:

from ultralytics import RTDETR, YOLO

# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")

# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()

# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)

تقلل متطلبات الذاكرة المنخفضة التي تتميز بهاYOLO Ultralytics YOLO من وقت التدريب وتتيح لك نشرها على أجهزة أرخص مقارنة بنظيراتها القائمة على المحولات. علاوة على ذلك، يضمن التطوير النشط والوثائق ذات المستوى العالمي استقرار خطوط الإنتاج لديك.

للفرق التي تبحث عن بدائل، YOLO11 يظل سلفًا مدعومًا للغاية وذو قدرات استثنائية داخل النظام البيئي، ويوفر أساسًا ممتازًا لعمليات تكامل الأجهزة القديمة. قد تجد أيضًا أنه من المفيد قراءة مقارنتنا بين YOLO11 RTDETR.

ملخص

ساهمت PP-YOLOE+ و RTDETRv2 بشكل كبير في تطور الرؤية الحاسوبية، حيث أثبتتا جدوى خطوط أنابيب CNN المتقدمة والمحولات في الوقت الفعلي، على التوالي. ومع ذلك، بالنسبة للمؤسسات التي تتطلع إلى نشر تطبيقات رؤية حاسوبية قوية ومتعددة الاستخدامات ومُحسّنة للغاية في عام 2026، يوفر Ultralytics حلاً لا مثيل له. تتيح بنيته الأصلية NMS CPU الأسرع بشكل ملحوظ، ونظامه البيئي المبسط للمطورين الانتقال من الفكرة إلى الإنتاج القابل للتطوير بشكل أسرع من أي وقت مضى.

PP-YOLOE+ مقابل RTDETRv2: دليل شامل لهياكل الكشف عن الكائنات في الوقت الفعلي

PP-YOLOE+: تطوير نموذج CNN

المعمارية والمنهجيات

نقاط القوة وحالات الاستخدام

RTDETRv2: محولات الكشف في الوقت الحقيقي

المعمارية والمنهجيات

نقاط القوة وحالات الاستخدام

مقارنة الأداء والمقاييس

حالات الاستخدام والتوصيات

متى تختار PP-YOLOE+

متى تختار RT-DETR

متى تختار Ultralytics YOLO26)

Ultralytics : تقديم YOLO26

الابتكارات المعمارية

سهولة استخدام لا مثيل لها

ملخص

تعليقات