PP-YOLOE+ مقابل RTDETRv2: دليل شامل لهياكل الكشف عن الكائنات في الوقت الفعلي
شهد مجال الرؤية الحاسوبية تطوراً هائلاً في السنوات الأخيرة، لا سيما في مجال الكشف عن الأجسام في الوقت الفعلي. قد يعني اختيار البنية المناسبة لنشر التطبيق الفرق بين تطبيق بطيء ويستهلك الكثير من الذاكرة ونظام عالي الأداء وسريع الاستجابة. في هذه المقارنة الفنية، نستكشف نموذجين بارزين من Baidu: PP-YOLOE+ القائم على CNN و RTDETRv2 القائم على المحول. سنقوم بتحليل هياكلهما ومقاييس الأداء وحالات الاستخدام المثالية، مع دراسة كيفية مقارنتهما بمنصة Ultralytics المتطورة.
PP-YOLOE+: تطوير نموذج CNN
تم تطوير PP-YOLOE+ كنسخة مطورة عن سابقاتها، وهو يوسع حدود ما يمكن أن تحققه الشبكات العصبية التلافيفية التقليدية (CNNs) في مجال اكتشاف الأجسام. وهو كاشف عالي الكفاءة لا يعتمد على المراسي، ويستند إلى الآليات الأساسية YOLO مع إدخال تحسينات محددة PaddlePaddle .
تفاصيل النموذج:
- المؤلفون: PaddlePaddle Authors
- المنظمة: Baidu
- التاريخ: 2022-04-02
- Arxiv: 2203.16250
- GitHub: مستودع PaddleDetection
- المستندات: وثائق PP-YOLOE+
الهندسة المعمارية والمنهجيات
يعتمد PP-YOLOE+ على بنية أساسية محسّنة بشكل كبير وشبكة هرمية مخصصة لتجميع الميزات متعددة النطاقات بشكل فعال. ويستخدم تصميمًا خاليًا من المراسي، مما يبسط عملية الضبط التجريبي التي تتطلبها عادةً عملية إنشاء مربعات المراسي. علاوة على ذلك، تتضمن منهجية التدريب الخاصة به استراتيجيات متقدمة لتعيين التسميات من أجل مطابقة التنبؤات بشكل أفضل مع مربعات الحقيقة الأرضية خلال مرحلة التعلم.
نقاط القوة وحالات الاستخدام
تكمن القوة الأساسية لـ PP-YOLOE+ في أدائها القوي على أجهزة الخادم القياسية وتكاملها العميق مع أدوات Baidu. وهي مناسبة تمامًا لعمليات سير العمل الصناعية التقليدية، مثل الكشف عن العيوب الثابتة في بيئات التصنيع حيث لا تكون قيود الأجهزة مفرطة.
اعتبارات النظام الإيكولوجي
بينما يوفر PP-YOLOE+ دقة عالية، فإن نشره خارج نظامه البيئي الأصلي قد يتطلب أحيانًا خطوات تحويل إضافية، على عكس تنسيقات التصدير الأصلية المتوفرة بسهولة في Ultralytics الحديثة.
RTDETRv2: محولات الكشف في الوقت الحقيقي
بالابتعاد عن شبكات CNN البحتة، يمثل RTDETRv2 (Real-Time Detection Transformer version 2) قفزة نوعية في الآليات القائمة على الانتباه لمهام الرؤية الحاسوبية. وهو يحاول الجمع بين فهم السياق العام للمحولات والكمون المنخفض المطلوب للتطبيقات الواقعية.
تفاصيل النموذج:
- المؤلفون: وينيو لوف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
- المنظمة: Baidu
- التاريخ: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETRv2
- المستندات: RTDETRv2 README
الهندسة المعمارية والمنهجيات
يستفيد RTDETRv2 من بنية هجينة، تجمع بين شبكة CNN الأساسية لاستخراج الميزات ومشفّر-مفكّك محوّل مبسّط. ومن الخصائص المميزة لـ RTDETRv2 تصميمه الأصلي الشامل الذي يتجاوز المعالجة اللاحقة التقليدية لـ Non-Maximum Suppression (NMS). كما يقدم ميزات مثل الكشف متعدد المقاييس ومعالجة المشاهد المعقدة، باستخدام الانتباه الذاتي لفهم العلاقات المكانية بين الأجسام البعيدة.
نقاط القوة وحالات الاستخدام
تجعل بنية المحول RTDETRv2 فعالة للغاية في السيناريوهات التي يكون فيها فهم السياق العام أمرًا بالغ الأهمية. ومع ذلك، تتطلب نماذج المحولات عادةً CUDA أعلى بكثير أثناء التدريب والاستدلال مقارنةً بشبكات CNN خفيفة الوزن. وهي الأنسب للبيئات ذات الأجهزة غير المقيدة، مثل تحليلات الفيديو المستندة إلى السحابة والتي تعمل على GPU قوية.
مقارنة الأداء والمقاييس
عند تقييم هذه النماذج، فإن المفاضلة بين متوسط الدقة (mAP) والتكلفة الحسابية (المقاسة بوحدة FLOPs وزمن الاستدلال) هي أمر بالغ الأهمية. يوضح الجدول أدناه المقاييس الرئيسية لمختلف المقاييس لكل من PP-YOLOE+ و RTDETRv2.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
بينما يُظهر RTDETRv2 mAP قويًا mAP حساب عدد أكبر من المعلمات وعمليات FLOP، غالبًا ما يواجه المطورون الذين يسعون إلى النشر على أجهزة حافة مقيدة عقبات بسبب متطلبات الذاكرة الكبيرة التي تتميز بها طبقات المحولات.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين PP-YOLOE+ و RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار PP-YOLOE+
PP-YOLOE+ هو خيار قوي لـ:
- تكاملPaddlePaddle : المؤسسات التي تمتلك بنية تحتية قائمة مبنية على إطار عمل وأدوات PaddlePaddle من Baidu.
- نشر Paddle Lite Edge: النشر على الأجهزة باستخدام نوى استدلال محسّنة للغاية خصيصًا لمحرك الاستدلال Paddle Lite أو Paddle.
- الكشف عالي الدقة من جانب الخادم: سيناريوهات تعطي الأولوية لأقصى دقة في الكشف على GPU قوية حيث لا تشكل تبعية إطار العمل مشكلة.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
Ultralytics : تقديم YOLO26
في حين أن كلا من PP-YOLOE+ و RTDETRv2 يمثلان إنجازين هامين، إلا أن المطورين المعاصرين يحتاجون إلى نظام بيئي يحقق التوازن المثالي بين الأداء الفائق وسهولة الاستخدام. Ultralytics ونموذج YOLO26 المبتكر يوفران ذلك بالضبط.
صدر YOLO26 في يناير 2026، وهو يضع معيارًا جديدًا للذكاء الاصطناعي للرؤية المتمحور حول الحافة. فهو يحل بذكاء العقبات التي تواجه النشر المرتبطة بالبنى القديمة، ويتفوق عليها في السرعة والدقة.
الابتكارات المعمارية
يقدم YOLO26 العديد من التحسينات الرائدة التي تتفوق على الشبكات العصبية الاصطناعية التقليدية والمحولات الثقيلة:
- تصميم شامل NMS: مثل RTDETRv2، YOLO26 هو تصميم شامل أصلاً. من خلال التخلص من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يوفر نشرًا أسرع وأبسط مع تقليل تذبذب زمن الوصول، وهو مثالي للروبوتات في الوقت الحقيقي والأنظمة المستقلة.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال تحسينات معمارية عميقة، يتفوق YOLO26 بشكل كبير على النماذج المنافسة على الأجهزة المتطورة التي تفتقر إلى وحدات معالجة رسومات منفصلة، مما يجعله الخيار الأول لتطبيقات إنترنت الأشياء والمدن الذكية.
- مُحسّن MuSGD: مستوحى من ابتكارات تدريب LLM، يستخدم YOLO26 مزيجًا من SGD Muon. يوفر هذا مسارات تدريب أكثر استقرارًا وتقاربًا أسرع بشكل ملحوظ، مما يقلل بشكل كبير من ساعات GPU .
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال لطالما واجهت فيه نماذج مثل PP-YOLOE+ صعوبات، مما يثبت أهميتها الحاسمة في تطبيقات الصور الجوية والطائرات بدون طيار.
- إزالة DFL: تعمل إزالة فقدان بؤرة التوزيع على تبسيط عملية التصدير، مما يضمن التوافق السلس عبر مختلف الأجهزة المتطورة والأجهزة منخفضة الطاقة.
تنوع مهام محددة
على عكس أجهزة الكشف المتخصصة عن الأشياء، يتميز YOLO26 بتعدد استخداماته، حيث يدعم تقسيم المثيلات وتقدير الوضع والتصنيف ومربعات الحدود الموجهة (OBB). ويشمل تحسينات مخصصة مثل RLE للوضع وفقدان الزاوية المتخصص لـ OBB.
سهولة استخدام لا مثيل لها
أحد أكبر عيوب اعتماد بنى معقدة مثل RTDETRv2 هو منحنى التعلم الحاد وعمليات التكامل المتفرقة. يعمل Ultralytics على تجريد هذه التعقيدات بالكامل من خلال Python سهلة الاستخدام ومنصة شاملة قائمة على الويب.
سواء كنت تقوم بتدريب مجموعات بيانات مخصصة أو تشغيل استدلال سريع، فإن العملية تتم بسلاسة:
from ultralytics import RTDETR, YOLO
# Initialize the state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Alternatively, initialize an RT-DETR model via the same simple API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Run real-time inference effortlessly
results = model_yolo("https://ultralytics.com/images/zidane.jpg")
results[0].show()
# Export for edge deployment in one line
model_yolo.export(format="engine", half=True)
تقلل متطلبات الذاكرة المنخفضة التي تتميز بهاYOLO Ultralytics YOLO من وقت التدريب وتتيح لك نشرها على أجهزة أرخص مقارنة بنظيراتها القائمة على المحولات. علاوة على ذلك، يضمن التطوير النشط والوثائق ذات المستوى العالمي استقرار خطوط الإنتاج لديك.
للفرق التي تبحث عن بدائل، YOLO11 يظل سلفًا مدعومًا للغاية وذو قدرات استثنائية داخل النظام البيئي، ويوفر أساسًا ممتازًا لعمليات تكامل الأجهزة القديمة. قد تجد أيضًا أنه من المفيد قراءة مقارنتنا بين YOLO11 RTDETR.
ملخص
ساهمت PP-YOLOE+ و RTDETRv2 بشكل كبير في تطور الرؤية الحاسوبية، حيث أثبتتا جدوى خطوط أنابيب CNN المتقدمة والمحولات في الوقت الفعلي، على التوالي. ومع ذلك، بالنسبة للمؤسسات التي تتطلع إلى نشر تطبيقات رؤية حاسوبية قوية ومتعددة الاستخدامات ومُحسّنة للغاية في عام 2026، يوفر Ultralytics حلاً لا مثيل له. تتيح بنيته الأصلية NMS CPU الأسرع بشكل ملحوظ، ونظامه البيئي المبسط للمطورين الانتقال من الفكرة إلى الإنتاج القابل للتطوير بشكل أسرع من أي وقت مضى.