PP-YOLOE+ مقابل RTDETRv2: مقارنة بين تقنيات التعلم العميق لاكتشاف الكائنات
تميز تطور بنى الكشف عن الأجسام بمنافسة شرسة بين الشبكات العصبية التلافيفية (CNN) والنماذج القائمة على المحولات. ومن المعالم البارزة في هذا المجال PP-YOLOE+، وهو كاشف محسّن قائم على PaddlePaddle من PaddlePaddle و RTDETRv2، وهو محول كشف متطور يعمل في الوقت الفعلي.
تقوم هذه المقارنة الفنية بتقييم هياكلها ومقاييس أدائها ومدى ملاءمتها للنشر لمساعدة الباحثين والمهندسين على اختيار النموذج الأمثل لتطبيقات الرؤية الحاسوبية الخاصة بهم.
ملخص تنفيذي
يمثل PP-YOLOE+ قمةYOLO حيث يركز على تحسين الآليات الخالية من المراسي واستراتيجيات تخصيص العلامات ضمن إطار عمل CNN خالص. وهو يتفوق في البيئات المتكاملة بعمق مع PaddlePaddle من Baidu، ولكنه قد يواجه بعض الصعوبات عند التصدير إلى أنظمة بيئية أخرى.
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) يرتقي بمستوى الأداء من خلال تقديم وحدة فك تشفير مرنة وقابلة للتعديل وتحسين وحدة التشفير الهجينة. وهو يلغي بنجاح الحاجة إلى عدم القمع الأقصى (NMS)، وهو عنق زجاجة شائع في مرحلة ما بعد المعالجة، من خلال الاستفادة من قدرات الانتباه الشاملة للمحولات.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل موحد يجمع بين سرعة الشبكات العصبية الاصطناعية (CNN) وراحة المحولات NMS — دون الحاجة إلى تكاليف حسابية باهظة —Ultralytics يقدم بديلاً ممتازًا. بفضل تصميمه الأصلي الشامل CPU الأسرع بنسبة تصل إلى 43٪، يملأ YOLO26 الفجوة بين الخوادم عالية الأداء والأجهزة الطرفية.
PP-YOLOE+: محطة توليد الطاقة CNN الخالية من نقاط الارتكاز
تم إصدار PP-YOLOE+ في عام 2022، وهو نسخة مطورة من PP-YOLOE، حيث يتضمن هيكلًا قويًا وتخصيصًا ديناميكيًا للعلامات لتحقيق دقة تنافسية.
المؤلفون: PaddlePaddle
المنظمة:Baidu
التاريخ: 2022-04-02
Arxiv:2203.16250
GitHub:PaddleDetection
أبرز الملامح المعمارية
يستخدم PP-YOLOE+ CSPRepResStage، وهو العمود الفقري الذي يجمع بين مزايا تدفق التدرج في CSPNet وتقنيات إعادة المعلمات الموجودة في RepVGG. وهذا يسمح للنموذج بأن يكون له ديناميكيات تدريب معقدة تنهار إلى تلافيف بسيطة أثناء الاستدلال، مما يسرع من عملية النشر.
يستخدم النموذج رأسًا بدون مرساة مع استراتيجية تعلم محاذاة المهام (TAL). على عكس الطرق القديمة القائمة على المراسي التي تعتمد على مربعات محددة مسبقًا، يتنبأ PP-YOLOE+ بمركز الكائنات ومسافاتها إلى حواف المربع المحيط. وهذا يبسط البحث عن المعلمات الفائقة ويحسن التعميم على مجموعات بيانات متنوعة مثل COCO.
قيود الإرث
على الرغم من أن PP-YOLOE+ يقدم أداءً قويًا، إلا أن اعتماده الكبير على PaddlePaddle قد يعقد عمليات النشر التي تعتمد على PyTorch ONNX. غالبًا ما يحتاج المستخدمون إلى محولات متخصصة لنقل النماذج إلى منصات الحافة.
RTDETRv2: تطور المحولات
يعتمد RTDETRv2 على نجاح RT-DETR الأصلي، بهدف إثبات أن المحولات يمكنها التغلب على YOLOs في سيناريوهات الوقت الفعلي. وهو يعالج التكلفة الحسابية العالية لمحولات الرؤية القياسية (ViTs) باستخدام مشفر هجين يعالج الميزات متعددة النطاقات بكفاءة.
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة: Baidu
التاريخ: 2023-04-17 (الأصلي)، 2024-07-24 (إصدار v2)
Arxiv:2304.08069
GitHub:RT-DETR
أبرز الملامح المعمارية
الابتكار الأساسي في RTDETRv2 هو المشفر الهجين واختيار الاستعلاماتIoU. تعاني المحولات التقليدية من تعقيد آليات الانتباه التربيعية عند معالجة خرائط الميزات عالية الدقة. يخفف RTDETRv2 من هذا التعقيد عن طريق فصل التفاعل داخل النطاق والاندماج عبر النطاقات، مما يقلل بشكل كبير من استخدام الذاكرة.
والأهم من ذلك، أن RTDETRv2 هو كاشف شامل. فهو يستخدم أداة Hungarian Matcher أثناء التدريب لتعيين التنبؤات إلى الحقيقة الميدانية واحدًا لواحد. وهذا يعني أن ناتج النموذج لا يتطلب NMS مما يتجنب ارتفاعات زمن الوصول وضبط المعلمات المرتبطة YOLO التقليدية.
مقارنة الأداء
يُقارن الجدول التالي أداء كلتا البنيتين. في حين يُظهر PP-YOLOE+ كفاءة في عدد المعلمات الأقل، يُظهر RTDETRv2 قابلية توسع فائقة في الأحجام الأكبر، وإن كان ذلك مع متطلبات حسابية أعلى (FLOPs).
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
ميزة Ultralytics: لماذا تختار YOLO26؟
في حين قدمت RTDETRv2 مزايا الكشف NMS، إلا أن ذلك جاء على حساب استخدام كتل محولات ثقيلة غالبًا ما تكون بطيئة في التدريب وصعبة النشر علىGPU . أحدثت Ultralytics ثورة في هذا المجال من خلال تحقيق الكشف الشامل NMS باستخدام بنية CNN خالصة.
من خلال اعتماد استراتيجية التعيين المزدوج المتسق (CDA) أثناء التدريب، يتعلم YOLO26 قمع المربعات المكررة داخليًا. وهذا يزيل عبء الاستدلال الزائد لـ NMS تكبد عقوبات التأخير الناتجة عن المحولات.
المزايا الرئيسية لـ YOLO26
- محسّن MuSGD: مستوحى من ابتكارات تدريب LLM مثل Kimi K2 من Moonshot AI، يجمع محسّن MuSGD SGD Muon لتحقيق تقارب أسرع وتدريب مستقر، وهي ميزة فريدة من نوعها في جيل YOLO26.
- كفاءة محسّنة على الحافة: مع إزالة فقدان التركيز التوزيعي (DFL) وطبقات الانتباه المعقدة، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بالإصدارات السابقة. وهذا يجعله مثاليًا للتشغيل على Raspberry Pi أو الأجهزة المحمولة حيث يواجه RTDETR صعوبات.
- تنوع المهام: على عكس PP-YOLOE+ الذي يعتبر في المقام الأول أداة كشف، يدعم YOLO26 بشكل أساسي تقدير الوضع، وتجزئة الحالات، و OBB في مكتبة واحدة.
- ProgLoss + STAL: تعمل وظائف الخسارة الجديدة على تحسين اكتشاف الأجسام الصغيرة — وهو نقطة ضعف حاسمة في العديد من نماذج المحولات — مما يجعل YOLO26 متفوقة في تحليل الصور الجوية.
سير عمل مبسط مع Ultralytics
انسى ملفات التكوين المعقدة. يمكنك تدريب نماذج YOLO26 وإصدارها ونشرها مباشرة عبر Ultralytics . يتولى النظام البيئي كل شيء بدءًا من تعليق مجموعات البيانات وحتى التصدير بنقرة واحدة إلى TensorRT و CoreML و TFLite.
مثال على الكود: البدء مع YOLO26
يعد تشغيل أحدث نموذج متطور أمرًا في غاية البساطة باستخدامPython Ultralytics Python :
from ultralytics import YOLO
# Load the NMS-free YOLO26 small model
model = YOLO("yolo26s.pt")
# Train on a custom dataset (COCO format)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
# Export to ONNX for simplified deployment
model.export(format="onnx")
حالات الاستخدام المثالية
متى تستخدم PP-YOLOE+
- أنظمة Paddle القديمة: إذا كانت البنية التحتية الحالية مبنية بالكامل على PaddlePaddle من Baidu، فإن PP-YOLOE+ يوفر مسار ترقية أصلي دون تغيير الأطر.
- شبكات CNN من جانب الخادم: في الحالات التي تتوفر فيها GPU بكثرة، ولكن لا يتوفر دعم المحول (مثل TensorRT لـ Multi-Head Attention) في بيئة النشر.
متى تستخدم RTDETRv2
- المشاهد المزدحمة: تساعد آلية الانتباه العالمية للمحولات في المشاهد التي تحتوي على انسداد شديد حيث قد تواجه شبكات CNN صعوبة في فصل الكائنات المتداخلة.
- الأجهزة الثابتة: مناسبة لوحدات معالجة الرسومات (GPU) المتطورة (مثل NVIDIA أو A100) حيث تكون تكلفة ضرب المصفوفات للمحولات ضئيلة مقارنة بمكاسب الدقة.
متى تستخدم Ultralytics
- Edge & Mobile AI: إن الاستهلاك المنخفض للذاكرة CPU العالية تجعل YOLO26 الخيار الأمثل Android أو الأنظمة المدمجة.
- تحليلات الفيديو في الوقت الفعلي: بالنسبة للتطبيقات التي تتطلب معدل إطارات في الثانية (FPS) عاليًا، مثل مراقبة حركة المرور أو خطوط الإنتاج، يضمن التصميم NMS زمن انتقال حتمي.
- البحث والنماذج الأولية السريعة: تتيح الوثائق الشاملة والدعم النشط من المجتمع للباحثين التكرار بسرعة، والاستفادة من الأوزان المدربة مسبقًا في مجموعة متنوعة من المهام التي تتجاوز مجرد اكتشاف المربعات المحددة.
الخلاصة
ساهم كل من PP-YOLOE+ و RTDETRv2 بشكل كبير في مجال الرؤية الحاسوبية. دفع PP-YOLOE+ حدود CNNs داخل نظام Paddle البيئي، بينما أظهر RTDETRv2 جدوى المحولات في المهام التي تتم في الوقت الفعلي. ومع ذلك، يمثل Ultralytics توليفة من هذه التطورات: فهو يوفر بساطة الهندسة وسرعة شبكة CNN مع أناقة المحولات الشاملة NMS. وبالاقتران مع Ultralytics القوي، فإنه يمثل الأداة الأكثر تنوعًا لتطوير الذكاء الاصطناعي الحديث.