RTDETRv2 مقابل YOLOv9: مقارنة بين محولات الكشف في الوقت الحقيقي وشبكات CNN
شهد مجال الرؤية الحاسوبية اختلافًا مثيرًا للاهتمام في فلسفات الهندسة المعمارية، لا سيما بين الشبكات العصبية التلافيفية (CNN) والنماذج القائمة على المحولات. عند مقارنة RTDETRv2 و YOLOv9 يقوم المطورون بشكل أساسي بتقييم المفاضلات بين آليات الانتباه الشامل ومعلومات التدرج القابلة للبرمجة. يمثل كلا النموذجين قمة نماذجهما، مما يدفع حدود الكشف عن الكائنات في الوقت الفعلي.
مقدمة إلى النماذج
RTDETRv2: محول الكشف في الوقت الفعلي
تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي RT-DETR إدخال "Bag-of-Freebies" لتعزيز محول الكشف في الوقت الحقيقي الأساسي. وهو يعالج العنق الزجاجي التقليدي للمحولات — سرعة الاستدلال — مما يجعلها قابلة للتطبيق في الوقت الحقيقي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- روابط: Arxiv، GitHub
من السمات المميزة لـ RTDETRv2 تصميمه الأصلي NMS من البداية إلى النهاية. من خلال إزالة Non-Maximum Suppression (NMS) تمامًا أثناء المعالجة اللاحقة، يعمل النموذج على تثبيت زمن الاستدلال وتبسيط خط أنابيب النشر. تسمح آلية الانتباه الشامل للنموذج بالتفوق في فهم المشاهد المعقدة والحشود الكثيفة، حيث يقوم بتقييم سياق الصورة بالكامل في وقت واحد.
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9، وهي بنية عالية الكفاءة تعتمد على شبكة CNN، تعالج مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وهي تقدم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
- التاريخ: 21 فبراير 2024
- روابط: Arxiv، GitHub
YOLOv9 على أسس الشبكة العصبية التلافيفية المثبتة، ولكنه يزيد من كفاءة المعلمات إلى أقصى حد. من خلال الاحتفاظ بالمعلومات المهمة أثناء عملية التغذية الأمامية، يضمن تحديثات موثوقة للأوزان، مما ينتج عنه نموذج خفيف الوزن للغاية ودقيق للغاية. ومع ذلك، على عكس RTDETRv2، YOLOv9 يعتمد على NMS القياسية NMS .
الأداء وكفاءة الموارد
عند تقييم هذه النماذج للإنتاج، من الضروري تحقيق التوازن بين متوسط الدقة (mAP) والتكلفة الحسابية. يوضح الجدول أدناه أداءها على COCO MS COCO .
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
متطلبات الذاكرة وكفاءة التدريب
من المعروف أن المحولات مثل RTDETRv2 تستهلك الكثير من الذاكرة أثناء التدريب، وغالبًا ما تتطلب CUDA كبيرة وجداول تدريب أطول للتقارب الكامل. على العكس من ذلك، توفر بنى CNN مثل YOLOv9 YOLO Ultralytics YOLO الأخرى استخدامًا أقل للذاكرة بشكل استثنائي، مما يسمح للمطورين بالتدريب باستخدام أحجام دفعات أكبر على أجهزة المستهلكين.
تدريب فعال
لتحقيق أقصى استفادة من الأجهزة، ضع في اعتبارك استخدام Ultralytics لتدريب مبسط على السحابة. فهي تتولى تلقائيًا إعداد البيئة وتحديد الحجم الأمثل للدُفعات.
Ultralytics : النظام البيئي وسهولة الاستخدام
في حين أن البحث في مستودعات مستقلة مثل صفحات YOLOv9 الرسمية RTDETRv2 أو YOLOv9 يمكن أن يكون تعليميًا للغاية، إلا أن بيئات الإنتاج تتطلب الاستقرار وسهولة الاستخدام ونظامًا بيئيًا جيد الصيانة. يوفر دمج هذه النماذج من خلال Ultralytics Python تجربة سلسة للمطورين.
واجهة برمجة تطبيقات موحدة وتعدد الاستخدامات
يعمل Ultralytics على إزالة تعقيدات تحميل البيانات والتوسعات والتدريب الموزع. علاوة على ذلك، في حين أن RTDETRv2 الأصلي يركز بشكل صارم على الكشف، فإن Ultralytics يسمح للمستخدمين بالانتقال بسهولة بين الكشف عن الكائنات وتقسيم الحالات وتقدير الوضع.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")
بفضل التوثيق القوي والتتبع التلقائي للتجارب وإمكانيات التصدير السلس إلى تنسيقات مثل ONNXو TensorRTو OpenVINO ، تقلل Ultralytics من الوقت المستغرق من النموذج الأولي إلى الإنتاج.
حالات الاستخدام المثالية
مجالات تفوق RTDETRv2
بفضل آلية الاهتمام العالمية، يعد RTDETRv2 قوة دافعة للمعالجة من جانب الخادم والبيئات التي يكون فيها السياق العالمي أمرًا بالغ الأهمية. وهو يتفوق في:
- التصوير الطبي: تحديد الحالات الشاذة الدقيقة التي يكون فيها السياق المحيط بالغ الأهمية.
- المراقبة الجوية: اكتشاف الأجسام الصغيرة في لقطات عالية الدقة ملتقطة بواسطة طائرات بدون طيار دون التحيزات المكانية التي تتسم بها التلافيف CNN التقليدية.
- تحليل الحشود الكثيفة: تتبع الأفراد في الأماكن التي عادةً ما تربك النماذج القائمة على المراسي بسبب الانسداد الشديد.
أين YOLOv9
YOLOv9 بطل في عمليات النشر المحدودة الموارد. كفاءته الحسابية تجعله مثالياً لـ:
- الروبوتات: التنقل في الوقت الفعلي وتجنب العوائق حيث يتطلب الأمر أقل وقت استجابة ممكن.
- إنترنت الأشياء في المدن الذكية: النشر على أجهزة متطورة مثل NVIDIA لمراقبة حركة المرور.
- الفحص الصناعي: مراقبة جودة خط التجميع عالي السرعة التي تتطلب عدد إطارات في الثانية (FPS) مرتفع.
المستقبل: أدخل Ultralytics
في حين يمثل YOLOv9 RTDETRv2 قفزات هائلة إلى الأمام، فقد تطور المشهد بسرعة. بالنسبة للعمليات الحديثة، فإن الإصدار الجديد Ultralytics التآزر المطلق بين فلسفتي الهندسة المعمارية.
من خلال الاستفادة من أفضل جوانب المحولات والشبكات العصبية الاصطناعية، تضع YOLO26 معيارًا جديدًا:
- تصميم شامل NMS: مثل RTDETRv2، YOLO26 هو تصميم شامل أصليًا، مما يلغي تمامًا NMS من أجل خطوط أنابيب نشر أسرع وأبسط ويمكن التنبؤ بها بدرجة عالية.
- MuSGD Optimizer: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD Muon. وهذا يوفر استقرارًا لا مثيل له في التدريب وتقاربًا سريعًا للرؤية الحاسوبية.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : على عكس المحولات الثقيلة، تم تحسين YOLO26 بشكل كبير للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات معالجة رسومات.
- إزالة DFL: تؤدي إزالة فقدان التركيز التوزيعي (DFL) إلى تبسيط الرسم البياني للنموذج بشكل كبير، مما يضمن تصديرًا سلسًا إلى الأجهزة الطرفية منخفضة الطاقة ووحدات المعالجة العصبية المدمجة (NPU).
- ProgLoss + STAL: تعمل وظائف الخسارة المحسّنة هذه على تحسين التعرف على الأجسام الصغيرة بشكل كبير، وهي ميزة مهمة للغاية بالنسبة لبيانات إنترنت الأشياء والبيانات الجوية.
بالنسبة للفرق التي ترغب في بدء مشروع جديد في مجال الرؤية الحاسوبية، نوصي بشدة بتقييم YOLO26. فهو يوفر أناقة محول NMS مع السرعة الفائقة وكفاءة التدريب التي تتميز بها YOLO عالية التحسين.
ملخص
يتم اختيار RTDETRv2 أو YOLOv9 بناءً على أجهزة النشر الخاصة بك واحتياجات الدقة المحددة. يوفر RTDETRv2 دقة متطورة وإدراكًا للسياق للتطبيقات المدعومة بالخادم، بينما YOLOv9 كفاءة استثنائية للأجهزة الطرفية.
ومع ذلك، من خلال الاستفادة من Ultralytics الناضج، يمكن للمطورين تجربة كلاهما بسهولة. علاوة على ذلك، مع طرح نماذج أحدث مثل YOLO11 و YOLO26 الأصلي الشامل، أصبح إيجاد التوازن المثالي بين الاستدلال عالي السرعة ودعم المهام المتنوعة واستهلاك الذاكرة المنخفض أسهل من أي وقت مضى.