RTDETRv2 مقابل YOLOv9: مقارنة بين محولات الكشف في الوقت الحقيقي وشبكات CNN
شهد مجال الكشف عن الأجسام تطوراً سريعاً، مع ظهور بنية متميزة في طليعة التطبيقات في الوقت الفعلي: النماذج القائمة على المحولات والنماذج القائمة على شبكات CNN. يمثل RTDETRv2 (محول الكشف في الوقت الفعلي الإصدار 2) أحدث ما توصلت إليه المحولات البصرية، حيث يوفر الكشف الشامل دون الحاجة إلى معالجة لاحقة. YOLOv9، من ناحية أخرى، يعمل على تطوير بنية CNN التقليدية باستخدام معلومات التدرج القابلة للبرمجة (PGI) لتقليل فقدان المعلومات.
تستكشف هذه المقارنة المواصفات الفنية ومقاييس الأداء وحالات الاستخدام المثالية لكلا الطرازين، مما يساعد المطورين على اختيار الأداة المناسبة لاحتياجاتهم الخاصة في مجال الرؤية الحاسوبية.
ملخص تنفيذي
يتفوق RTDETRv2 في السيناريوهات التي تتطلب دقة عالية في البيئات المعقدة، لا سيما تلك التي يشيع فيها الانسداد. تسمح آليات الانتباه الخاصة به بفهم السياق العام، ولكن ذلك يأتي على حساب متطلبات حسابية أعلى وسرعات تدريب أبطأ. إنه خيار ممتاز للبحوث GPU المتطورة.
YOLOv9 توازنًا رائعًا بين السرعة والدقة، مع الحفاظ على كفاءة YOLO . وهي فعالة للغاية في مهام الكشف العامة، ولكن تم استبدالها مؤخرًا Ultralytics الأحدث مثل YOLO26، التي تجمع بين أفضل ما في العالمين: الكشف الشامل NMS مع سرعة CNNs المُحسّنة.
بالنسبة لمعظم المطورين، فإن Ultralytics أقوى مسار للإنتاج، حيث يوفر تكاملاً سلسًا ووثائق شاملة ودعمًا لأحدث النماذج المتطورة.
مقارنة مفصلة للأداء
يعرض الجدول التالي مقارنة جنبًا إلى جنب بين المقاييس الرئيسية. لاحظ أنه في حين تحقق RTDETRv2 دقة عالية، فإن النماذج القائمة على CNN مثل YOLOv9 YOLO26 الأحدث غالبًا ما توفر سرعات استدلال أسرع على الأجهزة القياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
RTDETRv2: منافس Vision Transformer
يعتمد RTDETRv2 على نجاح RT-DETR الأصلي، حيث يعمل على تحسين المشفر الهجين واختيار الاستعلامات ذات الحد الأدنى من عدم اليقين لتحسين السرعة والدقة.
الخصائص الرئيسية:
- المؤلف: وينيو لوف، ييان تشاو، وآخرون.
- المؤسسة:بايدو
- التاريخ: أبريل 2023 (الأصلي)، يوليو 2024 (الإصدار 2)
- روابط: Arxiv، GitHub
الهيكلة ونقاط القوة
يستفيد RTDETRv2 من بنية محول تعالج الصور باهتمام شامل. وهذا يسمح للنموذج بـ"رؤية" العلاقات بين الأجزاء البعيدة من الصورة، مما يجعله قويًا بشكل خاص في مواجهة حالات الحجب والمشاهد المزدحمة. ومن المزايا الرئيسية له تصميمهNMS الذي يبسط عملية النشر من خلال إزالة الحاجة إلى المعالجة اللاحقة لـ"القمع غير الأقصى".
القيود
على الرغم من قوتها، تتطلب RTDETRv2 عادةً GPU أكبر بكثير للتدريب مقارنةً بشبكات CNN. يمكن أن تشكل التعقيدات التربيعية لآليات الانتباه عائقًا أمام المدخلات عالية الدقة. علاوةً على ذلك، يركز النظام البيئي بشكل أساسي على الأبحاث، ويفتقر إلى أدوات النشر الشاملة الموجودة في Ultralytics .
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9 مفهوم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تعالج هذه الابتكارات مشكلة اختناق المعلومات في الشبكات العصبية العميقة.
الخصائص الرئيسية:
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة: معهد علوم المعلومات، أكاديميا سينيكا
- التاريخ: 21 فبراير 2024
- روابط: Arxiv، GitHub
الهيكلة ونقاط القوة
تعمل بنية GELAN YOLOv9 على تعظيم كفاءة المعلمات، مما يتيح لها تحقيق دقة عالية باستخدام عدد أقل من عمليات FLOP مقارنة بالإصدارات السابقة. ومن خلال الاحتفاظ بالمعلومات المهمة أثناء عملية التغذية الأمامية، تضمن دقة وموثوقية التدرجات المستخدمة لتحديث الأوزان. وينتج عن ذلك نموذج خفيف الوزن وعالي الدقة.
القيود
على الرغم من التقدم الذي أحرزته، YOLOv9 تعتمد على NMS التقليدية NMS ، مما قد يؤدي إلى حدوث تأخير وتعقيد أثناء النشر. غالبًا ما يفضل المستخدمون الذين يديرون عمليات نشر واسعة النطاق التجربة المبسطة Ultralytics الأحدث التي تتعامل مع هذه التعقيدات بشكل أصلي.
Ultralytics : ما وراء النموذج
في حين أن اختيار بنية معينة أمر مهم، إلا أن النظام البيئي للبرمجيات المحيط بها غالبًا ما يكون العامل الحاسم لنجاح المشاريع. Ultralytics بما في ذلك YOLOv8YOLO11، و YOLO26 المتطورة، مزايا مميزة:
1. سهولة الاستخدام وكفاءة التدريب
لا يتطلب تدريب النموذج الحصول على درجة الدكتوراه في التعلم العميق. تعمل Python Ultralytics Python على إزالة التعقيدات المرتبطة بتحميل البيانات وزيادتها والتدريب الموزع.
from ultralytics import YOLO
# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")
# Train on your data with a single command
model.train(data="coco8.yaml", epochs=100, imgsz=640)
2. تنوع عبر المهام
على عكس العديد من النماذج المتخصصة، تم تصميم Ultralytics كأدوات ذكاء اصطناعي عامة الغرض. يدعم إطار عمل واحد ما يلي:
- كشف الأجسام: تحديد العناصر ومواقعها.
- تجزئة المثيل: تحديد الكائنات على مستوى البكسل.
- تقدير الوضع: تتبع النقاط الرئيسية للهيكل العظمي.
- التصنيف: تصنيف الصور الكاملة.
- OBB: اكتشاف كائنات موجهة مثل السفن أو النصوص.
3. النشر والتصدير
الانتقال من نموذج مدرب إلى تطبيق إنتاجي يتم بسلاسة. Ultralytics التصدير بنقرة واحدة إلى تنسيقات مثل ONNXو TensorRTو CoreML و TFLite مما يضمن تشغيل نموذجك بكفاءة على أي جهاز، من الأجهزة الطرفية إلى خوادم السحابة.
نظرة إلى المستقبل: قوة YOLO26
للمطورين الباحثين عن أفضل أداء على الإطلاق، يمثل YOLO26 يمثل قفزة نوعية إلى الأمام. فهو يعالج قيود كل من RTDETRv2 و YOLOv9 الجمع بين نقاط قوتهما في بنية موحدة.
لماذا الترقية إلى YOLO26؟
يجعل YOLO26 المقارنات السابقة غير ذات أهمية من خلال توفير كشف شامل NMS بشكل أصلي. فهو يزيل اختناقات المعالجة اللاحقة لـ YOLOv9 الاحتفاظ بمزايا السرعة لشبكات CNN، وتجنب التكلفة الحسابية الباهظة للمحولات مثل RTDETRv2.
أهم الإنجازات في YOLO26:
- من البداية إلى النهاية: يلغي الحاجة إلى NMS خطوط أنابيب نشر أسرع وأبسط.
- MuSGD Optimizer: مستوحى من تدريب LLM (مثل Kimi K2 من Moonshot AI)، يضمن هذا المحسن الهجين تقاربًا مستقرًا وتدريبًا قويًا.
- سرعة محسّنة: مُحسّن CPU ويحقق سرعات أعلى بنسبة تصل إلى 43% مقارنة بالأجيال السابقة، مما يجعله مثاليًا لتطبيقات الذكاء الاصطناعي المتطورة.
- ProgLoss + STAL: تعمل وظائف الخسارة المتقدمة على تحسين اكتشاف الأجسام الصغيرة، وهي ميزة مهمة للغاية بالنسبة لصور الطائرات بدون طيار وإنترنت الأشياء.
الخلاصة
YOLOv9 كل من RTDETRv2 و YOLOv9 مساهمتين رائعتين في مجال الرؤية الحاسوبية. يوسع RTDETRv2 حدود الدقة القائمة على المحولات، بينما YOLOv9 كفاءة شبكات CNN. ومع ذلك، بالنسبة للتطبيق العملي في العالم الحقيقي، تظل YOLO Ultralytics YOLO هي الخيار الأفضل. مع إصدار YOLO26، لم يعد المطورون مضطرين للاختيار بين بساطة الكشف الشامل وسرعة شبكات CNN، حيث يمكنهم الحصول على كليهما في حزمة واحدة مدعومة جيدًا.
استكشف Ultralytics لبدء تدريب نماذجك اليوم، أو اطلع على وثائقنا الشاملة لمعرفة المزيد عن تحسين مسار رؤية الذكاء الاصطناعي.