Link to this sectionمقارنة بين RTDETRv2 و YOLOv9#
شهد مجال الرؤية الحاسوبية تباعداً رائعاً في الفلسفات المعمارية، وتحديداً بين الشبكات العصبية التلافيفية (CNNs) والنماذج القائمة على Transformer. عند مقارنة RTDETRv2 و YOLOv9، يقوم المطورون عملياً بتقييم المفاضلات بين آليات الانتباه العالمية ومعلومات التدرج القابلة للبرمجة. يمثل كلا النموذجين قمة نماذجهم الخاصة، مما يدفع حدود اكتشاف الكائنات في الوقت الفعلي.
Link to this sectionمقدمة عن النماذج#
Link to this sectionRTDETRv2: محول اكتشاف في الوقت الفعلي#
تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي من خلال تقديم "مجموعة من الهدايا" (Bag-of-Freebies) لتعزيز محول اكتشاف الوقت الفعلي الأساسي. وهو يعالج عنق الزجاجة التقليدي للمحولات - سرعة الاستنتاج - مما يجعلها قابلة للتطبيق في الوقت الفعلي.
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 24-07-2024
- روابط: Arxiv, GitHub
من الخصائص المميزة لـ RTDETRv2 تصميمه الأصلي المعتمد على المعالجة الشاملة بدون NMS. فمن خلال إزالة قمع غير الحد الأقصى (NMS) تماماً أثناء المعالجة اللاحقة، يعمل النموذج على تثبيت زمن انتقال الاستنتاج وتبسيط خط أنابيب النشر. تسمح آلية الانتباه العالمية للنموذج بالتفوق في فهم المشاهد المعقدة والحشود الكثيفة، حيث يقوم بتقييم سياق الصورة بالكامل في وقت واحد.
Link to this sectionYOLOv9: معلومات التدرج القابلة للبرمجة#
يعالج YOLOv9، وهو بنية معمارية عالية الكفاءة تعتمد على CNN، مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وهو يقدم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات العامة الفعالة (GELAN).
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
- التاريخ: 21 فبراير 2024
- روابط: Arxiv, GitHub
يعتمد YOLOv9 على أسس الشبكة العصبية التلافيفية المثبتة ولكنه يزيد من كفاءة المعلمات إلى الحد الأقصى. ومن خلال الاحتفاظ بالمعلومات المهمة أثناء عملية التغذية الأمامية، فإنه يضمن تحديثات موثوقة للأوزان، مما يؤدي إلى نموذج خفيف الوزن بشكل لا يصدق ولكنه دقيق للغاية. ومع ذلك، على عكس RTDETRv2، لا يزال YOLOv9 يعتمد على معالجة NMS اللاحقة القياسية.
Link to this sectionالأداء وكفاءة الموارد#
عند تقييم هذه النماذج للإنتاج، يعد تحقيق التوازن بين متوسط دقة الاكتشاف (mAP) مقابل التكلفة الحسابية أمراً بالغ الأهمية. يوضح الجدول أدناه أداءها على مجموعة بيانات MS COCO.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
Link to this sectionمتطلبات الذاكرة وكفاءة التدريب#
تُعرف المحولات مثل RTDETRv2 بأنها تستهلك الكثير من الذاكرة أثناء التدريب، وغالباً ما تتطلب ذاكرة CUDA كبيرة وجداول تدريب أطول للوصول إلى التقارب الكامل. على العكس من ذلك، توفر معماريات CNN مثل YOLOv9 وغيرها من نماذج Ultralytics YOLO استهلاكاً أقل للذاكرة بشكل استثنائي، مما يسمح للمطورين بالتدريب بأحجام دفعات أكبر على الأجهزة الاستهلاكية.
لتحقيق أقصى قدر من استخدام الأجهزة، فكر في استخدام منصة Ultralytics للتدريب السحابي المبسط. فهي تتعامل تلقائياً مع إعداد البيئة وتحديد أحجام الدفعات المثلى.
Link to this sectionميزة Ultralytics: النظام البيئي وسهولة الاستخدام#
في حين أن البحث في المستودعات المستقلة مثل صفحات GitHub الرسمية لـ RTDETRv2 أو YOLOv9 يمكن أن يكون تعليمياً للغاية، فإن بيئات الإنتاج تتطلب الاستقرار وسهولة الاستخدام ونظاماً بيئياً جيد الصيانة. يوفر دمج هذه النماذج من خلال واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics تجربة مطور سلسة.
Link to this sectionواجهة برمجة تطبيقات موحدة وتعدد الاستخدامات#
يعمل إطار عمل Ultralytics على تجريد تعقيدات تحميل البيانات والزيادات والتدريب الموزع. علاوة على ذلك، بينما يركز RTDETRv2 الأصلي بشكل صارم على الاكتشاف، يسمح نظام Ultralytics البيئي للمستخدمين بالانتقال بسهولة بين اكتشاف الكائنات وتجزئة المثيلات وتقدير الوضع.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)
# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")
# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")من خلال التوثيق القوي، وتتبع التجارب التلقائي، وإمكانيات التصدير السلسة إلى تنسيقات مثل ONNX وTensorRT وOpenVINO، تقلل Ultralytics بشكل كبير من الوقت المستغرق من النموذج الأولي إلى الإنتاج.
Link to this sectionحالات الاستخدام المثالية#
Link to this sectionأين يتفوق RTDETRv2#
بفضل آلية الانتباه العالمية، يعد RTDETRv2 قوة هائلة لـ المعالجة من جانب الخادم والبيئات التي يكون فيها السياق العالمي أمراً بالغ الأهمية. وهو يتفوق في:
- التصوير الطبي: تحديد الشذوذات الدقيقة حيث يكون السياق المحيط أمراً بالغ الأهمية.
- المراقبة الجوية: اكتشاف الكائنات الصغيرة في لقطات الطائرات بدون طيار عالية الدقة دون التحيزات المكانية لتلافيف CNN التقليدية.
- تحليل الحشود الكثيفة: تتبع الأفراد حيث يؤدي الانسداد الشديد عادةً إلى إرباك النماذج القائمة على المرساة (anchor-based).
Link to this sectionأين يتفوق YOLOv9#
يعد YOLOv9 بطلاً في عمليات النشر على الحافة المقيدة بالموارد. تجعله كفاءته الحسابية مثالياً لـ:
- الروبوتات: الملاحة في الوقت الفعلي وتجنب العوائق حيث يتطلب الأمر حداً أدنى من زمن الاستجابة.
- إنترنت الأشياء للمدن الذكية: النشر على أجهزة الحافة مثل NVIDIA Jetson لمراقبة حركة المرور.
- التفتيش الصناعي: مراقبة جودة خط التجميع عالي السرعة الذي يتطلب معدل إطارات مرتفع في الثانية (FPS).
Link to this sectionالمستقبل: مرحباً بـ Ultralytics YOLO26#
بينما يمثل YOLOv9 و RTDETRv2 قفزات هائلة إلى الأمام، فقد تطور المشهد بسرعة. بالنسبة لعمليات النشر الحديثة، يمثل الإصدار الجديد Ultralytics YOLO26 التآزر النهائي بين الفلسفتين المعماريتين.
من خلال أخذ أفضل جوانب المحولات و CNNs، يضع YOLO26 معياراً جديداً:
- تصميم أصلي شامل بدون NMS: مثل RTDETRv2، يعمل YOLO26 بشكل أصلي وشامل، مما يلغي تماماً معالجة NMS اللاحقة للحصول على خطوط أنابيب نشر أسرع وأبسط وأكثر قابلية للتنبؤ.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجاً من SGD و Muon. وهذا يجلب استقراراً لا مثيل له في التدريب وتقارباً سريعاً في الرؤية الحاسوبية.
- أسرع بنسبة تصل إلى 43% في استنتاج وحدة المعالجة المركزية (CPU): على عكس المحولات الثقيلة، تم تحسين YOLO26 بشكل كبير لحوسبة الحافة والأجهزة التي لا تحتوي على وحدات معالجة رسوميات (GPUs).
- إزالة DFL: تعمل إزالة خسارة البؤرة للتوزيع (Distribution Focal Loss) على تبسيط رسم بياني للنموذج بشكل كبير، مما يضمن تصديراً لا تشوبه شائبة إلى أجهزة الحافة منخفضة الطاقة ووحدات المعالجة العصبية المدمجة (NPUs).
- ProgLoss + STAL: تعمل دوال الخسارة المحسنة هذه على تعزيز التعرف على الكائنات الصغيرة بشكل كبير، وهي ميزة بالغة الأهمية لمجموعات بيانات إنترنت الأشياء والبيانات الجوية.
بالنسبة للفرق التي تتطلع إلى بدء مشروع رؤية حاسوبية جديد، نوصي بشدة بتقييم YOLO26. فهو يوفر أناقة المحول الخالية من NMS مع السرعة الفائقة وكفاءة التدريب لبنية YOLO عالية التحسين.
Link to this sectionملخص#
يعتمد الاختيار بين RTDETRv2 و YOLOv9 إلى حد كبير على أجهزة النشر الخاصة بك واحتياجات الدقة المحددة. يوفر RTDETRv2 أحدث دقة ووعياً بالسياق للتطبيقات المدعومة بالخادم، بينما يوفر YOLOv9 كفاءة استثنائية لأجهزة الحافة.
ومع ذلك، من خلال الاستفادة من نظام Ultralytics البيئي الناضج، يمكن للمطورين تجربة كلاهما دون عناء. علاوة على ذلك، مع إدخال نماذج أحدث مثل YOLO11 و YOLO26 الأصلي والشامل، لم يكن العثور على التوازن المثالي بين الاستنتاج عالي السرعة ودعم المهام المتعددة واستهلاك الذاكرة المنخفض أسهل من أي وقت مضى.