RTDETRv2 مقابل YOLOv9: مقارنة بين محولات الكشف في الوقت الحقيقي وشبكات CNN

شهد مجال الرؤية الحاسوبية اختلافًا مثيرًا للاهتمام في فلسفات الهندسة المعمارية، لا سيما بين الشبكات العصبية التلافيفية (CNN) والنماذج القائمة على المحولات. عند مقارنة RTDETRv2 و YOLOv9 يقوم المطورون بشكل أساسي بتقييم المفاضلات بين آليات الانتباه الشامل ومعلومات التدرج القابلة للبرمجة. يمثل كلا النموذجين قمة نماذجهما، مما يدفع حدود الكشف عن الكائنات في الوقت الفعلي.

مقدمة إلى النماذج

RTDETRv2: محول الكشف في الوقت الفعلي

تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي RT-DETR إدخال "Bag-of-Freebies" لتعزيز محول الكشف في الوقت الحقيقي الأساسي. وهو يعالج العنق الزجاجي التقليدي للمحولات — سرعة الاستدلال — مما يجعلها قابلة للتطبيق في الوقت الحقيقي.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
روابط: Arxiv، GitHub

من السمات المميزة لـ RTDETRv2 هو تصميمه الأصيل الشامل والخالي من NMS. من خلال الإزالة الكاملة لقمع غير أقصى (NMS) أثناء المعالجة اللاحقة، يثبت النموذج زمن استجابة الاستدلال ويبسط مسار النشر. تسمح آلية الانتباه الشاملة للنموذج بالتفوق في فهم المشاهد المعقدة والحشود الكثيفة، حيث يقوم بتقييم سياق الصورة بالكامل في وقت واحد.

تعرف على المزيد حول RTDETRv2

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9، وهي بنية عالية الكفاءة تعتمد على شبكة CNN، تعالج مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وهي تقدم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 21 فبراير 2024
روابط: Arxiv، GitHub

YOLOv9 على أسس الشبكة العصبية التلافيفية المثبتة، ولكنه يزيد من كفاءة المعلمات إلى أقصى حد. من خلال الاحتفاظ بالمعلومات المهمة أثناء عملية التغذية الأمامية، يضمن تحديثات موثوقة للأوزان، مما ينتج عنه نموذج خفيف الوزن للغاية ودقيق للغاية. ومع ذلك، على عكس RTDETRv2، YOLOv9 يعتمد على NMS القياسية NMS .

تعرف على المزيد حول YOLOv9

الأداء وكفاءة الموارد

عند تقييم هذه النماذج للإنتاج، من الضروري تحقيق التوازن بين متوسط الدقة (mAP) والتكلفة الحسابية. يوضح الجدول أدناه أداءها على COCO MS COCO .

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

متطلبات الذاكرة وكفاءة التدريب

من المعروف أن المحولات مثل RTDETRv2 تستهلك الكثير من الذاكرة أثناء التدريب، وغالبًا ما تتطلب CUDA كبيرة وجداول تدريب أطول للتقارب الكامل. على العكس من ذلك، توفر بنى CNN مثل YOLOv9 YOLO Ultralytics YOLO الأخرى استخدامًا أقل للذاكرة بشكل استثنائي، مما يسمح للمطورين بالتدريب باستخدام أحجام دفعات أكبر على أجهزة المستهلكين.

تدريب فعال

لتحقيق أقصى استفادة من الأجهزة، ضع في اعتبارك استخدام Ultralytics لتدريب مبسط على السحابة. فهي تتولى تلقائيًا إعداد البيئة وتحديد الحجم الأمثل للدُفعات.

Ultralytics : النظام البيئي وسهولة الاستخدام

في حين أن البحث في مستودعات مستقلة مثل صفحات YOLOv9 الرسمية RTDETRv2 أو YOLOv9 يمكن أن يكون تعليميًا للغاية، إلا أن بيئات الإنتاج تتطلب الاستقرار وسهولة الاستخدام ونظامًا بيئيًا جيد الصيانة. يوفر دمج هذه النماذج من خلال Ultralytics Python تجربة سلسة للمطورين.

واجهة برمجة تطبيقات موحدة وتعدد الاستخدامات

يعمل Ultralytics على إزالة تعقيدات تحميل البيانات والتوسعات والتدريب الموزع. علاوة على ذلك، في حين أن RTDETRv2 الأصلي يركز بشكل صارم على الكشف، فإن Ultralytics يسمح للمستخدمين بالانتقال بسهولة بين الكشف عن الكائنات وتقسيم الحالات وتقدير الوضع.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model on custom data
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# Easily switch to RT-DETR for complex scene evaluation
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

# Export to production-ready formats like TensorRT
model_yolo.export(format="engine")

بفضل التوثيق القوي والتتبع التلقائي للتجارب وإمكانيات التصدير السلس إلى تنسيقات مثل ONNXو TensorRTو OpenVINO ، تقلل Ultralytics من الوقت المستغرق من النموذج الأولي إلى الإنتاج.

حالات الاستخدام المثالية

مجالات تفوق RTDETRv2

بفضل آلية الاهتمام العالمية، يعد RTDETRv2 قوة دافعة للمعالجة من جانب الخادم والبيئات التي يكون فيها السياق العالمي أمرًا بالغ الأهمية. وهو يتفوق في:

التصوير الطبي: تحديد الشذوذات الدقيقة حيث يكون السياق المحيط حاسمًا.
المراقبة الجوية: اكتشاف الأجسام الصغيرة في لقطات الطائرات بدون طيار عالية الدقة دون التحيزات المكانية لالتفافات الشبكات العصبية التلافيفية (CNN) التقليدية.
تحليل الحشود الكثيفة: تتبع الأفراد حيث يؤدي الانسداد الشديد عادةً إلى إرباك النماذج القائمة على المراسي (anchor-based models).

أين YOLOv9

YOLOv9 بطل في عمليات النشر المحدودة الموارد. كفاءته الحسابية تجعله مثالياً لـ:

الروبوتات: الملاحة في الوقت الفعلي وتجنب العوائق حيث يتطلب الحد الأدنى من زمن الاستجابة.
إنترنت الأشياء للمدن الذكية: النشر على أجهزة الحافة مثل NVIDIA Jetson لمراقبة حركة المرور.
التفتيش الصناعي: مراقبة جودة خطوط التجميع عالية السرعة التي تتطلب معدل إطارات عالٍ في الثانية (FPS).

المستقبل: أدخل Ultralytics

في حين يمثل YOLOv9 RTDETRv2 قفزات هائلة إلى الأمام، فقد تطور المشهد بسرعة. بالنسبة للعمليات الحديثة، فإن الإصدار الجديد Ultralytics التآزر المطلق بين فلسفتي الهندسة المعمارية.

من خلال الجمع بين أفضل جوانب المحولات (transformers) والشبكات العصبية التلافيفية (CNNs)، يضع YOLO26 معيارًا جديدًا:

تصميم خالٍ من NMS وشامل: مثل RTDETRv2، فإن YOLO26 شامل بطبيعته، يلغي معالجة NMS اللاحقة بالكامل لمسارات نشر أسرع وأبسط وقابلة للتنبؤ بدرجة عالية.
مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD و Muon. يوفر هذا استقرارًا لا مثيل له في التدريب وتقاربًا سريعًا للرؤية الحاسوبية.
استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): على عكس المحولات الثقيلة، تم تحسين YOLO26 بشكل كبير للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات GPU.
إزالة DFL: تبسط إزالة Distribution Focal Loss مخطط النموذج بشكل كبير، مما يضمن تصديراً خالياً من الأخطاء إلى الأجهزة الطرفية منخفضة الطاقة ووحدات معالجة الشبكات العصبية المدمجة (NPUs).
ProgLoss + STAL: تعمل دوال الخسارة المحسّنة هذه على تعزيز التعرف على الأجسام الصغيرة بشكل كبير، وهي ميزة حاسمة لإنترنت الأشياء ومجموعات البيانات الجوية.

بالنسبة للفرق التي ترغب في بدء مشروع جديد في مجال الرؤية الحاسوبية، نوصي بشدة بتقييم YOLO26. فهو يوفر أناقة محول NMS مع السرعة الفائقة وكفاءة التدريب التي تتميز بها YOLO عالية التحسين.

تعرف على المزيد حول YOLO26

ملخص

يعتمد الاختيار بين RTDETRv2 وYOLOv9 بشكل كبير على أجهزة النشر الخاصة بك واحتياجات الدقة المحددة. يوفر RTDETRv2 دقة متطورة ووعيًا بالسياق للتطبيقات المدعومة بالخادم، بينما يقدم YOLOv9 كفاءة استثنائية لأجهزة الحافة.

ومع ذلك، من خلال الاستفادة من Ultralytics الناضج، يمكن للمطورين تجربة كلاهما بسهولة. علاوة على ذلك، مع طرح نماذج أحدث مثل YOLO11 و YOLO26 الأصلي الشامل، أصبح إيجاد التوازن المثالي بين الاستدلال عالي السرعة ودعم المهام المتنوعة واستهلاك الذاكرة المنخفض أسهل من أي وقت مضى.