تخطي إلى المحتوى

RTDETRv2 ضد YOLOv5: مقارنة فنية

يعد اختيار بنية الكشف عن الكائنات المناسبة قرارًا محوريًا يؤثر على كل شيء بدءًا من تكاليف النشر وحتى تجربة المستخدم. في هذه المقارنة التفصيلية، نستكشف المفاضلات بين RTDETRv2، وهو محول متطور يعمل في الوقت الفعلي من Baidu، و Ultralytics YOLOv5، النموذج الأسطوري القائم على CNN الذي وضع معايير سهولة الاستخدام والموثوقية في الرؤية الحاسوبية.

بينما يقدم RTDETRv2 ابتكارات مثيرة قائمة على المحولات، يظل YOLOv5 (مثل YOLO26 المتطور) معايير الصناعة في مجال التنوع وسرعة النشر وتجربة المطورين.

ملخص تنفيذي

RTDETRv2 (محول الكشف في الوقت الحقيقي v2) هو تطور لهيكل DETR، مصمم للقضاء على عدم القمع الأقصى (NMS) مع تحقيق دقة عالية على GPU . وهو مثالي لبيئات البحث ونشر الخوادم المتطورة حيث تتوفر ذاكرة VRAM بكثرة.

YOLOv5 (You Only Look Once v5) هي بنية CNN ناضجة وجاهزة للإنتاج. تشتهر ببساطتها في "التثبيت والتشغيل"، وتتميز في الحوسبة المتطورة والتدريب السريع والتوافق الواسع مع الأجهزة. للمطورين الذين يبحثون عن أحدث ما توصلت إليه التكنولوجيا من سرعة ودقة، توصي Ultralytics باستخدام YOLO26، الذي يجمع بين مزايا المحولات NMS وسرعة YOLO.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

الهندسة المعمارية والتصميم

يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للمعلومات البصرية: المحولات مقابل الشبكات العصبية التلافيفية (CNNs).

RTDETRv2: نهج المحولات

المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة:Baidu
التاريخ: 2023-04-17 ( RT-DETR الأصلي)، 2024 (v2)
الروابط:ArXiv | GitHub

يستخدم RTDETRv2 بنية هجينة للتشفير والترميز. ويستخدم شبكة CNN الأساسية (غالبًا ResNet أو HGNetv2) لاستخراج الميزات، التي يتم معالجتها بعد ذلك بواسطة مشفر محول فعال. ويتمثل الابتكار الرئيسي في المشفر الهجين، الذي يفصل التفاعل داخل النطاق والاندماج عبر النطاقات لتقليل تكاليف الحوسبة.

الميزة الأكثر بروزًا هي التنبؤNMS. باستخدام المطابقة الثنائية أثناء التدريب، يتعلم النموذج إخراج مربع واحد فقط لكل كائن، مما يلغي الحاجة إلى خطوات المعالجة اللاحقة مثل Non-Maximum Suppression (NMS). ومع ذلك، يأتي ذلك على حساب استهلاك أعلى للذاكرة وتقارب تدريب أبطأ مقارنة بشبكات CNN الخالصة.

YOLOv5: معيار CNN

المؤلف: جلين جوشر
المنظمة:Ultralytics
التاريخ: 2020-06-26
الروابط:المستندات | GitHub

YOLOv5 بنية CNN عالية التحسين تستند إلى العمود الفقري CSPNet ورقبة PANet. يعطي هذا التصميم الأولوية لتدفق التدرج وإعادة استخدام الميزات، مما ينتج عنه نموذج خفيف الوزن وسريع بشكل استثنائي. على عكس المحولات، التي تتطلب مجموعات بيانات ضخمة لتعلم السياق العام، يسمح التحيز الاستقرائي YOLOv5 بالتعلم بفعالية من مجموعات بيانات أصغر حجماً باستخدام حوسبة أقل بكثير.

تعرف على المزيد حول YOLOv5

التطور: YOLO26

بينما YOLOv5 على NMS فإن Ultralytics الجديد يعتمد تصميمًا شاملاً NMS مشابهًا لـ RTDETRv2، ولكنه يحتفظ بسرعة وكفاءة التدريب التي تتميز بها YOLO . كما أنه يقدم مُحسِّن MuSGD، الذي يعمل على تسريع التقارب بشكل كبير.

تحليل الأداء

سرعة الاستدلال والكمون

عند النشر في الإنتاج، غالبًا ما يكون زمن الاستجابة هو العقبة. YOLOv5 على البيئات CPU والأجهزة الطرفية. تتوافق بساطة بنية شبكات CNNs بشكل فعال مع المعالجات القياسية ووحدات NPU المحمولة.

يتميز RTDETRv2 بأدائه المتميز على وحدات معالجة الرسومات الحديثة (مثل NVIDIA أو A100)، حيث يتم تنفيذ عمليات ضرب المصفوفات بشكل متوازٍ وفعال. ومع ذلك، على الأجهزة الطرفية مثل Raspberry Pi، قد تكون عمليات المحول ثقيلة للغاية، مما يؤدي إلى انخفاض معدل الإطارات في الثانية (FPS) مقارنةً بـ YOLOv5n أو YOLOv5s.

الدقة (mAP)

يحقق RTDETRv2 عمومًا متوسط دقة أعلى (mAP) على COCO مقارنةً YOLOv5 لا سيما بالنسبة للأجسام الكبيرة والمشاهد المعقدة التي يكون فيها السياق العام أمرًا بالغ الأهمية. على سبيل المثال، يحقق RTDETRv2-L متوسط mAP 53.4٪، متجاوزًا YOLOv5x (50.7٪) مع استخدام معلمات أقل.

ومع ذلك، فإن الدقة ليست المقياس الوحيد. في السيناريوهات الواقعية التي تتضمن كائنات صغيرة أو مقاطع فيديو بها ضبابية حركة، يقل الفرق. علاوة على ذلك، فإن Ultralytics الأحدث مثل YOLO11 و YOLO26 قد سدّت هذه الفجوة، حيث توفر دقة مماثلة أو أعلى مع كفاءة أفضل.

كفاءة التدريب والنظام البيئي

وهنا تكمن الميزة الفريدة التي يوفرها نظام Ultralytics .

Ultralytics YOLOv5 YOLO26:

  • التقارب السريع: عادةً ما تتقارب شبكات CNN بشكل أسرع من المحولات. يمكنك تدريب YOLOv5 قابل للاستخدام في غضون ساعات قليلة على GPU واحدة.
  • استهلاك منخفض للذاكرة: YOLO تدريب YOLO مساحة أقل بكثير من ذاكرة VRAM، مما يجعله متاحًا للباحثين الذين يستخدمون بطاقات من الفئة الاستهلاكية (مثل RTX 3060).
  • زيادة البيانات: تتضمن Ultralytics استراتيجيات زيادة متطورة (Mosaic، MixUp) يتم تمكينها بشكل افتراضي.
  • تكامل المنصة: اتصل بسلاسة Ultralytics لإدارة مجموعات البيانات والتدريب السحابي والنشر بنقرة واحدة.

RTDETRv2:

  • استهلاك الموارد: من المعروف أن المحولات تستهلك الكثير من البيانات وتحتاج إلى حوسبة مكثفة أثناء التدريب. غالبًا ما يتطلب تثبيت آلية الانتباه جداول تدريب أطول (غالبًا ما تزيد عن 72 فترة لتتناسب مع ما YOLO في فترة أقل).
  • التكوين المعقد: باعتباره مستودعًا يركز على الأبحاث، فإن إعداد RTDETRv2 لمجموعات البيانات المخصصة غالبًا ما يتطلب تعديل ملفات التكوين وتكييف أدوات تحميل البيانات يدويًا.
# Training with Ultralytics is standardized and simple
from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

حالات الاستخدام في العالم الحقيقي

السيناريوهات المثالية لـ YOLOv5 YOLO26

تعد Ultralytics بمثابة "سكين الجيش السويسري" في مجال الرؤية الحاسوبية، وهي مناسبة لـ 90% من التطبيقات التجارية.

السيناريوهات المثالية لـ RTDETRv2

  • المراقبة المتطورة: كاميرات أمنية ثابتة متصلة بخوادم قوية حيث تُفضل الدقة القصوى على زمن الاستجابة.
  • البحث الأكاديمي: استكشاف آليات الانتباه ومحولات الرؤية.
  • المشاهد المزدحمة: يمكن لآلية الانتباه العالمية أحيانًا التعامل مع الانسداد الشديد بشكل أفضل من شبكات CNN البحتة، بشرط أن تدعم الأجهزة الحمل الحسابي.

الخلاصة

YOLOv5 كل من RTDETRv2 و YOLOv5 معالم بارزة في تاريخ اكتشاف الأجسام. يثبت RTDETRv2 أن المحولات يمكن أن تعمل في الوقت الفعلي على وحدات معالجة الرسومات (GPU) المتطورة، مما يوفر دقة عالية وبنية أنيقة NMS.

ومع ذلك، بالنسبة للغالبية العظمى من المطورين والتطبيقات التجارية، تظلUltralytics هي الخيار الأفضل. الجمع بين النضج YOLOv5 المتطور والابتكارات المتطورة في YOLO26 يضمن لك الحصول على الأداة المناسبة لأي قيود.

لماذا الترقية إلى YOLO26؟ إذا كنت تقارن بين هذه النماذج لمشروع جديد في عام 2026، فإننا نوصي بشدة باستخدام YOLO26. فهو يجمع بين أفضل ما في كلا النموذجين:

  1. نهاية إلى نهاية أصلاً: مثل RTDETRv2، فإنه يزيل NMS نشر أبسط.
  2. CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن خصيصًا للحافة، على عكس المحولات الثقيلة.
  3. تنوع المهام: يدعم الكشف والتجزئة والوضع و OBB في إطار عمل واحد.

تعرف على المزيد حول YOLO26

لمزيد من القراءة حول البنى الأخرى، استكشف مقارناتنا بين RT-DETR YOLO11 و YOLOv8 EfficientDet.


تعليقات