تخطي إلى المحتوى

YOLOv5 ضد RTDETRv2: موازنة السرعة في الوقت الفعلي ودقة المحولات

في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح المشروع. تفحص هذه المقارنة التقنية الشاملة نهجين متميزين: YOLOv5وهو الكاشف الأسطوري المستند إلى شبكة CNN والمعروف بتعدد استخداماته وسرعته، ونموذج RTDETRv2، وهو نموذج حديث قائم على المحولات يركز على الدقة العالية.

في حين أن RTDETRv2 يستفيد من محولات الرؤية (ViT) لالتقاط السياق العام، فإن Ultralytics YOLOv5 يظل خيارًا أفضل للمطورين الذين يحتاجون إلى حل قوي وجاهز للنشر مع نفقات عامة منخفضة للموارد.

مواصفات النموذج وأصوله

قبل الخوض في مقاييس الأداء، من الضروري فهم الخلفية والفلسفة المعمارية لكل نموذج.

ميزةUltralytics YOLOv5RTDETRv2
البنيةيعتمد على CNN (يعتمد على المرساة)هجين (CNN Backbone + Transformer)
التركيز الأساسيسرعة في الوقت الفعلي، وتنوع، وسهولة الاستخدامدقة عالية، سياق عالمي
المؤلفونجلين جوتشرWenyu Lv, Yian Zhao، وآخرون.
تنظيمتستخدم Ultralyticsبايدو
تاريخ الإصدار2020-06-262023-04-17
المهامDetect, Segment, Classifyاكتشاف

تعرف على المزيد حول YOLOv5

الهندسة المعمارية وفلسفة التصميم

يكمن الاختلاف الأساسي بين هذه النماذج في كيفية معالجتها للبيانات المرئية.

Ultralytics YOLOv5

يستخدم YOLOv5 بنية شبكة عصبية التفافية (CNN) مُحسَّنة للغاية. يستخدم عمودًا فقريًا CSPDarknet مُعدَّلاً ورقبة شبكة تجميع المسار (PANet) لاستخراج خرائط الميزات.

  • قائم على المرتكزات (Anchor-Based): يعتمد على مربعات ارتكاز محددة مسبقًا للتنبؤ بمواقع الكائنات، مما يبسط عملية التعلم لأشكال الكائنات الشائعة.
  • الكفاءة: مُصمم لتحقيق أقصى سرعة استدلال على نطاق واسع من الأجهزة، بدءًا من الأجهزة الطرفية مثل NVIDIA Jetson إلى وحدات المعالجة المركزية (CPUs) القياسية.
  • تنوع الاستخدامات: يدعم مهام متعددة بما في ذلك تقسيم المثيلات و تصنيف الصور داخل إطار عمل موحد واحد.

RTDETRv2

يمثل RTDETRv2 (Real-Time Detection Transformer v2) تحولًا نحو هياكل المحولات.

  • تصميم هجين: يجمع بين العمود الفقري لـ CNN مع وحدة فك ترميز المحولات، باستخدام آليات الانتباه الذاتي لمعالجة علاقات الكائنات.
  • السياق العام: يسمح مكون المحول (transformer) للنموذج "برؤية" الصورة بأكملها مرة واحدة، مما يحسن الأداء في المشاهد المعقدة التي تتضمن حجب.
  • التكلفة الحسابية: تتطلب هذه البنية المتطورة عادةً ذاكرة GPU وطاقة حسابية (FLOPs) أكبر بكثير مقارنةً بالحلول القائمة على CNNs فقط.

تحليل الأداء

يوفر الجدول أدناه مقارنة مباشرة لمقاييس الأداء الرئيسية. في حين أن RTDETRv2 يُظهر دقة رائعة (mAP) على مجموعة بيانات COCO، تُظهر YOLOv5 سرعات استدلال فائقة، خاصة على أجهزة CPU حيث غالبًا ما تواجه المحولات صعوبة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

تفسير البيانات

في حين أن RTDETRv2 يحقق أرقام mAP أعلى، لاحظ أعمدة السرعة و FLOPs. يعمل YOLOv5n بسرعة 73.6 مللي ثانية على وحدة المعالجة المركزية CPU، مما يجعله ممكنًا للتطبيقات في الوقت الفعلي على الأجهزة غير المسرعة. نماذج RTDETRv2 أثقل بكثير، وتتطلب وحدات معالجة الرسومات GPU قوية للحفاظ على معدلات الإطارات في الوقت الفعلي.

كفاءة التدريب واستخدام الذاكرة

تتمثل إحدى المزايا الحاسمة لـ YOLOv5 في كفاءة التدريب. تشتهر النماذج القائمة على المحولات مثل RTDETRv2 باستهلاك VRAM العالي ومعدلات التقارب البطيئة.

  • بصمة ذاكرة أقل: يمكن تدريب YOLOv5 على وحدات معالجة الرسوميات (GPUs) من الدرجة الاستهلاكية بذاكرة CUDA متواضعة، مما يضفي طابعًا ديمقراطيًا على الوصول إلى تطوير الذكاء الاصطناعي.
  • تقارب أسرع: يمكن للمستخدمين غالبًا تحقيق نتائج قابلة للاستخدام في عدد أقل من الحقب، مما يوفر وقتًا ثمينًا وتكاليف الحوسبة السحابية.

نقاط القوة الرئيسية في Ultralytics YOLOv5

بالنسبة لمعظم المطورين والتطبيقات التجارية، يوفر YOLOv5 مجموعة أكثر توازناً وعملية من المزايا:

  1. سهولة استخدام لا مثيل لها: يعتبر Python API الخاص بـ Ultralytics هو معيار الصناعة للبساطة. يمكن إجراء تحميل نموذج وتشغيل الاستدلال والتدريب على بيانات مخصصة ببضعة أسطر فقط من التعليمات البرمجية.
  2. نظام بيئي ثري: مدعومًا بمجتمع ضخم مفتوح المصدر، يتكامل YOLOv5 بسلاسة مع Ultralytics HUB للتدريب بدون تعليمات برمجية، و أدوات MLOps للتتبع، وتنسيقات تصدير متنوعة مثل ONNX و TensorRT.
  3. مرونة النشر: بدءًا من تطبيقات iOS و Android للهاتف المحمول إلى Raspberry Pi والخوادم السحابية، تسمح بنية YOLOv5 خفيفة الوزن بتشغيلها حيث لا يمكن لنماذج المحولات الأثقل تشغيلها.
  4. تنوع المهام: على عكس RTDETRv2، وهو في الأساس كاشف للأجسام، يدعم YOLOv5 التصنيف والتجزئة، مما يقلل الحاجة إلى الاحتفاظ بقواعد بيانات متعددة لمهام الرؤية المختلفة.

مسار الترقية

إذا كنت بحاجة إلى دقة أعلى من YOLOv5 مع الحفاظ على مزايا هذا النظام البيئي، ففكر في YOLO11 الجديد. إنه يشتمل على تحسينات معمارية حديثة لمنافسة دقة المحولات أو التغلب عليها بالكفاءة التي تتوقعها من YOLO.

مقارنة التعليمات البرمجية: سهولة الاستخدام

يوضح المثال التالي بساطة استخدام YOLOv5 مع حزمة Ultralytics.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model
model = YOLO("yolov5s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display results
for result in results:
    result.show()  # show to screen
    result.save(filename="result.jpg")  # save to disk

حالات الاستخدام المثالية

متى تختار Ultralytics YOLOv5

  • الحوسبة الطرفية: النشر على الأجهزة التي تعمل بالبطاريات أو الأجهزة ذات الموارد المحدودة (الطائرات بدون طيار والهواتف المحمولة وإنترنت الأشياء).
  • تحليلات الفيديو الآنية: معالجة تدفقات فيديو متعددة في وقت واحد من أجل إدارة حركة المرور أو الأمن.
  • النماذج الأولية السريعة: عندما تحتاج إلى الانتقال من مجموعة البيانات إلى النموذج المنشور في غضون ساعات، وليس أيامًا.
  • متطلبات المهام المتعددة: المشاريع التي تحتاج إلى كل من object detection و image segmentation.

متى تختار RTDETRv2

  • البحث الأكاديمي: القياس المعياري مقابل أحدث التقنيات المطلقة على مجموعات البيانات الثابتة حيث السرعة ثانوية.
  • توفر وحدات معالجة الرسوميات المتطورة: البيئات التي تتوفر فيها وحدات معالجة الرسوميات (GPU) المخصصة من فئة الخوادم (مثل NVIDIA A100s) لكل من التدريب والاستدلال.
  • مشاهد ثابتة معقدة: السيناريوهات التي تتضمن انسدادًا كثيفًا حيث توفر آلية الانتباه الذاتي ميزة حاسمة في الدقة.

الخلاصة

في حين أن RTDETRv2 يعرض إمكانات المحولات في رؤية الكمبيوتر بأرقام دقة رائعة، إلا أنه يأتي بتكاليف كبيرة من حيث موارد الأجهزة وتعقيد التدريب. بالنسبة للغالبية العظمى من التطبيقات الواقعية، تظل Ultralytics YOLOv5 الخيار الأفضل. مزيجها المثالي من السرعة والدقة واستخدام الذاكرة المنخفض — جنبًا إلى جنب مع نظام بيئي داعم و وثائق واسعة النطاق — يضمن أن يتمكن المطورون من بناء حلول ذكاء اصطناعي قابلة للتطوير وفعالة وفعالة.

بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه الأداء دون التضحية بقابلية استخدام إطار Ultralytics، نوصي بشدة باستكشاف YOLO11، الذي يسد الفجوة بين كفاءة CNN ودقة مستوى المحولات.

استكشف نماذج أخرى


تعليقات