تخطي إلى المحتوى

محولات RTDETRv2 مقابل YOLOv6.0: محولات عالية الدقة تلبي السرعة الصناعية

غالبًا ما ينطوي اختيار البنية المثلى للكشف عن الأجسام على المفاضلة بين الدقة المطلقة وزمن الاستنتاج. تستكشف هذه المقارنة الفنية RTDETRv2، وهو نموذج قائم على محول الرؤية مصمم للمهام عالية الدقة، و YOLOv6.0، وهو كاشف قائم على شبكة CNN مصمم خصيصًا للسرعة والكفاءة الصناعية. ومن خلال تحليل بنيتيهما ومقاييس الأداء وخصائص النشر، نساعدك على تحديد الحل الأفضل لتطبيقات الرؤية الحاسوبية الخاصة بك.

RTDETRv2: تخطي الحدود باستخدام محولات الرؤية

يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) تطوراً كبيراً في اكتشاف الأجسام، حيث يستفيد من قوة المحولات لالتقاط السياق العالمي داخل الصور. على عكس شبكات CNN التقليدية التي تعالج السمات المحلية، تستخدم RTDETRv2 آليات الانتباه الذاتي لفهم العلاقات بين الأجسام البعيدة، مما يجعلها فعالة للغاية في المشاهد المعقدة.

المؤلفون: Wenyu Lv و Yian Zhao و Qinyao Chang و Kui Huang و Guanzhong Wang و Yi Liu
المنظمة:Baidu
التاريخ: 2023-04-17 (مبدئي)، 2024-07-24 (الإصدار 2)
Arxiv:RT-DETR: DETRs تغلب على YOLOs على اكتشاف الكائنات في الوقت الحقيقي
GitHub:RT-DETR Repository
Docs:RTDETRv2 Documentation

تعرف على المزيد حول RTDETRv2

الابتكارات المعمارية

بنية RTDETRV2 هي تصميم هجين. فهو يستخدم عمودًا فقريًا قياسيًا لشبكة CNN (عادةً ما يكون ResNet أو HGNet) لاستخراج الميزات الأولية، متبوعًا بمُشفّر-مُفك تشفير محوّل. يسمح هذا الهيكل للنموذج بمعالجة الميزات متعددة النطاقات بفعالية مع الاستغناء عن الحاجة إلى المكونات المصنوعة يدويًا مثل مربعات الارتكاز والقمع غير الأقصى (NMS).

ميزة المحولات

تتفوق مكونات محول الرؤية (ViT) في RTDETRv2 في حل الغموض في المشاهد المزدحمة. من خلال تحليل سياق الصورة بالكامل في وقت واحد، يقلل النموذج من النتائج الإيجابية الخاطئة الناتجة عن الانسداد أو فوضى الخلفية.

نقاط القوة والضعف

نقاط القوة:

  • دقة فائقة: يحقق بشكل عام متوسط دقة أعلى (mAP) على مجموعات بيانات مثل COCO مقارنةً بشبكات CNN ذات الحجم المماثل.
  • تصميم خالٍ من المراسي: يبسّط خط أنابيب الكشف عن طريق إزالة مربعات الارتكاز، مما يقلل من ضبط المعلمة الفائقة.
  • السياق العالمي: ممتازة في اكتشاف الأجسام في البيئات الكثيفة أو المشوشة حيث الميزات المحلية غير كافية.

نقاط الضعف:

  • التكلفة الحسابية: تتطلب وحدات FLOP وذاكرة GPU أعلى بكثير، خاصةً أثناء التدريب.
  • الكمون: على الرغم من أنه "في الوقت الحقيقي"، إلا أنه يتخلف بشكل عام عن شبكات CNN المحسّنة مثل YOLOv6 في سرعة الاستدلال الخام على أجهزة مكافئة.
  • جوع البيانات: غالبًا ما تتطلب نماذج المحولات مجموعات بيانات تدريبية أكبر وجداول زمنية أطول للتدريب حتى تتقارب.

YOLOv6.0: السريع الصناعي

YOLOv6.0، الذي طورته شركة Meituan، بشكل مباشر على احتياجات التطبيقات الصناعية: زمن استجابة منخفض وإنتاجية عالية. إنه يحسّن نموذج كاشف الكائنات الكلاسيكي أحادي المرحلة لزيادة الكفاءة إلى أقصى حد على الأجهزة التي تتراوح من الأجهزة المتطورة إلى وحدات معالجة الرسومات.

المؤلفون: تشوي لي، ولولو لي، ويفي قنغ، وهونغليانغ جيانغ، ومنغ تشنغ، وبو تشنغ، وبو تشانغ، وزيدان كي، وشياومينغ شو، وشيانغ شيانغ تشو
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:YOLOv6 v3.0: إعادة تحميل كامل النطاق
GitHub:مستودعYOLOv6
Docs:Ultralytics YOLOv6

تعرف على المزيد حول YOLOv6.0

مُحسَّن للكفاءة

يشتمل YOLOv6.0 على فلسفة تصميم "مدركة للأجهزة". فهو يستخدم عمودًا فقريًا فعّالًا لإعادة المعرفات (على غرار RepVGG) يعمل على تبسيط الشبكة إلى كومة بسيطة من التلافيف 3 × 3 أثناء الاستدلال، مما يلغي التعقيد متعدد الفروع. بالإضافة إلى ذلك، فإنه يستخدم تقنيات التقطير الذاتي أثناء التدريب لتعزيز الدقة دون إضافة تكلفة استدلالية إضافية.

نقاط القوة والضعف

نقاط القوة:

  • سرعة استثنائية: توفر وقت استجابة منخفض للغاية، مما يجعلها مثالية لخطوط التصنيع عالية السرعة والروبوتات.
  • ملائم للنشر: يسهل تصدير البنية المعاد تحديدها إلى تنسيقات مثل ONNX و TensorRT لتحقيق أقصى قدر من الأداء.
  • كفاءة الأجهزة: مُحسَّن للاستفادة من وحدات حوسبة GPU بالكامل، مما يقلل من وقت الخمول.

نقاط الضعف:

  • سقف الدقة: على الرغم من قدرتها التنافسية، إلا أنها قد تكافح لمطابقة الدقة القصوى للنماذج القائمة على المحولات في السيناريوهات المرئية شديدة التعقيد.
  • براعة محدودة: يركز في المقام الأول على الكشف، ويفتقر إلى الدعم الأصلي لمهام مثل تجزئة المثيل أو تقدير الوضعية الموجودة في الأطر الأحدث.

تحليل الأداء: السرعة مقابل الدقة

غالبًا ما يعود الاختيار بين RTDETRv2 و YOLOv6.0 إلى القيود المحددة لبيئة النشر. يهيمن RTDETRv2 في السيناريوهات التي تتطلب أعلى دقة ممكنة، بينما يفوز YOLOv6.0 على السرعة والكفاءة الأولية.

يقارن الجدول التالي بين المقاييس الرئيسية. لاحظ كيف أن YOLOv6.0 يحقق زمن انتقال أقل (سرعة أكبر) بمقاييس نموذجية مماثلة، بينما يدفع RTDETRv2 إلى تحقيق درجات أعلى mAP على حساب الكثافة الحسابية (FLOPs).

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0 م64050.0-5.2834.985.8
YOLOv6.0L64052.8-8.9559.6150.7

التدريب والاحتياجات من الموارد

عند تطوير نماذج مخصصة، تختلف تجربة التدريب بشكل كبير.

  • استخدام الذاكرة: يتطلب RTDETRv2 ذاكرة تخزين افتراضية كبيرة GPU VRAM بسبب التعقيد التربيعي لآليات الانتباه. غالبًا ما يتطلب تدريب المتغيرات "الكبيرة" أو "X-Large" وحدات معالجة رسومات مؤسسية متطورة. على النقيض من ذلك، فإن نماذج Ultralytics YOLO و YOLOv6 أكثر كفاءة في الذاكرة بشكل عام، مما يسمح بالتدريب على أجهزة من فئة المستهلكين أو على مثيلات سحابية أصغر.
  • التقارب: تحتاج النماذج القائمة على المحولات عادةً إلى فترات زمنية أطول لتعلم التسلسلات الهرمية المكانية التي تلتقطها شبكات التواصل الاجتماعي (CNN) بشكل حدسي، مما قد يزيد من تكاليف الحوسبة السحابية.

متوازن بشكل مثالي: ميزة Ultralytics

بينما يتفوق كل من RTDETRv2 و YOLOv6.0 في مجاله الخاص, Ultralytics YOLO11 يقدم حلاً موحدًا يعالج قيود كليهما. فهو يجمع بين سهولة الاستخدام وسرعة CNNs مع تحسينات معمارية تنافس دقة المحولات.

تعرف على المزيد حول YOLO11

لماذا يفضل المطورون والباحثون نماذج Ultralytics بشكل متزايد:

  1. تعدد الاستخدامات: على عكس YOLOv6 الذي يقتصر على الاكتشاف فقط، يدعم Ultralytics تصنيف الصور وتجزئتها وتقدير الوضعية واكتشاف الصندوق المحدد الموجه (OBB) ضمن واجهة برمجة تطبيقات واحدة.
  2. نظام بيئي جيد الصيانة: توفر منصة Ultralytics تحديثات متكررة ودعمًا مجتمعيًا واسعًا وتكاملًا سلسًا مع أدوات مثل MLflow و TensorBoard و Ultralytics HUB.
  3. سهولة الاستخدام: من خلال فلسفة "التعليمات البرمجية المنخفضة"، يمكنك تدريب أحدث النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من أوامر Python أو CLI .
  4. توازن الأداء: يوفر YOLO11 نقطة رائعة لسرعة الاستدلال في الوقت الحقيقي والدقة العالية، وغالبًا ما يتفوق على إصدارات YOLO الأقدم ويطابق المحولات المعقدة في السيناريوهات العملية.

مثال على الكود

اختبر بساطة واجهة برمجة تطبيقات Ultralytics . يوضح المثال التالي كيفية تحميل نموذج مدرب مسبقًا وتشغيل الاستدلال على صورة:

from ultralytics import YOLO

# Load a pre-trained YOLO11 model (n=nano, s=small, m=medium, l=large, x=xlarge)
model = YOLO("yolo11n.pt")

# Run inference on a local image
results = model("path/to/image.jpg")

# Process results
for result in results:
    result.show()  # Display results on screen
    result.save(filename="result.jpg")  # Save results to disk

الخلاصة

يُعدّ كل من RTDETRv2 و YOLOv6.0 إنجازين رائعين في تاريخ الرؤية الحاسوبية. يُعد RTDETRv2 خياراً ممتازاً للأبحاث والسيناريوهات التي تكون فيها الدقة هي الأولوية المطلقة، بغض النظر عن التكلفة الحسابية. يخدم YOLOv6.0 القطاع الصناعي بشكل جيد، حيث يوفر سرعة فائقة للبيئات الخاضعة للرقابة.

ومع ذلك، بالنسبة لمعظم التطبيقات الواقعية التي تتطلب حلاً قوياً ومتعدد الاستخدامات وسهل النشر, Ultralytics YOLO11 هو الخيار الأفضل. فهو يجمع بين الأداء الرائد والبصمة المنخفضة للذاكرة ونظام بيئي مزدهر يمكّن المطورين من الانتقال من النموذج الأولي إلى الإنتاج بثقة وسرعة.

استكشف نماذج أخرى

اكتشف كيف يمكن المقارنة بين البنى المختلفة للعثور على الأنسب لمشروعك:


تعليقات