تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv6.0: دقة المحول تلتقي بالسرعة الصناعية

يتطلب التنقل في مجال الكشف عن الأجسام الحديثة تحقيق التوازن بين السرعة الخام وفهم المشهد المعقد. تحلل هذه المقارنة التقنية بنتيتين مؤثرتين: RTDETRv2، وهي تطور متطور لمحول الكشف في الوقت الفعلي، و YOLOv6.YOLOv6، وهي قوة تعتمد على شبكة CNN ومُحسّنة للإنتاجية الصناعية.

ملخص تنفيذي

بينما يستفيد RTDETRv2 من قدرات السياق العالمي لمحولات الرؤية للتفوق في البيئات المعقدة والمزدحمة دون استخدام تقنية Non-Maximum Suppression (NMS)، يركز YOLOv6.YOLOv6 على تعظيم عدد الإطارات في الثانية (FPS) على GPU مخصصة من خلال التكمية القوية وضبط البنية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

RTDETRv2: تطور المحولات

يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) خطوة مهمة إلى الأمام في جعل الكشف القائم على المحولات قابلاً للتطبيق في الوقت الحقيقي. بناءً على نجاح الإصدار الأصلي RT-DETRالأصلي، تقدم هذه النسخة نهجًا مرنًا قائمًا على الشبكة للتعامل مع المدخلات الديناميكية وتحسن سرعة التقارب بشكل كبير.

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 17 أبريل 2023 (الإصدار 1)، يوليو 2024 (تحديث الإصدار 2)
  • روابط:Arxiv | GitHub

تعرف على المزيد حول RT-DETR

الهيكلة والابتكار

تكمن القوة الأساسية لـ RTDETRv2 في مشفره الهجين واختيار الاستعلامات ذات الحد الأدنى من عدم اليقين. على عكس شبكات CNN التقليدية التي تعاني من التبعيات بعيدة المدى، يسمح العمود الفقري للمحول للنموذج بـ "الاهتمام" بأجزاء بعيدة من الصورة في وقت واحد.

  1. آلية ربط الصندوق الشبكي: على عكس استعلامات الكائنات المكتسبة في DETRs القياسية، يقوم RTDETRv2 بتهيئة الاستعلامات باستخدام الصناديق الشبكية، مما يجعل عملية التحسين أكثر سلاسة والتقارب أسرع.
  2. حزمة الميزات المجانية: يتضمن التحديث v2 العديد من التحسينات التدريبية، بما في ذلك استراتيجيات محسنة لزيادة البيانات ووظائف خسارة محسنة، مما يرفع دقة النموذج الصغير إلى 48.1 mAP.
  3. استنتاجNMS: حسب التصميم، تتنبأ المحولات بمجموعة من الكائنات الفريدة مباشرةً. وهذا يلغي الحاجة إلى Non-Maximum Suppression (NMS)، وهي خطوة ما بعد المعالجة التي غالبًا ما تسبب تباينًا في زمن الاستجابة ومشاكل في ضبط المعلمات الفائقة في النماذج القائمة على CNN.

ميزة المحول

تتفوق نماذج المحولات مثل RTDETRv2 في المشاهد المزدحمة حيث تتداخل الكائنات بشكل كبير. نظرًا لأنها تعالج سياق الصورة بالكامل بشكل شامل بدلاً من محلي، فهي أقل عرضة لمشاكل الحجب التي غالبًا ما تربك أجهزة الكشف القائمة على التحويل.

YOLOv6.0: المتخصص الصناعي

YOLOv6.YOLOv6، الذي يشار إليه غالبًا باسم "YOLOv6 .0: A Full-Scale Reloading"، مصمم خصيصًا للتطبيقات الصناعية التي تتميز بتوحيد الأجهزة وحيث الإنتاجية هي العامل الأهم. وقد طوره فريق الرؤية في Meituan، ويمنح الأولوية للأداء على وحدات معالجة الرسومات NVIDIA T4 باستخدام TensorRT.

  • المؤلفون: تشوي لي، لولو لي، ييفي جينغ، هونغليانغ جيانغ، وآخرون.
  • المؤسسة:Meituan
  • التاريخ: 13 يناير 2023
  • روابط:Arxiv | GitHub

تعرف على المزيد حول YOLOv6

البنية التقنية

يستخدم YOLOv6.YOLOv6 بنية قائمة على شبكة CNN بحتة تعمل على تحسين مفهوم العمود الفقري "EfficientRep".

  1. RepBi-PAN: شبكة تجميع مسارات ثنائية الاتجاه (Bi-PAN) معززة بكتل من نوع RepVGG. تسمح هذه البنية للنموذج بالحصول على تفرعات معقدة أثناء التدريب، ولكنها تندمج في مكدس بسيط وسريع من التلافيف 3x3 أثناء الاستدلال.
  2. التدريب بمساعدة المرجع (AAT): استراتيجية مختلطة تهدف إلى تثبيت التدريب من خلال إعادة إدخال تلميحات قائمة على المرجع في إطار عمل خالٍ من المرجع، مما يؤدي إلى زيادة طفيفة في سرعة التقارب والدقة النهائية.
  3. الوعي بالتكمية: تم تصميم البنية خصيصًا لتكون متوافقة مع التكمية، مما يتيح الحد الأدنى من فقدان الدقة عند التحويل إلى دقة INT8 لتحقيق سرعات فائقة على وحدات معالجة الرسومات (GPU) المتطورة.

الاختلافات الجوهرية وحالات الاستخدام

1. السياق العالمي مقابل السمات المحلية

يتميز RTDETRv2 بفهمه للمشاهد المعقدة. إذا كان تطبيقك يتضمن تحديد العلاقات بين الأجسام البعيدة أو التعامل مع حالات الحجب الشديد (مثل عد الأشخاص في ملعب مزدحم)، فإن آلية الانتباه الذاتي للمحول توفر ميزة واضحة. YOLOv6. YOLOv6 يعتمد على التلافيف، فعال للغاية في اكتشاف الميزات المحلية، ولكنه قد يواجه صعوبة أكبر قليلاً في حالات التداخل الشديد مقارنة بالمحولات NMS.

2. الاعتماد على الأجهزة

YOLOv6.0 هو تصميم "مدرك للأجهزة". يمكن تحقيق أرقام FPS المذهلة الخاصة به على NVIDIA محددة (مثل T4) باستخدام TensorRT. على وحدات المعالجة المركزية العامة أو وحدات المعالجة العصبية المحمولة، قد تقل مزايا أدائه مقارنة بالنماذج المُحسّنة لتلك المنصات، مثل YOLOv10 أو YOLO11. على الرغم من أن RTDETRv2 أكثر تعقيدًا من الناحية الحسابية بسبب آليات الانتباه، إلا أنه يوفر أداءً متسقًا عبر المنصات بفضل خط أنابيب أبسط NMS.

3. التدريب والنشر

يعمل RTDETRv2 على تبسيط خطوط أنابيب النشر عن طريق إزالة NMS . وهذا يعني أن ناتج النموذج هو النتيجة النهائية — دون الحاجة إلى وضع عتبة أو فرز في كود المعالجة اللاحقة. يتطلب YOLOv6. YOLOv6 NMS قياسيًا، والذي يمكن أن يصبح عنق زجاجة في سيناريوهات FPS العالية إذا لم يتم تحسينه بشكل كبير في C++ أو CUDA.

ميزة Ultralytics

بينما يقدم RTDETRv2 و YOLOv6. YOLOv6 ميزات جذابة لمجالات محددة، إلا أن دمجها في سير عمل الإنتاج قد يكون صعبًا بسبب اختلاف قواعد البرمجة وتصميمات واجهة برمجة التطبيقات. يعمل Ultralytics على توحيد هذه البنى القوية تحت Python واحدة ومبسطة.

لماذا تختار Ultralytics؟

  • سهولة الاستخدام: قم بالتبديل بين بنى النماذج عن طريق تغيير سلسلة واحدة. قم بتدريب RT-DETR باستخدام نفس أمر التدريب الذي تستخدمه لـ YOLO.
  • متطلبات الذاكرة: تعمل Ultralytics على تقليل حجم VRAM بشكل كبير أثناء التدريب. وهذا أمر بالغ الأهمية بشكل خاص لنماذج المحولات مثل RT-DETR التي تستهلك بطبيعة الحال ذاكرة أكبر من CNNs.
  • تعدد الاستخدامات: يتجاوز Ultralytics حدود الكشف. يمكنك بسهولة الاستفادة من النماذج لتقدير الوضع، وتجزئة الحالات، و OBB في نفس البيئة.
  • نظام بيئي جيد الصيانة: استفد من الدعم النشط للمجتمع، والتحديثات المتكررة، والتكامل السلس مع أدوات مثل MLflow و TensorBoard.

مثال على التعليمات البرمجية

يمكن اختبار هذه النماذج بسهولة باستخدام Ultralytics Python . تتولى الحزمة تلقائيًا معالجة البيانات وتحميل النماذج.

from ultralytics import RTDETR, YOLO

# Load an RTDETR model (Standard or v2 via config)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLOv6 model
model_yolov6 = YOLO("yolov6l.pt")

# Run inference on an image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolov6 = model_yolov6("https://ultralytics.com/images/bus.jpg")

المضي قدماً: YOLO26

بالنسبة للمطورين الذين يبحثون عن التوازن المثالي بين السرعة والدقة والميزات المعمارية الحديثة، يمثل Ultralytics أحدث ما توصلت إليه التكنولوجيا. تم إصداره في يناير 2026، وهو يجمع بين أفضل جوانب عالم المحولات وعالم CNN.

يقدم YOLO26 تصميمًا أصليًا من طرف إلى طرف NMS يعكس بساطة RTDETRv2 ولكن مع كفاءة CNN الخفيفة الوزن. مدعومًا بمحسّن MuSGDالجديد — وهو هجين مستوحى من استقرار تدريب LLM — ويتميز بـ ProgLoss + STAL للكشف الفائق عن الأجسام الصغيرة، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بالأجيال السابقة.

تعرف على المزيد حول YOLO26

سواء كنت تفضل الدقة العالمية للمحولات أو الإنتاجية الأولية لشبكات CNN الصناعية، فإن Ultralytics تتيح لك استخدام الأداة المناسبة للمهمة بأقل قدر من الصعوبات.


تعليقات