تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv6.0: تقييم المحولات في الوقت الحقيقي مقابل شبكات CNN الصناعية

يتطور مجال الرؤية الحاسوبية باستمرار، مما يوفر للمطورين عددًا لا يحصى من الخيارات المعمارية لاكتشاف الأجسام. هناك نموذجان بارزان يمثلان نهجين متباينين هما RTDETRv2، وهو محول رؤية متطور، و YOLOv6.YOLOv6، وهو شبكة عصبية تلافيفية (CNN) محسّنة للغاية ومصممة خصيصًا للتطبيقات الصناعية.

تستكشف هذه المقارنة التقنية الشاملة البنى الهندسية لكل منهما ومقاييس الأداء وسيناريوهات النشر المثالية. سنقوم أيضًا بفحص كيف يوفر Ultralytics الأوسع نطاقًا تجربة مطورين فائقة الجودة، مع التطلع في النهاية إلى إمكانات الجيل التالي من Ultralytics .

RTDETRv2: نهج محول الرؤية

تم تطوير RTDETRv2 من قبل باحثين في Baidu، وهو يعتمد على أساس RT-DETR الأصلي، ويمثل قفزة كبيرة إلى الأمام في مجال الكشف عن الكائنات باستخدام المحولات.

  • المؤلفون: وينيو لوف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
  • المنظمة: Baidu
  • التاريخ: 2024-07-24
  • Arxiv: 2407.17140
  • GitHub: RT-DETR
  • المستندات: RTDETRv2 GitHub README

أبرز الملامح المعمارية

يستخدم RTDETRv2 بنية هجينة تجمع بين مستخرج ميزات CNN ومفكك محول قوي. السمة الأكثر تميزًا لهذا النموذج هي تصميمه NMS. من خلال التخلص من Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة، يتنبأ النموذج بمربعات الحدود مباشرةً، مما يبسط النشر ويثبت زمن الاستدلال.

تعزز "حقيبة الهدايا المجانية" المدمجة في RTDETRv2 قدرتها على التعامل مع المشاهد المعقدة والأجسام المتداخلة، حيث أن آليات الانتباه الشاملة تفهم العلاقات المكانية بشكل أفضل من التلافيف الموضعية.

استخدام ذاكرة المحولات (Transformer)

على الرغم من أن المحولات تتفوق في فهم المشاهد المعقدة، إلا أنها تتطلب عادةً CUDA أعلى بكثير أثناء التدريب مقارنةً بشبكات CNN. وهذا قد يحد من أحجام الدفعات على وحدات معالجة الرسومات القياسية للمستهلكين ويزيد من الوقت الإجمالي للتدريب.

تعرف على المزيد حول RTDETR

YOLOv6.0: تعظيم الإنتاجية الصناعية

نشأ YOLOv6. YOLOv6 في قسم Vision AI في Meituan، وقد تم تصميمه خصيصًا ليكون جهاز كشف من الجيل التالي للأنابيب الصناعية حيث يعتبر GPU أمرًا بالغ الأهمية.

  • المؤلفون: تشوي لي، لولو لي، ييفي جينغ، هونغليانغ جيانغ، مينغ تشينغ، بو تشانغ، زيدان كي، شياومينغ شو، وشيانغشيانغ تشو
  • المنظمة: Meituan
  • التاريخ: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: YOLOv6

التركيز المعماري

يعتمد YOLOv6.YOLOv6 على هيكل EfficientRep، المصمم بدقة لتقليل تكاليف الوصول إلى الذاكرة على مسرعات الأجهزة مثل NVIDIA . تتميز بنية العنق بوحدة تسلسل ثنائية الاتجاه (BiC) لتحسين دمج الميزات عبر مستويات مختلفة.

أثناء التدريب، يستخدم استراتيجية التدريب المدعوم بالمرساة (AAT) للاستفادة من النماذج القائمة على المراسي مع الحفاظ على وضع استدلال خالٍ من المراسي لتنفيذ أسرع. على الرغم من أنه يحقق إنتاجية استثنائية على وحدات معالجة الرسومات (GPU) من فئة الخوادم (مثل T4 و A100)، إلا أن بنيته المتخصصة يمكن أن تؤدي إلى زمن انتقال أقل من الأمثل عند نشره على أجهزة حافة CPU.

تعرف على المزيد حول YOLOv6

مقارنة الأداء

عند تقييم نماذج الإنتاج، من الضروري تحقيق التوازن بين الدقة (mAP) وسرعة الاستدلال والتكلفة الحسابية (FLOPs). يوضح الجدول أدناه كيفية مقارنة هذه النماذج ببعضها البعض.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

بينما يهيمن YOLOv6. YOLOv6 على سرعة المعالجة المطلقة على TensorRT يحقق RTDETRv2 mAP أعلى، لا سيما أنه يتكيف بشكل أفضل مع المتغيرات الأكبر للنموذج. ومع ذلك، يفتقر كلا النموذجين إلى التنوع الواسع الموجود في الأطر الموحدة الحديثة. YOLOv6. YOLOv6 هو في المقام الأول متخصص في الكشف، ويفتقر إلى الدعم الأصلي لمهام مثل تقسيم الحالات وتقدير الوضع الجاهز.

حالات الاستخدام والتوصيات

YOLOv6 الاختيار بين RT-DETR YOLOv6 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار RT-DETR

RT-DETR خيار قوي لـ:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
  • سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
  • كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.

متى تختار YOLOv6

YOLOv6 في الحالات التالية:

  • النشر الصناعي المراعي للأجهزة: سيناريوهات يوفر فيها تصميم النموذج المراعي للأجهزة وإعادة تحديد المعلمات بكفاءة أداءً محسّنًا على أجهزة مستهدفة محددة.
  • الكشف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الأولي على GPU الفيديو في الوقت الفعلي في البيئات الخاضعة للرقابة.
  • تكامل نظام Meituan البيئي: فرق تعمل بالفعل ضمن مجموعة تقنيات Meituan وبنيتها التحتية للنشر.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

ميزة Ultralytics

لا يقتصر اختيار النموذج المناسب على الأرقام المرجعية الأولية فحسب؛ بل إن خبرة المطورين ومرونة النشر ودعم النظام البيئي عوامل لا تقل أهمية. من خلال استخدام النماذج المدمجة في Ultralytics يحصل المستخدمون على مزايا كبيرة مقارنة بمستودعات الأبحاث الثابتة.

  • سهولة الاستخدام: في ultralytics توفر Python واجهة برمجة تطبيقات سلسة. لا يتطلب تدريب النماذج والتحقق من صحتها وتصديرها سوى بضع أسطر من التعليمات البرمجية.
  • نظام بيئي جيد الصيانة: على عكس المستودعات الأكاديمية المعزولة، يتم تحديث Ultralytics بشكل نشط. وهي تتميز بدمج قوي لأدوات مثل ONNXو OpenVINOو CoreML.
  • كفاءة التدريب: عادةً ما تستهلك Ultralytics ذاكرة VRAM أقل بكثير أثناء التدريب مقارنةً بهياكل المحولات مثل RTDETRv2، مما يسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية.
  • تعدد الاستخدامات: على عكس النطاق المحدد لـ YOLOv6.0، فإن Ultralytics متعددة الوسائط، وتدعم بشكل أساسي تصنيف الصور، والمربعات المحددة (OBB)، والتجزئة ضمن إطار عمل موحد واحد.

نشر مبسط

باستخدام Ultralytics CLI، يصبح تصدير نموذج مدرب لنشره على الحافة أمرًا بسيطًا مثل تشغيل: yolo export model=yolo11n.pt format=tensorrt.

أدخل YOLO26: الحل النهائي

في حين أن RTDETRv2 و YOLOv6. YOLOv6 يقدمان مزايا محددة، إلا أن هذا المجال يتطور بسرعة. بالنسبة للفرق التي تبدأ مشاريع جديدة في مجال الرؤية الحاسوبية، نوصي بشدة باستخدام YOLO26، الذي أطلقته Ultralytics يناير 2026.

يجمع YOLO26 بين نقاط القوة في شبكات CNN الصناعية والمحولات الحديثة مع التخلص من نقاط الضعف في كل منهما:

  • تصميم شامل NMS: اعتماد الاختراق الذي تم تقديمه لأول مرة في YOLOv10، يلغي YOLO26 NMS بشكل أصلي، مما يضمن نشرًا مستقرًا ويمكن التنبؤ به مشابهًا لـ RTDETRv2 ولكن مع تكلفة أقل بكثير.
  • MuSGD Optimizer: مستوحى من تقنيات التدريب المتقدمة LLM (مثل Moonshot AI's Kimi K2)، يضمن هذا المحسن الهجين تدريبًا مستقرًا وتقاربًا أسرع، متغلبًا على عدم الاستقرار الشهير لمحولات الرؤية التقليدية.
  • مُحسّن لـ Edge: بفضل CPU أسرع بنسبة تصل إلى 43% مقارنة بالأجيال السابقة وإزالة Distribution Focal Loss (DFL) بشكل استراتيجي، يُعد YOLO26 مناسبًا تمامًا للأجهزة المحمولة وأجهزة إنترنت الأشياء التي لا تتوفر فيها GPU .
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو تحدٍ تاريخي لشبكات CNN، مما يجعل YOLO26 مثالية للصور الجوية والروبوتات.

مثال تدريبي

تتيح لك Ultralytics البديهية تدريب النماذج المتطورة بسلاسة. فيما يلي مثال قابل للتشغيل يوضح كيفية تدريب نموذج YOLO26 Nano على COCO8 :

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

ملخص

عند مقارنة RTDETRv2 و YOLOv6. YOLOv6، يعتمد القرار إلى حد كبير على الأجهزة المحددة وقيود زمن الاستجابة. يتفوق RTDETRv2 في بيئات البحث والمعالجة من جانب الخادم حيث يكون التعامل مع الكائنات المتداخلة المعقدة أمرًا بالغ الأهمية. يظل YOLOv6. YOLOv6 خيارًا قويًا لخطوط الإنتاج عالية الإنتاجية المزودة NVIDIA القوية.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أفضل ما في العالمين - الجمع بين أناقة المحولات NMS والسرعة الفائقة واستهلاك الذاكرة المنخفض لشبكات CNN - فإنYOLO26 لا مثيل لها. بدعم من الوثائق الشاملة والمجتمع النشط Ultralytics ، تضمن YOLO26 أن تكون مشاريع الرؤية الاصطناعية الخاصة بك قوية وقابلة للتطوير ومستقبلية.


تعليقات