RTDETRv2 مقابل YOLOv6-3.0: تقييم محولات الرؤية في الوقت الفعلي مقابل الشبكات العصبية التلافيفية الصناعية

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، مما يضع المطورين أمام عدد لا يحصى من الخيارات المعمارية لاكتشاف الكائنات. نموذجان بارزان يمثلان نهجين متباينين هما RTDETRv2، وهو محول رؤية متطور، وYOLOv6-3.0، وهي شبكة عصبية تلافيفية (CNN) عالية التحسين مصممة خصيصاً للتطبيقات الصناعية.

تستكشف هذه المقارنة الفنية الشاملة هياكلها المعمارية، ومقاييس الأداء، وسيناريوهات النشر المثالية. كما سنفحص كيف يوفر نظام Ultralytics البيئي تجربة مطور فائقة، مع نظرة مستقبلية على إمكانيات الجيل القادم من Ultralytics YOLO26.

RTDETRv2: نهج محول الرؤية

تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على أساس RT-DETR الأصلي، ويمثل قفزة كبيرة إلى الأمام في اكتشاف الكائنات القائم على المحولات.

أبرز الخصائص المعمارية

يستخدم RTDETRv2 بنية هجينة تجمع بين مستخرج ميزات CNN ووحدة فك ترميز محول قوية. السمة الأكثر تميزاً لهذا النموذج هي تصميمه الذي لا يعتمد على NMS بشكل طبيعي. من خلال التخلص من كبت غير الأقصى (NMS) أثناء المعالجة اللاحقة، يتنبأ النموذج بصناديق الإحاطة مباشرة، مما يبسط النشر ويستقر زمن انتقال الاستدلال.

تعمل "مجموعة الميزات المجانية" (Bag-of-Freebies) المدمجة في RTDETRv2 على تعزيز قدرته على التعامل مع المشاهد المعقدة والكائنات المتداخلة، حيث تفهم آليات الانتباه العالمية العلاقات المكانية بشكل أفضل من التلافيف الموضعية.

استهلاك ذاكرة المحولات

بينما تتفوق المحولات في فهم المشاهد المعقدة، فإنها تتطلب عادةً ذاكرة CUDA أكبر بكثير أثناء التدريب مقارنة بـ CNNs. يمكن أن يحد هذا من أحجام الدُفعات (batch sizes) على وحدات معالجة الرسومات (GPUs) الاستهلاكية القياسية ويزيد من وقت التدريب الإجمالي.

تعرف على المزيد حول RTDETR

YOLOv6-3.0: تعظيم الإنتاجية الصناعية

نشأ YOLOv6-3.0 في قسم الذكاء الاصطناعي للرؤية في Meituan، وقد تم تصميمه صراحةً ليكون كاشفاً من الجيل التالي لخطوط الإنتاج الصناعية حيث تعتبر إنتاجية GPU أمراً بالغ الأهمية.

  • المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
  • المنظمة: Meituan
  • التاريخ: 2023-01-13
  • Arxiv: 2301.05586
  • GitHub: meituan/YOLOv6

التركيز المعماري

يعتمد YOLOv6-3.0 على هيكل EfficientRep، المصمم بدقة لتقليل تكاليف الوصول إلى الذاكرة على مسرعات الأجهزة مثل NVIDIA GPUs. تتميز معمارية العنق بوحدة تسلسل ثنائية الاتجاه (BiC) لتحسين دمج الميزات عبر المقاييس المختلفة.

أثناء التدريب، يستخدم استراتيجية التدريب بمساعدة المرساة (AAT) للاستفادة من النماذج القائمة على المرساة مع الحفاظ على وضع استدلال خالٍ من المرساة لتنفيذ أسرع. بينما يحقق إنتاجية استثنائية على وحدات معالجة الرسومات من فئة الخوادم (مثل T4, A100)، يمكن أن تؤدي بنيته المتخصصة إلى زمن انتقال غير مثالي عند نشره على أجهزة الحافة التي تعمل بوحدة معالجة مركزية (CPU) فقط.

اعرف المزيد عن YOLOv6

مقارنة الأداء

عند تقييم النماذج للإنتاج، فإن الموازنة بين الدقة (mAP) وسرعة الاستدلال والتكلفة الحسابية (FLOPs) أمر بالغ الأهمية. يوضح الجدول أدناه كيفية مقارنة هذه النماذج ببعضها البعض.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

بينما يهيمن YOLOv6-3.0 في سرعة المعالجة المطلقة على TensorRT، يحقق RTDETRv2 درجات mAP أعلى، خاصة مع توسيع نطاق متغيرات النموذج الأكبر. ومع ذلك، يفتقر كلا النموذجين إلى التنوع الواسع الموجود في الأطر الموحدة الحديثة. YOLOv6-3.0 هو في الأساس متخصص في الاكتشاف، ويفتقر إلى دعم أصلي لمهام مثل تجزئة الكائنات وتقدير الوضع بشكل جاهز.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين RT-DETR و YOLOv6 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار RT-DETR

يعد RT-DETR خياراً قوياً لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

متى تختار YOLOv6

يوصى بـ YOLOv6 لـ:

  • النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة المعلمات الفعالة للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
  • الاكتشاف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستنتاج الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن كومة تقنيات Meituan وبنية النشر التحتية الخاصة بها.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics

يتضمن اختيار النموذج الصحيح أكثر من مجرد أرقام قياس أساسية؛ إذ تعد تجربة المطور ومرونة النشر ودعم النظام البيئي أموراً حاسمة بنفس القدر. من خلال استخدام النماذج المدمجة ضمن منصة Ultralytics، يكتسب المستخدمون مزايا كبيرة مقارنة بمستودعات الأبحاث الثابتة.

  • سهولة الاستخدام: توفر حزمة ultralytics بلغة Python واجهة برمجة تطبيقات (API) سلسة. يتطلب تدريب النماذج والتحقق منها وتصديرها بضعة أسطر فقط من التعليمات البرمجية.
  • نظام بيئي مُصان جيداً: على عكس المستودعات الأكاديمية المعزولة، يتم تحديث منصة Ultralytics بشكل نشط. وهي تفتخر بتكامل قوي لأدوات مثل ONNX و OpenVINO و CoreML.
  • كفاءة التدريب: تستهلك نماذج Ultralytics عادةً ذاكرة VRAM أقل بكثير أثناء التدريب مقارنة بمعماريات المحولات مثل RTDETRv2، مما يسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية.
  • تعدد الاستخدامات: على عكس النطاق المحدود لـ YOLOv6-3.0، فإن نماذج Ultralytics متعددة الوسائط، وتدعم بشكل طبيعي تصنيف الصور وصناديق الإحاطة الموجهة (OBB) والتجزئة ضمن إطار عمل موحد واحد.
نشر مبسط

باستخدام Ultralytics CLI، فإن تصدير نموذج مدرب لنشر الحافة بسيط مثل تشغيل: yolo export model=yolo11n.pt format=tensorrt.

إليكم YOLO26: الحل الأمثل

بينما يقدم RTDETRv2 و YOLOv6-3.0 مزايا محددة، فإن المجال يتحرك بسرعة. بالنسبة للفرق التي تبدأ مشاريع رؤية حاسوبية جديدة، نوصي بشدة بـ YOLO26، الذي أصدرته Ultralytics في يناير 2026.

يجمع YOLO26 بين نقاط قوة الشبكات العصبية التلافيفية الصناعية والمحولات الحديثة مع القضاء على نقاط ضعف كل منهما:

  • تصميم شامل خالٍ من NMS: بتبني الاختراق الذي تم تقديمه لأول مرة في YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل طبيعي، مما يضمن نشراً مستقراً وقابلاً للتنبؤ يشبه RTDETRv2 ولكن مع قدر أقل بكثير من التكاليف العامة.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) المتقدمة (مثل Kimi K2 من Moonshot AI)، يضمن هذا المُحسِّن الهجين تدريباً مستقراً وتقارباً أسرع، متجاوزاً عدم الاستقرار المعروف لمحولات الرؤية التقليدية.
  • محسن للحافة: مع ما يصل إلى 43% أسرع في استدلال CPU مقارنة بالأجيال السابقة والإزالة الاستراتيجية لـ Distribution Focal Loss (DFL)، يعد YOLO26 مناسباً تماماً لأجهزة الهاتف المحمول و IoT حيث لا يتوفر تسريع GPU.
  • ProgLoss + STAL: تؤدي وظائف الخسارة المتقدمة هذه إلى تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو تحدٍ تاريخي للشبكات العصبية التلافيفية، مما يجعل YOLO26 مثالياً للتصوير الجوي والروبوتات.

مثال على التدريب

تسمح واجهة Ultralytics البرمجية البديهية بتدريب نماذج متطورة بسلاسة. أدناه مثال قابل للتشغيل يوضح كيفية تدريب نموذج YOLO26 Nano على مجموعة بيانات COCO8:

from ultralytics import YOLO

# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")

# Export the trained model to ONNX format for production
model.export(format="onnx")

ملخص

عند مقارنة RTDETRv2 و YOLOv6-3.0، يعتمد القرار إلى حد كبير على أجهزتك المحددة وقيود زمن الانتقال. يتألق RTDETRv2 في بيئات البحث ومعالجة جانب الخادم حيث يكون التعامل مع الكائنات المتداخلة المعقدة أمراً بالغ الأهمية. يظل YOLOv6-3.0 خياراً قوياً لخطوط التصنيع عالية الإنتاجية المجهزة بوحدات NVIDIA GPU قوية.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أفضل ما في العالمين—الجمع بين أناقة المحولات الخالية من NMS والسرعة الفائقة وبصمة الذاكرة المنخفضة للشبكات العصبية التلافيفية—فإن YOLO26 لا مثيل له. بدعم من التوثيق الشامل والمجتمع النشط لـ نظام Ultralytics البيئي، يضمن YOLO26 أن مشاريع الرؤية الحاسوبية الخاصة بك قوية وقابلة للتوسع ومستعدة للمستقبل.

تعليقات