YOLOv6-3.0 ضد RTDETRv2: مبارزة بين الشبكات العصبية التلافيفية الصناعية والمحولات ذات الوقت الفعلي

يتطلب اختيار البنية المثالية لتطبيقات الرؤية الحاسوبية موازنة دقيقة بين السرعة، والدقة، وقيود النشر. في هذا التحليل الفني الشامل، نقوم بمقارنة YOLOv6-3.0، وهي شبكة عصبية تلافيفية (CNN) بمستوى صناعي ومصممة لبيئات وحدات معالجة الرسومات (GPU) ذات الإنتاجية العالية، مقابل RTDETRv2، وهو نموذج متطور قائم على المحولات (Transformer) ويجلب آليات الانتباه إلى اكتشاف الكائنات في الوقت الفعلي.

على الرغم من أن كلا النموذجين يمثلان علامات فارقة في أبحاث الذكاء الاصطناعي، فإن المطورين الذين يبحثون عن خط أنابيب (pipeline) أكثر تنوعاً وكفاءة غالباً ما يتجهون إلى منصة Ultralytics القوية.


YOLOv6-3.0: الإنتاجية الصناعية

تم تطوير YOLOv6-3.0 بواسطة قسم رؤية الذكاء الاصطناعي في Meituan، ويركز بشكل كبير على زيادة سرعات المعالجة الخام على مسرعات الأجهزة مثل وحدات معالجة الرسومات NVIDIA، مما يعزز مكانته في التطبيقات الصناعية القديمة.

  • المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, وآخرون.
  • المؤسسة: Meituan
  • التاريخ: 2023-01-13
  • ArXiv: 2301.05586
  • GitHub: meituan/YOLOv6

أبرز ملامح البنية

تتبنى YOLOv6-3.0 بنية أساسية EfficientRep ملائمة للأجهزة ومصممة خصيصاً للاستنتاج عالي السرعة على وحدات معالجة الرسومات. تدمج البنية وحدة ربط ثنائية الاتجاه (BiC) في عنق النموذج لإثراء دمج الميزات عبر دقات مكانية مختلفة. أثناء التدريب، تستفيد من استراتيجية التدريب المعتمد على المرساة (AAT) لتسخير نقاط قوة التدريب المعتمد على المرساة مع الحفاظ على خط أنابيب استنتاج خالٍ من المراسي.

نقاط القوة والضعف

نقاط القوة:

  • إنتاجية استثنائية على أجهزة من فئة الخوادم مثل T4 وA100 GPU.
  • يوفر دروساً تعليمية متخصصة حول التكميم لنشر INT8 باستخدام RepOpt.
  • نسبة إيجابية بين عدد المعلمات والسرعة لتحليلات الفيديو واسعة النطاق.

نقاط الضعف:

  • هو في الأساس كاشف لصناديق الإحاطة (bounding box)؛ ويفتقر إلى تنوع المهام المتعددة الجاهز (مثل Pose، OBB) الموجود في نماذج مثل Ultralytics YOLO11.
  • اعتماد أكبر على خوارزمية كبح غير الأعظمية (NMS) المعقدة أثناء المعالجة اللاحقة، مما يزيد من تباين زمن الاستجابة (latency).
  • نظام بيئي أقل نشاطاً مقارنة بالأطر الرئيسية، مما يجعل التحديثات ودعم المجتمع أقل قابلية للتنبؤ.

اعرف المزيد عن YOLOv6


RTDETRv2: محولات الوقت الفعلي

بقيادة باحثين في Baidu، يعتمد RTDETRv2 على RT-DETR الأصلي من خلال تحسين إطار عمل محول الكشف بنهج "bag-of-freebies"، مما يحقق دقة متطورة دون التضحية بالقدرة على العمل في الوقت الفعلي.

  • المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
  • المنظمة: Baidu
  • التاريخ: 2024-07-24
  • ArXiv: 2407.17140
  • GitHub: lyuwenyu/RT-DETR

أبرز ملامح البنية

على عكس الشبكات العصبية التلافيفية التقليدية، يعمل RTDETRv2 بشكل أصلي من طرف إلى طرف (end-to-end). من خلال الاستفادة من طبقات انتباه المحولات، تلغي البنية تماماً الحاجة إلى المعالجة اللاحقة بواسطة NMS. وهذا يسمح بخط أنابيب استنتاج مبسط. يقدم RTDETRv2 دمجاً متقاطع النطاق للميزات محسناً للغاية ومشفراً هجيناً فعالاً، مما يسمح له بمعالجة مجموعات بيانات COCO القياسية بدقة ملحوظة.

نقاط القوة والضعف

نقاط القوة:

  • آليات الانتباه القائمة على المحولات تنتج متوسط دقة متوسط (mAP) استثنائياً، خاصة في المشاهد المعقدة أو الكثيفة.
  • التصميم الخالي من NMS يعمل على توحيد زمن استجابة الاستنتاج وتبسيط التكامل في بيئات الإنتاج.
  • ممتاز للسيناريوهات التي تتطلب أقصى درجات الدقة حيث تكون قيود الأجهزة في حدها الأدنى.

نقاط الضعف:

  • تتطلب طبقات المحولات ذاكرة CUDA كبيرة أثناء التدريب، مما يعزل الباحثين الذين لا يملكون إمكانية الوصول إلى وحدات معالجة رسومات عالية الأداء.
  • سرعات الاستنتاج على وحدة المعالجة المركزية (CPU) أبطأ بشكل ملحوظ مقارنة بالشبكات العصبية التلافيفية المتخصصة للحافة، مما يحد من استخدامها في الأجهزة المحمولة أو أجهزة إنترنت الأشياء (IoT).
  • يمكن أن يكون الإعداد والضبط معقداً للفرق المعتادة على عمليات تعلم الآلة (MLOps) التقليدية.

تعرف على المزيد حول RTDETR


مقارنة مفصلة للأداء

يقوم الجدول التالي بقياس أداء YOLOv6-3.0 وRTDETRv2 عبر مؤشرات الأداء الرئيسية. لاحظ التباين الصارخ بين كفاءة المعلمات في YOLOv6 والدقة الخام في RTDETRv2.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
نصيحة للنشر

إذا كنت تقوم بالنشر على أجهزة تعتمد على وحدة المعالجة المركزية (CPU) حصراً مثل Raspberry Pi، فإن النماذج القائمة على الشبكات العصبية التلافيفية تتفوق بشكل عام بكثير على بنيات المحولات من حيث عدد الإطارات في الثانية (FPS). للحصول على أداء حافة مثالي، فكر في استخدام OpenVINO لتسريع الاستنتاج الخاص بك.


حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv6 وRT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv6

يعتبر YOLOv6 خياراً قوياً لـ:

  • النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة المعلمات الفعالة للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
  • الاكتشاف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستنتاج الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن كومة تقنيات Meituan وبنية النشر التحتية الخاصة بها.

متى تختار RT-DETR

يُوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics: دخول YOLO26

بينما يتفوق كل من YOLOv6-3.0 وRTDETRv2 في مجالاتهما المحددة، يتطلب مشهد تعلم الآلة الحديث نماذج تمزج بين السرعة والدقة وتجربة المطور. يلبي نظام Ultralytics البيئي هذه الاحتياجات تماماً، لا سيما مع إصدار YOLO26.

تم إصداره في يناير 2026، ويمثل Ultralytics YOLO26 المعيار النهائي للرؤية الحاسوبية، متفوقاً بشكل كبير على النماذج الأقدم مثل YOLOv8 والتفرعات المجتمعية مثل YOLO12.

لماذا يتفوق YOLO26 على المنافسين

  1. تصميم من طرف إلى طرف خالٍ من NMS: تم ريادته لأول مرة في YOLOv10، ويلغي YOLO26 المعالجة اللاحقة بواسطة NMS بشكل أصلي. وهذا يوفر بساطة النشر الخاصة بـ RTDETRv2 مع الحفاظ على سرعة فائقة للشبكة العصبية التلافيفية المحسنة للغاية.
  2. محسن MuSGD: مستوحى من ابتكارات النماذج اللغوية الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجاً هجيناً من SGD وMuon. وهذا يضمن ديناميكيات تدريب مستقرة بشكل لا يصدق وتقارباً سريعاً، مما يقلل الوقت وموارد الحوسبة المطلوبة لمجموعات البيانات المخصصة.
  3. أداء حافة لا مثيل له: من خلال تنفيذ إزالة DFL كاملة (Distribution Focal Loss)، يبسط YOLO26 بنيات التصدير. يؤدي هذا التحسين إلى استنتاج على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43% مقارنة بالنماذج القديمة، مما يجعله البطل بلا منازع لأجهزة الحافة (Edge AI) وإنترنت الأشياء (IoT).
  4. تحسين اكتشاف الكائنات الصغيرة: يوفر إدخال وظائف خسارة ProgLoss وSTAL قفزة هائلة في اكتشاف الكائنات الصغيرة - وهو مطلب حيوي لتحليلات الطائرات بدون طيار والصور الجوية التي عانت منها YOLOv6 تاريخياً.
  5. تنوع المهام: على عكس YOLOv6، الذي يركز حصراً على الاكتشاف، يدعم YOLO26 سير العمل متعدد الوسائط بما في ذلك تجزئة الكائنات، تقدير الوضعية، تصنيف الصور، وصندوق الإحاطة الموجه (OBB) - كل ذلك من خلال API موحد وشامل.

اعرف المزيد عن YOLO26

كفاءة التدريب وسهولة الاستخدام

تم تصميم Ultralytics Python API لزيادة إنتاجية المطورين إلى الحد الأقصى. يمكنك الانتقال من التدريب إلى النشر في بضعة أسطر فقط من الكود، متجاوزاً تماماً إعداد البيئة المعقد المطلوب بواسطة مستودعات الأبحاث المستقلة.

فيما يلي مثال كامل وقابل للتشغيل حول كيفية تدريب والتحقق من نموذج YOLO26 متطور باستخدام حزمة Ultralytics:

from ultralytics import YOLO

# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)

# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")

# Export the trained model to ONNX for production deployment
model.export(format="onnx")

خاتمة

يعتبر كل من YOLOv6-3.0 وRTDETRv2 مساهمات مثيرة للإعجاب في مجتمع الذكاء الاصطناعي. يظل YOLOv6-3.0 أداة قوية للأتمتة الصناعية القائمة على وحدات معالجة الرسومات الخام، ويثبت RTDETRv2 أن بنيات المحولات يمكنها تحقيق زمن استجابة في الوقت الفعلي مع زيادة الدقة إلى الحد الأقصى.

ومع ذلك، بالنسبة للفرق التي تتطلب إطار عمل موثوقاً وجاهزاً للإنتاج مع دعم مجتمعي نشط، فإن نماذج Ultralytics YOLO هي الخيار الأفضل باستمرار. التكامل السلس مع منصات مثل Hugging Face وTensorRT، جنباً إلى جنب مع انخفاض استهلاك الذاكرة بشكل لا يصدق أثناء التدريب، يجعل الوصول إلى الذكاء الاصطناعي عالي الجودة ديمقراطياً. من خلال الترقية إلى YOLO26، يمكن للمطورين الاستفادة من محسن MuSGD الرائد والبنية الخالية من NMS لبناء خطوط أنابيب رؤية حاسوبية أسرع وأذكى وأكثر قابلية للتوسع.

تعليقات