تخطي إلى المحتوى

RTDETRv2 مقابل YOLO26: مقارنة تقنية شاملة

لقد تطور مجال الكشف عن الأجسام في الوقت الفعلي بشكل كبير، حيث يواصل الباحثون تخطي حدود السرعة والدقة وكفاءة النشر. اثنان من أبرز البنى التي تقود هذا المجال حاليًا هما RTDETRv2 القائم على المحولات والشبكة العصبية التلافيفية (CNN) المتطورة Ultralytics . يقدم هذا الدليل تحليلًا متعمقًا لبنى هذين النموذجين ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج المناسب لمشروع الرؤية الحاسوبية التالي.

RTDETRv2: محولات الكشف في الوقت الحقيقي

RTDETRv2 مبني على النسخة الأصلية RT-DETR الأصلي، بهدف الجمع بين الوعي بالسياق العالمي لمحولات الرؤية والسرعة المطلوبة للتطبيقات في الوقت الفعلي.

الخصائص الرئيسية:

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • الروابط:Arxiv, GitHub, الوثائق

الهيكلة ونقاط القوة

على عكس أجهزة الكشف التقليدية القائمة على المراسي، يستفيد RTDETRv2 من نهج قائم على المحولات يزيل بشكل أساسي الحاجة إلى القمع غير الأقصى (NMS) أثناء المعالجة اللاحقة. من خلال استخدام آلية انتباه مرنة، يتميز النموذج بفعالية عالية في فهم المشاهد المعقدة والأجسام المتداخلة. وقد أدت تحسينات "Bag-of-Freebies" إلى تعزيز دقته بشكل كبير على COCO مع الحفاظ على سرعات استدلال مقبولة على وحدات معالجة الرسومات (GPU) المتطورة.

القيود

على الرغم من أن RTDETRv2 يحقق نتائج أكاديمية مبهرة، إلا أنه غالبًا ما يطرح تحديات في بيئات الإنتاج. تتطلب بنى المحولات بطبيعتها استخدامًا أعلى للذاكرة أثناء التدريب والاستدلال مقارنة بشبكات CNN. وهذا قد يجعل النشر على أجهزة الذكاء الاصطناعي الطرفية المحدودة الموارد أمرًا صعبًا. بالإضافة إلى ذلك، يتطلب تدريب المحولات عادةً أحجام دفعات أكبر CUDA أكبر، مما قد يشكل عائقًا للباحثين الذين لديهم أجهزة محدودة.

تعرف على المزيد حول RTDETRv2

YOLO26: قمة الذكاء الاصطناعي للرؤية التي تركز على الحافة

تم إصدار Ultralytics في أوائل عام 2026، وهو يعيد تعريف الإمكانيات المتاحة باستخدام الكشف عن الكائنات القائم على شبكات CNN. ويشتمل على تحسينات متطورة مصممة خصيصًا لنشر الإنتاج السلس وكفاءة الأجهزة القصوى.

الخصائص الرئيسية:

إنجازات معمارية

يقدم YOLO26 العديد من الميزات الثورية التي تحل المشكلات الشائعة في نشر النماذج:

  • تصميم شامل خالٍ من NMS: استنادًا إلى المفاهيم الرائدة في YOLOv10، يتميز YOLO26 بتصميم شامل أصيل. من خلال إزالة معالجة ما بعد NMS، فإنه يقلل بشكل كبير من تباين زمن الانتقال، مما يضمن أوقات استدلال يمكن التنبؤ بها بدرجة عالية في الإنتاج.
  • استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال التحسينات المعمارية الاستراتيجية وإزالة Distribution Focal Loss (DFL)، يحقق YOLO26 سرعات CPU غير مسبوقة، مما يجعله الخيار الأول لـالحوسبة الطرفية بدون وحدات GPU مخصصة.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسِّن MuSGD (وهو مزيج من SGD و Muon). يضمن هذا عمليات تدريب مستقرة للغاية وتقاربًا سريعًا بشكل لا يصدق.
  • ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات رائعة في التعرف على الأجسام الصغيرة، وهي ترقية أساسية للتطبيقات التي تتضمن التصوير الجوي والمراقبة بواسطة الطائرات بدون طيار.

تحسينات محددة للمهام في YOLO26

بالإضافة إلى الكشف القياسي، يتميز YOLO26 بتحسينات متخصصة: فقدان التجزئة الدلالية والنموذج الأولي متعدد المقاييس لـ مهام التجزئة، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير الوضعية، وفقدان زاوية مخصص لحل مشكلات الحدود في الكشف عن صناديق الإحاطة الموجهة (OBB).

تعرف على المزيد حول YOLO26

مقارنة الأداء

عند تقييم هذه النماذج، من الضروري تحقيق توازن قوي في الأداء بين الدقة (mAP) والكفاءة الحسابية. يوضح الجدول أدناه كيف يتفوق YOLO26 باستمرار على RTDETRv2 عبر مختلف المتغيرات الحجمية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

كما هو موضح أعلاه، يحقق نموذج YOLO26x قيمة mAP تبلغ 57.5، متجاوزًا بشكل كبير نموذج RTDETRv2-x مع استخدام عدد أقل من المعلمات والحفاظ على سرعة استدلال أسرع باستخدام TensorRT. علاوة على ذلك، فإن متطلبات الذاكرة لـ YOLO26 أقل بشكل ملحوظ، مما يجعله الخيار الأمثل لعمليات النشر الطرفية في الوقت الفعلي.

النظام البيئي وسهولة الاستخدام

في حين أن الأداء الخام أمر بالغ الأهمية، فإن النظام البيئي المحيط يحدد مدى سرعة انتقال النموذج من مرحلة البحث إلى مرحلة الإنتاج. وهنا تكمن الميزة الفريدة التي توفرها Ultralytics .

نظام بيئي موحد ومُصان جيدًا

يعمل RTDETRv2 بشكل أساسي كمستودع على مستوى البحث العلمي، مما قد يتطلب إعدادات بيئية معقدة وكتابة نصوص برمجية يدوية للمهام المخصصة. على العكس من ذلك، يستفيد Ultralytics من Python ناضجة وخاضعة لاختبارات مكثفة. يوفر Ultralytics تجربة مستخدم مبسطة للغاية، حيث يقدم واجهة برمجة تطبيقات بسيطة للتدريب والتحقق والتنبؤ والتصدير.

مع تكاملات مدمجة لـ Weights & Biases و Comet أصبح تتبع التجارب سلسًا. علاوة على ذلك، تتميز Ultralytics بتنوعها الكبير؛ فبينما تركز RTDETRv2 على اكتشاف الكائنات، تدعم YOLO26 بشكل أساسي تقسيم الحالات وتقدير الوضع وتصنيف الصور ضمن نفس الإطار بالضبط.

مثال على التعليمات البرمجية: البساطة في العمل

تتيح Ultralytics للمطورين تحميل وتدريب وتشغيل الاستدلال باستخدام بضع أسطر من التعليمات البرمجية. وهذا يحسن كفاءة التدريب بشكل كبير ويقلل من وقت طرح المنتج في السوق.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display the YOLO26 results
results_yolo[0].show()

# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")

حالات الاستخدام والتوصيات

يعتمد الاختيار بين RT-DETR وYOLO26 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار RT-DETR

RT-DETR خيار قوي لـ:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
  • سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار YOLO26

يوصى باستخدام YOLO26 في الحالات التالية:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

استكشاف هياكل أخرى

بينما يمثل YOLO26 قمة الأداء الحالية، قد يجد المطورون أيضًا قيمة في استكشاف الإصدارات السابقة. النجاح الكبير الذي حققه YOLO11 نموذجًا قويًا ومدعومًا بالكامل لمجموعة متنوعة من الأنظمة القديمة. يمكنك التعمق أكثر في قدراته من خلال قراءة YOLO11 RTDETR و YOLO11 . بالإضافة إلى ذلك، إذا كنت تحلل بنى أقدم، فإن الاطلاع على مقارنة EfficientDet و YOLO26 يوفر سياقًا تاريخيًا رائعًا حول مدى التقدم الذي أحرزته بنى اكتشاف الكائنات.

أفكار أخيرة

يقدم كل من RTDETRv2 وYOLO26 تقدمًا لا يصدق في مجال الذكاء الاصطناعي. ومع ذلك، بالنسبة للفرق التي تعطي الأولوية للانتقال السلس إلى الإنتاج، وبصمة الذاكرة الدنيا، وتعدد استخدامات المهام الواسع، فإن Ultralytics YOLO26 هو التوصية الواضحة. تضمن بنيته الخالية من NMS، وسرعات CPU العالية، ودعم نظام Ultralytics البيئي القوي أن تظل مشاريع الذكاء الاصطناعي الخاصة بالرؤية قابلة للتطوير وفعالة ومقاومة للمستقبل. سواء تم النشر على خادم سحابي أو جهاز Raspberry Pi محدود الموارد، يقدم YOLO26 أداءً لا هوادة فيه فور الاستخدام.


تعليقات