تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv10: مقارنة بين هياكل الكشف في الوقت الفعلي

في عالم الرؤية الحاسوبية سريع التطور، يستمر السعي لتحقيق التوازن الأمثل بين الدقة والسرعة والكفاءة في دفع عجلة الابتكار. وهناك بنية أساسية مهمة شكلت محور المناقشات الأخيرة وهي RT-DETRv2 و YOLOv10. يهدف كلا النموذجين إلى حل التحدي طويل الأمد المتمثل في الكشف عن الكائنات في الوقت الفعلي، ولكنهما يتعاملان مع هذا التحدي من منظورين مختلفين تمامًا من حيث البنية: المحولات مقابل الابتكارات القائمة على شبكات CNN.

تستكشف هذه المقارنة الفنية هياكلها ومقاييس أدائها وحالات الاستخدام المثالية لمساعدة المطورين والباحثين على اختيار الأداة المناسبة لتطبيقاتهم المحددة.

جدول المقارنة

يوضح الجدول التالي مؤشرات الأداء الرئيسية في COCO . تشير القيم المكتوبة بالخط العريض إلى أفضل أداء في كل فئة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

RTDETRv2: تحسين المحول في الوقت الفعلي

يعتمد RT-DETRv2 محول الكشف في الوقت الحقيقي الإصدار 2) على نجاح RT-DETR الأصلي، الذي كان أول كاشف قائم على المحولات ينافس بصدق سرعة النماذج القائمة على CNN مثل YOLOv8.

الهيكلة والابتكار

RT-DETRv2 بالقوة الأساسية للمحولات: القدرة على نمذجة السياق العام عبر الصورة، وهو أمر مفيد بشكل خاص للكشف عن الكائنات في المشاهد المعقدة والمزدحمة. على عكس شبكات CNN التقليدية التي تعتمد على الحقول الاستقبالية المحلية، RT-DETRv2 مشفرًا هجينًا يعالج الميزات متعددة المقاييس بكفاءة.

من الميزات الرئيسية للتحديث v2 إدخال آلية أخذ عينات منفصلة تتيح أخذ عينات أكثر مرونة من الشبكة، مما يزيد من تحسين التوازن بين السرعة والدقة. يلغي النموذج الحاجة إلى عدم القمع الأقصى (NMS) من خلال التنبؤ بمجموعة من الكائنات مباشرة، مما يبسط عملية المعالجة اللاحقة.

استخدام ذاكرة المحولات (Transformer)

على الرغم من أن المحولات تتفوق في السياق العالمي، إلا أنها تتطلب عادةً GPU أكبر بكثير أثناء التدريب مقارنةً بشبكات CNN. قد يجد المستخدمون الذين لديهم أجهزة محدودة صعوبة في تدريب RTDETRv2 مقارنةً YOLO الأخف وزناً.

الأداء

RT-DETRv2 بدقة استثنائية، وغالبًا ما يتفوق على YOLO ذات الحجم المماثل في COCO . وهو قوي بشكل خاص في السيناريوهات التي تتطلب دقة عالية ومقاومة للانسداد. ومع ذلك، غالبًا ما تأتي هذه الدقة على حساب متطلبات حسابية أعلى، مما يجعلها أقل ملاءمة للنشر على الحافة CPU فقط مقارنةًYOLO Ultralytics YOLO .

تعرف على المزيد حول RT-DETR

YOLOv10: تطور شبكة CNN من البداية إلى النهاية

YOLOv10 تحولًا كبيرًا في YOLO من خلال إدخال التدريب NMS إلى بنية CNN التقليدية. هذا الابتكار يسد الفجوة بين بساطة CNNs وقدرات المحولات من طرف إلى طرف.

الهيكلة والابتكار

YOLOv10 استراتيجية مهام مزدوجة متسقة للتدريب NMS. أثناء التدريب، يستخدم النموذج مهام تسمية واحد إلى عدة وواحد إلى واحد. وهذا يسمح للنموذج بالاستفادة من إشارات الإشراف الغنية مع ضمان أنه، أثناء الاستدلال، يتنبأ بمربع واحد فقط لكل كائن.

بالإضافة إلى ذلك، تتميز البنية بتصميم شامل قائم على الكفاءة والدقة. ويشمل ذلك رؤوس تصنيف خفيفة الوزن وتقليل الدقة المكانية المنفصلة عن القناة، مما يقلل من الحمل الحسابي (FLOPs) وعدد المعلمات.

الأداء

YOLOv10 بزمن استجابة استنتاجيYOLOv10 . من خلال إزالة NMS يحقق تباينًا أقل في زمن الاستجابة، وهو أمر بالغ الأهمية للتطبيقات في الوقت الفعلي مثل القيادة الذاتية. توفر المتغيرات الأصغر، مثل YOLOv10n و YOLOv10s، سرعة مذهلة على الأجهزة الطرفية، مما يجعلها فعالة للغاية في البيئات المحدودة الموارد.

تعرف على المزيد حول YOLOv10

الاختلافات الجوهرية وحالات الاستخدام

1. البنى الهندسية NMS

يدعي كلا النموذجين قدرات "من طرف إلى طرف"، لكنهما يحققان ذلك بطرق مختلفة. RT-DETRv2 الآلية المتأصلة القائمة على الاستعلام للمحولات لتوقع الكائنات الفريدة. YOLOv10 ذلك من خلال استراتيجية تدريب جديدة مطبقة على العمود الفقري لشبكة CNN. وهذا يجعل YOLOv10 أسرع YOLOv10 على الأجهزة القياسية المُحسّنة للتلافيف، في حين RT-DETRv2 على وحدات معالجة الرسومات (GPU) حيث يكون الحساب المتوازي للمحولات فعالاً.

2. كفاءة التدريب والذاكرة

أحد المجالات التي تتميز فيها Ultralytics تاريخياً هو كفاءة التدريب. من المعروف أن المحولات مثل RT-DETRv2 الكثير من الذاكرة RT-DETRv2 بطيئة في التوافق. في المقابل، النماذج القائمة على CNN مثل YOLOv10 YOLO11 أكثر تسامحًا مع موارد الأجهزة.

تتمتعYOLO Ultralytics YOLO بميزة واضحة في هذا المجال:

  • ذاكرة أقل: يتطلب تدريب YOLO عادةً ذاكرة VRAM أقل، مما يسمح بأحجام دفعات أكبر على وحدات معالجة الرسومات (GPU) الاستهلاكية.
  • تقارب أسرع: تتطلب شبكات CNN عمومًا عددًا أقل من العصور للوصول إلى التقارب مقارنة بالبنى القائمة على المحولات.

3. التنوع والبيئة

على الرغم من أن RT-DETRv2 YOLOv10 أجهزة الكشف القوية، إلا أنها تركز بشكل أساسي على الكشف عن الصناديق المحددة. في المقابل، يوفر Ultralytics نماذج تدعم مجموعة واسعة من المهام الجاهزة للاستخدام.

يضمن Ultralytics أن المستخدمين لا يحصلون على نموذج فحسب، بل على سير عمل كامل. ويشمل ذلك التكامل السلس مع Ultralytics لإدارة مجموعات البيانات والتصدير السهل إلى تنسيقات مثل ONNXو TensorRT و OpenVINO.

Ultralytics : تقديم YOLO26

على الرغم من أن RT-DETRv2 YOLOv10 ميزات جذابة، إلا أن هذا المجال استمر في التقدم. بالنسبة للمطورين الذين يبحثون عن أعلى مستويات الأداء والكفاءة وسهولة الاستخدام، فإن Ultralytics يمثل الخيار الأفضل.

صدر YOLO26 في يناير 2026، وهو يجمع بين أفضل الابتكارات من كل من المحولات والشبكات العصبية التسلسلية (CNN) في بنية موحدة من الجيل التالي.

  1. من البداية إلى النهاية: مثل YOLOv10، يتميز YOLO26 بتصميم من البداية إلى النهاية NMS. وهذا يزيل عنق الزجاجة المتمثل في زمن الاستجابة في مرحلة ما بعد المعالجة، مما يضمن سرعات استدلال متسقة ويمكن التنبؤ بها، وهي أمر بالغ الأهمية للأنظمة الحساسة من حيث السلامة.
  2. مُحسّن لجميع الأجهزة: يزيل YOLO26 فقدان التركيز التوزيعي (DFL)، مما يبسط بشكل كبير من مخطط النموذج. وهذا يؤدي إلى تحسين التوافق مع مسرعات الذكاء الاصطناعي المتطورة وزيادة سرعة CPU بنسبة تصل إلى 43% مقارنة بالأجيال السابقة.
  3. ديناميكيات التدريب المتقدمة: من خلال دمج MuSGD Optimizer، وهو مزيج من SGD Muon (مستوحى من تدريب LLM في Moonshot AI)، يحقق YOLO26 تدريبًا مستقرًا وتقاربًا أسرع، مما يجلب ابتكارات نماذج اللغة الكبيرة إلى الرؤية الحاسوبية.
  4. تنوع المهام: على عكس RT-DETRv2 يركز على الكشف، يدعم YOLO26 بشكل أساسي الكشف عن الكائنات، وتقسيم الحالات، وتقدير الوضع، والمربعات المحددة الاتجاه (OBB)، والتصنيف.

ترحيل سلس

يمكنك التبديل إلى YOLO26 بسهولة باستخدام واجهة Ultralytics . ما عليك سوى تغيير اسم النموذج في Python الخاص بك:

from ultralytics import YOLO

# Load the latest state-of-the-art model
model = YOLO("yolo26n.pt")

# Train on your custom dataset
model.train(data="coco8.yaml", epochs=100)

تعرف على المزيد حول YOLO26

الخلاصة

للأبحاث البحتة أو السيناريوهات التي تكون فيها GPU غير محدودة وتكون آليات انتباه المحولات مطلوبة بشكل خاص، RT-DETRv2 هو منافس قوي. بالنسبة للمستخدمين الذين يعطون الأولوية لزمن الوصول المنخفض على الأجهزة الطرفية ذات بنية CNN NMSYOLOv10 خيارًا أكاديميًا قويًا.

ومع ذلك، بالنسبة لعمليات النشر على مستوى الإنتاج التي تتطلب توازناً بين السرعة والدقة والأدوات القوية، فإن Ultralytics هو الخيار الموصى به بشكل قاطع. إن دمجه في نظام بيئي جيد الصيانة، ودعمه لمهام الرؤية الحاسوبية المتنوعة، والتحسينات المعمارية الرائدة تجعله الحل الأكثر ملاءمة للمستقبل لعام 2026 وما بعده.

انظر أيضاً

  • Ultralytics YOLO11 - السلف القوي الذي حظي بقبول واسع النطاق في الصناعة.
  • RT-DETR - محول الكشف في الوقت الحقيقي الأصلي.
  • YOLOv8 - كلاسيكي متعدد الاستخدامات في YOLO .

تعليقات