تخطي إلى المحتوى

YOLO26 مقابل RTDETRv2: مقارنة تقنية لكاشفات الجيل التالي في الوقت الفعلي

في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار نموذج الكشف عن الكائنات المناسب أمرًا بالغ الأهمية لتحقيق التوازن بين السرعة والدقة ومرونة النشر. يقدم هذا الدليل مقارنة تقنية شاملة بين Ultralytics YOLO26 و RTDETRv2، وهما بنيتان معماريتان حديثتان مصممتان للأداء في الوقت الفعلي.

بينما يستفيد كلا النموذجين من الابتكارات الحديثة لتحقيق دقة عالية، فإنهما يختلفان بشكل كبير في فلسفاتهما المعمارية، واستراتيجيات التحسين، وسهولة النشر. يتعمق هذا التحليل في مقاييسهما، والاختلافات الهيكلية، وحالات الاستخدام المثالية لمساعدتك على اتخاذ قرار مستنير لتطبيقات الرؤية الحاسوبية الخاصة بك.

ملخص تنفيذي

Ultralytics YOLO26 يمثل أحدث تطور في عائلة YOLO، وقد تم إصداره في يناير 2026. يقدم تصميمًا أصليًا من البداية إلى النهاية (خالي من NMS)، مما يلغي الحاجة إلى خطوات المعالجة اللاحقة مثل Non-Maximum Suppression. مع تحسينات مثل إزالة DFL ومُحسِّن MuSGD الجديد، تم تصميم YOLO26 لتحقيق أقصى كفاءة على الأجهزة الطرفية، حيث يوفر استدلال CPU أسرع بنسبة تصل إلى 43% من سابقاته. إنه جزء من نظام Ultralytics البيئي المتكامل، مما يضمن التدريب والتحقق والنشر السلس.

RTDETRv2 (Real-Time Detection Transformer v2)، الذي طورته Baidu، يحسن من أداء RT-DETR الأصلي من خلال تحسين المشفر الهجين وتقديم اختيار استعلامات منفصلة مرنة. يركز على جلب فوائد الدقة للمحولات إلى سيناريوهات الوقت الفعلي. بينما يلغي NMS من خلال بنيته المعمارية القائمة على المحولات، فإنه يتطلب عادةً المزيد من الموارد الحاسوبية وذاكرة GPU مقارنة بنماذج YOLO القائمة على الشبكات العصبية التلافيفية (CNN) أو المحسّنة هجينًا.

مقارنة مقاييس الأداء

يوضح الجدول أدناه أداء كلا النموذجين على مجموعة بيانات COCO. يُظهر YOLO26 كفاءة فائقة، لا سيما في عدد المعلمات وسرعة الاستدلال، مما يجعله مناسبًا للغاية لتطبيقات الذكاء الاصطناعي الحافي.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

موازنة الأداء

يحقق YOLO26 قيمة mAP أعلى بعدد أقل بكثير من المعلمات وعمليات الفاصلة العائمة (FLOPs). على سبيل المثال، يتفوق YOLO26s على RTDETRv2-s (48.6 مقابل 48.1 mAP) بينما يكون أسرع بمرتين تقريبًا على T4 GPU ويستخدم أقل من نصف المعلمات (9.5 مليون مقابل 20 مليون).

نظرة معمارية متعمقة

Ultralytics YOLO26

يقدم YOLO26 العديد من التغييرات المعمارية الرائدة التي تهدف إلى تبسيط النشر وزيادة السرعة دون التضحية بالدقة.

  • من البداية إلى النهاية وخالي من NMS: تحول كبير عن بنيات YOLO التقليدية، حيث أن YOLO26 أصلي من البداية إلى النهاية. يلغي هذا التصميم خطوة المعالجة اللاحقة Non-Maximum Suppression (NMS)، مما يقلل من زمن الاستجابة والتعقيد أثناء النشر. وقد تم ريادة هذا النهج في YOLOv10 وتم تحسينه هنا.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يتم تبسيط بنية النموذج. يعد هذا التغيير محوريًا لتحسين التوافق مع الأجهزة الطرفية ومنخفضة الطاقة، مما يبسط التصدير إلى تنسيقات مثل ONNX و CoreML.
  • مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسِّنًا هجينًا يجمع بين SGD و Muon. يؤدي هذا إلى ديناميكيات تدريب أكثر استقرارًا وتقارب أسرع.
  • ProgLoss + STAL: إن الجمع بين Progressive Loss Balancing و Small-Target-Aware Label Assignment يحسن بشكل كبير الكشف عن الكائنات الصغيرة، وهو تحدٍ شائع في مهام الرؤية الحاسوبية مثل تحليل الصور الجوية.

تعرف على المزيد حول YOLO26

RTDETRv2

يعتمد RTDETRv2 على أساس RT-DETR الأصلي، وهو كاشف قائم على المحولات مصمم لتحدي هيمنة نماذج YOLOs القائمة على الشبكات العصبية التلافيفية (CNN).

  • العمود الفقري للمحول: يستخدم بنية مشفر-مفكك تشفير قائمة على المحولات تتعامل بطبيعتها مع استعلامات الكائنات دون NMS.
  • استعلامات منفصلة مرنة: يقدم آلية أكثر مرونة لاختيار الاستعلامات مقارنة بسلفه، بهدف تحسين القدرة على التكيف عبر مقاييس مختلفة.
  • المشفر الهجين: يستخدم مشفرًا هجينًا لمعالجة الميزات متعددة المقاييس، محاولًا تحقيق التوازن بين التكلفة الحسابية للانتباه الذاتي والحاجة إلى السياق العالمي.

سهولة الاستخدام والنظام البيئي

أحد أهم العوامل المميزة هو النظام البيئي المحيط بالنماذج.

Ultralytics YOLO26 يستفيد من نظام Ultralytics البيئي الناضج والواسع. يمكن للمستخدمين الاستفادة من واجهة برمجة تطبيقات موحدة للتدريب والتحقق والنشر عبر مهام متنوعة تتضمن detect، segment، التصنيف، تقدير الوضعيات، و Oriented Bounding Box (OBB). يتيح التكامل السلس مع أدوات مثل منصة Ultralytics و Weights & Biases تتبع التجارب وإدارة النماذج بسهولة.

بينما يُعد RTDETRv2 قويًا، فإنه غالبًا ما يتطلب إعدادًا وتكوينًا أكثر تعقيدًا. يمكن أن يجعل اعتماده على مكتبات محولات محددة وحمل ذاكرة أعلى أقل سهولة في الوصول للمطورين الذين يبحثون عن حل جاهز للاستخدام. الوثائق ودعم المجتمع، على الرغم من نموهما، أقل شمولاً بشكل عام من الموارد القوية المتاحة لنماذج Ultralytics.

كفاءة التدريب والموارد

متطلبات الذاكرة: تشتهر النماذج القائمة على المحولات مثل RTDETRv2 باستهلاكها الكبير للذاكرة. تتطلب عادةً ذاكرة CUDA أكبر بكثير أثناء التدريب والاستدلال مقارنة بالبنية المعمارية المحسّنة للشبكات العصبية التلافيفية (CNN) في YOLO26. وهذا يجعل YOLO26 خيارًا عمليًا أكثر للتدريب على وحدات معالجة الرسوميات (GPUs) من الفئة الاستهلاكية أو النشر على الأجهزة محدودة الموارد.

سرعة التدريب: بفضل مُحسِّن MuSGD والبنية المعمارية الفعالة، يقدم YOLO26 معدلات تقارب أسرع. وهذا يقلل من الوقت وتكاليف الحوسبة المرتبطة بتدريب النماذج المخصصة، سواء كنت تعمل على مجموعة بيانات التصوير الطبي أو نظام مراقبة الجودة في التصنيع.

مثال على الكود: تدريب YOLO26

تدريب YOLO26 بسيط ومباشر باستخدام واجهة برمجة تطبيقات python من Ultralytics:

from ultralytics import YOLO

# Load a COCO-pretrained YOLO26n model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

توصيات حالات الاستخدام

اختر YOLO26 إذا:

  • أولوية النشر على الأجهزة الطرفية: تحتاج إلى تشغيل النماذج على الأجهزة المحمولة (iOS/Android)، أو Raspberry Pi، أو الأنظمة المدمجة حيث تعد سرعة CPU وحجم النموذج قيودًا حرجة. يعد استدلال CPU الأسرع بنسبة 43% عامل تغيير جذري هنا.
  • التنوع مطلوب: يتضمن مشروعك مهام متعددة. YOLO26 هي عائلة نماذج موحدة تدعم detect وsegment وpose وobb، على عكس RTDETRv2 الذي يركز بشكل أساسي على detect.
  • التطوير السريع: تريد تجربة مستخدم مبسطة مع وثائق شاملة، وأوزان مدربة مسبقًا جاهزة للاستخدام، ودعم مجتمعي نشط.
  • اكتشاف الكائنات الصغيرة: يتضمن تطبيقك اكتشاف الكائنات الصغيرة، كما هو الحال في مراقبة الزراعة بواسطة الطائرات بدون طيار، حيث يوفر ProgLoss وSTAL ميزة واضحة.

اختر RTDETRv2 إذا:

  • الاهتمام البحثي: أنت تحقق بشكل خاص في البنى القائمة على المحولات للبحث الأكاديمي.
  • أجهزة محددة: لديك وصول إلى وحدات GPU عالية الأداء من فئة الخوادم (مثل A100s) حيث يكون الحمل الزائد للذاكرة أقل أهمية، وتحتاج تحديدًا إلى نهج قائم على المحولات.

الخلاصة

بينما يعرض RTDETRv2 إمكانات المحولات في detect في الوقت الفعلي، يظل Ultralytics YOLO26 الخيار الأفضل للنشر العملي في العالم الحقيقي. إن مزيجه من الاستدلال الشامل الخالي من NMS، ومتطلبات الموارد الأقل بكثير، والتكامل في نظام Ultralytics البيئي القوي يجعله الحل الأمثل للمطورين والمهندسين. سواء كنت تقوم ببناء بنية تحتية للمدن الذكية، أو روبوتات ذاتية القيادة، أو تطبيقات الهاتف المحمول، فإن YOLO26 يوفر التوازن الأمثل بين السرعة والدقة وسهولة الاستخدام.

للمستخدمين المهتمين باستكشاف نماذج أخرى في عائلة Ultralytics، يظل YOLO11 بديلاً قويًا ومدعومًا بالكامل، ويوفر أساسًا قويًا للعديد من مهام الرؤية الحاسوبية.

تفاصيل النموذج

YOLO26

RTDETRv2

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المنظمة: بايدو
  • التاريخ: 2023-04-17
  • Arxiv:2304.08069
  • GitHub:RT-DETR Repository

تعليقات