تخطي إلى المحتوى

RTDETRv2 مقابل YOLO26: مقارنة فنية لكاشفات الكائنات من الجيل التالي

غالباً ما يتضمن اختيار نموذج الكشف عن الكائنات المناسب لمشروع الرؤية الحاسوبية الخاص بك التنقل في مشهد معقد من الخيارات المعمارية، والمقايضات بين السرعة والدقة، وقيود النشر. يقدم هذا الدليل مقارنة تقنية متعمقة بين RTDETRv2، وهو محول كشف في الوقت الفعلي من Baidu، وYOLO26، أحدث تطور في سلسلة YOLO من Ultralytics. سنقوم بتحليل بنياتهما، ومعايير أدائهما، وحالات الاستخدام المثالية لمساعدتك على اتخاذ قرار مستنير.

ملخص تنفيذي

يمثل كلا النموذجين أحدث ما توصلت إليه تقنيات الكشف في الوقت الفعلي اعتباراً من عام 2026. يواصل RTDETRv2 دفع حدود الكشف القائم على المحولات، مقدماً دقة ممتازة من خلال آليات الانتباه الخاصة به، لا سيما في المشاهد المعقدة. أما YOLO26، الذي صدر في يناير 2026، فيُحدث ثورة في سلالة YOLO من خلال اعتماد تصميم شامل خالٍ من NMS بشكل أصيل، مما يعزز سرعة الاستدلال بشكل كبير على وحدات المعالجة المركزية (CPUs) ويبسط النشر مع الحفاظ على دقة متطورة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9

RTDETRv2: تحسين المحول في الوقت الفعلي

يبني RTDETRv2 على نجاح RT-DETR الأصلي، الذي كان أول كاشف قائم على المحولات يتحدى نماذج YOLO حقاً في سيناريوهات الوقت الفعلي. تم تطويره بواسطة Baidu، ويركز على تحسين بنية محول الرؤية (ViT) لتحقيق سرعة ودقة عمليتين.

أبرز الملامح المعمارية

يكمن الابتكار الأساسي في RTDETRv2 في مشفره الهجين المرن واختيار الاستعلام الفعال. على عكس كاشفات CNN التقليدية، يستخدم آليات الانتباه الذاتي لالتقاط السياق العام، وهو مفيد بشكل خاص للكشف عن الكائنات ذات العلاقات المعقدة أو الانسدادات. يقدم تحديث الإصدار الثاني "مجموعة من الميزات المجانية" التي تحسن استقرار التدريب والأداء دون زيادة تكلفة الاستدلال. ويستخدم استراتيجية أخذ عينات منفصلة للاستعلامات، مما يسمح للنموذج بالتركيز على مناطق الصورة الأكثر صلة.

الأداء والتدريب

يتفوق RTDETRv2 في الدقة، وغالباً ما يتجاوز أجيال YOLO السابقة في السيناريوهات التي تتطلب دقة عالية. ومع ذلك، يأتي هذا بتكلفة. تتطلب بنيات المحولات عموماً ذاكرة GPU وقوة حوسبة أكبر بكثير أثناء التدريب مقارنة بشبكات CNN. بينما تكون سرعة الاستدلال "في الوقت الفعلي" على وحدات معالجة الرسوميات القوية (مثل NVIDIA T4)، فقد تواجه صعوبة على الأجهزة التي تعتمد على CPU فقط أو أجهزة الحافة حيث تكون عمليات المحولات أقل تحسيناً من الالتفافات.

المؤلفون الرئيسيون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
الجهة:Baidu
التاريخ: يوليو 2024 (Arxiv v2)
الروابط:Arxiv | GitHub

تعرف على المزيد حول RT-DETR

YOLO26: القوة الشاملة للأجهزة الطرفية

يمثل YOLO26 تحولاً معمارياً رئيسياً لـ Ultralytics. يتخلى عن الاعتماد التقليدي على Non-Maximum Suppression (NMS) لصالح بنية شاملة أصيلة. يعالج هذا الاختيار التصميمي أحد أقدم الاختناقات في نشر الكشف عن الكائنات: زمن الاستجابة وتعقيد المعالجة اللاحقة.

الابتكارات المعمارية

تم تبسيط بنية YOLO26 لتحقيق الكفاءة والتنوع:

  • شامل خالٍ من NMS: من خلال التنبؤ بالمطابقات الفردية أثناء التدريب، يلغي YOLO26 الحاجة إلى خطوات استدلال NMS. يقلل هذا من عدم القدرة على التنبؤ بزمن الاستجابة ويبسط مسارات النشر، خاصة على الأجهزة غير القياسية مثل FPGAs أو NPUs.
  • إزالة DFL: تبسط إزالة خسارة التركيز التوزيعي (DFL) رأس الإخراج، مما يجعل النموذج أسهل للتصدير إلى تنسيقات مثل ONNX وCoreML مع تحسين التوافق مع التكميم 8 بت.
  • مُحسِّن MuSGD: مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مُحسّناً هجيناً يجمع بين SGD وMuon. يؤدي هذا إلى تقارب أسرع وتشغيل تدريب أكثر استقراراً.
  • ProgLoss + STAL: دوال خسارة جديدة—موازنة الخسارة التدريجية وتخصيص التسميات الواعي للأهداف الصغيرة—تستهدف بشكل خاص الكشف عن الكائنات الصغيرة، وهو ضعف تقليدي في الكاشفات أحادية المرحلة.

الأداء والمرونة

يقدم YOLO26 توازناً مقنعاً بين السرعة والدقة. يعمل نموذج YOLO26n (نانو) أسرع بنسبة تصل إلى 43% على وحدات المعالجة المركزية (CPUs) مقارنة بالإصدارات السابقة، مما يجعله خياراً ممتازاً لتطبيقات الجوال وإنترنت الأشياء. علاوة على ذلك، YOLO26 هي عائلة نماذج موحدة؛ يمكن للمستخدمين التبديل بسلاسة بين مهام الكشف عن الكائنات، وتقسيم الكائنات، وتقدير الوضعيات، والتصنيف، والكشف عن الكائنات الموجهة (obb) باستخدام نفس واجهة برمجة التطبيقات (API).

المؤلفون الرئيسيون: Glenn Jocher and Jing Qiu
الجهة:Ultralytics
التاريخ: 14 يناير 2026
الروابط:وثائق Ultralytics | GitHub

تعرف على المزيد حول YOLO26

مقارنة تفصيلية

1. السرعة والكفاءة على الأجهزة الطرفية

هذا هو الفارق الأكثر تميزاً. يعتمد RTDETRv2 بشكل كبير على عمليات ضرب المصفوفات التي تتوسع بشكل جيد على وحدات معالجة الرسوميات (GPUs) ولكنها قد تشكل عنق زجاجة لوحدات المعالجة المركزية (CPUs). أما YOLO26، بفضل بنيته الأساسية القائمة على CNN ورأسه الخالي من NMS، فهو أكثر كفاءة بشكل ملحوظ على الأجهزة ذات الموارد المحدودة. على سبيل المثال، يحقق نموذج YOLO26n زمن استجابة يبلغ 38.9 مللي ثانية على وحدة معالجة مركزية قياسية، بينما غالباً ما تواجه النماذج القائمة على المحولات صعوبة في تحقيق أداء في الوقت الفعلي دون تسريع مخصص.

النشر على الحافة

للنشر على Raspberry Pi، أو Jetson Nano، أو الأجهزة المحمولة، يعد YOLO26 هو الخيار الأفضل عموماً نظراً لمجموعة عملياته المحسّنة وبصمة الذاكرة الأقل. كما أن إزالة DFL تبسط عملية التصدير إلى TFLite وCoreML.

2. متطلبات موارد التدريب

تشتهر نماذج Ultralytics بحلقات تدريبها الفعالة. يتطلب YOLO26 ذاكرة VRAM أقل بكثير للتدريب مقارنة بـ RTDETRv2. تحتاج المحولات عادةً إلى أحجام دفعات كبيرة وجداول تدريب مكثفة للتقارب، مما يترجم إلى تكاليف حوسبة سحابية أعلى. يزيد مُحسِّن MuSGD الخاص بـ YOLO26 من تسريع هذه العملية، مما يسمح للباحثين بالتكرار بشكل أسرع حتى على إعدادات GPU الفردية.

3. مرونة المهام

بينما يركز RTDETRv2 بشكل أساسي على الكشف عن الكائنات، فإن النظام البيئي لـ YOLO26 متعدد المهام بطبيعته.

  • RTDETRv2: ممتاز للكشف عن الصناديق المحيطة.
  • YOLO26: يدعم بشكل أصيل الكشف، والتقسيم، والوضعيات، وobb، والتصنيف. وهذا يجعل YOLO26 "سكينة الجيش السويسري" للمطورين الذين قد يحتاجون إلى التحول من الكشف عن الصناديق المحيطة إلى تقسيم الأقنعة أو تقدير النقاط الرئيسية دون تغيير مكدس برامجهم بالكامل.

4. النظام البيئي وسهولة الاستخدام

يوفر نظام Ultralytics البيئي ميزة كبيرة في تجربة المطور. فمع حزمة python موحدة، ووثائق شاملة، وتكاملات سلسة مع أدوات مثل Weights & Biases و Roboflow، يصبح نقل نموذج YOLO26 من مجموعة البيانات إلى النشر أمرًا مباشرًا. أما RTDETRv2، على الرغم من قوته، فغالبًا ما يتطلب تكوينًا يدويًا أكثر ولديه منحنى تعليمي أكثر حدة للمستخدمين الأقل دراية ببنى المحولات.

مثال برمجي: تشغيل YOLO26

تسمح بساطة واجهة برمجة تطبيقات Ultralytics بالاختبار والتكامل الفوري.

from ultralytics import YOLO

# Load a pretrained YOLO26s model
model = YOLO("yolo26s.pt")

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Show the results
results[0].show()

الخلاصة

كلا النموذجين يمثلان إنجازات استثنائية في الرؤية الحاسوبية. يعد RTDETRv2 مرشحًا قويًا لعمليات النشر على وحدات GPU عالية الأداء حيث تكون الدقة القصوى في المشاهد المعقدة بالغة الأهمية، وتكون التكلفة الحسابية للمحولات مقبولة.

ومع ذلك، فإن YOLO26 هو الخيار الشامل الموصى به للغالبية العظمى من التطبيقات الواقعية. إن تصميمه الشامل الخالي من NMS، وأداء CPU المتفوق، ومتطلبات الذاكرة الأقل، ودعمه لمهام الرؤية المتعددة يجعله الخيار العملي للمهندسين الذين يبنون أنظمة ذكاء اصطناعي قابلة للتطوير وفعالة ومتعددة الاستخدامات. سواء كنت تنشر على مزرعة خوادم أو كاميرا ذكية، يقدم YOLO26 ملف أداء متوازنًا يصعب التفوق عليه.

نماذج أخرى يجب أخذها في الاعتبار

  • YOLO11: السلف الموثوق لـ YOLO26، ولا يزال مستخدمًا على نطاق واسع ومدعومًا بالكامل.
  • YOLO-World: مثالي للكشف ذي المفردات المفتوحة حيث تحتاج إلى detect الكائنات غير الموجودة في مجموعة التدريب الخاصة بك.
  • FastSAM: إذا كنت بحاجة تحديدًا إلى قدرات segment-anything بسرعة في الوقت الفعلي.

تعليقات