YOLO26 مقابل RTDETRv2: مقارنة شاملة لمعماريات اكتشاف الأشياء الحديثة

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، مما يضع الممارسين أمام خيار حاسم: هل يجب الاستفادة من الشبكات العصبية التلافيفية (CNNs) عالية التحسين أم تبني المعماريات الأحدث القائمة على Transformer؟ اثنان من أبرز المتنافسين في هذا الميدان هما النموذج المتطور Ultralytics YOLO26 ونموذج RTDETRv2 من شركة Baidu. يدفع كلا النموذجين حدود اكتشاف الأشياء في الوقت الفعلي ولكنهما يعتمدان على فلسفات معمارية مختلفة تماماً.

يوفر هذا الدليل نظرة تقنية متعمقة على كلا النموذجين، حيث يقارن بين هياكلهما ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في اختيار الأساس الأفضل لمشروع الرؤية الحاسوبية القادم الخاص بك.

Ultralytics YOLO26: قمة ذكاء الرؤية الاصطناعي الموجه للحافة

يمثل YOLO26، الذي طورته Ultralytics، قفزة جيلية هائلة لعائلة YOLO. تم إصداره في يناير 2026، وقد تم تصميمه صراحةً من أجل السرعة والدقة والنشر السلس عبر بيئات الحوسبة السحابية والحافة.

الابتكارات المعمارية ونقاط القوة

يقدم YOLO26 العديد من الميزات الرائدة التي تميزه ليس فقط عن نماذج Transformer ولكن أيضاً عن الإصدارات السابقة مثل YOLO11:

  • تصميم شامل (End-to-End) بدون NMS: يلغي YOLO26 عملية كبح التكرارات غير القصوى (NMS) التقليدية أثناء المعالجة اللاحقة. هذا النهج الشامل بطبيعته، الذي تم استخدامه لأول مرة في نماذج مثل YOLOv10، يقلل من تباين زمن انتقال الاستدلال ويبسط منطق النشر، خاصة على أجهزة الحافة.
  • استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): إدراكاً للحاجة المتزايدة للذكاء الاصطناعي اللامركزي، تم تحسين YOLO26 بشكل كبير للأجهزة التي تفتقر إلى وحدات معالجة رسومية (GPUs) مخصصة، مثل Raspberry Pi.
  • إزالة DFL: من خلال إزالة توزيع فقدان التركيز (DFL)، يوفر YOLO26 عملية تصدير مبسطة وتحسيناً هائلاً في التوافق مع أجهزة الحافة منخفضة الطاقة والمتحكمات الدقيقة.
  • مُحسِّن MuSGD: لسد الفجوة بين تدريب النماذج اللغوية الكبيرة (LLM) والرؤية الحاسوبية، يستخدم YOLO26 مُحسِّن MuSGD. يضمن هذا الهجين بين SGD وMuon—المستوحى من نموذج Kimi K2 الخاص بشركة Moonshot AI—استقراراً قوياً للتدريب وتقارباً أسرع.
  • ProgLoss + STAL: تجلب دوال الفقد المتقدمة تحسينات ملحوظة في التعرف على الأشياء الصغيرة. وهذا أمر بالغ الأهمية للصناعات التي تعتمد على تحليل الصور الجوية ومستشعرات إنترنت الأشياء (IoT).

اعرف المزيد عن YOLO26

تعدد الاستخدامات عبر مهام الرؤية

على عكس النماذج المحدودة حصرياً بصناديق الإحاطة، يعد YOLO26 قوة متعددة الاستخدامات. فهو يدمج تحسينات خاصة بالمهام، مثل فقدان التجزئة الدلالية وmulti-scale proto لـ تجزئة المثيلات، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير الوضعية، وفقدان زاوية متخصص لحل مشكلات الحدود في مهام صناديق الإحاطة الموجهة (OBB).

استراتيجية النشر على الحافة

عند النشر على أجهزة الحافة، استخدم متغيرات YOLO26n (Nano) أو YOLO26s (Small). إن تصدير هذه النماذج إلى CoreML أو TFLite يتم بسلاسة بفضل إزالة DFL والمعمارية التي لا تعتمد على NMS، مما يضمن أداءً سلساً في الوقت الفعلي على نظامي iOS وAndroid.

RTDETRv2: تعزيز محولات الاكتشاف في الوقت الفعلي

يعتمد RTDETRv2، الذي طوره باحثون في Baidu، على إطار عمل RT-DETR الأصلي. ويهدف إلى إثبات أن محولات الاكتشاف (DETRs) يمكنها منافسة، وأحياناً تجاوز، سرعة ودقة الشبكات العصبية التلافيفية (CNNs) عالية التحسين في سيناريوهات الوقت الفعلي.

المعمارية والقدرات

يستخدم RTDETRv2 معمارية قائمة على Transformer، والتي تعالج الصور بطبيعتها بشكل مختلف عن الشبكات العصبية التلافيفية (CNNs) من خلال الاستفادة من آليات الانتباه الذاتي لفهم السياق العالمي.

  • مجموعة التقنيات المجانية (Bag-of-Freebies): يقدم إصدار v2 سلسلة من تقنيات التدريب المحسنة (bag-of-freebies) التي تعمل على تحسين أداء الخط الأساسي دون إضافة تكلفة استدلال.
  • الوعي بالسياق العالمي: بسبب طبقات الانتباه في Transformer، يتمتع RTDETRv2 بطبيعة تمكنه من فهم المشاهد المعقدة حيث يكون السياق العالمي ضرورياً للتمييز بين الأشياء المتداخلة أو المحجوبة.

تعرف على المزيد حول RTDETR

قيود نماذج Transformer

على الرغم من قوتها، غالباً ما تواجه نماذج الاكتشاف القائمة على Transformer مثل RTDETRv2 تحديات في النشر العملي. فهي تظهر عموماً متطلبات ذاكرة CUDA أعلى أثناء التدريب مقارنة بالشبكات العصبية التلافيفية (CNNs) الفعالة. علاوة على ذلك، يمكن أن يكون دمجها في بيئات الحافة المتنوعة أمراً مرهقاً بسبب العمليات المعقدة التي تتطلبها طبقات الانتباه، مما يجعل نماذج مثل YOLO26 أكثر جاذبية بكثير لعمليات النشر ذات الموارد المحدودة.

مقارنة الأداء

يكشف تقييم هذه النماذج وجهاً لوجه عن الفوائد الملموسة لأحدث تحسينات CNN. يوضح الجدول أدناه أداءها على المعايير القياسية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

كما تم توضيحه، يتفوق YOLO26 باستمرار على RTDETRv2 عبر جميع متغيرات الحجم. يحقق نموذج YOLO26x دقة مذهلة قدرها 57.5 mAP مع زمن انتقال أقل (11.8 مللي ثانية على TensorRT) وعدد أقل بكثير من المعلمات (55.7 مليون) مقارنة بـ RTDETRv2-x (54.3 mAP، و15.03 مللي ثانية، و76 مليون معلمة).

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLO26 وRT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLO26

يعتبر YOLO26 خياراً قوياً لـ:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

متى تختار RT-DETR

يُوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

ميزة Ultralytics

يعد اختيار معمارية التعلم الآلي الصحيحة جزءاً واحداً فقط من المعادلة؛ حيث يحدد النظام البيئي المحيط مدى سرعة انتقال الفريق من النماذج الأولية إلى الإنتاج.

سهولة الاستخدام وكفاءة التدريب

توفر واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics تجربة مبسطة بشكل ملحوظ. لم يعد تدريب النماذج المعقدة يتطلب كتابة تعليمات برمجية مطولة. علاوة على ذلك، تعد كفاءة تدريب YOLO26 أفضل بكثير، حيث تستخدم ذاكرة GPU VRAM أقل بكثير من آليات الانتباه المكثفة للذاكرة في RTDETRv2، مما يسمح بأحجام دفعات أكبر حتى على الأجهزة المخصصة للمستهلكين.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

نظام بيئي مُصان جيداً

من خلال استخدام نماذج Ultralytics، يحصل المطورون على إمكانية الوصول إلى إطار عمل مُصان بنشاط يتكامل محلياً مع أدوات التتبع الحديثة مثل Weights & Biases وComet ML. بالنسبة لأولئك الذين يفضلون نهجاً بدون برمجة، تسهل منصة Ultralytics التدريب السحابي وإدارة مجموعات البيانات والنشر بضغطة زر واحدة.

توازن الأداء

يحقق YOLO26 توازناً لا مثيل له بين سرعة الاستدلال والدقة. تضمن إزالة NMS جنباً إلى جنب مع مُحسِّن MuSGD أنك تقوم بنشر نموذج دقيق للغاية في اكتشاف الأشياء الصغيرة (بفضل ProgLoss + STAL) وسريع للغاية في الإنتاج، مما يجعله الخيار المتفوق لجميع تطبيقات الرؤية الحاسوبية الحديثة تقريباً.

نماذج أخرى في النظام البيئي

بينما يغطي YOLO26 وRTDETRv2 أحدث تقنيات الاكتشاف في الوقت الفعلي، قد يرغب المطورون الذين يدعمون خطوط أنابيب قديمة أو يستكشفون منحنيات كفاءة مختلفة في التفكير أيضاً في YOLOv8 لبيئات المؤسسات القائمة، أو استكشاف معماريات أخرى مثل EfficientDet. ومع ذلك، لأي مبادرة جديدة، يظل YOLO26 هو التوصية النهائية.

تعليقات