Link to this sectionمقارنة بين RTDETRv2 و YOLOX#

لقد تطور مشهد الرؤية الحاسوبية بسرعة كبيرة، مما أتاح للمطورين والباحثين مجموعة متنوعة من المعماريات للاختيار من بينها عند بناء أنظمة تعتمد على الرؤية. ومن أبرز المحطات في هذه الرحلة نموذج RTDETRv2 القائم على المحولات (Transformer) ونموذج YOLOX القائم على الشبكات العصبية التلافيفية (CNN). وعلى الرغم من أن كلا النموذجين قد ساهما بشكل كبير في مجال اكتشاف الكائنات في الوقت الفعلي، إلا أنهما يمثلان نهجين مختلفين جذرياً لحل مشكلات التعرف البصري.

This comprehensive guide explores the architectural nuances, performance metrics, and ideal deployment scenarios for both models. Furthermore, we will examine how modern alternatives like the cutting-edge Ultralytics YOLO26 build upon these foundations to deliver superior accuracy, efficiency, and ease of use.

Link to this sectionRTDETRv2: محولات اكتشاف الوقت الفعلي#

تم تقديم RTDETRv2 كخلف للنموذج الأصلي RT-DETR، وهو يستفيد من معمارية المحولات (Transformer) لتحقيق اكتشاف عالي الأداء للكائنات في الوقت الفعلي. ومن خلال إلغاء الحاجة إلى خوارزمية كبت الحد الأقصى غير (NMS)، فإنه يبسط خط أنابيب الاستدلال.

المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
المنظمة: Baidu
التاريخ: 24-07-2024
الروابط: ورقة بحثية على Arxiv، GitHub الرسمي، التوثيق

Link to this sectionالمعمارية والتصميم#

يعتمد RTDETRv2 بشكل كبير على آليات الانتباه الذاتي المتأصلة في المحولات، مما يسمح للنموذج بالتقاط السياق العالمي عبر الصورة بأكملها. يتيح هذا الفهم الشامل للنموذج التنبؤ بصناديق الإحاطة (bounding boxes) واحتمالات الفئات مباشرة. كما يقدم ميزات اكتشاف متعددة النطاقات تعزز قدرته على التعرف على الكائنات الصغيرة في البيئات المزدحمة.

عنق زجاجة المحولات

بينما تتفوق المحولات في التقاط السياق العالمي، فإن آليات الانتباه الذاتي الخاصة بها تتوسع بشكل تربيعي مع طول التسلسل، مما يؤدي غالباً إلى استهلاك أعلى بكثير لذاكرة CUDA أثناء التدريب مقارنة بشبكات CNN التقليدية.

Link to this sectionنقاط القوة والضعف#

تكمن القوة الأساسية لـ RTDETRv2 في تصميمه الأصلي من البداية إلى النهاية. فمن خلال تخطي NMS، يتجنب طفرات التأخير التي غالباً ما ترتبط بالتنبؤات المتداخلة الكثيفة. ومع ذلك، فإن البصمة الحسابية الثقيلة لكتل المحولات تعني أنه يتطلب موارد GPU كبيرة للتدريب والنشر. وهذا يجعله أقل مثالية للأجهزة الطرفية محدودة الموارد أو أجهزة الهاتف المحمول القديمة.

اعرف المزيد عن RTDETRv2

Link to this sectionYOLOX: تطوير شبكات CNN الخالية من المراسي#

تم تطوير YOLOX لسد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، حيث قدم رأساً مفككاً وتصميماً خالياً من المراسي (anchor-free) لعائلة نماذج YOLO الشهيرة.

المؤلفون: Zheng Ge، وSongtao Liu، وFeng Wang، وZeming Li، وJian Sun
المؤسسة: Megvii
التاريخ: 18 يوليو 2021
الروابط: ورقة بحثية على Arxiv، GitHub الرسمي، التوثيق

Link to this sectionالمعمارية والتصميم#

يمثل YOLOX ابتعاداً عن أجهزة الكشف التقليدية القائمة على المراسي من خلال التنبؤ بمواقع الكائنات مباشرة دون صناديق مراسي محددة مسبقاً. هذا يبسط تصميم الشبكة ويقلل من عدد معلمات الضبط الإرشادية المطلوبة للأداء الأمثل. بالإضافة إلى ذلك، يستخدم YOLOX رأساً مفككاً يفصل مهام التصنيف عن الانحدار، مما يحسن سرعة التقارب أثناء التدريب.

Link to this sectionنقاط القوة والضعف#

تجعل طبيعة YOLOX الخالية من المراسي منه نموذجاً قابلاً للتكيف بدرجة كبيرة مع مهام الرؤية الحاسوبية المختلفة وأسهل في التدريب على مجموعات البيانات المخصصة. وتعد متغيراته الأخف، مثل YOLOX-Nano، مناسبة تماماً للنشر على المتحكمات الدقيقة وأجهزة إنترنت الأشياء منخفضة الطاقة. ومع ذلك، نظراً لأن YOLOX يسبق ثورة NMS-free، فإنه لا يزال يعتمد على المعالجة اللاحقة التقليدية، مما قد يسبب صعوبات في النشر وزيادة في زمن الوصول في المشاهد المزدحمة.

تعرف على المزيد حول YOLOX

Link to this sectionمقارنة الأداء والمقاييس#

عند مقارنة هذه النماذج، يعد تقييم سرعتها ودقتها وكفاءة معاملاتها أمراً بالغ الأهمية لتحديد الأنسب لحالة الاستخدام الخاصة بك. يوضح الجدول أدناه أداء أحجام النماذج المختلفة على مجموعة بيانات COCO القياسية.

النموذج	الحجم ^(بكسل)	mAP^val 50-95	السرعة ^{CPU ONNX (ms)}	السرعة ^{T4 TensorRT10 (ms)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

كما يظهر في البيانات، يحقق RTDETRv2 دقة قصوى أعلى (54.3 mAP) في متغيره الأكبر مقارنة بـ YOLOXx. ومع ذلك، يقدم YOLOX متغيرات أصغر وأسرع بشكل ملحوظ، مثل YOLOXs، الذي يتميز بعدد معلمات أقل وسرعات استدلال أسرع على وحدات معالجة الرسومات NVIDIA T4.

Link to this sectionميزة Ultralytics: ظهور YOLO26#

بينما يقدم كل من RTDETRv2 و YOLOX فوائد فريدة، غالباً ما يحتاج المطورون المعاصرون إلى حل موحد يجمع بين أفضل ما في العالمين: دقة عالية، استدلال سريع للغاية، ونظام بيئي يسهل الوصول إليه. يمثل Ultralytics YOLO26 الذي تم إصداره حديثاً ذروة هذا التطور.

Link to this sectionابتكارات YOLO26 الرئيسية#

تصميم بدون NMS من النهاية إلى النهاية: بناءً على المفاهيم التي تم تقديمها لأول مرة في YOLOv10، يعمل YOLO26 أصلاً بدون NMS. وهذا يوفر استدلالاً سلساً لـ RTDETRv2 دون متطلبات الذاكرة الهائلة للمحولات.
محسن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغات الكبيرة، يعمل محسن MuSGD الهجين (الذي يمزج بين SGD و Muon) على استقرار عملية التدريب وتسريع التقارب بشكل كبير.
استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال إزالة وحدة Distribution Focal Loss (DFL) بشكل استراتيجي، تم تحسين YOLO26 خصيصاً للحوسبة الطرفية والأجهزة منخفضة الطاقة، مما يجعله أسرع بكثير على وحدات المعالجة المركزية من التكرارات السابقة مثل YOLO11.
ProgLoss + STAL: تحقق وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، مما يعالج نقطة ضعف شائعة في الصور الجوية وتطبيقات الروبوتات.

Link to this sectionتعدد استخدامات لا مثيل له ونظام بيئي متكامل#

بعيداً عن الأداء الخام، توفر منصة Ultralytics نظاماً بيئياً شاملاً من الصفر إلى الإنتاج. على عكس المستودعات الأكاديمية الثابتة، يتم تحديث نماذج Ultralytics بنشاط وتدعم بسلاسة مهاماً متعددة من واجهة برمجة تطبيقات (API) واحدة وبديهية. سواء كنت تقوم بـ تجزئة المثيلات، أو تتبع الوضعيات عبر تقدير الوضعية، أو التعامل مع كائنات مستديرة باستخدام صناديق الإحاطة الموجهة (OBB)، فإن سير العمل يظل متطابقاً.

علاوة على ذلك، تشتهر نماذج Ultralytics بمتطلبات ذاكرتها المنخفضة أثناء التدريب والاستدلال، مما يسمح للباحثين بتشغيل أحجام دفعات (batch sizes) أكبر على الأجهزة المخصصة للمستهلكين، وهو تباين صارخ مع البصمة الثقيلة للمعماريات القائمة على المحولات.

Link to this sectionمثال على كود التدريب#

يتم إثبات قوة نظام Ultralytics البيئي بشكل أفضل من خلال بساطته. فتدريب نموذج YOLO26 متطور لا يتطلب سوى بضعة أسطر من التعليمات البرمجية، مما يلخص تماماً تعقيدات تحميل البيانات وتكوين المعلمات الفائقة.

from ultralytics import YOLO

# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)

# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")

# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)

Link to this sectionتطبيقات العالم الحقيقي وحالات الاستخدام المثالية#

يعتمد اختيار المعمارية الصحيحة كلياً على قيود النشر الخاصة بك وتوافر الأجهزة.

Link to this sectionمعالجة سحابية عالية الدقة#

إذا كان تطبيقك يعمل على وحدات معالجة رسومات (GPU) خادم متطورة ويعطي الأولوية لأقصى دقة - مثل تحليل مشاهد الحشود الكثيفة أو معالجة الصور الطبية عالية الدقة - فإن آليات الانتباه القوية لنموذج RTDETRv2 يمكن أن تكون فعالة للغاية.

Link to this sectionنشر الحافة القديم#

لعمليات النشر على الهواتف المحمولة القديمة أو المتحكمات الدقيقة المقيدة بشدة حيث تكون الحاجة إلى الحد الأدنى من عمليات الفاصلة العائمة (FLOPs) ضرورة صارمة، لا يزال نموذج YOLOX-Nano خفيف الوزن يعمل كخيار احتياطي قابل للتطبيق، وذلك بفضل معمارية CNN البسيطة الخاصة به.

Link to this sectionالمعيار الحديث: AIoT والروبوتات#

بالنسبة للغالبية العظمى من حالات الاستخدام الحديثة - التي تمتد عبر البنية التحتية للمدن الذكية، وتحليلات التجزئة، والملاحة الذاتية - فإن Ultralytics YOLO26 هو الخيار النهائي. إن سرعة استدلاله على وحدة المعالجة المركزية (CPU) الأسرع بنسبة 43% تجعله لا مثيل له في الحوسبة الطرفية، بينما يضمن تصميمه الخالي من NMS تأخيراً منخفضاً وثابتاً. وعند اقترانه بالتوثيق الشامل ودعم المجتمع النشط لنظام Ultralytics البيئي، فإنه يمكّن الفرق من الانتقال من شرح البيانات إلى النشر العالمي أسرع من أي وقت مضى.

بسّط سير عملك

هل أنت مستعد للارتقاء بمشاريع الرؤية الحاسوبية الخاصة بك؟ استكشف القدرات الشاملة لـ منصة Ultralytics لإدارة البيانات بسهولة، وتدريب النماذج في السحابة، ونشر تطبيقات ذكية على نطاق واسع.

للمطورين الذين يسعون لاستكشاف معماريات أخرى ضمن نظام Ultralytics البيئي، يمكنك أيضاً التفكير في التحقق من YOLOv8 لتكاملات المجتمع الراسخة بعمق أو YOLOv5 للحصول على استقرار لا مثيل له في خطوط الأنابيب القديمة. ومع ذلك، لدفع حدود ما هو ممكن في عام 2026، يظل YOLO26 هو معيار الصناعة.

المساهمون

GLglenn-jocher¹⁴ PDpderrenger¹

تم الإنشاء 27 يناير 2025تم التحديث قبل 3 أسابيع

Link to this sectionمقارنة بين RTDETRv2 و YOLOX#

Link to this sectionRTDETRv2: محولات اكتشاف الوقت الفعلي#

Link to this sectionالمعمارية والتصميم#

Link to this sectionنقاط القوة والضعف#

Link to this sectionYOLOX: تطوير شبكات CNN الخالية من المراسي#

Link to this sectionالمعمارية والتصميم#

Link to this sectionنقاط القوة والضعف#

Link to this sectionمقارنة الأداء والمقاييس#

Link to this sectionميزة Ultralytics: ظهور YOLO26#

Link to this sectionابتكارات YOLO26 الرئيسية#

Link to this sectionتعدد استخدامات لا مثيل له ونظام بيئي متكامل#

Link to this sectionمثال على كود التدريب#

Link to this sectionتطبيقات العالم الحقيقي وحالات الاستخدام المثالية#

Link to this sectionمعالجة سحابية عالية الدقة#

Link to this sectionنشر الحافة القديم#

Link to this sectionالمعيار الحديث: AIoT والروبوتات#

التعليقات