RTDETRv2 مقابل YOLO11: مقارنة بين هياكل Transformer و CNN

تطور مجال الكشف عن الأجسام في الوقت الفعلي بسرعة كبيرة، بقيادة فلسفتين معماريتين متميزتين: نهج Vision Transformer (ViT) الذي تدعمه نماذج مثل RTDETRv2، وسلسلة الشبكات العصبية التلافيفية (CNN) التي تم تحسينها بواسطة Ultralytics YOLO11.

بينما يوسع RTDETRv2 (Real-Time Detection Transformer الإصدار 2) حدود ما يمكن أن تحققه البنى القائمة على المحولات من حيث الدقة وفهم السياق العام، YOLO11 يمثل قمة الكفاءة والتنوع وسهولة النشر. تستكشف هذه المقارنة المواصفات الفنية والاختلافات المعمارية والتطبيقات العملية لمساعدة المطورين على اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بهم.

جدول المقارنة: المقاييس والمواصفات

يوضح الجدول التالي مقاييس الأداء لكلا النموذجين. لاحظ كيف YOLO11 مجموعة أوسع من أحجام النماذج، مما يجعلها قابلة للتكيف مع كل شيء بدءًا من المتحكمات الدقيقة وحتى الخوادم المتطورة، بينما يركز RTDETRv2 بشكل أساسي على النماذج عالية السعة.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

تعرف على المزيد حول YOLO11

تحليل معماري

يكمن الاختلاف الأساسي بين هذين النموذجين المتطورين في طريقة معالجتهما للمعلومات البصرية.

RTDETRv2: نهج المحولات

تم تطوير RTDETRv2 من قبل باحثين في Baidu، وهو يعتمد على نجاح RT-DETR الأصلي. ويستفيد من قوة المحولات لالتقاط التبعيات بعيدة المدى في الصور، وهي ميزة غالبًا ما تشكل تحديًا للشبكات العصبية التعمقية التقليدية.

مشفر هجين: يستخدم RTDETRv2 مشفرًا هجينًا يعالج ميزات متعددة المقاييس، مما يسمح للنموذج "بالاهتمام" بأجزاء مختلفة من الصورة في وقت واحد.
تنبؤNMS: إحدى ميزاته المميزة هي التخلص من Non-Maximum Suppression (NMS). من خلال التنبؤ بالأشياء مباشرةً باستخدام مجموعة من الاستعلامات، فإنه يبسط عملية المعالجة اللاحقة، على الرغم من أن ذلك غالبًا ما يأتي على حساب تعقيد أعلى في التدريب.
حقيبة الهدايا المجانية: يقدم التحديث "v2" استراتيجيات تدريب محسّنة وتعديلات هندسية لتحسين سرعة ودقة التقارب مقارنة بالخط الأساسي الأصلي.

البيانات الوصفية:

المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
المنظمة: بايدو
التاريخ: 2024-07-17 (Arxiv v2)
Arxiv:RT-DETRv2 Paper
GitHub:RT-DETR Repository

YOLO11: معيار CNN المُحسّن

Ultralytics YOLO11 يمثل تطور بنية CNN، مع التركيز على تعظيم كفاءة استخراج الميزات مع تقليل الأعباء الحسابية إلى الحد الأدنى.

كتل C3k2 و C2PSA: YOLO11 كتل بناء متقدمة في العمود الفقري والرقبة. تستخدم كتلة C3k2 أحجام نواة متنوعة لتقديم تمثيل أكثر ثراءً للميزات، بينما تدمج كتلة C2PSA آليات الانتباه بكفاءة دون التكلفة الباهظة للمحولات الكاملة.
دعم المهام الموحدة: على عكس RTDETRv2، الذي يعد في المقام الأول كاشف كائنات، YOLO11 تصميم YOLO11 كأساس رؤية عالمي. وهو يدعم بشكل أساسي تقسيم المثيلات وتقدير الوضع و OBB والتصنيف ضمن نفس الإطار.
تحسين الحافة: تم ضبط البنية بشكل خاص لضمان السرعة على أجهزة متنوعة، من وحدات المعالجة المركزية إلى مسرعات الذكاء الاصطناعي الحافة مثل NVIDIA .

البيانات الوصفية:

المؤلفون: غلين جوشر وجينغ تشيو
المؤسسة:Ultralytics
التاريخ: 2024-09-27
المستندات:توثيق YOLO11

هل تعلم؟

بينما يزيل RTDETRv2 NMS التصميم، يتميز Ultralytics YOLO26 أيضًا بتصميم أصلي NMS من البداية إلى النهاية، يجمع بين سرعة CNNs والنشر المبسط للمحولات.

النظام البيئي وسهولة الاستخدام

بالنسبة للمطورين ومهندسي التعلم الآلي، غالبًا ما يكون النظام البيئي للبرمجيات المحيط بالنموذج بنفس أهمية المقاييس الأولية للنموذج.

مزاياUltralytics : YOLO11 من Ultralytics الرائدة في القطاع، والتي توفر تجربة متماسكة من إدارة البيانات إلى النشر.

كفاءة التدريب: تشتهر YOLO11 بسرعة تدريبها. تتضمن قاعدة الكود ضبط المعلمات الفائقة تلقائيًا وفحوصات ذكية لمجموعات البيانات.
مرونة النشر: يمكن للمستخدمين تصدير النماذج إلى تنسيقات مثل ONNXو TensorRTو CoreML و TFLite واحد من التعليمات البرمجية.
دعم المجتمع: مع ملايين التنزيلات، يوفر Ultralytics موارد واسعة النطاق، من دروس YouTube التعليمية إلى مناقشات GitHub النشطة.

اعتبارات RTDETRv2: RTDETRv2 هو في الأساس مستودع للأبحاث. على الرغم من قوته، إلا أنه غالبًا ما يفتقر إلى تجربة "البطاريات المضمنة". يتطلب إعداد خطوط أنابيب التدريب وإدارة مجموعات البيانات والتصدير للأجهزة الطرفية عادةً مزيدًا من التكوين اليدوي و Python .

متطلبات الأداء والموارد

عند النشر في العالم الحقيقي، فإن تحقيق التوازن بين الدقة واستهلاك الموارد هو أمر أساسي.

GPU والتدريب

من المعروف أن المحولات تستهلك الكثير من الذاكرة. يتطلب RTDETRv2 عادةً قدرًا كبيرًا من GPU VRAM GPU لتثبيت آليات الانتباه أثناء التدريب. وهذا قد يجعل من الصعب التدريب على أجهزة المستهلكين أو يتطلب أحجام دفعات أصغر، مما قد يؤثر على إحصائيات تطبيع الدفعات.

YOLO11 أكثر كفاءة من حيث استخدام الذاكرة. تسمح بنيته القائمة على CNN باستخدام أحجام دفعات أكبر على وحدات معالجة الرسومات القياسية، مما يسرع عملية التدريب ويقلل من تكلفة التطوير. تمتد هذه الكفاءة إلى الاستدلال، حيث يمكن تشغيل نماذج YOLO11n في الوقت الفعلي على وحدات المعالجة المركزية، وهو إنجاز يصعب على النماذج القائمة على المحولات تحقيقه بسبب تعقيدها الحسابي التربيعي فيما يتعلق برموز الصور.

الدقة مقابل السرعة

كما هو موضح في جدول المقارنة، يحقق YOLO11x أعلى mAP (54.7) أعلى من RTDETRv2-x (54.3) مع الحفاظ على سرعات استدلال تنافسية. بالنسبة للتطبيقات التي تتطلب سرعة فائقة، توفر YOLO11 الأصغر YOLO11 (n/s) مستوى أداء لا يستهدفه RTDETRv2، مما يجعل YOLO11 الواضح في مجال نشر الأجهزة المحمولة وإنترنت الأشياء.

مثال على الكود: استخدام YOLO11 RT-DETR

Ultralytics دعماً من الدرجة الأولى لكل من YOLO الأصلية والإصدارات المدعومة من RT-DETR مما يتيح لك التبديل بين البنى بشكل سلس.

from ultralytics import RTDETR, YOLO

# 1. Load the Ultralytics YOLO11 model (Recommended)
# Best for general purpose, edge deployment, and versatility
model_yolo = YOLO("yolo11n.pt")
results_yolo = model_yolo.train(data="coco8.yaml", epochs=50, imgsz=640)

# 2. Load an RT-DETR model via Ultralytics API
# Useful for research comparison or specific high-compute scenarios
model_rtdetr = RTDETR("rtdetr-l.pt")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

# Visualize the YOLO11 results
for result in results_yolo:
    result.show()

تطبيقات عملية في أرض الواقع

أين يتفوق YOLO11

نظرًا لوزنه الخفيف وسرعته العالية، YOLO11 الخيار المفضل في الحالات التالية:

الأنظمة المستقلة: الطائرات بدون طيار والروبوتات التي تعتبر فيها زمن الاستجابة المنخفض أمرًا بالغ الأهمية للسلامة.
المدن الذكية: مراقبة حركة المرور في الوقت الفعلي على أجهزة متطورة مثل NVIDIA .
الزراعة: مراقبة المحاصيل وكشف الأعشاب الضارة باستخدام معدات متنقلة تعمل بالبطاريات.
مهام متنوعة: المشاريع التي تتطلب تقدير الوضع أو مربعات الحدود الموجهة إلى جانب الكشف.

أين يتناسب RTDETRv2

يعتبر RTDETRv2 مناسبًا تمامًا للتطبيقات التالية:

خوادم عالية الحوسبة: سيناريوهات تتوفر فيها طاقة GPU غير محدودة.
الانسدادات المعقدة: البيئات التي يساعد فيها المجال الاستقبالي الشامل للمحولات في حل التداخل الكبير بين الكائنات.
البحث: استكشاف أكاديمي لمحولات الرؤية (ViTs).

الخلاصة

تُظهر كلتا البنيتين التقدم المذهل الذي أحرزه مجال الرؤية الحاسوبية. يُظهر RTDETRv2 إمكانات المحولات في تحدي هيمنة CNN في مهام الكشف. ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات العملية، Ultralytics YOLO11 هي الخيار الأفضل.

بفضل إطاره الموحد ومتطلباته المنخفضة من الموارد ومجموعة واسعة من المهام المدعومة ونظام النشر الناضج، YOLO11 للمطورين الانتقال من النموذج الأولي إلى الإنتاج بشكل أسرع. بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه الكفاءة والتصميم NMS نوصي أيضًا باستكشاف YOLO26 المتطور، الذي يجمع بين أفضل سمات كلا العالمين في قوة موحدة وشاملة.

استكشف YOLO11