YOLO11 مقابل RTDETRv2: مقارنة فنية لأجهزة الـ Detect في الوقت الفعلي

يتطلب اختيار بنية الكشف عن الكائنات المثالية التنقل في مشهد معقد من المفاضلات بين سرعة الاستدلال ودقة الكشف وكفاءة موارد الحوسبة. يقدم هذا التحليل مقارنة فنية شاملة بين Ultralytics YOLO11، وهو أحدث تكرار للكاشف القياسي في الصناعة القائم على CNN، و RTDETRv2، وهو محول كشف في الوقت الفعلي عالي الأداء.

في حين أن RTDETRv2 يوضح إمكانات Architectures المحولات لمهام الدقة العالية، فإن YOLO11 يوفر عادةً توازنًا فائقًا للنشر العملي، مما يوفر سرعات استدلال أسرع، وبصمات ذاكرة أقل بكثير، ونظام بيئي للمطورين أكثر قوة.

Ultralytics YOLO11: معيار رؤية الكمبيوتر في الوقت الفعلي

Ultralytics YOLO11 يمثل تتويجًا لسنوات من البحث في الشبكات العصبية الالتفافية الفعالة (CNNs). تم تصميمه ليكون الأداة الحاسمة لتطبيقات الرؤية الحاسوبية في العالم الحقيقي، فهو يعطي الأولوية للكفاءة دون المساومة على أحدث دقة.

المؤلفون: جلين جوتشر، جينغ تشيو
المنظمة:Ultralytics
التاريخ: 2024-09-27
GitHub:https://github.com/ultralytics/ultralytics
المستندات:https://docs.ultralytics.com/models/yolo11/

الهيكلة ونقاط القوة

يستخدم YOLO11 بنية مُحسَّنة أحادية المرحلة وخالية من المرساة. وهو يدمج وحدات استخراج الميزات المتقدمة، بما في ذلك كتل C3k2 المحسّنة ووحدات SPPF (تجميع الهرم المكاني - سريع)، لالتقاط الميزات بمقاييس مختلفة.

تعدد الاستخدامات: على عكس العديد من النماذج المتخصصة، يدعم YOLO11 مجموعة واسعة من مهام رؤية الكمبيوتر ضمن إطار عمل واحد، بما في ذلك object detection و instance segmentation و pose estimation و oriented bounding boxes (OBB) و image classification.
كفاءة الذاكرة: تم تصميم YOLO11 ليعمل بكفاءة على الأجهزة التي تتراوح من الأجهزة الطرفية المدمجة إلى الخوادم المؤسسية. يتطلب ذاكرة CUDA أقل بكثير أثناء التدريب مقارنةً بالبدائل القائمة على المحولات.
تكامل النظام البيئي: النموذج مدعوم من النظام البيئي لـ Ultralytics، مما يوفر وصولاً سلسًا إلى أدوات مثل Ultralytics HUB لإدارة النماذج و Ultralytics Explorer لتحليل مجموعات البيانات.

تعرف على المزيد حول YOLO11

RTDETRv2: دقة مدعومة بالمحولات

RTDETRv2 هو Real-Time Detection Transformer ‏(RT-DETR) يستفيد من قوة محولات الرؤية (ViT)‏ لتحقيق دقة عالية في مجموعات البيانات المعيارية. يهدف إلى حل مشكلات زمن الوصول المرتبطة تقليديًا بنماذج تشبه DETR.

المؤلفون: ويني يو ليو، ييان زهاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، و يي ليو
المنظمة: بايدو
التاريخ: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
المستندات:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme

الهندسة المعمارية والخصائص

يستخدم RTDETRv2 بنية هجينة تجمع بين العمود الفقري للشبكة العصبونية الالتفافية (CNN) ووحدة ترميز وفك ترميز فعالة تعتمد على المحولات. تتيح آلية الانتباه الذاتي للنموذج التقاط السياق الشامل، وهو أمر مفيد للمشاهد ذات علاقات الكائنات المعقدة.

السياق العام: يتفوق تصميم المحول (transformer) في تمييز الكائنات في البيئات المزدحمة حيث قد تكون الميزات المحلية غامضة.
كثافة الموارد: في حين أنها مُحسَّنة للسرعة، تتطلب طبقات المحولات بطبيعتها مزيدًا من الحسابات والذاكرة، خاصةً للإدخالات عالية الدقة.
التركيز: RTDETRv2 عبارة عن بنية تركز بشكل أساسي على الاكتشاف، وتفتقر إلى دعم المهام المتعددة الأصلي الموجود في عائلة YOLO.

تعرف على المزيد حول RTDETRv2

تحليل الأداء: السرعة والدقة والكفاءة

عند مقارنة YOLO11 و RTDETRv2، يكمن التمييز في المفاضلة المعمارية بين مقاييس الدقة المطلقة والكفاءة التشغيلية.

اعتبارات متعلقة بالأجهزة

غالبًا ما تتطلب النماذج القائمة على المحولات (Transformer) مثل RTDETRv2 وحدات معالجة رسومية (GPU) قوية للتدريب والاستدلال الفعال. في المقابل، تم تحسين النماذج القائمة على الشبكات العصبونية الالتفافية (CNN) مثل YOLO11 بدرجة كبيرة لمجموعة واسعة من الأجهزة، بما في ذلك وحدات المعالجة المركزية (CPU) وأجهزة الذكاء الاصطناعي المتطورة مثل Raspberry Pi.

مقارنة كمية

يوضح الجدول أدناه مقاييس الأداء على مجموعة بيانات COCO. في حين أن RTDETRv2 يُظهر درجات mAP قوية، فإن YOLO11 يوفر دقة تنافسية مع سرعات استدلال أسرع بشكل ملحوظ، خاصةً على وحدة المعالجة المركزية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

تحليل النتائج

سرعة الاستدلال: YOLO11 يهيمن على السرعة. على سبيل المثال، يحقق YOLO11x دقة أعلى (54.7 mAP) من RTDETRv2-x (54.3 mAP) أثناء التشغيل بسرعة أسرع بنسبة 25% تقريبًا على وحدة معالجة الرسوميات T4 (11.3 مللي ثانية مقابل 15.03 مللي ثانية).
كفاءة المعلمات: تتطلب نماذج YOLO11 عمومًا عددًا أقل من المعلمات و FLOPs لتحقيق مستويات دقة مماثلة. يحقق YOLO11l نفس قيمة mAP البالغة 53.4 مثل RTDETRv2-l ولكنه يفعل ذلك بنصف عدد FLOPs تقريبًا (86.9B مقابل 136B).
أداء وحدة المعالجة المركزية (CPU Performance): عمليات transformer في RTDETRv2 مكلفة حسابيًا على وحدات المعالجة المركزية (CPUs). يظل YOLO11 هو الخيار المفضل لعمليات النشر غير المستندة إلى وحدة معالجة الرسومات (GPU)، مما يوفر معدلات إطارات قابلة للتطبيق على المعالجات القياسية.

سير العمل وسهولة الاستخدام

بالنسبة للمطورين، تتضمن "تكلفة" النموذج وقت التكامل واستقرار التدريب وسهولة النشر.

سهولة الاستخدام والنظام البيئي

تجرد واجهة برمجة تطبيقات Ultralytics Python حلقات التدريب المعقدة إلى بضعة أسطر من التعليمات البرمجية.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

على النقيض من ذلك، في حين أن RTDETRv2 هي أداة بحثية قوية، إلا أنها غالبًا ما تتطلب المزيد من التهيئة اليدوية ومعرفة أعمق بقاعدة التعليمات البرمجية الأساسية للتكيف مع مجموعات البيانات المخصصة أو التصدير إلى تنسيقات معينة مثل ONNX أو TensorRT.

كفاءة التدريب

يتطلب تدريب نماذج المحولات عادةً ذاكرة GPU (VRAM) أعلى بشكل ملحوظ. يمكن أن يجبر هذا المطورين على استخدام أحجام دفعات أصغر أو استئجار أجهزة سحابية أكثر تكلفة. تتميز بنية CNN الخاصة بـ YOLO11 بكفاءة الذاكرة، مما يسمح بأحجام دفعات أكبر وتقارب أسرع على وحدات معالجة الرسومات الخاصة بالمستهلكين.

حالات الاستخدام المثالية

متى تختار YOLO11

النشر المتطور في الوقت الفعلي: عند النشر على أجهزة مثل NVIDIA Jetson أو Raspberry Pi أو الهواتف المحمولة حيث تكون موارد الحوسبة محدودة.
مهام رؤية متنوعة: إذا كان مشروعك يتطلب segmentation أو تقدير الوضعية (pose estimation) بجانب الـ detection.
تطوير سريع: عندما يكون الوصول إلى السوق في الوقت المناسب أمرًا بالغ الأهمية، فإن الوثائق الشاملة و دعم المجتمع من Ultralytics يسرعان دورة الحياة.
تحليل الفيديو: لمعالجة عالية الإطارات في الثانية في تطبيقات مثل مراقبة حركة المرور أو تحليل الألعاب الرياضية.

متى تختار RTDETRv2

البحث الأكاديمي: لدراسة خصائص محولات الرؤية وآليات الانتباه.
المعالجة من جانب الخادم: عندما تتوفر طاقة GPU غير محدودة وكانت الدقة المطلقة الأعلى على معايير محددة - بغض النظر عن زمن الوصول - هي المقياس الوحيد.
تحليل الصور الثابتة: السيناريوهات التي لا يمثل فيها وقت المعالجة قيدًا، مثل تحليل التصوير الطبي دون اتصال.

الخلاصة

في حين أن RTDETRv2 يعرض التقدم الأكاديمي لـ Architectures المحولات في مجال الرؤية، فإن Ultralytics YOLO11 يظل الخيار العملي للغالبية العظمى من التطبيقات الواقعية. إن نسبة السرعة إلى الدقة الفائقة ومتطلبات الذاكرة المنخفضة والقدرة على التعامل مع مهام الرؤية المتعددة تجعله أداة متعددة الاستخدامات وقوية. إلى جانب نظام بيئي ناضج ويتم صيانته جيدًا، يمكّن YOLO11 المطورين من الانتقال من المفهوم إلى الإنتاج بأقل قدر من الاحتكاك.

استكشف نماذج أخرى

تساعد مقارنة النماذج في اختيار الأداة المناسبة للقيود المحددة الخاصة بك. استكشف المزيد من المقارنات في وثائق Ultralytics: