تخطي إلى المحتوى

YOLO11 مقابل RTDETRv2: مقارنة تقنية بين أجهزة الكشف في الوقت الحقيقي

يتطلب اختيار البنية المثلى للكشف عن الأجسام التنقل في مشهد معقد من المفاضلات بين سرعة الاستدلال ودقة الكشف وكفاءة الموارد الحاسوبية. يقدم هذا التحليل مقارنة تقنية شاملة بين Ultralytics YOLO11وهو أحدث تكرار للكاشف المستند إلى شبكة CNN القياسية في هذا المجال، وRTDETRv2، وهو محول الكشف في الوقت الحقيقي عالي الأداء.

في حين يوضح RTDETRv2 إمكانات بنيات المحولات للمهام عالية الدقة, YOLO11 يوفر عادةً توازنًا أفضل للنشر العملي، حيث يوفر سرعات استنتاج أسرع، وآثار ذاكرة أقل بكثير، ونظامًا بيئيًا أقوى للمطورين.

Ultralytics YOLO11: معيار الرؤية الحاسوبية في الوقت الحقيقي

Ultralytics YOLO11 يمثل تتويجًا لسنوات من البحث في الشبكات العصبية التلافيفية الفعالة (CNNs). وقد صُممت لتكون الأداة النهائية لتطبيقات الرؤية الحاسوبية في العالم الحقيقي، فهي تعطي الأولوية للكفاءة دون المساومة على الدقة الفائقة.

المؤلفون: جلين جوتشر، جينغ تشيو
المنظمة:Ultralytics
التاريخ: 2024-09-27 2024
GitHubultralytics
المستنداتyolo11

الهندسة المعمارية ونقاط القوة

يستخدم YOLO11 بنية محسّنة أحادية المرحلة وخالية من المراسي. وهو يدمج وحدات متقدمة لاستخراج الخصائص، بما في ذلك كتل C3k2 المحسّنة ووحدات تجميع الهرم المكاني السريع (SPPF)، لالتقاط الخصائص بمقاييس مختلفة.

تعرف على المزيد حول YOLO11

RTDETRv2: الدقة التي تعمل بالمحول

إن RTDETRv2 هو محول الكشف في الوقت الحقيقيRT-DETR) الذي يستفيد من قوة محولات الرؤية (ViT) لتحقيق دقة عالية على مجموعات البيانات القياسية. ويهدف إلى حل مشكلات زمن الاستجابة المرتبطة تقليديًا بالنماذج الشبيهة بـ DETR.

المؤلفون: وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وغوانزونغ وانغ، ويي ليو
المنظمة: بايدو
التاريخ: 2023-04-17
Arxiv:https://arxiv.org/abs/2304.08069
GitHubRT-DETR
DocsRT-DETR

الهندسة المعمارية والخصائص

يستخدم RTDETRv2 بنية هجينة تجمع بين العمود الفقري لشبكة CNN مع مُشَفِّر وفك تشفير محول فعال. تسمح آلية الانتباه الذاتي للنموذج بالتقاط السياق العالمي، وهو أمر مفيد للمشاهد ذات العلاقات المعقدة بين الكائنات.

  • السياق العالمي: تتفوق بنية المحول في تمييز الأجسام في البيئات المزدحمة حيث قد تكون السمات المحلية غامضة.
  • كثافة الموارد: على الرغم من تحسينها للسرعة، تتطلب طبقات المحولات بطبيعتها المزيد من الحوسبة والذاكرة، خاصةً للمدخلات عالية الدقة.
  • التركيز: RTDETRv2 هي بنية تركز في المقام الأول على الاكتشاف، وتفتقر إلى الدعم الأصلي متعدد المهام الموجود في عائلة YOLO .

تعرف على المزيد حول RTDETRv2

تحليل الأداء: السرعة والدقة والكفاءة

عند المقارنة بين YOLO11 وRTDETRv2، يكمن الفرق في المفاضلة المعمارية بين مقاييس الدقة البحتة والكفاءة التشغيلية.

اعتبارات الأجهزة

وغالباً ما تتطلب النماذج القائمة على المحولات مثل RTDETRv2 وحدات معالجة رسومات قوية للتدريب والاستدلال الفعال. وعلى النقيض من ذلك، فإن النماذج القائمة على شبكة CNN مثل YOLO11 مُحسّنة للغاية لمجموعة واسعة من الأجهزة، بما في ذلك وحدات المعالجة المركزية وأجهزة الذكاء الاصطناعي المتطورة مثل Raspberry Pi.

المقارنة الكمية

يوضح الجدول أدناه مقاييس الأداء على مجموعة بياناتCOCO . بينما يُظهر RTDETRRv2 نتائج قوية mAP يوفر YOLO11 دقة تنافسية مع سرعات استدلال أسرع بكثير، خاصةً على CPU.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

تحليل النتائج

  1. سرعة الاستدلال: يتفوق YOLO11 في السرعة. على سبيل المثال، يحقق YOLO11x دقة أعلى (54.7 mAP) من RTDETRv2-x (54.3 mAP) بينما يعمل أسرع بنسبة 25% تقريبًا على GPU T4 (11.3 مللي ثانية مقابل 15.03 مللي ثانية).
  2. كفاءة المعلمة: تتطلب نماذج YOLO11 عمومًا عددًا أقل من المعلمات وعمليات التشغيل الآلي الثابتة لتحقيق مستويات دقة مماثلة. يحقق YOLO11l نفس 53.4 mAP مثل RTDETRv2-l ولكنه يحقق ذلك بنصف عدد عمليات التشغيل الموضعي تقريبًا (86.9 ب مقابل 136 ب).
  3. أداءCPU : عمليات التحويل في RTDETRv2 مكلفة حسابيًا على وحدات المعالجة المركزية. يظل YOLO11 هو الخيار المفضل لعمليات النشر التي GPU تعتمد على وحدة المعالجة المركزية، حيث يوفر معدلات إطارات قابلة للتطبيق على المعالجات القياسية.

سير العمل وسهولة الاستخدام

بالنسبة للمطورين، تشمل "تكلفة" النموذج وقت التكامل، واستقرار التدريب، وسهولة النشر.

سهولة الاستخدام والنظام البيئي

تلخص واجهة برمجة تطبيقاتUltralytics Python API حلقات التدريب المعقدة في بضعة أسطر من التعليمات البرمجية.

from ultralytics import YOLO

# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

على النقيض من ذلك، في حين أن RTDETRv2 أداة بحثية قوية، إلا أنها غالبًا ما تتطلب المزيد من التكوين اليدوي ومعرفة أعمق بقاعدة الرموز الأساسية للتكيف مع مجموعات البيانات المخصصة أو التصدير إلى تنسيقات محددة مثل ONNX أو TensorRT.

كفاءة التدريب

تتطلب نماذج محولات التدريب عادةً ذاكرة GPU (VRAM) أعلى بكثير. يمكن أن يجبر ذلك المطورين على استخدام أحجام دفعات أصغر أو استئجار أجهزة سحابية أكثر تكلفة. تتميز بنية YOLO11 الخاصة بـ YOLO11 بكفاءة الذاكرة، مما يسمح باستخدام أحجام دفعات أكبر وتقارب أسرع على وحدات معالجة الرسومات من فئة المستهلك.

حالات الاستخدام المثالية

متى تختار YOLO11

  • نشر الحافة في الوقت الحقيقي: عند النشر على أجهزة مثل NVIDIA Jetson أو Raspberry Pi أو الهواتف المحمولة حيث تكون موارد الحوسبة محدودة.
  • مهام الرؤية المتنوعة: إذا كان مشروعك يتطلب تجزئة أو تقدير الوضعية إلى جانب الكشف.
  • التطوير السريع: عندما يكون الوقت اللازم للوصول إلى السوق أمرًا بالغ الأهمية، فإن التوثيق الشامل والدعم المجتمعي ل Ultralytics يسرّع من دورة حياة البرنامج.
  • تحليلات الفيديو: للمعالجة عالية الإطارات في الثانية في تطبيقات مثل مراقبة حركة المرور أو التحليلات الرياضية.

متى تختار RTDETRv2

  • البحث الأكاديمي: لدراسة خصائص محولات الرؤية وآليات الانتباه.
  • المعالجة من جانب الخادم: عندما تتوفر طاقة غير محدودة GPU وتكون أعلى دقة مطلقة على معايير محددة - بغض النظر عن زمن الاستجابة - هي المقياس الوحيد.
  • تحليل الصور الثابتة: السيناريوهات التي لا يمثل فيها وقت المعالجة قيدًا، مثل تحليل الصور الطبية غير المتصلة بالإنترنت.

الخلاصة

في حين يعرض RTDETRv2 التقدم الأكاديمي لبنى المحولات في الرؤية, Ultralytics YOLO11 تظل الخيار العملي للغالبية العظمى من التطبيقات الواقعية. فنسبة السرعة إلى الدقة الفائقة إلى الدقة، وانخفاض متطلبات الذاكرة، والقدرة على التعامل مع مهام الرؤية المتعددة تجعل منه أداة متعددة الاستخدامات وقوية. إلى جانب نظام بيئي ناضج وجيد الصيانة، يمكّن YOLO11 المطورين من الانتقال من المفهوم إلى الإنتاج بأقل قدر من الاحتكاك.

استكشف نماذج أخرى

تساعد مقارنة النماذج في اختيار الأداة المناسبة لقيودك الخاصة. استكشف المزيد من المقارنات في وثائق Ultralytics :


تعليقات