YOLO مقابل RTDETRv2: موازنة السرعة ودقة المحولات
غالبًا ما ينطوي اختيار البنية المثلى للكشف عن الأجسام على المفاضلة بين زمن الاستنتاج ودقة الكشف. تفحص هذه المقارنة التقنية YOLO وهو كاشف عالي السرعة تم تحسينه من قبل مجموعة علي بابا، و RTDETRv2، الجيل الثاني من محول الكشف في الوقت الحقيقي من Baidu. نقوم بتحليل ابتكاراتهما المعمارية ومعايير الأداء وملاءمة النشر لمساعدتك في اتخاذ قرارات مستنيرة لتطبيقات الرؤية الحاسوبية الخاصة بك.
YOLO: التحسين من أجل زمن انتقال منخفض
يمثل YOLO خطوة مهمة في تطور علامة YOLO حيث يركز بشكل كبير على زيادة السرعة إلى أقصى حد دون المساس بالدقة بشكل كبير. تم تطويره من قبل مجموعة علي بابا، وهو يستخدم تقنيات متقدمة للبحث في البنية العصبية (NAS) لتكييف بنية الشبكة لتحقيق الكفاءة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
- المستنداتhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
الملامح المعمارية البارزة
يدمج YOLO العديد من التقنيات الجديدة لتبسيط خط أنابيب الكشف:
- العمود الفقري المدعوم من NAS: يستخدم النموذج البحث عن البنية العصبية (NAS) لاكتشاف هيكل العمود الفقري الفعال تلقائيًا (MAE-NAS). ويضمن هذا النهج تحسين عمق الشبكة وعرضها بما يتناسب مع قيود الأجهزة المحددة.
- رقبة RepGFPPN: يتميز بنسخة فعالة من الشبكة الهرمية المعممة للميزات (GFPN) المعروفة باسم RepGFPN. يعمل هذا المكون على تعزيز دمج الميزات عبر مقاييس مختلفة مع الحفاظ على التحكم في زمن الاستجابة المنخفض.
- ZeroHead: يفصل تصميم الرأس المبسط الذي يُطلق عليه اسم "ZeroHead" بين مهام التصنيف والانحدار، مما يقلل من العبء الحسابي لطبقات التنبؤ النهائية.
- AlignedOTA: لتحقيق الاستقرار في التدريب، يستخدم YOLO استراتيجية AlignedOTA (تعيين النقل الأمثل)، وهي استراتيجية تعيين التسمية التي تعمل على محاذاة أهداف التصنيف والانحدار لتحسين التقارب.
RTDETRv2: تطور المحولات في الوقت الحقيقي
يعتمد RTDETRRv2 على نجاح RT-DETR الأصلي، وهو أول كاشف للأشياء قائم على المحولات يحقق أداءً في الوقت الفعلي. يقدم RTDETRV2، الذي طورته شركة Baidu، "حقيبة من الأشياء المجانية" لتعزيز استقرار التدريب ودقته دون تكبد تكاليف استدلال إضافية.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2023-04-17
- اركسيف:https://arxiv.org/abs/2304.08069
- جيثبhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستنداتhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
الملامح المعمارية البارزة
تستفيد RTDETRv2 من نقاط القوة في محولات الرؤية مع التخفيف من اختناقات السرعة التقليدية:
- المشفر الهجين: تستخدم البنية مُشفِّرًا هجينًا يعالج الميزات متعددة النطاقات بكفاءة، ويفصل بين التفاعل داخل النطاق الواحد والدمج عبر النطاقات لتوفير التكاليف الحسابية.
- اختيار الاستعلامIoU: تختار هذه الآلية استعلامات الكائنات الأولية عالية الجودة بناءً على درجات التقاطع على الاتحادIoU، مما يؤدي إلى تقارب أسرع في التدريب.
- تكوين قابل للتكيف: يوفر RTDETRv2 تكوينات مرنة لوحدة فك التشفير واختيار الاستعلام، مما يسمح للمستخدمين بضبط النموذج لمتطلبات سرعة/دقة محددة.
- تصميم خالٍ من المراسي: مثل سابقتها، فهي خالية تمامًا من المرتكزات، مما يلغي الحاجة إلى ضبط صندوق الارتكاز الإرشادي والقمع غير الأقصىNMS أثناء المعالجة اللاحقة.
مقارنة تقنية: الأداء والكفاءة
يكمن الفرق الجوهري بين هذين النموذجين في جذورهما المعمارية - الشبكة العنكبوتية الشبكية مقابل المحول - وكيف يؤثر ذلك على أدائهما.
التحليل المتري
يوضح الجدول أدناه المقاييس الرئيسية على مجموعة بياناتCOCO . في حين يهيمن RTDETRv2 من حيث متوسط متوسط الدقةmAP)، يُظهر YOLO إنتاجية أعلى (FPS) وعدد أقل من المعلمات لمتغيراته الأصغر.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل المفاضلات
تتفوق YOLO في البيئات التي يكون فيها كل جزء من الثانية مهمًا، مثل الفرز الصناعي عالي التردد. يتميز متغيره "Tiny" (t) بخفة الوزن بشكل استثنائي. وعلى العكس من ذلك، يوفر متغير RTDETRv2 سقف دقة أعلى، مما يجعله مفضلاً للمشاهد المعقدة حيث يكون فقدان أي كائن أمراً بالغ الأهمية، كما هو الحال في الملاحة المستقلة أو المراقبة التفصيلية.
الهندسة المعمارية مقابل التطبيق في العالم الحقيقي
السياق العالمي مقابل الميزات المحلية: تسمح آلية انتباه المحول RTDETRv2 الخاصة ب RTDETRv2 بفهم السياق العالمي بشكل أفضل من آلية YOLO القائمة على شبكة CNN. يؤدي ذلك إلى أداء أفضل في المشاهد المزدحمة أو عندما تكون الأجسام محجوبة. ومع ذلك، يأتي هذا الانتباه العالمي على حساب استهلاك أعلى للذاكرة وأوقات تدريب أبطأ.
تحسين الأجهزة: تم تحسين العمود الفقري المستند إلى NAS في YOLO بشكل كبير للاستدلال باستخدام GPU مما يحقق زمن استجابة منخفض للغاية. يتطلب RTDETRv2، على الرغم من أنه في الوقت الفعلي، أجهزة أكثر قوة بشكل عام لمطابقة معدلات الإطارات الخاصة بأجهزة الكشف YOLO.
ميزة Ultralytics: لماذا تختار YOLO11؟
بينما تقدم YOLO و RTDETRv2 مزايا متخصصة, Ultralytics YOLO11 يبرز باعتباره الحل الأكثر توازناً وملائماً للمطورين للغالبية العظمى من التطبيقات الواقعية.
تجربة مطور متميز ونظام بيئي متفوق
أحد أهم التحديات في النماذج الأكاديمية مثل YOLO أو RTDETRv2 هو التكامل. تحل Ultralytics هذه المشكلة من خلال نظام بيئي قوي:
- سهولة الاستخدام: من خلال واجهة برمجة تطبيقات Python API و CLI الموحّدة، يمكنك تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر من التعليمات البرمجية.
- نظام بيئي جيد الصيانة: يتم دعم نماذج Ultralytics من خلال التطوير النشط والتوثيق المكثف ومجتمع كبير. وهذا يضمن التوافق مع أحدث مكتبات الأجهزة والبرمجيات.
- كفاءة التدريب: صُمم YOLO11 للتدريب بشكل أسرع ويتطلب ذاكرة GPU (VRAM) أقل بكثير من النماذج القائمة على المحولات مثل RTDETRv2. وهذا يجعل الذكاء الاصطناعي عالي الأداء متاحاً حتى على أجهزة من فئة المستهلكين.
براعة لا مثيل لها
على عكس YOLO و RTDETRv2، اللذان يركزان بشكل أساسي على اكتشاف الصندوق المحدود، يدعم YOLO11 أصلاً مجموعة واسعة من مهام الرؤية الحاسوبية:
توازن الأداء
يحقق YOLO11 دقة فائقة تنافس أو تتفوق على RTDETRv2 في العديد من المعايير مع الحفاظ على سرعة الاستدلال والكفاءة التي تتميز بها عائلة YOLO .
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
الخلاصة
يعتمد الاختيار بين YOLO و RTDETRv2 على القيود الخاصة بك:
- اختر YOLO إذا كان القيد الأساسي لديك هو زمن الاستجابة وكنت تقوم بالنشر على أجهزة الحافة حيث يكون الحد الأدنى من عدد المعلمات أمرًا بالغ الأهمية.
- اختر RTDETRv2 إذا كنت تحتاج إلى أعلى دقة ممكنة في المشاهد المعقدة ولديك ميزانية حسابية لدعم بنية المحولات.
ومع ذلك، للحصول على حل شامل يجمع بين الأداء العالي وسهولة الاستخدام والقدرة على القيام بمهام متعددة, Ultralytics YOLO11 يظل الخيار الموصى به. تعمل بصمة الذاكرة المنخفضة أثناء التدريب، بالإضافة إلى نظام بيئي ناضج، على تسريع الرحلة من النموذج الأولي إلى الإنتاج.
استكشف نماذج أخرى
لمزيد من فهم مشهد اكتشاف الأجسام، استكشف هذه المقارنات: