YOLO RTDETRv2: هياكل للكشف في الوقت الفعلي
يعد اختيار بنية الكشف عن الكائنات المثلى قرارًا محوريًا يؤثر على كل شيء بدءًا من زمن الاستدلال وحتى تكاليف النشر. هناك نموذجان مبتكران تحدّيا الوضع الراهن، وهما YOLO من Alibaba و RTDETRv2 من Baidu. بينماYOLO على البحث عن البنية العصبية (NAS) وإعادة المعلمات بكفاءة، فإن RTDETRv2 يوسع حدود المحولات في الوقت الفعلي من خلال تحسين نموذج DETR.
يقدم هذا الدليل تحليلاً تقنياً متعمقاً لهيكلها ومقاييس أدائها ومنهجيات تدريبها لمساعدتك في تحديد النموذج الذي يناسب متطلبات الرؤية الحاسوبية الخاصة بك. كما نستكشف كيف أن الجيل التالي من Ultralytics أفضل ما في هذه الأساليب في إطار عمل موحد وسهل الاستخدام.
نظرة عامة على DAMO-YOLO
تم تطويرYOLO Distillation-Enhanced Neural Architecture Search-Optimized YOLO) من قبل مجموعة Alibaba لتلبية الاحتياجات المحددة للتطبيقات الصناعية التي لا يمكن التنازل فيها عن انخفاض زمن الاستجابة والدقة العالية. ويقدم مجموعة من التقنيات المصممة لضغط النموذج دون التضحية بالأداء.
المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 23 نوفمبر 2022
Arxiv:YOLO
GitHub:YOLO
الابتكارات المعمارية الرئيسية
YOLO بعدة "مزايا مجانية" مصممة خصيصًا لتحقيق الكفاءة:
- البحث عن البنية العصبية (NAS): على عكس النماذج ذات الهياكل الأساسية المصممة يدويًا،YOLO NAS لاكتشاف البنية الأكثر كفاءة للهيكل الأساسي (MAE-NAS) تلقائيًا، مما يؤدي إلى تحسين التوازن بين عمليات النقاط العائمة (FLOPs) والدقة.
- RepGFPN الفعال: يستخدم شبكة هرمية عامة للميزات (RepGFPN) تستفيد من إعادة المعلمات. وهذا يسمح بدمج الهياكل المعقدة المستخدمة أثناء التدريب في عمليات تلافيف أبسط وأسرع أثناء الاستدلال.
- ZeroHead: رأس كشف خفيف الوزن يقلل من العبء الحسابي المرتبط عادةً بطبقات التنبؤ النهائية.
- AlignedOTA: استراتيجية تخصيص علامات محسّنة تحل مشكلات عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.
نظرة عامة على RTDETRv2
يعتمد RTDETRv2 (Real-Time Detection Transformer v2) على نجاح RT-DETR الأصلي، وهو أول كاشف قائم على المحولات ينافس حقًا YOLO من حيث السرعة. تم تطويره بواسطة Baidu، ويهدف إلى التخلص من الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS) مع تحسين سرعة التقارب والمرونة.
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة: Baidu
التاريخ: 17 أبريل 2023 (v1)، يوليو 2024 (v2)
Arxiv:RT-DETRv2
GitHub:RT-DETR
الابتكارات المعمارية الرئيسية
يعمل RTDETRv2 على تحسين بنية المحول لمهام الرؤية العملية:
- المشفّر الهجين: يجمع بين شبكة CNN الأساسية ومشفّر هجين فعال يفصل بين التفاعل داخل النطاق والاندماج عبر النطاقات، مما يعالج التكلفة الحسابية العالية لآليات الانتباه الذاتي القياسية.
- اختيار الاستعلاماتIoU: تختار هذه الآلية استعلامات الكائنات الأولية عالية الجودة استنادًا إلى درجات التقاطع على الاتحاد (IoU)، مما يؤدي إلى تقارب تدريب أسرع.
- نشر مرن: على عكس سابقه، يدعم RTDETRv2 أشكال إدخال مرنة وتحسينات محسّنة لـ TensorRT، مما يجعله أكثر قابلية للتطبيق على خلفيات الأجهزة المتنوعة.
- NMS: من خلال التنبؤ بمجموعة من الكائنات مباشرةً، فإنه يزيل تباين زمن الاستجابة الناتج عن NMS وهو ميزة مهمة لتحليلات الفيديو في الوقت الفعلي.
مقارنة الأداء
عند مقارنة هذه البنى، من الضروري النظر إلى التوازن بين متوسط الدقة (mAP) وسرعة الاستدلال عبر تكوينات الأجهزة المختلفة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل
- الدقة: يحقق RTDETRv2 عمومًا mAP أعلى، لا سيما في المتغيرات المتوسطة والكبيرة. يصل نموذج "X" إلى 54.3٪ mAP متفوقًا على أكبرYOLO . وهذا يجعله مناسبًا للتطبيقات التي تتطلب كشفًا عالي الدقة، مثل التصوير الطبي أو الكشف عن العيوب.
- السرعة:YOLO في الإنتاجية الأولية على TensorRT الأجهزة المُحسّنة. إن بنية CNN المعاد تهيئة معلماتها هي بطبيعتها أكثر ملاءمة للأجهزة من كتل المحولات في RTDETRv2، مما يؤدي إلى انخفاض زمن الاستجابة لمتغيرات "Tiny" و"Small".
- كفاءة المعلمات:YOLO إلى أن يكون له عدد أقل من المعلمات لمستويات أداء مماثلة، مما قد يكون مفيدًا للأجهزة الطرفية المحدودة التخزين.
ميزة Ultralytics: لماذا تختار YOLO26؟
في حين أنYOLO RTDETRv2 يقدمان مزايا متخصصة، غالبًا ما يواجه المطورون تحديات تتمثل في تعقيد عمليات التدريب، ومحدودية دعم المنصات، وتشتت الوثائق. يعالج Ultralytics هذه المشكلات من خلال دمج أحدث الابتكارات في نظام بيئي سلس يركز على المستخدم.
التميز المتكامل
يوحد YOLO26 سرعة شبكات CNN مع بساطة المحولات من البداية إلى النهاية، ويقدم تصميمًا NMS يبسط عملية النشر مع تفوقه على سابقيه في GPU CPU GPU .
1. تجربة مستخدم ومجتمع متفوقان
السمة المميزة Ultralytics هي سهولة الاستخدام. في حين أن مستودعات الأبحاث تتطلب غالبًا إعدادات بيئية معقدة، يمكن تثبيت YOLO26 وتشغيله في ثوانٍ عبر ultralytics الحزمة. منصة Ultralytics يعزز ذلك بشكل أكبر من خلال توفير إدارة قواعد البيانات على شبكة الإنترنت، والتدريب بنقرة واحدة، والنشر التلقائي.
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with a single command
model.train(data="coco8.yaml", epochs=100)
2. بنية NMS من البداية إلى النهاية
يتبنى YOLO26 تصميمًا أصليًا شاملاً NMS، وهي ميزة يشترك فيها مع RTDETRv2 ولكنه ينفذها ضمن إطار عمل CNN محسّن للغاية. هذا الاختراق يلغي الحاجة إلى Non-Maximum Suppression، وهو عنق زجاجة شائع في خطوط أنابيب النشر. من خلال إزالة NMS يضمن YOLO26 أوقات استدلال متسقة ويبسط التكامل مع أدوات مثل OpenVINO و CoreML.
3. كفاءة التدريب والاستقرار
يقدم YOLO26 محسّن MuSGD، وهو مزيج من SGD Muon (مستوحى من تدريب LLM)، والذي يوفر استقرارًا غير مسبوق لمهام الرؤية. وهذا يسمح بتقارب أسرع وتقليل ضبط المعلمات الفائقة مقارنة بالجداول المعقدة التي تتطلبها غالبًا النماذج القائمة على المحولات مثل RTDETRv2.
4. تحسين الحافة أولاً
بالنسبة للمطورين الذين ينشرون على أجهزة طرفية مثل Raspberry Pi أو NVIDIA يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU . كما أن إزالة Distribution Focal Loss (DFL) يبسط بشكل أكبر مخطط النموذج للتصدير، مما يضمن توافقًا أفضل مع مسرعات الطاقة المنخفضة مقارنة بآليات الانتباه كثيفة الحوسبة في المحولات.
5. تعدد الاستخدامات في المهام المختلفة
على عكس العديد من أجهزة الكشف المتخصصة، فإن YOLO26 هو جهاز تعلم متعدد المهام حقيقي. وهو يدعم مهام الكشف عن الأجسام، وتقسيم الحالات، وتقدير الوضع، والتصنيف، ومهام Oriented Bounding Box (OBB) ضمن قاعدة بيانات واحدة.
توصيات حالات الاستخدام
- اخترYOLO : كنت تعمل بشكل حصري في مهام الفحص الصناعي حيث يكون TensorRT على NVIDIA محددة هو الهدف الوحيد للنشر، وتحتاج إلى أقل زمن انتقال على الإطلاق لمهام الكشف البسيطة.
- اختر RTDETRv2 إذا: كنت بحاجة إلى كشف عالي الدقة للمشاهد المعقدة التي تحتوي على حجب، ولديك إمكانية الوصول إلى وحدات معالجة رسومات قوية حيث تكون تكلفة حساب المحولات مقبولة. كما أنه خيار قوي إذا كان الاستدلال NMS مطلبًا صارمًا ولكنك تفضل بنية المحولات.
- اختر Ultralytics إذا: كنت تريد أفضل أداء شامل مع دقة متطورة وسرعة NMS والقدرة على النشر بسهولة عبر CPU GPU والأجهزة المحمولة. إن وثائقه القوية ودعم المجتمع النشط والتكامل مع Ultralytics يجعله الخيار الأكثر ملاءمة للمستقبل لأنظمة الإنتاج.
الخلاصة
يتميز مجال اكتشاف الأجسام بوفرة الخيارات. يبرهن YOLO على قوة البحث في الهندسة العصبية من أجل الكفاءة، بينما يظهر RTDETRv2 إمكانات المحولات في الوقت الفعلي. ومع ذلك، يبرز Ultralytics من خلال توليف هذه التطورات، حيث يوفر استدلالًا NMS وسرعة محسّنة للحافة واستقرارًا في التدريب مستوحى من LLM، كل ذلك في نظام بيئي هو الأكثر ملاءمة للمطورين في هذا المجال.
بالنسبة لأولئك المستعدين لبدء مشروعهم التالي، فإن استكشاف وثائق YOLO26 هو الخطوة الأولى الموصى بها لتحقيق نتائج SOTA بأقل قدر من الصعوبات.
مزيد من القراءة
- تعرف على مقاييس YOLO
- استكشف مجموعات بيانات الكشف عن الكائنات
- دليل تصدير النماذج ونشرها
- مقارنة: YOLO26 مقابل YOLOv10