RTDETRv2 مقابلYOLO: المعركة من أجل الدقة في الوقت الفعلي
غالبًا ما ينطوي البحث عن بنية الكشف عن الكائنات المثلى على مفاضلة بين نمذجة السياق العام للمحولات وسرعة الشبكات العصبية التلافيفية (CNNs). وهناك منافسان رئيسيان في هذا المجال هما RTDETRv2 و YOLO. يستفيد RTDETRv2، وهو الإصدار الثاني من محول الكشف في الوقت الفعلي من Baidu، من آليات الانتباه للتخلص من الحاجة إلى القمع غير الأقصى (NMS). في المقابل، يركزYOLO Alibaba Group على البحث عن البنية العصبية (NAS) وإعادة المعلمات بكفاءة للحصول على أقصى أداء من هياكل CNN التقليدية.
يقدم هذا الدليل نظرة متعمقة على هياكلها ومعاييرها وسيناريوهات النشر المثالية، مما يوفر للمطورين الرؤى اللازمة لاختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بهم.
ملخص تنفيذي
RTDETRv2 هو خيار ممتاز للتطبيقات التي تتطلب دقة عالية في البيئات المعقدة حيث قد تتداخل الكائنات بشكل كبير. يتعامل تصميمه القائم على المحولات بشكل طبيعي مع السياق العام، مما يجعله قويًا في مواجهة حالات الحجب. ومع ذلك، فإن هذا يأتي على حساب متطلبات حسابية أعلى، خاصة على الأجهزة الطرفية.
يتفوق YOLO في السيناريوهات الصناعية التي تعطي الأولوية للكمون المنخفض على الأجهزة القياسية. إن استخدامه لـ NAS وتصميمه الفعال للبنية الأساسية يجعله فعالاً للغاية في مهام التصنيع والتفتيش في الوقت الفعلي. على الرغم من سرعته، إلا أنه يعتمد على منهجيات تقليدية قائمة على المراسي والتي يمكن أن تكون حساسة لضبط المعلمات الفائقة مقارنة بطبيعة المحولات الشاملة.
لأولئك الذين يبحثون عن أفضل ما في العالمين - السرعة المتطورة، والاستدلال الشامل NMS وسهولة الاستخدام - يقدم نموذج Ultralytics بديلاً متميزاً، يجمع بين أحدث التحسينات في وظائف الخسارة CPU المحسّن.
RTDETRv2: تحسين المحول في الوقت الفعلي
RTDETRv2 (محول الكشف في الوقت الحقيقي v2) مبني على نجاح النسخة الأصلية RT-DETRالأصلي، مع مزيد من التحسينات على المشفر الهجين واختيار الاستعلامات التي تراعي عدم اليقين. ويهدف إلى حل مشكلة بطء الاستجابة التي تعاني منها نماذج المحولات عادةً مع الحفاظ على دقتها الفائقة.
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة:Baidu
التاريخ: 17 أبريل 2023
Arxiv:RTDETRv2 الورقة البحثية
GitHub:RT-DETR
الابتكارات المعمارية الرئيسية
- مشفر هجين: يعالج الميزات متعددة النطاقات بكفاءة عن طريق فصل التفاعل داخل النطاق والاندماج عبر النطاقات، مما يقلل بشكل كبير من التكلفة الحسابية مقارنة بمشفرات DETR القابلة للتشوه القياسية.
- اختيار الاستعلامات ذات الحد الأدنى من عدم اليقين: يحسن تهيئة استعلامات الكائنات عن طريق اختيار الميزات ذات أعلى درجات التصنيف، مما يؤدي إلى تقارب أسرع واكتشافات أولية أفضل.
- استدلالNMS: كنموذج قائم على المحولات، يتنبأ RTDETRv2 بمجموعة ثابتة من الكائنات مباشرةً، مما يلغي الحاجة إلى القمع غير الأقصى (NMS). وهذا يبسط خطوط النشر ويقضي على تقلب زمن الاستجابة المرتبط بالتنبؤات الكثيفة بعد المعالجة.
- دعم مرنة للبنية الأساسية: تدعم البنية المعمارية العديد من البنى الأساسية، بما في ذلك ResNet وHGNetv2، مما يتيح للمستخدمين توسيع نطاق النموذج بناءً على موارد الحوسبة المتاحة.
ميزة المحولات (Transformer)
على عكس شبكات CNN التي تعالج المناطق المجاورة للبكسلات، تسمح آلية الانتباه الذاتي في RTDETRv2 لكل جزء من الصورة بالانتباه إلى كل جزء آخر. هذا "المجال الاستقبالي الشامل" مفيد بشكل خاص في اكتشاف الأجسام الكبيرة أو فهم العلاقات بين الأجزاء البعيدة من المشهد.
YOLO: كفاءة على مستوى صناعي
YOLO على تعظيم كفاءة نموذج "You Only Look Once" من خلال البحث الدقيق في البنية العصبية (NAS) وتقنيات دمج الميزات المبتكرة. وهو مصمم ليكون كاشفًا قويًا متعدد الأغراض يوازن بين السرعة والدقة للتطبيقات الصناعية.
المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة:مجموعة Alibaba
التاريخ: 23 نوفمبر 2022
Arxiv:YOLO
GitHub:YOLO
الميزات المعمارية الرئيسية
- MAE-NAS Backbone: يستخدم طريقة القيم الذاتية المساعدة للبحث عن البنية العصبية لاكتشاف البنى الأساسية التي تم تحسينها خصيصًا لمهام الكشف، بدلاً من وكلاء التصنيف.
- RepGFPN الفعال: شبكة هرمية عامة للميزات (GFPN) مُحسّنة باستخدام تقنيات إعادة المعلمات (Rep). وهذا يسمح بدمج الميزات المعقدة أثناء التدريب، والتي تندمج في بنية بسيطة وسريعة أثناء الاستدلال.
- ZeroHead: رأس كشف خفيف الوزن يقلل بشكل كبير من عدد المعلمات وعمليات FLOPs دون التضحية بمتوسط الدقة (mAP).
- AlignedOTA: استراتيجية محسّنة لتعيين التسميات تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار، مما يضمن اختيار نقاط ارتكاز عالية الجودة أثناء التدريب.
مقارنة الأداء الفني
عند مقارنة هذه البنى، من الضروري النظر إلى المفاضلة بين سرعة الاستدلال الخالص ودقة الكشف (mAP). يوضح الجدول أدناه أنه في حين يحقق RTDETRv2 دقة أعلى بشكل عام، خاصة في COCO الصعبة،YOLO أداءً تنافسيًا مع زمن انتقال أقل على تكوينات أجهزة معينة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
حالات النشر والاستخدام
السيناريوهات المثالية لـ RTDETRv2
- مشاهد حضرية معقدة: يتميز آلية الانتباه العالمية بقدرتها على التعامل مع حالات الانسداد في الشوارع المزدحمة، مما يجعلها مثالية للقيادة الذاتية أو مراقبة حركة المرور.
- التصوير الطبي: في الحالات التي تكون فيها الدقة أمرًا بالغ الأهمية وتكون النتائج السلبية الخاطئة مكلفة، مثل الكشف عن الأورام، فإن الدقة العالية لـ RTDETRv2 تعتبر مفيدة.
- عدّ الأفراد: القدرة على تمييز الأفراد المتداخلين دون NMS تجعله متفوقًا في تطبيقات إدارة الحشود.
السيناريوهات المثالية لـ DAMO-YOLO
- التصنيع عالي السرعة: في خطوط التجميع التي تتطلب زمن انتقال يبلغ أجزاء من الألف من الثانية لاكتشاف العيوب، يضمن زمن الانتقال المنخفضYOLO عدم حدوث اختناق في الإنتاجية.
- إنترنت الأشياء المدمج: بالنسبة للأجهزة ذات القدرات الحاسوبية المحدودة حيث تكون عمليات المحولات ثقيلة للغاية،YOLO كفاءةYOLO القائمة على CNNYOLO ميزة.
- تحليلات البيع بالتجزئة: لتتبع العناصر الموجودة على الرفوف أو إدارة المخزون، حيث تكون الدقة المعتدلة مقبولة من أجل معالجة أسرع بشكل ملحوظ.
ميزة Ultralytics: YOLO26
في حين أن كلا من RTDETRv2 وYOLO ميزات قوية، فإن نموذج Ultralytics يمثل قمة الكفاءة وسهولة الاستخدام. تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة بين هاتين الفلسفتين من خلال دمج تصميم المحولات NMS في بنية محسّنة للغاية وسهلة الاستخدام.
لماذا يختار المطورون Ultralytics
- منصة موحدة: على عكس مستودعات الأبحاث التي غالبًا ما تفتقر إلى الصيانة، Ultralytics منصة شاملة للتدريب ونشر النماذج وإدارتها. سواء كنت بحاجة إلى تقدير الوضع أو التجزئة أو OBB، فكل ذلك متاح في مكتبة واحدة.
سهولة الاستخدام: يتطلب تدريب نموذج متطور الحد الأدنى من التعليمات البرمجية. تتيح هذه السهولة للباحثين التركيز على البيانات بدلاً من تصحيح أخطاء حلقات التدريب المعقدة.
from ultralytics import YOLO # Load the latest YOLO26 model (NMS-free by design) model = YOLO("yolo26n.pt") # Train on a custom dataset with MuSGD optimizer results = model.train(data="coco8.yaml", epochs=100, imgsz=640)الكفاءة من البداية إلى النهاية: يقدم YOLO26 تصميمًا من البداية إلى النهاية NMS والذي تم ابتكاره في YOLOv10 تم تحسينه للإنتاج. وهذا يزيل عبء المعالجة اللاحقة الموجود فيYOLO تجنب التكلفة الحسابية الباهظة لطبقات الانتباه الكامل في RTDETRv2.
- تحسين الحافة: مع إزالة Distribution Focal Loss (DFL) والتحسينات المحددة CPU ، أصبح YOLO26 أسرع بنسبة تصل إلى 43٪ على أجهزة الحافة مقارنة بالأجيال السابقة، مما يجعله خيارًا متميزًا للنشر على الأجهزة المحمولة.
- التدريب المتقدم: تضمن ميزات مثل MuSGD Optimizer (المستوحاة من تدريب LLM) و ProgLoss تدريبًا مستقرًا وتقاربًا أسرع، مما يقلل من الوقت والتكلفة المرتبطة بتطوير النموذج.
الخلاصة
بالنسبة للبحوث البحتة أو السيناريوهات التي تتطلب أقصى دقة نظرية على وحدات معالجة الرسومات المتطورة، فإن RTDETRv2 يعد منافسًا قويًا. بالنسبة للأنظمة القديمة المقيدة بشدة والتي تتطلب أقل مساحة ممكنة لشبكة CNN، يظل YOLO مناسبًا. ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية التي تتطلب توازنًا بين السرعة والدقة والتنوع وسهولة النشر، فإن Ultralytics هو الحل الموصى به.
استكشف مقارنات أخرى لترى كيف تقارن Ultralytics مع YOLOv8 و EfficientDet.