YOLOv10 RTDETRv2: البنى والأداء في الكشف في الوقت الحقيقي
يعد اختيار بنية الكشف عن الكائنات المناسبة قرارًا بالغ الأهمية للمطورين الذين يعملون على إنشاء تطبيقات الرؤية الحاسوبية. يقدم هذا الدليل نظرة متعمقة على نهجين متميزين للكشف في الوقت الفعلي: YOLOv10، وهو تطور YOLO القائمة على CNN والتي تقدم إمكانات شاملة، و RTDETRv2، وهو نموذج قائم على المحولات مصمم لتحدي هيمنة CNN. نقوم بتحليل هياكلهما ومعاييرهما ومدى ملاءمتهما لمختلف سيناريوهات النشر.
نظرة عامة على النموذج والأصول
فهم سلالة هذه النماذج يساعد في توضيح فلسفات تصميمها وحالات الاستخدام المقصودة.
YOLOv10: شبكة CNN NMS
أطلق باحثون في جامعة تسينغهوا في مايو 2024 YOLOv10 تحولًا مهمًا في YOLO . وهو يعالج مشكلة طويلة الأمد في أجهزة الكشف في الوقت الفعلي: عدم القمع الأقصى (NMS). من خلال استخدام مهام مزدوجة متسقة للتدريب NMS، YOLOv10 زمن انتقال أقل ويبسط خطوط النشر مقارنة بالجيل السابق مثل YOLOv9 YOLOv8.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المؤسسة:جامعة تسينغ - هوا
- التاريخ: 2024-05-23
- روابط:ورقة Arxiv | مستودع GitHub
RTDETRv2: منافس المحولات
كان RT-DETR محول الكشف في الوقت الحقيقي) أول نموذج قائم على المحولات يتنافس بشكل حقيقي مع YOLO . يعمل RTDETRv2، الذي طورته Baidu، على تحسين هذه البنية باستخدام نهج "Bag of Freebies"، مما يؤدي إلى تحسين استراتيجية التدريب والبنية من أجل تحسين التوافق والمرونة. وهو يستفيد من قوة محولات الرؤية (ViTs) لالتقاط السياق العام، وغالبًا ما يتفوق على شبكات CNN في المشاهد المعقدة التي تحتوي على حجب، على الرغم من تكلفته الحسابية الأعلى.
- المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
- المؤسسة:بايدو
- التاريخ: 2023-04-17 ( RT-DETR الأصلي)، تحديثات في 2024
- روابط:ورقة Arxiv | مستودع GitHub
مقارنة البنية التقنية
يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للسمات وتوليد التنبؤات.
بنية YOLOv10
YOLOv10 العمود الفقري للشبكة العصبية التلافيفية (CNN) ولكنه يحدث ثورة في الرأس وعملية التدريب.
- تعيينات مزدوجة متسقة: يستخدم تعيين واحد إلى العديد من التعيينات للإشراف الغني أثناء التدريب وتعيين واحد إلى واحد للاستدلال. وهذا يسمح للنموذج بتوقع أفضل صندوق واحد لكل كائن، مما يلغي الحاجة إلى NMS.
- تصميم كفاءة شامل: تتميز البنية برأوس تصنيف خفيفة الوزن وتقليل التكرار الحسابي من خلال تقليل الدقة باستخدام قنوات مكانية منفصلة.
- التلافيف الكبيرة للنواة: على غرار التطورات الحديثة، تستخدم حقول استقبالية كبيرة لتحسين الدقة دون تكلفة باهظة لآليات الانتباه الذاتي.
بنية RTDETRv2
يعتمد RTDETRv2 على بنية التشفير والترميز للمحول.
- المشفّر الهجين: يستخدم شبكة CNN الأساسية (عادةً ResNet أو HGNetv2) لاستخراج الميزات، التي يتم معالجتها بعد ذلك بواسطة مشفّر محوّل. وهذا يسمح له بنمذجة التبعيات بعيدة المدى عبر الصورة.
- اختيار الاستعلامات ذات درجة عدم اليقين الدنيا: تختار هذه الآلية استعلامات أولية عالية الجودة للمفكك، مما يحسن سرعة التهيئة والتقارب.
- فصل مرن: يدعم RTDETRv2 أخذ العينات المنفصلة، مما يتيح للمستخدمين المفاضلة بين السرعة والدقة بشكل أكثر ديناميكية مقارنة بهياكل CNN الصارمة.
لماذا النظام البيئي مهم
في حين أن النماذج الأكاديمية مثل RTDETRv2 توفر بنى جديدة، إلا أنها غالبًا ما تفتقر إلى الأدوات القوية اللازمة للإنتاج. Ultralytics مثل YOLO26 و YOLO11 في نظام بيئي متكامل. ويشمل ذلك Ultralytics لإدارة مجموعات البيانات بسهولة، والتدريب بنقرة واحدة، والنشر السلس على الأجهزة الطرفية.
مقاييس الأداء
يوضح الجدول التالي مقارنة بين أداء كلا النموذجين على COCO .
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل المعايير المرجعية
- هيمنة زمن الاستجابة: YOLOv10 زمن استجابة أقل بكثير في جميع أحجام النماذج. على سبيل المثال، يبلغ سرعة YOLOv10s حوالي ضعف سرعة RTDETRv2-s على وحدات معالجة الرسومات T4 مع الحفاظ على دقة تنافسية (46.7٪ مقابل 48.1٪ mAP).
- كفاءة المعلمات: YOLOv10 بكفاءة عالية من حيث المعلمات وعمليات FLOP. يحقق YOLOv10m دقة مماثلة لـ RTDETRv2-m ولكنه يتطلب أقل من نصف المعلمات (15.4 مليون مقابل 36 مليون)، مما يجعله أفضل بكثير لتطبيقات الذكاء الاصطناعي المتنقلة والحافة.
- الحد الأقصى للدقة: يتفوق RTDETRv2 في فئتي "صغير" و"متوسط" من حيث الدقة الأولية (mAP)، مستفيدًا من قدرة المحول على رؤية السياق العام. ومع ذلك، على النطاقات الأكبر (كبير جدًا)، YOLOv10 بـ RTDETRv2 بل ويتفوق عليه مع الحفاظ على سرعته.
اعتبارات التدريب والنشر
عند الانتقال من مرحلة البحث إلى مرحلة الإنتاج، تصبح عوامل مثل كفاءة التدريب واستخدام الذاكرة ذات أهمية قصوى.
متطلبات الذاكرة
تستهلك النماذج القائمة على المحولات مثل RTDETRv2 عمومًا قدرًا أكبر بكثير CUDA أثناء التدريب بسبب التعقيد التربيعي لآليات الانتباه الذاتي. وهذا يتطلب استخدام وحدات معالجة رسومات (GPU) متطورة وباهظة الثمن للتدريب. في المقابل، تشتهر YOLO Ultralytics YOLO بكفاءتها في استخدام الذاكرة. غالبًا ما يمكن ضبط نماذج مثل YOLOv10 YOLO26 الأحدث على أجهزة المستهلكين أو حالات السحابة القياسية، مما يقلل من عوائق الدخول.
سهولة الاستخدام والنظام البيئي
تتمثل إحدى أهم مزايا استخدام YOLOv10 Ultralytics في تجربة المستخدم المبسطة.
- Ultralytics : يمكنك تحميل YOLOv10 وتدريبه ونشره YOLOv10 بضع أسطر من Python تمامًا مثل سير العمل الخاص بـ YOLOv8 أو YOLO11.
- خيارات التصدير: Ultralytics التصدير الفوري إلى تنسيقات مثل ONNXو TensorRT و CoreML و OpenVINO. على الرغم من أن RTDETRv2 قد حسّن دعمه للنشر، إلا أنه غالبًا ما يتطلب تكوينًا أكثر تعقيدًا للتعامل مع الأشكال الديناميكية المرتبطة بالمحولات.
- التوثيق: يضمن التوثيق الشامل حصول المطورين على البرامج التعليمية وأدلة المعلمات الفائقة وموارد استكشاف الأخطاء وإصلاحها.
from ultralytics import YOLO
# Load a pretrained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with just one line
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for deployment
model.export(format="onnx")
حالات الاستخدام المثالية
متى تختار YOLOv10
YOLOv10 الخيار المفضل للسيناريوهات التي تكون فيها السرعة وقيود الموارد عاملين حاسمين.
- التطبيقات المحمولة:iOS التي تتطلب استنتاجات في الوقت الفعلي دون استنزاف البطارية.
- الأنظمة المدمجة: تعمل على أجهزة مثل Raspberry Pi أو NVIDIA حيث الذاكرة (RAM) محدودة.
- معالجة الفيديو عالي معدل الإطارات في الثانية: تطبيقات مثل مراقبة حركة المرور أو تحليلات الألعاب الرياضية حيث يعد الحفاظ على معدل إطارات عالي أمرًا ضروريًا لتجنب ضبابية الحركة أو تفويت الأحداث.
متى تختار RTDETRv2
RTDETRv2 مناسب عندما تكون الدقة هي الأولوية وموارد الأجهزة وفيرة.
- المشاهد المعقدة: البيئات التي تتسم بانسداد شديد أو فوضى حيث تساعد آلية الانتباه الشامل على تمييز الكائنات المتداخلة.
- الاستدلال من جانب الخادم: سيناريوهات يتم فيها تشغيل النماذج على وحدات معالجة رسومات سحابية قوية، مما يجعل زمن الاستجابة الأطول وتكلفة الذاكرة أعلى مقبولين مقابل تحسين طفيف في mAP.
المستقبل: Ultralytics
بينما YOLOv10 مفهوم NMS فإن هذا المجال يتطور بسرعة. تم إصداره في يناير 2026، Ultralytics يمثل قمة هذه التطورات.
يتبنى YOLO26 التصميم الشامل NMS الذي ابتكره YOLOv10 يعززه بمحسن MuSGD (المستوحى من تدريب LLM) ووظائف الخسارة المحسنة مثل ProgLoss. وينتج عن ذلك نماذج ليس فقط أسهل في التدريب، ولكنها أيضًا أسرع بنسبة تصل إلى 43٪ على CPU مقارنة بالأجيال السابقة. علاوة على ذلك، يدعم YOLO26 بشكل أساسي مجموعة كاملة من المهام بما في ذلك التجزئة وتقدير الوضع و OBB، مما يوفر تنوعًا لا يمكن أن تضاهيه النماذج التي تركز على الكشف مثل RTDETRv2.
بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين السرعة والدقة وسهولة النشر، يوصى بشدة بالانتقال إلى YOLO26.
ملخص
يوسع كل من YOLOv10 RTDETRv2 حدود الكشف عن الكائنات في الوقت الفعلي. YOLOv10 التغلب على NMS حيث يقدم بنية CNN خالصة تتميز بسرعة وكفاءة مذهلتين. أثبت RTDETRv2 أن المحولات يمكن أن تكون منافسة في الوقت الفعلي، حيث تتفوق في استخراج الميزات المعقدة. ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية التي تتطلب مزيجًا من السرعة والكفاءة والأدوات الملائمة للمطورين، يظل Ultralytics — الذي يدعم YOLOv10 و YOLO11 و YOLO26 المتطور — هو المعيار الصناعي.
لمزيد من المقارنات، اطلع على تحليلنا لـ YOLOv8 YOLOv10 أو تعرف على كيفية تحسين نماذجك باستخدام دليل التصدير الخاص بنا.