RT-DETRv2 مقابل YOLOv10: مقارنة تقنية للكشف عن الأجسام
يتطلب اختيار النموذج الأمثل للكشف عن الكائنات التنقل في مشهد من البنى المتطورة، حيث تحدد المفاضلة بين الدقة والكمون واستهلاك الموارد أفضل ما يناسب تطبيقًا معينًا. تحلل هذه المقارنة التقنية RT-DETRv2، وهو نموذج قائم على المحولات مصمم للمهام عالية الدقة، و YOLOv10وهو التطور الذي يركز على الكفاءة لعائلة YOLO الشهيرة. من خلال فحص الابتكارات المعمارية ومقاييس الأداء وخصائص النشر، نهدف إلى توجيه المطورين نحو الحل المثالي لاحتياجاتهم الخاصة.
RT-DETRv2: محولات الرؤية المحسّنة
RT-DETRv2 يمثل تكرارًا مهمًا في سلسلة محولات الكشف في الوقت الحقيقي، والتي تم ابتكارها في الأصل لتحدي هيمنة أجهزة الكشف القائمة على شبكة CNN. تم تطوير هذا النموذج من قبل باحثين في Baidu، ويتضمن هذا النموذج "حقيبة من المجانية" لتعزيز استقرار التدريب والأداء دون تكبد تكاليف استدلال إضافية.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2024-07-24
- اركسيف:https://arxiv.org/abs/2407.17140
- جيثبhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
الهندسة المعمارية ونقاط القوة
تستفيد RT-DETRv2 من مشفر هجين وعمود فقري لمحول الرؤية (ViT) قابل للتطوير. وخلافاً للشبكات العصبية التلافيفية التقليدية (CNNs) التي تعالج الصور باستخدام حقول الاستقبال المحلية، تستخدم بنية المحول آليات الانتباه الذاتي لالتقاط السياق العالمي. يتيح ذلك للنموذج تمييز العلاقات بين الأجسام البعيدة بفعالية والتعامل مع حالات الانسداد المعقدة. تركز التحسينات "الإصدار 2" على تحسين اختيار الاستعلام الديناميكي وتقديم استراتيجيات تدريب مرنة تسمح للمستخدمين بضبط التوازن بين السرعة والدقة.
وعلى الرغم من فعاليتها، إلا أن هذه البنية تتطلب بطبيعتها موارد حاسوبية كبيرة. تساهم طبقات الانتباه الذاتي، على الرغم من قوتها، في زيادة استهلاك الذاكرة أثناء التدريب والاستدلال مقارنةً بالبدائل القائمة على شبكة CNN البحتة.
YOLOv10: معيار الكفاءة في الوقت الفعلي
YOLOv10 يتخطى حدود نموذج You Only Look Only One من خلال تقديم استراتيجية تدريب NMS وتصميم شامل قائم على الكفاءة والدقة. تم تصميمه من قبل باحثين في جامعة تسينغهوا، وقد تم تصميمه خصيصًا لتقليل زمن الاستجابة مع الحفاظ على أداء الكشف التنافسي.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمةجامعة تسينغهوا
- التاريخ: 2024-05-23
- اركسيف:https://arxiv.org/abs/2405.14458
- جيثبhttps://github.com/THU-MIG/yolov10
الهندسة المعمارية ونقاط القوة
إن السمة المميزة ل YOLOv10 هي التخلص من الكبح غير الأقصى (NMS) من خلال استراتيجية تعيين مزدوجة متسقة. غالبًا ما تتنبأ NMS الكائنات التقليدية بمربعات حدودية متعددة لكائن واحد، مما يتطلب معالجة لا حد أقصى بعد المعالجة لتصفية التكرارات. تخلق هذه الخطوة عنق زجاجة في زمن الوصول إلى الاستدلال. يزيل YOLOv10 هذا المطلب، مما يتيح نشرًا حقيقيًا من طرف إلى طرف.
علاوةً على ذلك، تتميز البنية بخاصية فصل القناة المكانية عن القناة المكانية وتصميم الكتلة الموجهة بالترتيب، مما يقلل بشكل كبير من عدد المعلمات وعمليات النقطة العائمة (FLOP). يجعل هذا من YOLOv10 خفيف الوزن بشكل استثنائي ومناسب للبيئات المحدودة الموارد مثل أجهزة الذكاء الاصطناعي المتطورة.
الاستدلال NMS
تُعد إزالة NMS مغيرًا لقواعد اللعبة بالنسبة لتطبيقات الوقت الحقيقي. فهو يقلل من تعقيد خط أنابيب النشر ويضمن بقاء وقت الاستدلال محددًا، بغض النظر عن عدد الكائنات المكتشفة في المشهد.
تحليل الأداء
عند مقارنة النموذجين مباشرة YOLOv10 قدرة فائقة على تحقيق التوازن بين السرعة والدقة، لا سيما في الطرف الأعلى من طيف الأداء. في حين أن RT-DETRv2 يقدم نتائج قوية، فإن YOLOv10 يحقق باستمرار زمن استجابة أقل ويتطلب معلمات أقل للحصول على متوسط mAP متوسطية مماثلة أو أفضل.
يوضح الجدول أدناه مقاييس الأداء على مجموعة بيانات COCO . من الجدير بالذكر أن YOLOv10x يتفوق على RT-DETRv2 في الدقة (54.4% مقابل 54.3%) بينما يتفوق YOLOv10x على RT-DETRv2 في الدقة (54.4% مقابل 54.3%) بينما يكون أسرع بكثير (12.2 مللي ثانية مقابل 15.03 مللي ثانية) ويتطلب معلمات أقل بكثير (56.9 مليون مقابل 76 مليون).
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
السرعة والكفاءة
تتضح كفاءة YOLOv10 المعمارية في جميع المقاييس. يوفر متغيرا النانو (n) والصغير (s) سرعات استدلالية فائقة السرعة مناسبة لوحدات المعالجة المركزية المحمولة وأجهزة إنترنت الأشياء. على سبيل المثال، يعمل YOLOv10n بسرعة 1.56 مللي ثانية على GPU T4، وهو أسرع بكثير من أصغر متغير RT-DETRv2 .
الدقة مقابل الحساب
تستفيد RT-DETRv2 من العمود الفقري للمحول لتحقيق دقة عالية، خاصة في أحجام النماذج الصغيرة والمتوسطة. ومع ذلك، يأتي ذلك على حساب ارتفاع كبير في عدد وحدات FLOP وعدد المعلمات. يعمل YOLOv10 على سد هذه الفجوة بكفاءة؛ حيث تتطابق نماذج YOLOv10 الأكبر حجمًا مع نماذج المحولات أو تتفوق عليها في الدقة مع الحفاظ على بصمة حسابية أقل، مما يجعلها أكثر تنوعًا في الأجهزة المتنوعة.
التدريب وسهولة الاستخدام والنظام البيئي
من أهم ما يميز المطورين هو سهولة التدريب والنشر. يوفر نظام Ultralytics البيئي واجهة موحدة تبسّط العمل مع نماذج مثل YOLOv10 بشكل كبير.
سهولة الاستخدام
غالبًا ما يتضمن تدريب RT-DETRv2 ملفات تكوين معقدة وإعدادات بيئة محددة مصممة خصيصًا لبنى المحولات. في المقابل، تم دمج YOLOv10 مباشرةً فيواجهة برمجة تطبيقات Ultralytics Python مما يسمح للمستخدمين ببدء التدريب أو التحقق من الصحة أو الاستدلال ببضعة أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")
# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
متطلبات الذاكرة
من المعروف أن النماذج القائمة على المحولات مثل RT-DETRv2 تستهلك الكثير من الذاكرة. تتدرج آلية الانتباه الذاتي بشكل تربيعي مع طول التسلسل، مما يؤدي إلى استخدام ذاكرة VRAM عالية أثناء التدريب. يتطلب YOLOv10 مع بنية CNN المحسّنة الخاصة به، ذاكرةCUDA أقل بكثير، مما يتيح للمستخدمين تدريب أحجام دفعات أكبر أو استخدام أجهزة أكثر تواضعاً.
نظام بيئي جيد الصيانة
يضمن اختيار نموذج Ultralytics الوصول إلى نظام بيئي قوي. ويتضمن ذلك تحديثات مستمرة، ووثائق شاملة، وتكامل سلس مع أدوات MLOps مثل Ultralytics HUB وتنسيقات التصدير المختلفةONNX TensorRT CoreML). هيكل الدعم هذا لا يقدر بثمن لنقل المشاريع من البحث إلى الإنتاج بكفاءة.
حالات الاستخدام المثالية
RT-DETRv2
- البحث الأكاديمي: مثالية لدراسة قدرات المحولات في مهام الرؤية ومقارنتها بأحدث الأساليب.
- نشر الخوادم المتطورة: مناسب للسيناريوهات التي تكون فيها موارد الأجهزة وفيرة، وتكون الخصائص المحددة لخرائط انتباه المحول مفيدة، كما هو الحال في تحليل الصور الطبية المفصلة.
YOLOv10
- الذكاء الاصطناعي المتطور في الوقت الحقيقي: إن زمن الاستجابة المنخفض وحجم النموذج الصغير يجعلها مثالية للنشر على الأجهزة المتطورة مثل NVIDIA Jetson أو Raspberry Pi لمهام مثل إدارة حركة المرور.
- الروبوتات: يوفر التصميم NMS الكمون الحتمي المطلوب لحلقات التحكم في الروبوتات المستقلة.
- التطبيقات التجارية: من تحليلات البيع بالتجزئة إلى مراقبة السلامة، يعمل التوازن بين السرعة والدقة على زيادة العائد على الاستثمار من خلال تقليل تكاليف الأجهزة.
الخلاصة
في حين أن RT-DETRv2 يعرض إمكانات المحولات في اكتشاف الأجسام بدقة مذهلة, YOLOv10 باعتباره الخيار الأكثر عملية وتنوعاً لغالبية التطبيقات في العالم الحقيقي. إن قدرته على تقديم أحدث أداء مع متطلبات حسابية أقل بكثير، بالإضافة إلى سهولة الاستخدام التي يوفرها نظام Ultralytics البيئي، يجعله حلاً متفوقاً للمطورين الذين يهدفون إلى تحقيق الكفاءة وقابلية التوسع.
لأولئك الذين يبحثون عن أحدث ما توصلت إليه تكنولوجيا الرؤية الحاسوبية على الإطلاق، نوصي أيضاً باستكشاف YOLO11الذي يعمل على تحسين البنية لمزيد من السرعة والدقة عبر نطاق أوسع من المهام، بما في ذلك التجزئة وتقدير الوضعية.
استكشف نماذج أخرى
وسّع فهمك لمشهد اكتشاف الأجسام من خلال هذه المقارنات الإضافية: