RTDETRRv2 مقابل YOLOX: مقارنة تقنية للكشف عن الأجسام
يعد اختيار النموذج المناسب لاكتشاف الأجسام أمرًا بالغ الأهمية لمشاريع الرؤية الحاسوبية. تقدم Ultralytics مجموعة متنوعة من النماذج، بما في ذلك سلسلة YOLO وسلسلة RT-DETR ولكل منها نقاط قوة فريدة. توفر هذه الصفحة مقارنة فنية مفصلة بين RTDETRv2 وYOLOX، وهما نموذجين من أحدث النماذج لاكتشاف الأجسام، لمساعدتك في اتخاذ قرار مستنير بناءً على متطلبات مشروعك.
RTDETRv2: الكشف في الوقت الحقيقي عالي الدقة
RTDETRv2(محول الكشف في الوقت الحقيقي v2) هو نموذج متقدم للكشف عن الأجسام تم تطويره من قبل Baidu، وهو معروف بدقته العالية وأدائه في الوقت الحقيقي. تم تقديم RTDETRv2 في 2023-04-17 وتم تفصيله في ورقة Arxiv البحثية الخاصة به، ويستخدم RTDETRv2 بنية محول الرؤية (ViT) لتحقيق أحدث النتائج. التطبيق الرسمي متاح على GitHub.
البنية والمميزات الرئيسية
تعتمد بنية RTDETRv2 على محولات الرؤية، مما يمكّنها من التقاط السياق العام داخل الصور من خلال آليات الانتباه الذاتي. يسمح هذا النهج القائم على المحولات باستخراج الميزات القوية وتحديد موقع الكائن بدقة، خاصةً في المشاهد المعقدة. وعلى عكس النماذج التقليدية القائمة على شبكة CNN، تتفوق RTDETRv2 في فهم العلاقات بين الأجزاء المختلفة من الصورة، مما يؤدي إلى تحسين دقة الكشف.
مقاييس الأداء
تُظهر نماذج RTDETRv2 نتائج مبهرة في mAP، حيث تحقق المتغيرات الأكبر مثل RTDETRv2-x سرعة mAPval50-95 تبلغ 54.3. في حين أن مقاييس سرعة CPU ONNX التفصيلية غير متوفرة في الجدول أدناه، فإن سرعات TensorRT الخاصة بها تنافسية، مما يجعلها مناسبة لتطبيقات الوقت الحقيقي على أجهزة قادرة مثل وحدات معالجة الرسومات NVIDIA T4. للاطلاع على مقاييس الأداء التفصيلية، راجع جدول مقارنة النماذج أدناه.
نقاط القوة والضعف
نقاط القوة:
- دقة فائقة: توفر بنية المحول دقة ممتازة في اكتشاف الأجسام.
- قادرة على العمل في الوقت الحقيقي: تحقق سرعات استدلال تنافسية مع تسريع الأجهزة، ومناسبة لأنظمة الوقت الحقيقي.
- استخراج الميزات بفعالية: تلتقط محولات الرؤية السياق العام والتفاصيل المعقدة بفعالية.
نقاط الضعف:
- حجم نموذج أكبر: تحتوي نماذج RTDETRv2 وخاصةً الإصدارات الأكبر حجمًا على عدد أكبر من المعلمات وعمليات التشغيل الحر، مما يتطلب المزيد من الموارد الحاسوبية.
- قيود سرعة الاستدلال: على الرغم من أنه في الوقت الحقيقي، إلا أنه قد لا يكون بنفس سرعة النماذج المحسّنة للغاية مثل YOLOX على الأجهزة الأقل قوة.
حالات الاستخدام المثالية
إن RTDETRv2 هو الأنسب للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية وتتوفر فيها موارد حسابية كافية. وتشمل حالات الاستخدام المثالية ما يلي:
- المركبات ذاتية القيادة: لإدراك بيئي موثوق ودقيق في أنظمة القيادة الذاتية. الذكاء الاصطناعي في السيارات ذاتية القيادة
- الروبوتات: تمكين الروبوتات من إدراك الأشياء بدقة والتفاعل معها في بيئات معقدة. من الخوارزميات إلى الأتمتة: دور الذكاء الاصطناعي في الروبوتات
- التصوير الطبي: للكشف عالي الدقة عن الحالات الشاذة في الصور الطبية، والمساعدة في التشخيص. الذكاء الاصطناعي في الرعاية الصحية
- تحليل الصور عالية الدقة: التطبيقات التي تتطلب تحليلاً مفصلاً للصور الكبيرة، مثل صور الأقمار الصناعية أو الصور الجوية. استخدام الرؤية الحاسوبية لتحليل صور الأقمار الصناعية
YOLOX: الكشف الفعال والمتعدد الاستخدامات عن الأشياء
YOLOX(أنت تنظر مرة واحدة فقط X) هو نموذج للكشف عن الأجسام الخالية من الارتكازات طوّرته شركة Megvii، وهو معروف بأدائه العالي وكفاءته. تم تقديمه في 2021-07-18 وتم تفصيله في ورقة Arxiv البحثية الخاصة به، يعتمد YOLOX على سلسلة YOLO ويقدم تصميمًا مبسطًا مع أحدث النتائج. توفر الوثائق الرسمية تفاصيل شاملة.
البنية والمميزات الرئيسية
يتبنى YOLOX نهجًا خاليًا من الارتكاز، مما يلغي الحاجة إلى مربعات الارتكاز المحددة مسبقًا، مما يبسّط النموذج ويقلل من المعلمات المفرطة. يتميز برأس منفصل للتصنيف والتوطين، مما يعزز كفاءة التدريب والدقة. يتم استخدام تقنيات متقدمة لزيادة البيانات مثل MixUp و Mosaic لتحسين المتانة. تم تصميم YOLOX لتحقيق سرعة وكفاءة عالية، مما يجعله مناسبًا للتطبيقات في الوقت الفعلي والنشر على منصات أجهزة مختلفة.
مقاييس الأداء
تقدم YOLOX مجموعة من أحجام النماذج، من النانو إلى XLarge، لتلبية مختلف الميزانيات الحسابية واحتياجات الدقة. تحقق نماذج YOLOX توازنًا جيدًا بين السرعة والدقة. على سبيل المثال، يحقق نموذج YOLOX-s معدل mAPval50-95 يبلغ 40.5 مع سرعات استنتاج عالية على TensorRT. ارجع إلى جدول مقارنة النماذج أدناه للاطلاع على مقاييس الأداء التفصيلية عبر متغيرات YOLOX المختلفة.
نقاط القوة والضعف
نقاط القوة:
- كفاءة وسرعة عالية: مُحسَّن للاستدلال السريع، مما يجعله مثاليًا للتطبيقات في الوقت الفعلي.
- تصميم خالٍ من المرساة: يبسط البنية وعملية التدريب، مما يحسن التعميم.
- أحجام النماذج المتنوعة: تقدم مجموعة من أحجام النماذج لتناسب مختلف القيود الحسابية.
- أداء قوي: يحقق توازناً جيداً بين السرعة والدقة.
نقاط الضعف:
- مقايضة الدقة: على الرغم من كفاءتها، إلا أن دقتها قد تكون أقل قليلاً من النماذج القائمة على المحولات مثل RTDETRv2 في السيناريوهات المعقدة.
- الأداء في المشاهد المعقدة: بصفته كاشفًا أحادي المرحلة، قد يكون أقل قوة في المشاهد شديدة الازدحام مقارنةً ببعض أجهزة الكشف ذات المرحلتين، على الرغم من أن YOLOX يخفف من هذه الفجوة بشكل كبير مقارنةً بإصدارات YOLO السابقة.
حالات الاستخدام المثالية
يعد YOLOX مناسبًا بشكل مثالي للتطبيقات التي تتطلب اكتشاف الأجسام في الوقت الفعلي مع التركيز على السرعة والكفاءة. وتشمل هذه التطبيقات:
- الروبوتات: الإدراك في الوقت الحقيقي لملاحة الروبوتات والتفاعل في البيئات الديناميكية. الذكاء الاصطناعي في الروبوتات
- أنظمة المراقبة: الكشف الفعال عن الأجسام في تدفقات الفيديو لتطبيقات الأمن والمراقبة. الرؤية الحاسوبية لمنع السرقة: تعزيز الأمن
- الفحص الصناعي: الفحص البصري الآلي على خطوط الإنتاج للكشف عن العيوب ومراقبة الجودة. تحسين التصنيع باستخدام الرؤية الحاسوبية
- أجهزة الحافة: النشر على الأجهزة ذات الموارد المحدودة حيث تكون الكفاءة الحسابية أمرًا بالغ الأهمية. تمكين الذكاء الاصطناعي المتطور مع Sony IMX500 وAitrios
جدول مقارنة النماذج
الطراز | الحجم(بكسل) | مافال 50-95 |
وحدة معالجةCPU ONNX (مللي ثانية) |
SpeedT4TensorRT10 (مللي ثانية) |
بارامز(م) | الآفاق(ب) |
---|---|---|---|---|---|---|
RTDETRRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
RTDETRRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
RTDETRV2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
RTDETRV2-X | 640 | 54.3 | - | 15.03 | 76 | 259 |
يولوكسنانو | 416 | 25.8 | - | - | 0.91 | 1.08 |
يولوكستيني | 416 | 32.8 | - | - | 5.06 | 6.45 |
يولوكس | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
يولوكسم | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
يولوكسل | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
يولوكس | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
الخاتمة
يُعتبر كل من RTDETRRv2 و YOLOX نموذجين قويين لاكتشاف الأجسام، لكنهما يلبيان أولويات مختلفة. يعتبر RTDETRRv2 الخيار الأفضل عندما تكون الدقة القصوى مطلوبة والموارد الحسابية ليست عاملاً مقيدًا. على العكس من ذلك، يتفوق YOLOX في السيناريوهات التي يكون فيها الأداء في الوقت الحقيقي والكفاءة والنشر على أجهزة أقل قوة أمرًا بالغ الأهمية.
بالنسبة للمستخدمين الذين يستكشفون خيارات أخرى، تقدم Ultralytics مجموعة واسعة من النماذج، بما في ذلك:
- YOLOv8 و YOLOv9: الإصداران التاليان في سلسلة YOLO يقدمان مجموعة من مفاضلات السرعة والدقة. Ultralytics YOLOv8 : عام من الاختراقات والابتكارات، YOLOv9: عام من الاختراقات والابتكارات، YOLOv9 التوثيق
- YOLO: نماذج مصممة باستخدام البحث عن البنية العصبية لتحقيق الأداء الأمثل. YOLO من Deci AI - نموذج حديث للكشف عن الأجسام
- FastSAM و MobileSAM: لمهام تجزئة المثيل في الوقت الحقيقي. توثيقFastSAM توثيقMobileSAM
يجب أن يسترشد الاختيار بين RTDETRv2 و YOLOX ونماذج Ultralytics الأخرى بالاحتياجات المحددة لمشروع الرؤية الحاسوبية الخاص بك، مع الموازنة بعناية بين الدقة والسرعة والموارد المتاحة. استكشف وثائقUltralytics ومستودع GitHub لمزيد من المعلومات المتعمقة وتفاصيل التنفيذ.