YOLOX مقابل RTDETRv2: تقييم تطور نماذج كشف الأجسام في الوقت الفعلي
يتطلب اختيار البنية المثالية لـ تطبيقات الرؤية الحاسوبية موازنة دقيقة بين الدقة وسرعة الاستنتاج وجدوى النشر. في هذا التحليل التقني الشامل، نستكشف الاختلافات الجوهرية بين YOLOX، وهي بنية شبكة عصبية تلافيفية (CNN) ناجحة جداً وخالية من الروابط (anchor-free)، وبين RTDETRv2، وهو محول (Transformer) متطور لكشف الأجسام في الوقت الفعلي.
بينما قدم كلا النموذجين مساهمات كبيرة في مجال كشف الأجسام، غالباً ما يجد المطورون الذين يبنون تطبيقات جاهزة للإنتاج أن البدائل الحديثة مثل Ultralytics YOLO26 توفر كفاءة تدريب متفوقة، ومتطلبات ذاكرة أقل، ونظام نشر أكثر قوة.
YOLOX: سد الفجوة بين البحث والصناعة
ظهر YOLOX كنسخة شهيرة جداً وخالية من الروابط من سلسلة YOLO، حيث قدم تصميماً مبسطاً أدى إلى تحسينات ملحوظة في الأداء وقت إصداره.
- المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
- المؤسسة: Megvii
- التاريخ: 18 يوليو 2021
- روابط: Arxiv, GitHub, Docs
الابتكارات المعمارية
نقل YOLOX عائلة YOLO إلى نموذج خالٍ من الروابط، مع دمج رأس مفصول واستراتيجية تعيين التسميات المتقدمة SimOTA. من خلال القضاء على صناديق الروابط (anchor boxes)، قللت البنية بشكل كبير من عدد معلمات التصميم وحسنت التعميم عبر مجموعات بيانات قياسية متنوعة. أصبحت إصداراته خفيفة الوزن، YOLOX-Nano و YOLOX-Tiny، خيارات شائعة لنشر تطبيقات الذكاء الاصطناعي البصري على الأجهزة الطرفية.
على الرغم من أن YOLOX جلب تطورات ملحوظة، إلا أن اعتماده على مسارات تعزيز البيانات الثقيلة وروتينات المعالجة اللاحقة القديمة (مثل NMS التقليدي) يمكن أن يؤدي إلى زمن انتقال أعلى مقارنة بالنماذج التي تعمل بالكامل من الطرف إلى الطرف (end-to-end).
RTDETRv2: تطوير محولات الرؤية في الوقت الفعلي
بناءً على أساس سلفه، يستفيد RTDETRv2 من قوة محولات الرؤية (ViTs) لتحقيق دقة تنافسية للغاية دون التضحية بسرعات الاستنتاج في الوقت الفعلي.
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 2024-07-24
- روابط: Arxiv، GitHub
الابتكارات المعمارية
يعيد RTDETRv2 تصور مسار الكشف بشكل أساسي من خلال استخدام بنية قائمة على المحولات (transformer-based) تتجاوز أصلاً الحاجة إلى كبت غير الأقصى (NMS). يتم تحقيق ذلك من خلال مشفر هجين واختيار استعلام واعٍ بـ IoU، مما يحسن تهيئة استعلامات الأجسام. يتعامل النموذج بفعالية مع الميزات متعددة النطاقات، مما يسمح له بالتقاط تفاصيل معقدة في بيئات صعبة، مثل كشف فيديو حركة المرور ليلاً.
ومع ذلك، فإن المحولات تستهلك الموارد بطبيعتها. يتطلب تدريب RTDETRv2 عادةً ذاكرة GPU ودورات حوسبة أكثر بكثير من البدائل القائمة على CNN، مما قد يشكل عقبة أمام الفرق التي تعمل ضمن قيود ميزانية صارمة أو تلك التي تتطلب ضبط النموذج بشكل متكرر.
جدول مقارنة الأداء
لتقييم هذه البنيات بموضوعية، نقوم بفحص أدائها على مجموعة بيانات COCO. يوضح الجدول أدناه المقايضات بين الدقة (mAP)، وعدد المعلمات، والتعقيد الحسابي.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
بينما يحقق RTDETRv2 دقة مبهرة، يحافظ YOLOX على ميزة في ملفات تعريف المعلمات خفيفة الوزن، خاصة مع إصداراته Nano و Tiny.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOX و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOX
يعد YOLOX خياراً قوياً لـ:
- أبحاث الاكتشاف الخالي من المراسي: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من المراسي كقاعدة لتجربة رؤوس اكتشاف جديدة أو دوال خسارة (loss functions).
- أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الهاتف المحمول القديمة حيث يعد البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91M معامل) أمراً بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار RT-DETR
يُوصى بـ RT-DETR لـ:
- أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
- سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
- اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
ميزة Ultralytics: YOLO26
بينما يقدم كل من YOLOX و RTDETRv2 نقاط قوة متميزة، فإن Ultralytics YOLO26 الذي تم إصداره حديثاً يعيد تعريف حالة التقنية للذكاء الاصطناعي البصري، ويحل المقايضات التاريخية بين السرعة والدقة وسهولة النشر.
بنية متكاملة (End-to-End) بدون NMS
استلهاماً من نماذج المحولات مع الحفاظ على كفاءة CNN، يتميز YOLO26 بتصميم متكامل (end-to-end) بدون NMS بشكل أصلي. من خلال القضاء على كبت غير الأقصى (Non-Maximum Suppression) كخطوة معالجة لاحقة، يبسط YOLO26 بشكل كبير مسارات النشر، مما يضمن زمن استنتاج متسق عبر مختلف الأجهزة الطرفية دون الحاجة إلى ضبط معقد للعتبات.
استنتاج أسرع بنسبة تصل إلى 43% على CPU
على عكس بنيات المحولات مثل RTDETRv2 التي تعتمد بشكل كبير على GPUs عالية الأداء، تم تحسين YOLO26 خصيصاً لـ بيئات الحوسبة الطرفية. من خلال إزالة خسارة التوزيع البؤري (DFL)، يبسط YOLO26 تصدير النموذج ويحقق استنتاجاً أسرع بنسبة تصل إلى 43% على CPU، مما يجعله الخيار المثالي للتكامل في أجهزة مثل Raspberry Pi أو الأجهزة المحمولة القياسية.
كفاءة التدريب مع MuSGD
غالباً ما يؤدي تدريب نماذج المحولات إلى استهلاك مفرط لـ ذاكرة CUDA وأوقات تدريب طويلة. يقدم YOLO26 محسن MuSGD Optimizer المبتكر، وهو مزيج من Stochastic Gradient Descent ومحسن Muon المستوحى من نماذج اللغة الكبيرة (LLM). يوفر هذا الابتكار تدريباً مستقراً بشكل استثنائي وتقارباً أسرع، مما يقلل بشكل كبير من متطلبات الأجهزة مقارنة بـ RTDETRv2.
نظام بيئي وتعدد استخدامات لا مثيل لهما
يوفر نظام Ultralytics البيئي تجربة مطور بديهية ومبسطة. بفضل التوثيق الشامل، ودعم المجتمع النشط، ومنصة Ultralytics المدعومة بالسحاب، أصبح إدارة دورة حياة الذكاء الاصطناعي بالكامل أسهل من أي وقت مضى. علاوة على ذلك، يتميز YOLO26 بتعدد الاستخدامات. بينما يركز RTDETRv2 على كشف الأجسام، يدعم YOLO26 بسلاسة تجزئة المثيلات، وتقدير الوضعية، وتصنيف الصور، ومهام صندوق التحديد الموجه (OBB) بشكل أصلي. معززاً بوظائف الخسارة الجديدة ProgLoss + STAL، يتفوق YOLO26 أيضاً في التعرف على الأجسام الصغيرة، وهي ميزة حاسمة لـ الصور الجوية وكشف العيوب الصناعية.
تكامل سلس مع Ultralytics
لا ينبغي أن يتطلب نشر النماذج التعامل مع قواعد كود معقدة ومجزأة. يسمح لك Ultralytics Python API بتحميل وتدريب وتصدير نماذج متطورة في بضعة أسطر فقط من الكود.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)من خلال الاستفادة من Ultralytics، يمكنك تجنب تكوينات البيئة المعقدة المرتبطة عادةً بمستودعات الأبحاث، مما يسرع من وقت وصولك إلى السوق.
خاتمة
تمثل YOLOX و RTDETRv2 معالم مهمة في تقدم كشف الأجسام في الوقت الفعلي. أثبت YOLOX جدوى شبكات CNN خالية من الروابط عالية الكفاءة، بينما نجح RTDETRv2 في تكييف المحولات مع قيود الوقت الفعلي.
ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتراوح من تحليلات التجزئة الذكية إلى الروبوتات المدمجة، يوفر Ultralytics YOLO26 الحل النهائي. من خلال دمج الاستنتاج بدون NMS مع سرعات CPU غير مسبوقة، وبصمات ذاكرة مخفضة، والدعم القوي لـ Ultralytics Platform، يجهز YOLO26 المطورين لبناء الجيل القادم من أنظمة الرؤية الحاسوبية الموثوقة وعالية الأداء.