YOLOX مقابل RTDETRv2: تقييم تطور نماذج الكشف عن الكائنات في الوقت الفعلي
يتطلب اختيار البنية المثلى لتطبيقات الرؤية الحاسوبية تحقيق توازن دقيق بين الدقة وسرعة الاستدلال وإمكانية النشر. في هذا التحليل التقني الشامل، نستكشف الاختلافات الأساسية بين YOLOX، وهي بنية CNN ناجحة للغاية وخالية من المراسي، و RTDETRv2، وهو محول كشف في الوقت الفعلي متطور.
على الرغم من أن كلا النموذجين قد قدما مساهمات كبيرة في مجال اكتشاف الأجسام، إلا أن المطورين الذين يعملون على إنشاء تطبيقات جاهزة للإنتاج غالبًا ما يجدون أن البدائل الحديثة مثل Ultralytics توفر كفاءة تدريب فائقة ومتطلبات ذاكرة أقل ونظام بيئي أكثر قوة للنشر.
YOLOX: سد الفجوة بين البحث العلمي والصناعة
ظهرت YOLOX كنسخة معدلة من YOLO لا تحتوي على مرساة وحظيت بشعبية كبيرة، حيث قدمت تصميمًا مبسطًا حقق تحسينات رائعة في الأداء عند طرحها في الأسواق.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المؤسسة:Megvii
- التاريخ: 18 يوليو 2021
- الروابط:Arxiv, GitHub, الوثائق
الابتكارات المعمارية
قامت YOLOX بتحويل YOLO إلى نموذج خالٍ من المراسي، حيث دمجت رأسًا منفصلاً واستراتيجية SimOTA المتقدمة لتخصيص العلامات. من خلال التخلص من صناديق المراسي، قللت البنية بشكل كبير من عدد معلمات التصميم وحسنت التعميم عبر مجموعات بيانات المعايير المرجعية المتنوعة. أصبحت إصداراتها خفيفة الوزن، YOLOX-Nano و YOLOX-Tiny، خيارات شائعة لنشر تطبيقات الذكاء الاصطناعي البصري على الأجهزة الطرفية.
اعتبارات الإرث
على الرغم من أن YOLOX حقق تقدمًا ملحوظًا، إلا أن اعتماده على خطوط إنتاج مكثفة وعمليات معالجة لاحقة قديمة (مثل NMS التقليدي) يمكن أن يؤدي إلى زيادة زمن الاستجابة مقارنة بالنماذج الأصلية الشاملة.
RTDETRv2: تطوير محولات الرؤية في الوقت الفعلي
بناءً على أساس سابقه، يستفيد RTDETRv2 من قوة Vision Transformers (ViTs) لتحقيق دقة عالية التنافسية دون التضحية بسرعات الاستدلال في الوقت الفعلي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- روابط: Arxiv، GitHub
الابتكارات المعمارية
يعيد RTDETRv2 تصور خط أنابيب الكشف بشكل جذري من خلال استخدام بنية قائمة على المحولات تتجاوز بشكل أساسي تقنية Non-Maximum Suppression (NMS). ويتحقق ذلك من خلال مشفر هجين واختيار استعلامات IoU مما يحسن تهيئة استعلامات الكائنات. يتعامل النموذج بفعالية مع الميزات متعددة النطاقات، مما يسمح له بالتقاط التفاصيل المعقدة في البيئات المعقدة، مثل كشف مقاطع الفيديو الخاصة بحركة المرور في الليل.
ومع ذلك، فإن المحولات تستهلك الكثير من الموارد بطبيعتها. يتطلب تدريب RTDETRv2 عادةً GPU ودورات حسابية أكثر بكثير من البدائل القائمة على CNN، مما قد يشكل عائقًا للفرق التي تعمل في ظل قيود ميزانية صارمة أو تلك التي تتطلب ضبط النموذج بشكل متكرر.
جدول مقارنة الأداء
لتقييم هذه البنى بشكل موضوعي، نقوم بفحص أدائها على COCO . يوضح الجدول أدناه المفاضلة بين الدقة (mAP) وعدد المعلمات وتعقيد الحساب.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
بينما يحقق RTDETRv2 دقة مذهلة، يحافظ YOLOX على ميزته في ملفات تعريف المعلمات خفيفة الوزن، لا سيما مع متغيرات Nano و Tiny.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLOX و RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOX
YOLOX هو خيار قوي لـ:
- أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
- دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics: YOLO26
في حين أن كل من YOLOX و RTDETRv2 يقدمان مزايا مميزة، فإن Ultralytics الذي تم إصداره مؤخرًا يعيد تعريف أحدث ما توصلت إليه تقنية الذكاء الاصطناعي في مجال الرؤية، حيث يحل المشكلة التاريخية المتمثلة في التوازن بين السرعة والدقة وسهولة النشر.
1. بنية NMS من البداية إلى النهاية
مستوحاة من نماذج المحولات مع الحفاظ على كفاءة شبكات CNN، تتميز YOLO26 بتصميم أصلي شامل NMS. من خلال التخلص من Non-Maximum Suppression كخطوة ما بعد المعالجة، تبسط YOLO26 بشكل كبير خطوط أنابيب النشر، مما يضمن زمن استدلال متسق عبر مختلف الأجهزة الطرفية دون الحاجة إلى ضبط عتبة معقدة.
2. CPU أسرع بنسبة تصل إلى 43٪ في CPU
على عكس بنى المحولات مثل RTDETRv2 التي تعتمد بشكل كبير على وحدات معالجة الرسومات (GPU) المتطورة، تم تحسين YOLO26 خصيصًا لبيئات الحوسبة الطرفية. من خلال إزالة Distribution Focal Loss (DFL)، يعمل YOLO26 على تبسيط تصدير النماذج ويحقق CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله الخيار المثالي للتكامل مع أجهزة مثل Raspberry Pi أو الأجهزة المحمولة القياسية.
3. كفاءة التدريب باستخدام MuSGD
غالبًا ما يؤدي تدريب نماذج المحولات إلى استهلاك مفرط CUDA وإطالة أوقات التدريب. يقدم YOLO26 مُحسِّن MuSGDالجديد — وهو مزيج من التدرج العشوائي التنازلي ومُحسِّن Muon المستوحى من LLM. توفر هذه الابتكار تدريبًا مستقرًا بشكل استثنائي وتقاربًا أسرع، مما يقلل بشكل كبير من متطلبات الأجهزة مقارنةً بـ RTDETRv2.
4. نظام بيئي وتعدد استخدامات لا مثيل لهما
يوفر Ultralytics تجربة مطور بديهية ومبسطة. بفضل الوثائق الشاملة والدعم النشط من المجتمع Ultralytics المدعومة بالسحابة، أصبحت إدارة دورة حياة الذكاء الاصطناعي بالكامل أسهل من أي وقت مضى. علاوة على ذلك، يتميز YOLO26 بتنوعه الكبير. بينما يركز RTDETRv2 على اكتشاف الكائنات، يدعم YOLO26 بسلاسة مهام تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومهام Oriented Bounding Box (OBB) بشكل أصلي. معززًا بوظائف الخسارة الجديدة ProgLoss + STAL، يتفوق YOLO26 أيضًا في التعرف على الأجسام الصغيرة، وهي ميزة مهمة للصور الجوية واكتشاف العيوب الصناعية.
الموديلات الأخرى المدعومة
كما يدعم Ultralytics الجيل السابق YOLO11 و YOLOv8، مما يتيح للمستخدمين إجراء مقارنات قياسية وانتقال سهل بين خطوط الإنتاج القديمة.
تكامل سلس مع Ultralytics
لا ينبغي أن يتطلب نشر النماذج التعامل مع قواعد بيانات معقدة ومجزأة. تتيح لكPython Ultralytics Python تحميل وتدريب وتصدير أحدث النماذج باستخدام بضع أسطر من التعليمات البرمجية فقط.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)
من خلال الاستفادة Ultralytics، يمكنك تجنب التكوينات المعقدة للبيئة التي ترتبط عادة بمستودعات الأبحاث، مما يسرع من وقت طرح منتجاتك في السوق.
الخلاصة
يمثل YOLOX و RTDETRv2 معالم بارزة في تطور الكشف عن الكائنات في الوقت الفعلي. أثبت YOLOX جدوى شبكات CNN عالية الكفاءة الخالية من المراسي، بينما نجح RTDETRv2 في تكييف المحولات مع قيود الوقت الفعلي.
ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتراوح من تحليلات البيع بالتجزئة الذكية إلى الروبوتات المدمجة، يوفر Ultralytics الحل النهائي. من خلال دمج الاستدلال NMS مع CPU لا مثيل لها، وتقليل مساحة الذاكرة، والدعم القوي Ultralytics يزود YOLO26 المطورين بالقدرة على بناء الجيل التالي من أنظمة الرؤية الحاسوبية الموثوقة عالية الأداء.