Link to this sectionYOLOX مقابل RTDETRv2#
يتطلب اختيار البنية المثالية لـ تطبيقات الرؤية الحاسوبية توازناً دقيقاً بين الدقة، وسرعة الاستدلال، وجدوى النشر. في هذا التحليل التقني الشامل، نستكشف الاختلافات الأساسية بين YOLOX، وهي بنية CNN ناجحة للغاية وخالية من المخططات (anchor-free)، وRTDETRv2، وهي محول كشف متطور يعمل في الوقت الفعلي.
بينما قدم كلا النموذجين مساهمات كبيرة في مجال كشف الأشياء، يجد المطورون الذين يبنون تطبيقات جاهزة للإنتاج غالباً أن البدائل الحديثة مثل Ultralytics YOLO26 توفر كفاءة تدريب متفوقة، ومتطلبات ذاكرة أقل، ونظاماً بيئياً أكثر قوة للنشر.
Link to this sectionYOLOX: سد الفجوة بين البحث والصناعة#
برز YOLOX كنسخة معدلة شهيرة جداً وخالية من المخططات لسلسلة YOLO، حيث قدم تصميماً مبسطاً أدى إلى تحسينات مثيرة للإعجاب في الأداء وقت إصداره.
- المؤلفون: Zheng Ge، وSongtao Liu، وFeng Wang، وZeming Li، وJian Sun
- المؤسسة: Megvii
- التاريخ: 18 يوليو 2021
- الروابط: Arxiv، GitHub، المستندات
Link to this sectionالابتكارات المعمارية#
نقل YOLOX عائلة YOLO إلى نموذج خالٍ من المخططات، مع دمج رأس مفكك واستراتيجية تخصيص التسميات المتقدمة SimOTA. ومن خلال التخلص من صناديق المخططات (anchor boxes)، قللت البنية بشكل كبير من عدد معلمات التصميم وحسّنت التعميم عبر مجموعات بيانات قياسية متنوعة. أصبحت إصداراتها خفيفة الوزن، YOLOX-Nano وYOLOX-Tiny، خيارات شائعة لنشر تطبيقات الذكاء الاصطناعي البصري على الأجهزة الطرفية.
في حين جلب YOLOX تقدمات ملحوظة، فإن اعتماده على خطوط أنابيب زيادة البيانات الثقيلة وإجراءات المعالجة اللاحقة القديمة (مثل NMS التقليدي) يمكن أن يؤدي إلى زمن انتقال أعلى مقارنة بالنماذج التي تعمل من النهاية إلى النهاية بشكل أصلي.
Link to this sectionRTDETRv2: تطوير محولات الرؤية في الوقت الفعلي#
بالبناء على أساس سلفه، يستفيد RTDETRv2 من قوة محولات الرؤية (ViTs) لتحقيق دقة تنافسية للغاية دون التضحية بسرعات الاستدلال في الوقت الفعلي.
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 24-07-2024
- روابط: Arxiv, GitHub
Link to this sectionالابتكارات المعمارية#
يعيد RTDETRv2 تصور خط أنابيب الكشف بشكل أساسي باستخدام بنية تعتمد على المحولات التي تتجاوز أصلاً خاصية كبت غير الأقصى (NMS). يتم تحقيق ذلك من خلال مشفر هجين واختيار استعلام واعي بـ IoU، مما يحسن تهيئة استعلامات الأشياء. يتعامل النموذج بفعالية مع الميزات متعددة النطاقات، مما يسمح له بالتقاط تفاصيل معقدة في بيئات صعبة، مثل كشف الفيديو المروري في الليل.
ومع ذلك، فإن المحولات تستهلك الموارد بطبيعتها. يتطلب تدريب RTDETRv2 عادةً ذاكرة GPU ودورات حوسبة أكثر بكثير من البدائل القائمة على CNN، مما قد يشكل عقبة أمام الفرق التي تعمل ضمن قيود ميزانية صارمة أو تلك التي تتطلب ضبط النموذج المتكرر.
Link to this sectionجدول مقارنة الأداء#
لتقييم هذه البنيات بموضوعية، نقوم بفحص أدائها على مجموعة بيانات COCO. يوضح الجدول أدناه المقايضات بين الدقة (mAP)، وعدد المعلمات، والتعقيد الحسابي.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
في حين يحقق RTDETRv2 دقة مثيرة للإعجاب، يحافظ YOLOX على ميزة في ملفات تعريف المعلمات خفيفة الوزن، خاصة مع إصداراته Nano وTiny.
Link to this sectionحالات الاستخدام والتوصيات#
يعتمد الاختيار بين YOLOX وRT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
Link to this sectionمتى تختار YOLOX#
يعد YOLOX خياراً قوياً لـ:
- أبحاث الكشف بدون نقاط ارتكاز: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من نقاط الارتكاز كخط أساس لتجربة رؤوس كشف جديدة أو دوال خسارة مبتكرة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الجوال القديمة حيث يكون البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91 مليون معلمة) أمراً بالغ الأهمية.
- دراسات تخصيص التصنيفات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تخصيص التصنيفات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
Link to this sectionمتى تختار RT-DETR#
يوصى بـ RT-DETR لـ:
- أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
- سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.
Link to this sectionمتى تختار Ultralytics (YOLO26)#
بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
- بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
Link to this sectionميزة Ultralytics: YOLO26#
بينما يوفر كل من YOLOX وRTDETRv2 نقاط قوة مميزة، يعيد Ultralytics YOLO26 الذي تم إصداره حديثاً تعريف أحدث ما توصلت إليه التقنية في الذكاء الاصطناعي البصري، حلاً للمقايضات التاريخية بين السرعة، والدقة، وسهولة النشر.
Link to this sectionبنية من النهاية إلى النهاية وخالية من NMS#
استلهاماً من نماذج المحولات مع الاحتفاظ بكفاءة CNNs، يتميز YOLO26 بتصميم نهاية إلى نهاية خالٍ من NMS أصلاً. من خلال القضاء على كبت غير الأقصى (Non-Maximum Suppression) كخطوة معالجة لاحقة، يبسط YOLO26 خطوط أنابيب النشر بشكل كبير، مما يضمن زمن استدلال متسق عبر مختلف الأجهزة الطرفية دون عبء ضبط العتبة المعقد.
Link to this sectionاستدلال على CPU أسرع بما يصل إلى 43%#
على عكس بنيات المحولات مثل RTDETRv2 التي تعتمد بشكل كبير على GPUs المتطورة، تم تحسين YOLO26 خصيصاً لـ بيئات الحوسبة الطرفية. من خلال إزالة Distribution Focal Loss (DFL)، يقوم YOLO26 بتبسيط تصدير النموذج ويحقق استدلالاً على CPU أسرع بما يصل إلى 43%، مما يجعله الخيار المثالي للتكامل في الأجهزة مثل Raspberry Pi أو الأجهزة المحمولة القياسية.
Link to this sectionكفاءة التدريب مع MuSGD#
غالباً ما يؤدي تدريب نماذج المحولات إلى استهلاك مفرط لـ ذاكرة CUDA وأوقات تدريب مطولة. يقدم YOLO26 مُحسِّن MuSGD الجديد—وهو مزيج من Stochastic Gradient Descent ومُحسِّن Muon المستوحى من نماذج اللغة الكبيرة (LLM). يوفر هذا الابتكار تدريباً مستقراً بشكل استثنائي وتقارباً أسرع، مما يقلل بشكل كبير من متطلبات الأجهزة مقارنة بـ RTDETRv2.
Link to this sectionنظام بيئي وتنوع لا مثيل لهما#
يوفر نظام Ultralytics البيئي تجربة مطور بديهية ومبسطة. مع وثائق واسعة النطاق، ودعم مجتمعي نشط، ومنصة Ultralytics المدعومة سحابياً، لم تكن إدارة دورة حياة الذكاء الاصطناعي بالكامل أسهل من أي وقت مضى. علاوة على ذلك، يتميز YOLO26 بتعدد استخدامات عالٍ. بينما يركز RTDETRv2 على كشف الأشياء، يدعم YOLO26 بسلاسة مهام تجزئة المثيلات، وتقدير الوضعية، وتصنيف الصور، وصندوق التحديد الموجه (OBB) أصلاً. بفضل دوال الخسارة الجديدة ProgLoss + STAL، يتفوق YOLO26 أيضاً في التعرف على الأشياء الصغيرة، وهي ميزة حاسمة لـ الصور الجوية وكشف العيوب الصناعية.
Link to this sectionتكامل سلس مع Ultralytics#
لا ينبغي أن يتطلب نشر النماذج التعامل مع قواعد كود معقدة ومجزأة. يسمح لك Python API الخاص بـ Ultralytics بتحميل، وتدريب، وتصدير أحدث النماذج في بضعة أسطر من الكود فقط.
from ultralytics import YOLO
# Load the latest YOLO26 nano model for optimal edge performance
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset with minimal memory overhead
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export seamlessly to ONNX or TensorRT for deployment
model.export(format="onnx", optimize=True)من خلال الاستفادة من Ultralytics، تتجنب تكوينات البيئة المعقدة المرتبطة عادةً بمستودعات الأبحاث، مما يسرع وقتك في الوصول إلى السوق.
Link to this sectionالخلاصة#
تمثل YOLOX وRTDETRv2 معالم مهمة في تقدم كشف الأشياء في الوقت الفعلي. أثبت YOLOX جدوى CNNs الخالية من المخططات عالية الكفاءة، بينما نجح RTDETRv2 في تكييف المحولات لقيود الوقت الفعلي.
ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتراوح من تحليلات التجزئة الذكية إلى الروبوتات المدمجة، يوفر Ultralytics YOLO26 الحل النهائي. من خلال دمج الاستدلال الخالي من NMS مع سرعات CPU لا مثيل لها، وبصمات ذاكرة مخفضة، والدعم القوي لـ منصة Ultralytics، يجهز YOLO26 المطورين لبناء الجيل القادم من أنظمة الرؤية الحاسوبية الموثوقة وعالية الأداء.