RTDETRv2 مقابل YOLOX: مقارنة تقنية متعمقة بين أجهزة الكشف الحديثة عن الأجسام
تطور مجال الرؤية الحاسوبية بسرعة، مما يوفر للمطورين والباحثين مجموعة من البنى الهندسية للاختيار من بينها عند بناء أنظمة قائمة على الرؤية. ومن المعالم البارزة في هذه الرحلة نظام RTDETRv2 القائم على المحولات ونظام YOLOX القائم على شبكات CNN. ورغم أن كلا النموذجين قد ساهما بشكل كبير في مجال الكشف عن الأجسام في الوقت الفعلي، إلا أنهما يمثلان نهجين مختلفين جذريًا لحل مشكلات التعرف البصري.
يستكشف هذا الدليل الشامل الفروق الدقيقة في البنية ومقاييس الأداء وسيناريوهات النشر المثالية لكلا النموذجين. علاوة على ذلك، سندرس كيف تستفيد البدائل الحديثة مثل Ultralytics المتطورة من هذه الأسس لتوفير دقة وكفاءة وسهولة استخدام فائقة.
RTDETRv2: محولات الكشف في الوقت الحقيقي
تم تقديم RTDETRv2 كخلف لـ RT-DETR الأصلي، ويستفيد من بنية المحول لتحقيق كشف عالي الأداء للأجسام في الوقت الفعلي. من خلال التخلص من الحاجة إلى Non-Maximum Suppression (NMS)، فإنه يبسط مسار الاستدلال.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- روابط:ورقة Arxiv، GitHub الرسمي، الوثائق
الهندسة المعمارية والتصميم
يعتمد RTDETRv2 بشكل كبير على آليات الانتباه الذاتي المتأصلة في المحولات، مما يسمح للنموذج بالتقاط السياق العام عبر الصورة بأكملها. هذا الفهم الشامل يمكّنه من التنبؤ مباشرة بالمربعات المحيطة واحتمالات الفئات. ويقدم ميزات الكشف متعدد المقاييس التي تعزز قدرته على التعرف على الأجسام الصغيرة في البيئات المزدحمة.
اختناقات المحولات
في حين أن المحولات تتفوق في التقاط السياق العام، فإن آليات الانتباه الذاتي الخاصة بها تتناسب تربيعياً مع طول التسلسل، مما يؤدي غالباً إلى استهلاك CUDA أعلى بكثير أثناء التدريب مقارنة بشبكات CNN التقليدية.
نقاط القوة والضعف
تكمن القوة الأساسية لـ RTDETRv2 في تصميمها الأصلي الشامل. من خلال تخطي NMS فإنها تتجنب ارتفاعات زمن الاستجابة التي غالبًا ما ترتبط بالتنبؤات المتداخلة الكثيفة. ومع ذلك، فإن البصمة الحسابية الثقيلة لكتل المحولات الخاصة بها تعني أنها تتطلب GPU كبيرة للتدريب والنشر. وهذا يجعلها أقل مثالية للأجهزة الطرفية المحدودة الموارد أو الأجهزة المحمولة القديمة.
YOLOX: تطوير شبكات CNN بدون مرساة
تم تطوير YOLOX لسد الفجوة بين البحث الأكاديمي والتطبيق الصناعي، حيث أدخلت تصميمًا منفصلًا للرأس وخاليًا من المثبتات إلى YOLO طرازات YOLO الشهيرة.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 18 يوليو 2021
- روابط:ورقة Arxiv، GitHub الرسمي، الوثائق
الهندسة المعمارية والتصميم
يختلف YOLOX عن أجهزة الكشف التقليدية القائمة على المراسي من خلال توقع مواقع الأجسام مباشرةً دون صناديق مراسي محددة مسبقًا. وهذا يبسط تصميم الشبكة ويقلل من عدد معلمات الضبط التجريبي المطلوبة لتحقيق الأداء الأمثل. بالإضافة إلى ذلك، يستخدم YOLOX رأسًا منفصلاً، يفصل بين مهام التصنيف والانحدار، مما يحسن سرعة التقارب أثناء التدريب.
نقاط القوة والضعف
إن طبيعة YOLOX الخالية من المراسي تجعلها قابلة للتكيف بدرجة عالية مع مختلف مهام الرؤية الحاسوبية وأسهل في التدريب على مجموعات البيانات المخصصة. وتعد متغيراتها الأخف وزناً، مثل YOLOX-Nano، مناسبة تماماً للنشر على أجهزة التحكم الدقيقة وأجهزة إنترنت الأشياء منخفضة الطاقة. ومع ذلك، ونظراً لأن YOLOX سبقت ثورة NMS فإنها لا تزال تعتمد على المعالجة اللاحقة التقليدية، مما قد يؤدي إلى حدوث احتكاك في النشر وزيادة زمن الاستجابة في المشاهد الكثيفة.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج، من الضروري تقييم سرعتها ودقتها وكفاءة معلماتها لتحديد الأنسب لحالة الاستخدام المحددة. يوضح الجدول أدناه أداء أحجام النماذج المختلفة على COCO القياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
كما يتضح من البيانات، يحقق RTDETRv2 دقة قصوى أعلى (54.3 mAP) في أكبر متغيراته مقارنةً بـ YOLOXx. ومع ذلك، يقدم YOLOX متغيرات أصغر حجماً وأسرع بشكل ملحوظ، مثل YOLOXs، الذي يتميز بعدد أقل من المعلمات وسرعات استدلال أسرع على وحدات معالجة الرسومات NVIDIA .
ميزة Ultralytics: تقديم YOLO26
في حين أن كلا من RTDETRv2 و YOLOX يقدمان مزايا فريدة، غالبًا ما يحتاج المطورون المعاصرون إلى حل موحد يجمع بين أفضل ما في كلا العالمين — الدقة العالية والاستدلال السريع للغاية ونظام بيئي سهل الوصول. الإصدار الجديد Ultralytics الذي تم إصداره حديثًا يمثل قمة هذه التطورات.
الابتكارات الرئيسية في YOLO26
- تصميم شامل NMS: بناءً على المفاهيم التي تم طرحها لأول مرة في YOLOv10، يعمل YOLO26 بشكل أصلي بدون NMS. وهذا يوفر استنتاجًا سلسًا لـ RTDETRv2 بدون متطلبات الذاكرة الهائلة للمحولات.
- محسّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة، يعمل محسّن MuSGD الهجين (الذي يمزج بين SGD Muon) على استقرار عملية التدريب وتسريع التقارب بشكل كبير.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة وحدة Distribution Focal Loss (DFL) بشكل استراتيجي، تم تحسين YOLO26 خصيصًا للحوسبة الطرفية والأجهزة منخفضة الطاقة، مما يجعله أسرع بكثير على وحدات المعالجة المركزية مقارنة بالإصدارات السابقة مثل YOLO11.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يعالج مشكلة شائعة في تطبيقات التصوير الجوي والروبوتات.
تنوع ونظام بيئي لا مثيل لهما
بالإضافة إلى الأداء الخام، توفر Ultralytics نظامًا بيئيًا شاملاً من الصفر إلى الإنتاج. على عكس المستودعات الأكاديمية الثابتة، يتم صيانة Ultralytics بشكل نشط وتدعم بسلاسة مهام متعددة من واجهة برمجة تطبيقات واحدة وبديهية. سواء كنت تقوم بتقسيم المثيلات أو تتبع الأوضاع عبر تقدير الوضع أو تتعامل مع الكائنات المدورة باستخدام الصناديق المحددة الاتجاه (OBB)، يظل سير العمل كما هو.
علاوة على ذلك، تشتهر Ultralytics بمتطلباتها المنخفضة من الذاكرة أثناء التدريب والاستدلال، مما يسمح للباحثين بتشغيل أحجام دفعات أكبر على أجهزة المستهلكين، وهو ما يتناقض تمامًا مع الحجم الكبير للبنى القائمة على المحولات.
مثال على كود التدريب
تتجلى قوة Ultralytics في بساطته. لا يتطلب تدريب نموذج YOLO26 المتطور سوى بضع أسطر من التعليمات البرمجية، مما يجرد عملية تحميل البيانات وتكوين المعلمات الفائقة من تعقيداتها تمامًا.
from ultralytics import YOLO
# Initialize the natively NMS-free YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, batch=16)
# Validate the model's performance seamlessly
metrics = model.val()
print(f"Validation mAP: {metrics.box.map}")
# Export to ONNX or TensorRT for rapid deployment
model.export(format="engine", device=0)
تطبيقات في العالم الحقيقي وحالات استخدام مثالية
يعتمد اختيار البنية المناسبة بشكل كامل على قيود النشر وتوافر الأجهزة.
معالجة سحابية عالية الدقة
إذا كان تطبيقك يعمل على وحدات معالجة رسومات (GPU) خادم متطورة ويولي الأولوية لأقصى دقة ممكنة — مثل تحليل مشاهد حشود كثيفة أو معالجة صور طبية عالية الدقة — فإن آليات الانتباه القوية في RTDETRv2 يمكن أن تكون فعالة للغاية.
نشر Legacy Edge
بالنسبة للاستخدامات على الهواتف المحمولة القديمة أو وحدات التحكم الدقيقة شديدة التقييد حيث يكون الحد الأدنى من FLOPs ضرورة ملحة، لا يزال YOLOX-Nano خفيف الوزن للغاية بمثابة بديل عملي، وذلك بفضل بنية CNN البسيطة.
المعيار الحديث: الذكاء الاصطناعي وإنترنت الأشياء والروبوتات
بالنسبة للغالبية العظمى من حالات الاستخدام الحديثة - التي تشمل البنية التحتية للمدن الذكية وتحليلات البيع بالتجزئة والملاحة الذاتية - فإنUltralytics هو الخيار الأمثل. إن CPU الأسرع بنسبة 43٪ يجعله لا مثيل له في الحوسبة المتطورة، في حين أن تصميمه NMS يضمن زمن انتقال منخفض ومتسق. عند إقرانه بالوثائق الشاملة والدعم المجتمعي النشط Ultralytics فإنه يمكّن الفرق من الانتقال من تعليق مجموعة البيانات إلى النشر العالمي بشكل أسرع من أي وقت مضى.
تبسيط سير عملك
هل أنت مستعد لتطوير مشاريع الرؤية الحاسوبية الخاصة بك؟ اكتشف الإمكانات الشاملة Ultralytics لإدارة البيانات بسهولة وتدريب النماذج في السحابة ونشر التطبيقات الذكية على نطاق واسع.
بالنسبة للمطورين الذين يرغبون في استكشاف بنى أخرى ضمن نظام Ultralytics ، يمكنكم أيضًا الاطلاع على YOLOv8 للحصول على تكاملات مجتمعية راسخة أو YOLOv5 للحصول على استقرار لا مثيل له في خطوط الأنابيب القديمة. ومع ذلك، من أجل توسيع حدود الممكن في عام 2026، يظل YOLO26 هو المعيار الصناعي.