YOLOX مقابل RTDETRv2: مقارنة تقنية لاكتشاف الأجسام
في المشهد سريع التطور في مجال الرؤية الحاسوبية، غالبًا ما ينطوي اختيار البنية المناسبة لمشروعك على مفاضلة معقدة بين سرعة الاستدلال والدقة وكفاءة الموارد الحاسوبية. تستكشف هذه المقارنة نهجين متميزين لاكتشاف الأجسام: YOLOX، وهي شبكة CNN عالية الأداء وخالية من الارتكاز، وRTDETRv2، وهو محول كشف في الوقت الحقيقي متطور.
بينما مثّل YOLOX تحولًا كبيرًا نحو المنهجيات الخالية من الارتكاز في عائلة YOLO فإن RTDETRv2 تستفيد من قوة محولات الرؤية (ViTs) لالتقاط السياق العالمي، مما يشكل تحديًا للشبكات العصبية التلافيفية التقليدية (CNNs). يحلل هذا الدليل بنيتها ومقاييس أدائها وحالات الاستخدام المثالية لمساعدتك على اتخاذ قرار مستنير.
تحليل الأداء: السرعة مقابل الدقة
توضح مقاييس الأداء أدناه فلسفات التصميم الأساسية لهذين النموذجين. يحقق RTDETRRv2 بشكل عام متوسط دقة أعلى (mAP) من خلال استخدام آليات الانتباه لفهم المشاهد المعقدة. ومع ذلك، غالبًا ما تأتي هذه الدقة مع زيادة التكلفة الحسابية. تعطي YOLOX، خاصةً في متغيراتها الأصغر، الأولوية لانخفاض زمن الاستنتاج والتنفيذ الفعال على الأجهزة القياسية.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
كما هو موضح في الجدول، يحقق RTDETRV2-x أعلى دقة مع mAP يبلغ 54.3، متفوقًا بذلك على متغير YOLOX الأكبر. وعلى العكس من ذلك، يُظهر YOLOX-s سرعة فائقة على أجهزة GPU مما يجعله فعالاً للغاية في التطبيقات الحساسة لزمن الاستجابة.
يولوكس: كفاءة خالية من المرساة
تعمل YOLOX على تحسين سلسلة YOLO من خلال التحول إلى آلية خالية من المرساة وفصل رأس الكشف. من خلال إزالة الحاجة إلى مربعات التثبيت المحددة مسبقًا، تعمل YOLOX على تبسيط عملية التدريب وتحسين التعميم عبر أشكال الأجسام المختلفة.
المؤلفون: Zheng Ge، وSongtao Liu، وFeng Wang، وZeming Li، وJian Sun
المنظمة:Megvii
التاريخ: 2021-07-18
Arxiv:YOLOX: تجاوز سلسلة YOLO في عام 2021
نقاط القوة الرئيسية
- تصميم بدون مرساة: يُلغي الضبط اليدوي لمعاملات الارتكاز الفائقة، مما يقلل من تعقيد التصميم.
- الرأس المنفصل: يفصل بين مهام التصنيف والانحدار، مما يساعد النموذج على التقارب بشكل أسرع وتحقيق دقة أفضل.
- SimOTA: استراتيجية متقدمة لتعيين التسميات تقوم بتعيين العينات الإيجابية ديناميكيًا، مما يحسن من استقرار التدريب.
نقاط الضعف
- بنية متقادمة: صدر في عام 2021، ويفتقر إلى بعض التحسينات الحديثة الموجودة في الإصدارات الأحدث مثل YOLO11.
- دعم محدود للمهام: يركز في المقام الأول على الكشف، ويفتقر إلى الدعم الأصلي للتجزئة أو تقدير الوضعية في نفس الإطار.
RTDETRv2: محول الطاقة
يمثل RTDETRv2 (الإصدار 2 من محول الكشف في الوقت الحقيقي) قفزة في تطبيق بنيات المحولات على اكتشاف الأجسام في الوقت الحقيقي. فهو يعالج التكلفة الحسابية العالية المرتبطة عادةً بالمحوّلات من خلال تقديم مشفر هجين فعال.
المؤلفون: Wenyu Lv و Yian Zhao و Qinyao Chang و Kui Huang و Guanzhong Wang و Yi Liu
المنظمة:Baidu
التاريخ: 2023-04-17 (الإصدار 1)، 2024-07 (الإصدار 2)
Arxiv:RT-DETRv2: خط الأساس المحسّن مع حقيبة المجانية
نقاط القوة الرئيسية
- السياق العام: تسمح آلية الانتباه الذاتي للنموذج بفهم العلاقات بين الأجسام البعيدة في الصورة، مما يقلل من النتائج الإيجابية الخاطئة في المشاهد المعقدة.
- دقة عالية: يحقق باستمرار درجات أعلى في mAP مقارنةً بالنماذج القائمة على شبكة CNN ذات النطاق المماثل.
- لا حاجة إلى NMS : تعمل بنية المحول بشكل طبيعي على التخلص من الاكتشافات المكررة، مما يلغي الحاجة إلى المعالجة اللاحقة للقمع غير الأقصى (NMS).
نقاط الضعف
- كثافة الذاكرة: يتطلب المزيد من ذاكرة التخزين الافتراضية GPU (VRAM) أثناء التدريب مقارنةً بوحدات CNN، مما يجعل من الصعب التدريب على أجهزة من فئة المستهلكين.
- كمونCPU : على الرغم من تحسينها GPU يمكن أن تكون عمليات المحولات أبطأ على الأجهزة المتطورة CPU مقارنةً بوحدات المعالجة CPU الخفيفة الوزن مثل YOLOX-Nano.
حالات الاستخدام المثالية
غالباً ما يعتمد الاختيار بين هذه النماذج على القيود المحددة لبيئة النشر.
- اختر YOLOX إذا: كنت تقوم بالنشر على الأجهزة الطرفية ذات الموارد المحدودة مثل Raspberry Pi أو الهواتف المحمولة حيث يكون كل جزء من الثانية من زمن الاستجابة مهمًا. كما أنه ممتاز لخطوط الفحص الصناعي حيث تكون الأجسام جامدة ويمكن التنبؤ بها.
- اختر RTDETRv2 إذا: كان لديك إمكانية الوصول إلى وحدات معالجة رسومات قوية (مثل NVIDIA T4 أو A100) وكانت الدقة أمرًا بالغ الأهمية. فهي تتفوق في المشاهد المزدحمة أو القيادة الذاتية أو المراقبة الجوية حيث يكون السياق وعلاقات الكائنات أمرًا بالغ الأهمية.
تحسين النشر
بغض النظر عن النموذج المختار، فإن استخدام أطر التحسين مثل TensorRT أو OpenVINO ضروري لتحقيق سرعات في الوقت الحقيقي في بيئات الإنتاج. يستفيد كلا النموذجين بشكل كبير من التحويل الكمي إلى FP16 أو INT8.
لماذا تُعد نماذج Ultralytics YOLO هي الخيار الأفضل
على الرغم من أن YOLOX و RTDETRv2 مثيران للإعجاب، فإن نظامUltralytics YOLO الذي يقوده YOLO11يوفر حلاً أكثر شمولية للمطورين والباحثين. تعطي Ultralytics الأولوية لتجربة المستخدم، مما يضمن أن يكون الذكاء الاصطناعي المتطور متاحًا وفعالًا ومتعدد الاستخدامات.
1. تنوع لا مثيل له ونظام بيئي لا مثيل له
على عكس YOLOX، وهو نموذج كشف في المقام الأول, Ultralytics YOLO11 يدعم أصلاً مجموعة واسعة من مهام الرؤية الحاسوبية بما في ذلك تجزئة المثيل وتقدير الوضعية والتصنيف والكشف عن الصندوق المحدد الموجه (OBB). يتيح لك ذلك حل مشاكل متعددة باستخدام واجهة برمجة تطبيقات واحدة موحدة.
2. سهولة الاستخدام والصيانة
تعمل حزمة Ultralytics على تبسيط عالم MLOPS المعقد. وبفضل قاعدة الرموز التي تتم صيانتها بشكل جيد، والتحديثات المتكررة، والوثائق الشاملة، يمكن للمستخدمين الانتقال من التثبيت إلى التدريب في دقائق.
from ultralytics import YOLO
# Load a COCO-pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on a custom dataset
train_results = model.train(
data="coco8.yaml", # path to dataset YAML
epochs=100, # number of training epochs
imgsz=640, # training image size
device="cpu", # device to run on, i.e. device=0 or device=0,1,2,3 or device="cpu"
)
# Evaluate model performance on the validation set
metrics = model.val()
3. كفاءة التدريب وبصمة الذاكرة
تتمثل إحدى المزايا المهمة لنماذج Ultralytics YOLO في كفاءتها. من المعروف أن النماذج القائمة على المحولات مثل RTDETRv2 متعطشة للبيانات وكثيفة الذاكرة، وغالباً ما تتطلب وحدات معالجة رسومات متطورة مع ذاكرة وصول عشوائي ضخمة للتدريب. في المقابل، تم تحسين نماذج Ultralytics YOLO للتدريب بفعالية على مجموعة واسعة من الأجهزة، بما في ذلك وحدات معالجة الرسومات للمستهلكين، مع استخدام ذاكرة CUDA أقل. تعمل كفاءة التدريب هذه على إضفاء الطابع الديمقراطي على الوصول إلى الذكاء الاصطناعي عالي الأداء.
4. رصيد الأداء
تم تصميم نماذج Ultralytics لتصل إلى "النقطة المثالية" بين السرعة والدقة. بالنسبة لمعظم التطبيقات في العالم الحقيقي - من تحليلات البيع بالتجزئة إلى مراقبة السلامة - يوفر YOLO11 11 دقة مماثلة للمتحولات مع الحفاظ على سرعات الاستدلال الفائقة المطلوبة لبث الفيديو المباشر.
الخلاصة
ساهم كل من YOLOX و RTDETRv2 بشكل كبير في مجال رؤية الكمبيوتر. لا يزال YOLOX خيارًا قويًا للأنظمة المدمجة القديمة المقيّدة بشكل صارم، بينما يدفع RTDETRv2 حدود الدقة للأجهزة المتطورة.
ومع ذلك، بالنسبة لغالبية المطورين الذين يبحثون عن حل مستقبلي ومتعدد الاستخدامات وسهل الاستخدام, Ultralytics YOLO11 هو الخيار الأول. فهو يجمع بين متطلبات الذاكرة المنخفضة، والدعم الشامل للمهام، ومجتمع مزدهر يضمن أن مشروعك مبني على أساس من الموثوقية والأداء.
استكشف مقارنات أخرى
لتحسين اختيارك للنموذج بشكل أكبر، فكّر في استكشاف هذه المقارنات الفنية ذات الصلة:
- YOLO11 مقابل YOLOv10
- RT-DETR مقابل YOLOv8
- YOLO11 ضد EfficientDet
- YOLOv8 ضد YOLOX
- YOLO11 مقابل MobileNet SSD