تخطي إلى المحتوى

RTDETRv2 مقابل YOLOX: نظرة متعمقة على تطور الكشف عن الكائنات في الوقت الفعلي

تطور مجال اكتشاف الأجسام بسرعة خلال السنوات القليلة الماضية، حيث انتقل من البنى القائمة على المراسي إلى التصاميم الخالية من المراسي، ومؤخراً إلى النماذج الهجينة القائمة على المحولات. يعد RTDETRv2 و YOLOX من المعالم الهامة في هذه الرحلة. في حين أعاد YOLOX تعريف قدرات YOLO في عام 2021 من خلال إزالة المراسي NMS دفع RTDETRv2 (الذي تم إصداره في عام 2024) الحدود إلى أبعد من ذلك من خلال دمج Vision Transformers (ViT) للحصول على دقة فائقة في المشاهد المعقدة.

يقدم هذا الدليل مقارنة تقنية شاملة بين هذين النموذجين المؤثرين، حيث يحلل هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدتك في اختيار الأداة المناسبة لمشاريع الرؤية الحاسوبية الخاصة بك.

RTDETRv2: المنافس القائم على المحول

يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) قفزة كبيرة في تطبيق بنى المحولات على السيناريوهات في الوقت الحقيقي. في حين أن المحولات التقليدية كانت قوية ولكنها بطيئة، فإن RTDETRv2 يحسن هذه المفاضلة لتقديم دقة متطورة بسرعات تنافسية.

الميزات المعمارية الرئيسية

يعتمد RTDETRv2 على RT-DETR الأصلي، باستخدام بنية مشفرة-مفككة هجينة. ويستخدم شبكة CNN الأساسية (عادةً ResNet أو HGNetv2) لاستخراج الميزات بكفاءة، يليها مشفر محول لالتقاط التبعيات بعيدة المدى عبر الصورة.

  • تكامل محول الرؤية: على عكس النماذج القائمة على شبكات CNN البحتة، يستخدم RTDETRv2 آليات الانتباه الذاتي لفهم العلاقة بين الأجزاء البعيدة من الصورة، مما يجعله جيدًا بشكل استثنائي في التعامل مع حالات الحجب والمشاهد المزدحمة.
  • التنبؤ الشامل: يهدف إلى تبسيط عملية الكشف، على الرغم من أن بعض التطبيقات لا تزال تستفيد من التحسين.
  • تحجيم ديناميكي: تم تصميم البنية لتعامل مع الميزات متعددة المقاييس بشكل أكثر فعالية من سابقاتها.

المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة:Baidu
التاريخ: 17 أبريل 2023 (v1)، يوليو 2024 (v2)
الروابط:Arxiv | GitHub

تعرف على المزيد حول RT-DETR

YOLOX: الرائد الخالي من الـ Anchor

صدر YOLOX في عام 2021، وكان بمثابة نقطة تحول في هذا المجال، حيث ابتعد عن YOLO التقليدي YOLO (YOLOv3، v4، v5) من خلال اعتماد آلية خالية من المراسي ورأس منفصل.

الميزات المعمارية الرئيسية

بسّط YOLOX عملية الكشف من خلال إزالة الحاجة إلى مربعات الربط المحددة مسبقًا، والتي غالبًا ما تتطلب ضبطًا تجريبيًا لمجموعات بيانات محددة.

  • آلية بدون مرساة: من خلال التنبؤ بمراكز الأجسام وأحجامها مباشرةً، قلل YOLOX من تعقيد التصميم وحسّن التعميم على مجموعات بيانات متنوعة.
  • رأس منفصل: أدى فصل مهام التصنيف والانحدار إلى فروع مختلفة من رأس الشبكة إلى تحسين التقارب والدقة.
  • تعيين علامة SimOTA: تعاملت استراتيجية تعيين العلامات المتقدمة هذه مع عملية التدريب على أنها مشكلة نقل مثالية، مما أدى إلى تقارب أسرع وتعيين علامات ديناميكي أفضل.

المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
المنظمة:Megvii
التاريخ: 18 يوليو 2021
الروابط:Arxiv | GitHub

مقارنة الأداء الفني

عند اختيار نموذج للإنتاج، تعتبر المقاييس الأولية حاسمة. فيما يلي مقارنة مفصلة للأداء على COCO .

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

تحليل المقاييس

تكشف البيانات عن فجوة واضحة بين الأجيال. يتفوق RTDETRv2 باستمرار على YOLOX في الدقة (mAP) بالنسبة لأحجام النماذج المماثلة. على سبيل المثال، يحقق RTDETRv2-l 53.4٪ mAP وهو أعلى بكثير من 49.7٪ لـ YOLOX-l، مع الحفاظ على سرعات استدلال مماثلة على GPU .

ومع ذلك، يحتفظ YOLOX بميزة في فئة الأجهزة فائقة الخفة. فطرازي YOLOX-Nano و Tiny صغيران للغاية (يبدأ حجمهما من 0.91 ميغابايت)، مما يجعلهما مناسبين لأجهزة الحوسبة الطرفية القديمة حيث كل كيلوبايت من الذاكرة مهم.

استخدام ذاكرة المحولات (Transformer)

بينما توفر RTDETRv2 دقة أعلى، فإن النماذج القائمة على المحولات تستهلك عادةً ذاكرة VRAM أكبر بكثير أثناء التدريب والاستدلال مقارنةً بهياكل CNN الخالصة مثل YOLOX. وقد يشكل هذا المطلب العالي للذاكرة عقبةً عند التدريب على وحدات معالجة الرسومات (GPU) الاستهلاكية ذات CUDA محدودة.

ميزة Ultralytics

في حين أن تحليل النماذج التاريخية مثل YOLOX و RTDETRv2 أمر مهم للبحث، إلا أن التطور الحديث يتطلب أدوات توفر سهولة الاستخدام ونظامًا بيئيًا جيد الصيانة وكفاءة فائقة.

Ultralytics ، بما في ذلك YOLOv8 و YOLO26 المتطورة، مصممة لسد الفجوة بين الأداء العالي وتجربة المطورين.

  1. واجهة برمجة تطبيقات مبسطة: لا يتطلب التبديل بين النماذج سوى سطر واحد من التعليمات البرمجية.
  2. تعدد الاستخدامات: على عكس YOLOX الذي يركز فقط على الكشف، Ultralytics التجزئة وتقدير الوضع والكشف عن الصندوق المحيط الموجه (OBB) بشكل أصلي.
  3. كفاءة التدريب: تم تحسين Ultralytics لتدريب أسرع مع انخفاض حجم الذاكرة، مما يجعل الذكاء الاصطناعي المتطور متاحًا دون الحاجة إلى أجهزة صناعية.

أداء الجيل التالي: YOLO26

بالنسبة للمطورين الذين يسعون إلى الحصول على أفضل أداء على الإطلاق في عام 2026، نوصي باستخدام YOLO26. فهو يدمج أفضل ميزات كل من الشبكات العصبية الشبكية (CNN) والمحولات (Transformers) مع التخلص من نقاط ضعفهما.

  • NMS من البداية إلى النهاية: YOLO26 هي نظام أصلي من البداية إلى النهاية، مما يلغي الحاجة إلى Non-Maximum Suppression (NMS). وهذا يبسط عمليات النشر بشكل كبير مقارنةً بـ YOLOX.
  • مُحسّن MuSGD: بالاستفادة من الابتكارات في تدريب LLM (مستوحاة من Moonshot AI)، يستخدم YOLO26 مُحسّن MuSGD لتحقيق تقارب مستقر وسريع.
  • تحسين الحافة: مع إزالة Distribution Focal Loss (DFL)، أصبح YOLO26 أسرع بنسبة تصل إلى 43٪ في CPU ، مما يجعله متفوقًا بكثير على RTDETRv2 للأجهزة الطرفية التي تفتقر إلى وحدات معالجة رسومات (GPU) قوية.

تعرف على المزيد حول YOLO26

حالات الاستخدام في العالم الحقيقي

يعتمد الاختيار بين هذه البنى بشكل كبير على بيئة النشر الخاصة بك.

مناسب بشكل مثالي لـ RTDETRv2

  • المراقبة المزدحمة: تتميز آلية الانتباه المحولية في سيناريوهات إدارة الحشود حيث تتداخل الكائنات (الأشخاص) بشكل كبير.
  • فهم المشاهد المعقدة: تستفيد التطبيقات التي تتطلب إدراك السياق، مثل الملاحة الذاتية للمركبات، من المجال الاستقبالي الشامل للمحول.

مناسب بشكل مثالي لـ YOLOX

  • الأجهزة القديمة: بالنسبة للأجهزة المقيدة للغاية مثل أجهزة Raspberry Pi القديمة أو المتحكمات الدقيقة، يعد YOLOX-Nano خيارًا خفيف الوزن يناسب الأماكن التي لا يمكن للمحولات العمل فيها.
  • المعايير الأكاديمية: بفضل تصميمه المتميز برأس منفصل وبدون مثبتات، يظل YOLOX معيارًا شائعًا لدراسة آليات الكشف الأساسية عن الأجسام في مجال الأبحاث.

مثال على الكود: Ultralytics

أحد أقوى الحجج لاستخدام Ultralytics هو الواجهة الموحدة. سواء كنت تستخدم نموذجًا قائمًا على المحولات مثل RT-DETR YOLO القائم على CNN، يظل الكود متسقًا.

فيما يلي كيفية تحميل وتشغيل الاستدلال باستخدامPython Ultralytics Python :

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model (Transformer-based)
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load a YOLO26 model (State-of-the-art CNN)
model_yolo = YOLO("yolo26n.pt")

# Run inference on an image
# The API is identical, simplifying A/B testing
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")

# Display results
results_yolo[0].show()

تتبع التجارب

Ultralytics بسلاسة مع أدوات مثل MLflow و Weights & Biases، مما يتيح لك track من نماذج مختلفة جنبًا إلى جنب دون تغيير نصوص التدريب الخاصة بك.

الخلاصة

ساهم كل من RTDETRv2 و YOLOX بشكل كبير في مجال الرؤية الحاسوبية. أثبت YOLOX أن التصميمات الخالية من المراسي يمكن أن تكون فعالة للغاية، بينما أظهر RTDETRv2 أن المحولات يمكن أن تعمل في الوقت الفعلي.

ومع ذلك، بالنسبة لمعظم التطبيقات العملية في عام 2026، يقدم نموذج Ultralytics الحل الأكثر توازناً. يوفر تصميمهNMS ووظائف ProgLoss للأجسام الصغيرة CPU سيناريو "أفضل ما في العالمين" — دقة عالية دون التكلفة الحسابية الهائلة للمحولات. سواء كنت تبني من أجل التصنيع الذكي أو المراقبة الزراعية، فإن Ultralytics الذي يتم صيانته جيداً يضمن أن مشروعك سيظل صالحاً للمستقبل.

لمزيد من الاستكشاف، قد تكون مهتمًا أيضًا بمقارنة RT-DETR YOLO11 أو التعمق في المزايا المحددة لـ YOLO26 مقابل YOLOv10.


تعليقات