YOLOX مقابل RT-DETRv2: تحقيق التوازن بين البنى القديمة والابتكارات في مجال المحولات
يعد اختيار بنية الكشف عن الكائنات المثلى قرارًا مهمًا يؤثر على زمن الاستجابة والدقة وقابلية التوسع لمشاريع الرؤية الحاسوبية الخاصة بك. يقارن هذا التحليل الفني بين YOLOX، وهو خط أساس CNN قوي بدون مرساة من عام 2021، و RT-DETRv2، وهو نموذج متطور قائم على المحولات ومُحسّن للتطبيقات في الوقت الفعلي.
في حين أن كلا النموذجين يمثلان قفزات كبيرة إلى الأمام في وقت إصدارهما، فإن سير العمل الحديث يتطلب بشكل متزايد حلولاً تجمع بين الأداء العالي وسهولة النشر. خلال هذه المقارنة، سنستكشف أيضًا كيف يجمع Ultralytics المتطور بين أفضل ميزات هذه البنى — مثل الاستدلال NMS — في إطار عمل واحد وفعال.
معايير الأداء
يعرض الجدول التالي مقارنة مباشرة بين المقاييس الرئيسية. لاحظ أنه على الرغم من أن RT-DETRv2 يوفر RT-DETRv2 متوسط دقة أعلى (mAP)، إلا أنه يتطلب موارد حسابية أكبر بكثير، كما يتضح من عدد FLOPs.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
YOLOX: الرائد الخالي من الـ Anchor
تم تقديم YOLOX في عام 2021 من قبل باحثين في Megvii، مما يمثل تحولًا عن الآليات القائمة على المراسي التي كانت سائدة YOLO السابقة (مثل YOLOv4 و YOLOv5). وقد بسط التصميم من خلال إزالة مربعات المراسي وإدخال رأس منفصل، والذي يفصل بين مهام التصنيف والتحديد المكاني لتحقيق تقارب أفضل.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 18 يوليو 2021
- Arxiv:YOLOX: Exceeding YOLO Series in 2021
- GitHub:Megvii-BaseDetection/YOLOX
الهيكلة ونقاط القوة
يستخدم YOLOX استراتيجية تخصيص العلامات SimOTA (Simplified Optimal Transport Assignment)، والتي تخصص العينات الإيجابية بشكل ديناميكي إلى كائنات الحقيقة الأرضية. وهذا يسمح للنموذج بالتعامل مع حالات الحجب ومقاييس الكائنات المتغيرة بشكل أكثر فعالية من العتبات الصارمة IoU.
بساطة البنية تجعلها أساسًا مفضلًا في الأبحاث الأكاديمية. تصميمها "ذو الرأس المنفصل" — الذي يعالج ميزات التصنيف والانحدار في فروع منفصلة — يحسن استقرار التدريب ودقته.
التوافق مع الأنظمة القديمة
يظل YOLOX خيارًا قويًا للأنظمة القديمة المبنية على قواعد برمجية تعود إلى عام 2021 أو للباحثين الذين يحتاجون إلى أساس CNN نظيف وخالٍ من المراسي لاختبار مكونات نظرية جديدة.
ومع ذلك، مقارنةً بالإصدارات الحديثة، يعتمد YOLOX على تقنية Non-Maximum Suppression (NMS) للمعالجة اللاحقة. تؤدي هذه الخطوة إلى تباين في زمن الاستجابة، مما يجعلها أقل قابلية للتنبؤ بالنسبة للتطبيقات الصناعية التي تعمل في الوقت الفعلي بشكل صارم مقارنةً بالنماذج الأحدث الشاملة.
RT-DETRv2: محولات الوقت الحقيقي
RT-DETRv2 (محول الكشف في الوقت الحقيقي v2) هو تطور لـ RT-DETR الأصلي، الذي طورته Baidu. وهو يعالج التكلفة الحسابية العالية التي ترتبط عادةً بمحولات الرؤية (ViTs) باستخدام مشفر هجين فعال يعالج الميزات متعددة النطاقات بسرعة.
- المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
- المنظمة: بايدو
- التاريخ: 17 أبريل 2023 (الإصدار 1)، 24 يوليو 2024 (الإصدار 2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:lyuwenyu/RT-DETR
الهندسة المعمارية والابتكارات
السمة المميزة لـ RT-DETRv2 استنتاجهNMS. من خلال استخدام وحدة فك تشفير محول مع استعلامات الكائنات، يتنبأ النموذج مباشرة بمجموعة ثابتة من المربعات المحيطة. وهذا يلغي الحاجة إلى NMS مما يبسط خطوط النشر ويضمن أوقات استنتاج متسقة بغض النظر عن عدد الكائنات في المشهد.
RT-DETRv2 من أداء سابقه بفضل مشفر هجين مرن وتقدير محسّن لعدم اليقين، مما يتيح له تحقيق دقة أعلى (تصل إلى 54.3٪ mAP) على COCO .
كثافة الموارد
على الرغم من دقتها، فإن كتل المحولات RT-DETRv2 تستهلك الكثير من الذاكرة. يتطلب التدريب عادةً CUDA أكبر بكثير من النماذج القائمة على CNN، ويمكن أن تكون سرعات الاستدلال علىGPU (مثل وحدات المعالجة المركزية القياسية) بطيئة بسبب تعقيد آليات الانتباه.
ميزة Ultralytics: لماذا تختار YOLO26؟
بينما يوفر YOLOX أساسًا موثوقًا للبحث RT-DETRv2 حدود دقة المحولات، يقدم Ultralytics حلاً يوازن بين أفضل ما في كلا العالمين. تم تصميم Ultralytics للمطورين الذين يحتاجون إلى أداء متطور دون تعقيدات المستودعات التجريبية.
أصلي من البداية إلى النهاية NMS
تتبنى YOLO26 فلسفة التصميم الشامل NMS التي ابتكرتها YOLOv10 و RT-DETR تنفذها ضمن بنية CNN عالية الكفاءة. وهذا يعني أنك تحصل على النشر المبسط لـ RT-DETRv2— بدون منطق معالجة لاحقة معقد — مقترنًا بالسرعة الخام لـ CNN.
كفاءة لا مثيل لها في الحوسبة الطرفية
على عكس كتل المحولات الثقيلة في RT-DETRv2، تم تحسين YOLO26 لتناسب الأجهزة المتنوعة.
- إزالة DFL: من خلال إزالة فقدان بؤرة التوزيع (Distribution Focal Loss)، يتم تبسيط بنية النموذج، مما يعزز التوافق مع مسرعات الحافة والأجهزة منخفضة الطاقة.
- CPU : يوفر YOLO26 استنتاجات أسرع بنسبة تصل إلى 43٪ على وحدات المعالجة المركزية مقارنة بالأجيال السابقة، مما يجعله الخيار الأمثل لنشر الذكاء الاصطناعي على الحافة حيث لا تتوفر وحدات معالجة الرسومات.
ديناميات التدريب المتقدم
يدمج YOLO26 محسن MuSGD، وهو مزيج من SGD ومحسن Muon المستوحى من تدريب LLM. توفر هذه الابتكار استقرار تدريب نماذج اللغة الكبيرة للرؤية الحاسوبية، مما يؤدي إلى تقارب أسرع وأوزان أكثر قوة. بالإضافة إلى ذلك، تعمل وظائف الخسارة المحسنة مثل ProgLoss و STAL على تعزيز الأداء بشكل كبير على الكائنات الصغيرة، وهي نقطة ضعف شائعة في النماذج القديمة مثل YOLOX.
سير عمل سلس مع Ultralytics
ربما تكون الميزة الأكبر هي Ultralytics . في حين أن YOLOX و RT-DETRv2 يتطلبان التنقل بين قواعد بيانات GitHub المجزأة، Ultralytics واجهة موحدة. يمكنك التبديل بين المهام —الكشف والتجزئة وتقدير الوضع والتصنيف و OBB— بمجرد تغيير اسم النموذج.
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your dataset (auto-download supported)
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")
الخلاصة
بالنسبة للبحوث الأكاديمية التي تتطلب خط أساس CNN خالص، يظل YOLOX خيارًا صالحًا. بالنسبة للسيناريوهات التي تتوفر فيها GPU كبيرة حيث الدقة القصوى هي المقياس الوحيد، RT-DETRv2 هو منافس قوي. ومع ذلك، بالنسبة لأنظمة الإنتاج الواقعية التي تتطلب توازنًا بين السرعة والدقة وسهولة الصيانة، فإن Ultralytics هو الخيار الأول، حيث يوفر إمكانات شاملة من الجيل التالي مع الكفاءة المطلوبة للنشر الحديث.
مزيد من القراءة
لاستكشاف نماذج أخرى عالية الأداء في Ultralytics راجع:
- YOLO11: نموذج قوي متعدد الأغراض يدعم مجموعة واسعة من مهام الرؤية.
- YOLOv10: أول YOLO يقدم خاصية الكشف عن الأجسام في الوقت الفعلي من البداية إلى النهاية.
- RT-DETR: تطبيقنا لمحول الكشف في الوقت الحقيقي لمن يفضلون البنى القائمة على المحولات.