RTDETRv2 مقابل YOLO26: مقارنة تقنية شاملة
لقد تطور مجال الكشف عن الأجسام في الوقت الفعلي بشكل كبير، حيث يواصل الباحثون تخطي حدود السرعة والدقة وكفاءة النشر. اثنان من أبرز البنى التي تقود هذا المجال حاليًا هما RTDETRv2 القائم على المحولات والشبكة العصبية التلافيفية (CNN) المتطورة Ultralytics . يقدم هذا الدليل تحليلًا متعمقًا لبنى هذين النموذجين ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج المناسب لمشروع الرؤية الحاسوبية التالي.
RTDETRv2: محولات الكشف في الوقت الحقيقي
RTDETRv2 مبني على النسخة الأصلية RT-DETR الأصلي، بهدف الجمع بين الوعي بالسياق العالمي لمحولات الرؤية والسرعة المطلوبة للتطبيقات في الوقت الفعلي.
الخصائص الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- الروابط:Arxiv, GitHub, الوثائق
الهيكلة ونقاط القوة
على عكس أجهزة الكشف التقليدية القائمة على المراسي، يستفيد RTDETRv2 من نهج قائم على المحولات يزيل بشكل أساسي الحاجة إلى القمع غير الأقصى (NMS) أثناء المعالجة اللاحقة. من خلال استخدام آلية انتباه مرنة، يتميز النموذج بفعالية عالية في فهم المشاهد المعقدة والأجسام المتداخلة. وقد أدت تحسينات "Bag-of-Freebies" إلى تعزيز دقته بشكل كبير على COCO مع الحفاظ على سرعات استدلال مقبولة على وحدات معالجة الرسومات (GPU) المتطورة.
القيود
على الرغم من أن RTDETRv2 يحقق نتائج أكاديمية مبهرة، إلا أنه غالبًا ما يطرح تحديات في بيئات الإنتاج. تتطلب بنى المحولات بطبيعتها استخدامًا أعلى للذاكرة أثناء التدريب والاستدلال مقارنة بشبكات CNN. وهذا قد يجعل النشر على أجهزة الذكاء الاصطناعي الطرفية المحدودة الموارد أمرًا صعبًا. بالإضافة إلى ذلك، يتطلب تدريب المحولات عادةً أحجام دفعات أكبر CUDA أكبر، مما قد يشكل عائقًا للباحثين الذين لديهم أجهزة محدودة.
YOLO26: قمة الذكاء الاصطناعي للرؤية التي تركز على الحافة
تم إصدار Ultralytics في أوائل عام 2026، وهو يعيد تعريف الإمكانيات المتاحة باستخدام الكشف عن الكائنات القائم على شبكات CNN. ويشتمل على تحسينات متطورة مصممة خصيصًا لنشر الإنتاج السلس وكفاءة الأجهزة القصوى.
الخصائص الرئيسية:
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 14 يناير 2026
- الروابط:GitHub، الوثائق
إنجازات معمارية
يقدم YOLO26 العديد من الميزات الثورية التي تحل المشكلات الشائعة في نشر النماذج:
- تصميم شامل NMS: بناءً على المفاهيم الرائدة في YOLOv10، فإن YOLO26 هو تصميم شامل أصلاً. من خلال إزالة NMS فإنه يقلل بشكل كبير من تقلب زمن الاستجابة، مما يضمن أوقات استدلال يمكن التنبؤ بها بدرجة عالية في الإنتاج.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال التحسينات الاستراتيجية في البنية وإزالة خسارة التركيز التوزيعي (DFL)، تحقق YOLO26 CPU غير مسبوقة CPU ، مما يجعلها الخيار الأول للحوسبة المتطورة بدون وحدات معالجة رسومات مخصصة.
- محسّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (LLM) مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 محسّن MuSGD (مزيج من SGD Muon). وهذا يضمن تشغيل تدريبات عالية الاستقرار وتقاربًا سريعًا للغاية.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو تحديث أساسي للتطبيقات التي تتضمن الصور الجوية والمراقبة باستخدام الطائرات بدون طيار.
تحسينات محددة للمهام في YOLO26
بالإضافة إلى الكشف القياسي، يتميز YOLO26 بتحسينات متخصصة: فقدان التجزئة الدلالية وبروتو متعدد المقاييس لمهام التجزئة، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع، وفقدان الزاوية المخصص لحل مشكلات الحدود في الكشف عن الصندوق المحيط الموجه (OBB).
مقارنة الأداء
عند تقييم هذه النماذج، من الضروري تحقيق توازن قوي في الأداء بين الدقة (mAP) والكفاءة الحسابية. يوضح الجدول أدناه كيف يتفوق YOLO26 باستمرار على RTDETRv2 عبر مختلف المتغيرات الحجمية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
كما هو موضح أعلاه، يحقق نموذج YOLO26x معدل دقة متوسط ملحوظ mAP 57.5 mAP، متجاوزًا بشكل كبير نموذج RTDETRv2-x مع استخدام معلمات أقل والحفاظ على سرعة أكبر TensorRT . علاوة على ذلك، فإن متطلبات الذاكرة لـ YOLO26 أقل بشكل ملحوظ، مما يجعله الخيار الأمثل لعمليات النشر في الوقت الفعلي.
النظام البيئي وسهولة الاستخدام
في حين أن الأداء الخام أمر بالغ الأهمية، فإن النظام البيئي المحيط يحدد مدى سرعة انتقال النموذج من مرحلة البحث إلى مرحلة الإنتاج. وهنا تكمن الميزة الفريدة التي توفرها Ultralytics .
نظام بيئي موحد ومُحافظ عليه جيدًا
يعمل RTDETRv2 بشكل أساسي كمستودع على مستوى البحث العلمي، مما قد يتطلب إعدادات بيئية معقدة وكتابة نصوص برمجية يدوية للمهام المخصصة. على العكس من ذلك، يستفيد Ultralytics من Python ناضجة وخاضعة لاختبارات مكثفة. يوفر Ultralytics تجربة مستخدم مبسطة للغاية، حيث يقدم واجهة برمجة تطبيقات بسيطة للتدريب والتحقق والتنبؤ والتصدير.
مع تكاملات مدمجة لـ Weights & Biases و Comet أصبح تتبع التجارب سلسًا. علاوة على ذلك، تتميز Ultralytics بتنوعها الكبير؛ فبينما تركز RTDETRv2 على اكتشاف الكائنات، تدعم YOLO26 بشكل أساسي تقسيم الحالات وتقدير الوضع وتصنيف الصور ضمن نفس الإطار بالضبط.
مثال على التعليمات البرمجية: البساطة في العمل
تتيح Ultralytics للمطورين تحميل وتدريب وتشغيل الاستدلال باستخدام بضع أسطر من التعليمات البرمجية. وهذا يحسن كفاءة التدريب بشكل كبير ويقلل من وقت طرح المنتج في السوق.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a state-of-the-art YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image seamlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the YOLO26 results
results_yolo[0].show()
# Export YOLO26 to ONNX format with one click
model_yolo.export(format="onnx")
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR YOLO26 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار YOLO26
يوصى باستخدام YOLO26 في الحالات التالية:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
استكشاف هياكل أخرى
بينما يمثل YOLO26 قمة الأداء الحالية، قد يجد المطورون أيضًا قيمة في استكشاف الإصدارات السابقة. النجاح الكبير الذي حققه YOLO11 نموذجًا قويًا ومدعومًا بالكامل لمجموعة متنوعة من الأنظمة القديمة. يمكنك التعمق أكثر في قدراته من خلال قراءة YOLO11 RTDETR و YOLO11 . بالإضافة إلى ذلك، إذا كنت تحلل بنى أقدم، فإن الاطلاع على مقارنة EfficientDet و YOLO26 يوفر سياقًا تاريخيًا رائعًا حول مدى التقدم الذي أحرزته بنى اكتشاف الكائنات.
أفكار أخيرة
يقدم كل من RTDETRv2 و YOLO26 تطورات مذهلة في مجال الذكاء الاصطناعي. ومع ذلك، بالنسبة للفرق التي تعطي الأولوية للانتقال السلس إلى الإنتاج، والحد الأدنى من استهلاك الذاكرة، وتنوع المهام على نطاق واسع، فإن Ultralytics هو الخيار الموصى به بشكل واضح. تضمن بنية NMS CPU السريعة، ودعم Ultralytics القوي أن تظل مشاريع الذكاء الاصطناعي الخاصة بك قابلة للتطوير وفعالة ومستقبلية. سواء تم نشره على خادم سحابي أو Raspberry Pi محدود الموارد، يوفر YOLO26 أداءً لا مثيل له فور تشغيله.