RTDETRv2 مقابل YOLO11: نظرة متعمقة على بنى الكشف عن الكائنات في الوقت الحقيقي
يتطور مجال الرؤية الحاسوبية باستمرار، حيث توسع البنى الجديدة حدود الإمكانيات المتاحة على الأجهزة الطرفية وخوادم السحابة. ومن أبرز المنافسين في مجال الكشف عن الأجسام في الوقت الفعلي حاليًا RTDETRv2 و YOLO11. على الرغم من أن كلا النموذجين يقدمان أداءً استثنائيًا، إلا أنهما يمثلان فلسفتين معماريتين مختلفتين تمامًا: النهج القائم على المحول مقابل الشبكة العصبية التلافيفية (CNN) عالية التحسين.
في هذه المقارنة التقنية الشاملة، سوف نستكشف البنى الهندسية ومقاييس الأداء ومنهجيات التدريب وحالات الاستخدام المثالية لكلا النموذجين، مما يساعدك على اتخاذ قرار مستنير بشأن تطبيق الذكاء الاصطناعي التالي الخاص بك.
RTDETRv2: التحدي القائم على المحول
تم تقديم RTDETRv2 كنسخة مطورة من Real-Time Detection Transformer الأصلي، وهو يستفيد من آليات الانتباه لمعالجة البيانات المرئية. من خلال معالجة بقع الصور كسلسلة متتالية، فإنه يحقق فهمًا شاملاً لسياق الصورة، وهو أمر مفيد للغاية في الكشف عن الأجسام المتداخلة بشكل كبير في المشاهد المعقدة.
تفاصيل النموذج:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- المستندات:توثيق RTDETRv2
نقاط القوة والضعف المعمارية
تتمثل الابتكار الرئيسي لـ RTDETRv2 في بنيته الشاملة NMS. من خلال التخلص من Non-Maximum Suppression (NMS)، فإنه يبسط عملية المعالجة اللاحقة. علاوة على ذلك، تم تحسين قدراته في استخراج الميزات متعددة المقاييس مقارنة RT-DETR الأصلي، مما يتيح له تحديد الأجسام ذات الأحجام المختلفة بشكل أفضل.
ومع ذلك، نظرًا لاعتماده على محولات Transformers، فإن RTDETRv2 عادةً ما يعاني من متطلبات ذاكرة أعلى بكثير أثناء التدريب. عادةً ما تكون محولات Transformers أبطأ في التכנס وتتطلب CUDA أكبر بكثير مقارنةً بشبكات CNN التقليدية، مما يجعلها أقل سهولة في الوصول إليها للباحثين الذين يعملون على أجهزة من فئة المستهلكين أو ينشرونها في بيئات AI محدودة.
Ultralytics YOLO11: قمة كفاءة CNN
بناءً على سنوات من البحث التأسيسي، أصدرت Ultralytics نموذج YOLO11 كقفزة هائلة إلى الأمام في سلالة YOLO. إنه يحسن هندسة شبكة CNN لتحقيق سرعة ودقة غير مسبوقتين، مع الحفاظ على المرونة والنظام البيئي الملائم للمطورين الذي اعتاد عليه المجتمع.
تفاصيل النموذج:
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 27 سبتمبر 2024
- GitHub:Ultralytics Repository
ميزة Ultralytics
YOLO11 بتوازن أدائه. فهو يحقق توازنًا استثنائيًا بين السرعة والدقة، مما يجعله متعدد الاستخدامات بشكل استثنائي في سيناريوهات النشر المتنوعة في العالم الواقعي، من مجموعات الحوسبة السحابية الضخمة إلى الأجهزة المحمولة خفيفة الوزن.
علاوة على ذلك، تشتهرYOLO Ultralytics YOLO باستخدامها المنخفض للذاكرة أثناء التدريب والاستدلال. على عكس نماذج Transformer التي يمكن أن تستنفد VRAM بسهولة، YOLO11 بأحجام دفعات أكبر على وحدات معالجة الرسومات القياسية. علاوة على ذلك، لا YOLO11 على مجرد اكتشاف الكائنات؛ فهي تتميز بتنوع مذهل، حيث تدعم بشكل أساسي تقسيم المثيلات وتصنيف الصور وتقدير الوضع ومربعات الحدود الموجهة (OBB).
مقارنة الأداء والمقاييس
عند مقارنة الأرقام الأولية، يتضح أن RTDETRv2 يحقق دقة مذهلة، بينما YOLO11 اختيارًا أكثر دقة لأحجام النماذج مع سرعات استدلال فائقة، لا سيما على TensorRT.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما يتضح من الجدول، يحقق نموذج YOLO11x قيمة mAPval متفوقة تبلغ 54.7% مع استخدام عدد أقل من عمليات FLOPs (194.9 مليار مقابل 259 مليار) وتقديم استدلال أسرع على TensorRT (11.3 مللي ثانية مقابل 15.03 مللي ثانية) مقارنة بمتغير RTDETRv2-x. توفر متغيرات YOLO11 النانوية والصغيرة خيارات خفيفة الوزن لا مثيل لها للأجهزة المقيدة مثل Raspberry Pi.
النظام البيئي وسهولة الاستخدام والتدريب
السمة المميزة Ultralytics هي تجربة المستخدم المبسطة. ultralytics توفر Python واجهة برمجة تطبيقات موحدة وبديهية تتولى المهام الصعبة لـ زيادة البيانات، التدريب الموزع، وتصدير النماذج. بينما يتطلب مستودع أبحاث RTDETRv2 الكثير من التعليمات البرمجية المتكررة والتكوينات، توفر Ultralytics مسار عمل "من الصفر إلى الاحتراف".
ومن المثير للاهتمام أن Ultralytics قوي للغاية لدرجة أنه يدعم بشكل أساسي تشغيل RT-DETR جنبًا إلى جنب مع YOLO ! وهذا يتيح لك الاستفادة من نظام Ultralyticsالبيئي جيد الصيانة — بما في ذلك التكامل مع Weights & Biases و Comet — لتتبع التجارب بسهولة.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")
تبسيط سير عملك
تعد كفاءة التدريب أمرًا بالغ الأهمية في التعلم الآلي. تستخدم Ultralytics أوزانًا مدربة مسبقًا تتقارب بسرعة. لإدارة مجموعات البيانات وعمليات التدريب ونقاط النهاية للنشر دون كتابة كود، استكشف Ultralytics للحصول على تجربة MLOps متكاملة.
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه المعماريات على قيود النشر المحددة لمشروعك.
أين يتفوق RTDETRv2: تُعد البنية الأساسية Transformer لـ RTDETRv2 فعالة للغاية في السيناريوهات التي تحتوي على كائنات كثيفة ومحجوبة بشدة حيث يتطلب السياق العالمي. غالبًا ما يتم تقييمه في الأبحاث الأكاديمية والتطبيقات حيث تكون الميزانية الحاسوبية أقل أهمية من رسم خرائط العلاقات الخام القائمة على الانتباه.
أين يهيمن YOLO11: YOLO11 هو البطل بلا منازع للنشر العملي في العالم الحقيقي. فبصمة ذاكرته الضئيلة وسرعات استدلاله الفائقة تجعله مثاليًا لـ:
- التصنيع الذكي: تشغيل اكتشاف العيوب في الوقت الفعلي على خطوط الإنتاج باستخدام أجهزة الكمبيوتر الصناعية.
- الزراعة: النشر على الطائرات بدون طيار لمراقبة صحة المحاصيل في الوقت الفعلي وروبوتات الحصاد الآلي.
- تحليلات التجزئة: معالجة تدفقات كاميرات متعددة بشكل متزامن لإدارة الطوابير وتتبع المخزون دون الحاجة إلى مزارع خوادم ضخمة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR وYOLO11 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
- سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.
متى تختار YOLO11
YOLO11 في الحالات التالية:
- النشر الإنتاجي على الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف (detect)، والـsegmentation، وتقدير الوضعية (pose estimation)، وOBB ضمن إطار عمل موحد واحد.
- النماذج الأولية والنشر السريع: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام واجهة برمجة تطبيقات Ultralytics Python المبسطة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
التطلع إلى المستقبل: وصول YOLO26
إذا كنت تبدأ مشروعًا جديدًا، فيجب أن تفكر أيضًا في الجيل التالي من الذكاء الاصطناعي للرؤية: Ultralytics . تم إصدار YOLO26 في يناير 2026، وهو يجمع بين أفضل ما في العالمين. يقدم تصميمًا شاملاً NMS (تم طرحه لأول مرة في YOLOv10)، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة تمامًا مثل RTDETRv2، ولكن بسرعة لا مثيل لها من CNN.
يتميز YOLO26 بمحسّن MuSGDالمستوحى من ابتكارات تدريب LLM، مما يوفر تقاربًا سريعًا ومستقرًا بشكل لا يصدق، ويوفر CPU أسرع بنسبة تصل إلى 43٪ CPU عن طريق إزالة خسارة التركيز التوزيعي (DFL). بفضل وظائف الخسارة المتخصصة ProgLoss + STAL التي تعمل على تحسين التعرف على الأجسام الصغيرة بشكل كبير، يعد YOLO26 هو الخيار الأمثل لأي خط أنابيب رؤية حاسوبية حديث.
سواء اخترت YOLO11 استخداماته المثبتة YOLO11 أو RTDETRv2 لآليات الانتباه التي يتميز بها، أو YOLO26 المتطور للحصول على أداء فائق، فإن Ultralytics توفر جميع الموارد اللازمة للنجاح في رحلتك في مجال الرؤية الحاسوبية.