RTDETRv2 مقابل YOLO11: نظرة متعمقة على بنى الكشف عن الكائنات في الوقت الحقيقي
يتطور مجال الرؤية الحاسوبية باستمرار، حيث توسع البنى الجديدة حدود الإمكانيات المتاحة على الأجهزة الطرفية وخوادم السحابة. ومن أبرز المنافسين في مجال الكشف عن الأجسام في الوقت الفعلي حاليًا RTDETRv2 و YOLO11. على الرغم من أن كلا النموذجين يقدمان أداءً استثنائيًا، إلا أنهما يمثلان فلسفتين معماريتين مختلفتين تمامًا: النهج القائم على المحول مقابل الشبكة العصبية التلافيفية (CNN) عالية التحسين.
في هذه المقارنة التقنية الشاملة، سوف نستكشف البنى الهندسية ومقاييس الأداء ومنهجيات التدريب وحالات الاستخدام المثالية لكلا النموذجين، مما يساعدك على اتخاذ قرار مستنير بشأن تطبيق الذكاء الاصطناعي التالي الخاص بك.
RTDETRv2: التحدي القائم على المحول
تم تقديم RTDETRv2 كنسخة مطورة من Real-Time Detection Transformer الأصلي، وهو يستفيد من آليات الانتباه لمعالجة البيانات المرئية. من خلال معالجة بقع الصور كسلسلة متتالية، فإنه يحقق فهمًا شاملاً لسياق الصورة، وهو أمر مفيد للغاية في الكشف عن الأجسام المتداخلة بشكل كبير في المشاهد المعقدة.
تفاصيل النموذج:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- المستندات:توثيق RTDETRv2
نقاط القوة والضعف المعمارية
تتمثل الابتكار الرئيسي لـ RTDETRv2 في بنيته الشاملة NMS. من خلال التخلص من Non-Maximum Suppression (NMS)، فإنه يبسط عملية المعالجة اللاحقة. علاوة على ذلك، تم تحسين قدراته في استخراج الميزات متعددة المقاييس مقارنة RT-DETR الأصلي، مما يتيح له تحديد الأجسام ذات الأحجام المختلفة بشكل أفضل.
ومع ذلك، نظرًا لاعتماده على محولات Transformers، فإن RTDETRv2 عادةً ما يعاني من متطلبات ذاكرة أعلى بكثير أثناء التدريب. عادةً ما تكون محولات Transformers أبطأ في التכנס وتتطلب CUDA أكبر بكثير مقارنةً بشبكات CNN التقليدية، مما يجعلها أقل سهولة في الوصول إليها للباحثين الذين يعملون على أجهزة من فئة المستهلكين أو ينشرونها في بيئات AI محدودة.
Ultralytics YOLO11: قمة كفاءة CNN
بناءً على سنوات من الأبحاث الأساسية، Ultralytics YOLO11 كبيرة إلى الأمام في YOLO . وهي تعمل على تحسين بنية CNN لتحقيق سرعة ودقة غير مسبوقة، مع الحفاظ على المرونة والنظام البيئي السهل الاستخدام للمطورين الذي يتوقعه المجتمع.
تفاصيل النموذج:
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 27 سبتمبر 2024
- GitHub:Ultralytics Repository
ميزة Ultralytics
YOLO11 بتوازن أدائه. فهو يحقق توازنًا استثنائيًا بين السرعة والدقة، مما يجعله متعدد الاستخدامات بشكل استثنائي في سيناريوهات النشر المتنوعة في العالم الواقعي، من مجموعات الحوسبة السحابية الضخمة إلى الأجهزة المحمولة خفيفة الوزن.
علاوة على ذلك، تشتهرYOLO Ultralytics YOLO باستخدامها المنخفض للذاكرة أثناء التدريب والاستدلال. على عكس نماذج Transformer التي يمكن أن تستنفد VRAM بسهولة، YOLO11 بأحجام دفعات أكبر على وحدات معالجة الرسومات القياسية. علاوة على ذلك، لا YOLO11 على مجرد اكتشاف الكائنات؛ فهي تتميز بتنوع مذهل، حيث تدعم بشكل أساسي تقسيم المثيلات وتصنيف الصور وتقدير الوضع ومربعات الحدود الموجهة (OBB).
مقارنة الأداء والمقاييس
عند مقارنة الأرقام الأولية، يتضح أن RTDETRv2 يحقق دقة مذهلة، بينما YOLO11 اختيارًا أكثر دقة لأحجام النماذج مع سرعات استدلال فائقة، لا سيما على TensorRT.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما هو موضح في الجدول، يحقق نموذج YOLO11x قيمةmAPval فائقة تبلغ 54.7٪ مع استخدام عدد أقل من FLOPs (194.9 مليار مقابل 259 مليار) وتقديم استدلال أسرع على TensorRT 11.3 مللي ثانية مقابل 15.03 مللي ثانية) مقارنةً بنسخة RTDETRv2-x. توفر YOLO11 الصغيرة والنانوية خيارات خفيفة الوزن لا مثيل لها للأجهزة المقيدة مثل Raspberry Pi.
النظام البيئي وسهولة الاستخدام والتدريب
السمة المميزة Ultralytics هي تجربة المستخدم المبسطة. ultralytics توفر Python واجهة برمجة تطبيقات موحدة وبديهية تتولى المهام الصعبة لـ زيادة البيانات، والتدريب الموزع، وتصدير النماذج. في حين أن مستودع أبحاث RTDETRv2 يتطلب قدرًا كبيرًا من النصوص النمطية والتكوين، Ultralytics خط أنابيب "من الصفر إلى القمة".
ومن المثير للاهتمام أن Ultralytics قوي للغاية لدرجة أنه يدعم بشكل أساسي تشغيل RT-DETR جنبًا إلى جنب مع YOLO ! وهذا يتيح لك الاستفادة من نظام Ultralyticsالبيئي جيد الصيانة — بما في ذلك التكامل مع Weights & Biases و Comet — لتتبع التجارب بسهولة.
from ultralytics import RTDETR, YOLO
# Load an RTDETR model seamlessly through the Ultralytics API
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load a highly optimized YOLO11 model
model_yolo = YOLO("yolo11n.pt")
# Train YOLO11 with highly efficient memory usage
results = model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained YOLO model to ONNX format
model_yolo.export(format="onnx")
تبسيط سير عملك
تعد كفاءة التدريب أمرًا بالغ الأهمية في التعلم الآلي. تستخدم Ultralytics أوزانًا مدربة مسبقًا تتقارب بسرعة. لإدارة مجموعات البيانات وعمليات التدريب ونقاط النهاية للنشر دون كتابة كود، استكشف Ultralytics للحصول على تجربة MLOps متكاملة.
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه البنى على قيود النشر المحددة لمشروعك.
مجالات تفوق RTDETRv2: تتميز بنية Transformer في RTDETRv2 بفعالية عالية في السيناريوهات التي تتضمن كائنات كثيفة ومحجوبة بشكل كبير حيث يتطلب الأمر سياقًا شاملاً. وغالبًا ما يتم تقييمها في الأبحاث الأكاديمية والتطبيقات التي لا تولي اهتمامًا كبيرًا لميزانية الحوسبة مقارنةً بتخطيط العلاقات القائم على الانتباه الخام.
حيث YOLO11 : YOLO11 البطل بلا منازع في مجال النشر العملي والواقعي. إن حجم الذاكرة الصغير وسرعة الاستدلال الفائقة تجعله مثاليًا لما يلي:
- التصنيع الذكي: إجراء الكشف عن العيوب في الوقت الفعلي على خطوط الإنتاج باستخدام أجهزة الكمبيوتر الصناعية.
- الزراعة: استخدام الطائرات بدون طيار لمراقبة صحة المحاصيل في الوقت الفعلي وروبوتات الحصاد الآلية.
- تحليلات البيع بالتجزئة: معالجة تدفقات متعددة من الكاميرات في وقت واحد لإدارة قوائم الانتظار وتتبع المخزون دون الحاجة إلى مزارع خوادم ضخمة.
حالات الاستخدام والتوصيات
YOLO11 الاختيار بين RT-DETR YOLO11 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار YOLO11
YOLO11 في الحالات التالية:
- نشر حافة الإنتاج: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف والتجزئة وتقدير الوضع و OBB ضمن إطار موحد واحد.
- النماذج الأولية السريعة والنشر: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام Python Ultralytics Python المبسطة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
التطلع إلى المستقبل: وصول YOLO26
إذا كنت تبدأ مشروعًا جديدًا، فيجب أن تفكر أيضًا في الجيل التالي من الذكاء الاصطناعي للرؤية: Ultralytics . تم إصدار YOLO26 في يناير 2026، وهو يجمع بين أفضل ما في العالمين. يقدم تصميمًا شاملاً NMS (تم طرحه لأول مرة في YOLOv10)، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة تمامًا مثل RTDETRv2، ولكن بسرعة لا مثيل لها من CNN.
يتميز YOLO26 بمحسّن MuSGDالمستوحى من ابتكارات تدريب LLM، مما يوفر تقاربًا سريعًا ومستقرًا بشكل لا يصدق، ويوفر CPU أسرع بنسبة تصل إلى 43٪ CPU عن طريق إزالة خسارة التركيز التوزيعي (DFL). بفضل وظائف الخسارة المتخصصة ProgLoss + STAL التي تعمل على تحسين التعرف على الأجسام الصغيرة بشكل كبير، يعد YOLO26 هو الخيار الأمثل لأي خط أنابيب رؤية حاسوبية حديث.
سواء اخترت YOLO11 استخداماته المثبتة YOLO11 أو RTDETRv2 لآليات الانتباه التي يتميز بها، أو YOLO26 المتطور للحصول على أداء فائق، فإن Ultralytics توفر جميع الموارد اللازمة للنجاح في رحلتك في مجال الرؤية الحاسوبية.