YOLO11 RTDETRv2: البنى الهندسية والأداء والتطبيقات
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار نموذج الكشف عن الأجسام المناسب أمراً بالغ الأهمية لنجاح المشروع. تتعمق هذه المقارنة في YOLO11 (من Ultralytics) و RTDETRv2 (من Baidu)، وهما بنية حديثة تعتمد على نماذج مختلفة للكشف في الوقت الفعلي. في حين YOLO11 قمة الكفاءة وسهولة الاستخدام القائمة على CNN، فإن RTDETRv2 يوسع حدود الكشف القائم على المحولات.
نظرة عامة
YOLO11 يعتمد على إرث عائلة You Only Look Once (YOLO) ، حيث يعمل على تحسين البنية الهندسية لتحقيق أقصى قدر من الإنتاجية وأدنى استهلاك للموارد. وهو مصمم ليكون حلاً شاملاً لمهام الرؤية المتنوعة، بما في ذلك الكشف والتجزئة وتقدير الوضع. وتكمن قوته في توازنه: حيث يوفر دقة عالية بسرعات استثنائية، حتى على الأجهزة الطرفية المحدودة الموارد.
RTDETRv2 (Real-Time DEtection TRansformer version 2) هو تطور لـ RT-DETR الأصلي، ويهدف إلى حل مشكلات زمن الوصول التي ترتبط عادةً بالنماذج القائمة على المحولات. ويقدم "حقيبة من الهدايا" لتحسين استقرار التدريب والأداء. على الرغم من أنه يحقق دقة مذهلة، إلا أنه يتطلب عمومًا موارد حاسوبية أكثر — خاصة GPU — مما يجعله أكثر ملاءمة لنشر الأجهزة المتطورة بدلاً من الحوسبة الطرفية.
أحدث الابتكارات: YOLO26
للمطورين الباحثين عن أحدث التقنيات في عام 2026، Ultralytics YOLO26. يتميز هذا المنتج بتصميم أصلي شامل NMS، ومحسّن MuSGD الثوري، وسرعات CPU أسرع بنسبة تصل إلى 43٪، مما يجعله الخيار الأول لتطبيقات الذكاء الاصطناعي الحديثة.
المواصفات الفنية والأداء
يوضح الجدول التالي مقاييس أداء كلا النموذجين على COCO . YOLO11 كفاءة فائقة، لا سيما في سرعة الاستدلال وعدد المعلمات، مما يجعله قابلاً للتكيف بدرجة عالية مع بيئات الإنتاج في العالم الواقعي.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
الاختلافات المعمارية
YOLO11 يستخدم هيكلًا أساسيًا وعنقًا مبنيين على شبكة CNN عالية التحسين، مما يحسن استخراج الميزات لالتقاط التفاصيل المعقدة باستخدام معلمات أقل. تم تصميم بنيته بشكل واضح من أجل السرعة، باستخدام تجميع طبقات فعال لتقليل زمن الاستجابة. وهذا يسمح YOLO11 بفعالية على كل شيء بدءًا من وحدات معالجة الرسومات السحابية القوية وحتى أجهزة Raspberry Pi.
على العكس من ذلك، يعتمد RTDETRv2 على بنية محول مشفر-مفكك هجين. ويستخدم آليات الانتباه لالتقاط السياق العام، مما قد يكون مفيدًا في اكتشاف الكائنات في المشاهد المعقدة والمزدحمة. ومع ذلك، فإن هذا يأتي على حساب استهلاك ذاكرة أعلى أثناء التدريب والاستدلال. تتطلب آلية الانتباه بطبيعتها تعقيدًا حسابيًا تربيعيًا فيما يتعلق بحجم الإدخال، مما يستلزم غالبًا استخدام وحدات معالجة رسومات قوية مثل NVIDIA أو A100 لتحقيق سرعات في الوقت الفعلي.
النظام البيئي وسهولة الاستخدام
لا تمثل بنية النموذج سوى نصف القصة؛ فخبرة المطور المحيطة بها هي التي تحدد مدى السرعة التي يمكنك بها الانتقال من النموذج الأولي إلى الإنتاج.
مزاياUltralytics : YOLO11 بشكل عميق في Ultralytics البيئي، المعروف بفلسفته "إنه يعمل ببساطة".
- Python بسيطة: يمكن إجراء التدريب والتحقق والتنبؤ في ثلاث أسطر فقط من التعليمات البرمجية.
- Ultralytics : يمكن للمستخدمين الاستفادة من Ultralytics لإدارة مجموعات البيانات وأتمتة التعليقات التوضيحية ومراقبة عمليات التدريب في السحابة.
- دعم واسع النطاق للمهام: إطار عمل واحد يدعم اكتشاف الكائنات، وتقسيم الحالات، وتقدير الوضع، و OBB، والتصنيف.
- نشر مرن: أوضاع تصدير مدمجة لـ ONNXو OpenVINO، CoreMLو TFLite عملية النشر على الأجهزة المحمولة والأجهزة الطرفية.
نظام RTDETRv2: RTDETRv2 هو في الأساس مستودع موجه للبحث. على الرغم من أنه يوفر إمكانات قوية، إلا أنه يفتقر إلى الأدوات الشاملة الموجودة في Ultralytics . غالبًا ما يحتاج المستخدمون إلى كتابة نصوص برمجية مخصصة لمعالجة البيانات مسبقًا ونشرها. علاوة على ذلك، كنموذج قائم على المحولات، قد يكون التصدير إلى تنسيقات مثل TFLite الأجهزة المحمولة أكثر صعوبة بسبب العمليات المعقدة التي تنطوي عليها طبقات الانتباه.
التدريب وكفاءة البيانات
YOLO11 يتفوق في كفاءة التدريب. تتقارب بنية CNN الخاصة به بسرعة، وغالبًا ما تتطلب عددًا أقل من الدورات GPU أقل بكثير من البدائل المحولة. وهذا يسمح للمطورين بتدريب أحجام دفعات أكبر على أجهزة المستهلكين. يتضمن إطار العمل أيضًا استراتيجيات قوية لضبط المعلمات الفائقة وزيادتها بشكل فوري.
يتطلب RTDETRv2 عادةً جداول تدريب أطول لتثبيت أوزان انتباه المحول. وتكون مساحة الذاكرة المستخدمة أكبر بكثير؛ وغالبًا ما يتطلب تدريب نموذج RTDETRv2-L وحدات معالجة رسومات (GPU) على مستوى المؤسسات ذات سعات VRAM عالية، مما قد يزيد من تكاليف الحوسبة السحابية.
مثال على التعليمات البرمجية: تدريب YOLO11
تدريب YOLO11 سلس YOLO11 . يوضح مقتطف الشفرة التالي تحميل نموذج مدرب مسبقًا وضبطه على مجموعة بيانات مخصصة:
from ultralytics import YOLO
# Load a pretrained YOLO11 model
model = YOLO("yolo11n.pt")
# Train on a custom dataset (e.g., COCO8)
# Ideally, data is configured in a simple YAML file
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("https://ultralytics.com/images/bus.jpg")
# Display results
for result in results:
result.show()
تطبيقات عملية في أرض الواقع
أين يتفوق YOLO11
نظرًا لطبيعته الخفيفة الوزن وتعدد استخداماته، YOLO11 الخيار المفضل لـ:
- Edge AI & IoT: مثالي لمراقبة المدن الذكية على الأجهزة ذات القوة الحاسوبية المحدودة.
- تحليلات رياضية في الوقت الفعلي: تتبع اللاعبين والكرات في بث فيديو بمعدل إطارات عالٍ حيث لا يمكن التنازل عن انخفاض زمن الاستجابة.
- التصنيع: الكشف السريع عن العيوب في خطوط التجميع.
- تطبيقات الهاتف المحمول: تعمل مباشرة على Android iOS Android عبر CoreML TFLite.
أين يتناسب RTDETRv2
RTDETRv2 هو الأنسب للسيناريوهات التالية:
- الأجهزة غير مقيدة: تتوفر وحدات معالجة رسومات قوية على مستوى الخوادم للاستدلال.
- السياق العالمي أمر بالغ الأهمية: المشاهد المعقدة حيث تحدد العلاقات بين الأجسام البعيدة عملية الكشف (على الرغم من أن مجال الاستقبال الكبير YOLO11 غالبًا ما ينافس ذلك).
- البحث: تجربة آليات الانتباه للمحولات.
الخلاصة
يساهم كل من YOLO11 RTDETRv2 بشكل كبير في مجال الرؤية الحاسوبية. يوضح RTDETRv2 إمكانات المحولات في مهام الكشف. ومع ذلك، بالنسبة لغالبية المطورين والتطبيقات التجارية، YOLO11 يظل الخيار الأفضل بسبب توازنه الفريد بين السرعة والدقة وسهولة الاستخدام. وتضمن متطلباته المنخفضة من الذاكرة وخيارات التصدير الواسعة ودعم Ultralytics مسارًا سلسًا من التطوير إلى النشر.
لأولئك الذين يسعون إلى تحسين الأداء بشكل أكبر، ننصح بالترقية إلى YOLO26. بفضل تصميمه الشامل NMS وتحسينه للأجهزة الطرفية، يمثل هذا الجيل الجديد من الذكاء الاصطناعي البصري.
تفاصيل النموذج والمراجع
YOLO11
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 2024-09-27
- المستندات:توثيق YOLO11
- GitHub:ultralytics/ultralytics
RTDETRv2
- المؤلفون: ويني يو ليف، يان زهاو، تشينياو تشانغ، وآخرون.
- المنظمة: بايدو
- التاريخ: 2023-04-17
- Arxiv:2304.08069
- GitHub:RT-DETR Repository