YOLO11 RTDETRv2: مقارنة بين تطور شبكات CNNs ومحولات الرؤية
توسع مجال الرؤية الحاسوبية بسرعة، مما يوفر للمطورين خيارات لا حصر لها لإنشاء تطبيقات قوية تعتمد على الرؤية. في مجال الكشف عن الكائنات في الوقت الفعلي، أصبح الجدل بين الشبكات العصبية التلافيفية (CNN) ومحولات الرؤية (ViT) أكثر بروزًا من أي وقت مضى. تتعمق هذه المقارنة التقنية في هندستين رائدتين: YOLO11، التي تمثل قمة أطر عمل CNN عالية التحسين، و RTDETRv2، وهي نسخة قوية من عائلة محولات الكشف.
من خلال تحليل هياكلها ومقاييس أدائها وسيناريوهات النشر المثالية، يهدف هذا الدليل إلى مساعدة مهندسي التعلم الآلي على اتخاذ قرارات مستنيرة. في حين أن كلا النموذجين يوسعان حدود الدقة، Ultralytics YOLO عادةً ما توفر توازنًا فائقًا بين السرعة ودعم النظام البيئي وسهولة الاستخدام في الإنتاج الفعلي.
YOLO11: معيار التنوع في العالم الواقعي
تم طرح YOLO11 بواسطة Ultralytics YOLO11 على سنوات من الأبحاث الأساسية لتقديم نموذج سريع ودقيق ومتعدد الاستخدامات بشكل لا يصدق. وقد تم تصميمه للتعامل بسلاسة مع اكتشاف الكائنات وتقسيم الحالات وتصنيف الصور وتقدير الوضع واستخراج المربعات المحددة (OBB) بشكل أصلي.
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 2024-09-27
- GitHub:Ultralytics Repository
- المستندات:توثيق YOLO11
الهيكلة ونقاط القوة
YOLO11 ببنية أساسية CNN محسّنة وأهرامات ميزات مكانية متقدمة، مما يجعله فعالاً للغاية من حيث استخدام الموارد. وهو يعمل بشكل جيد في البيئات التي تفرض قيوداً صارمة على الأجهزة، حيث يوفر مساحة ذاكرة صغيرة للغاية أثناء التدريب والاستدلال. توفر Ultralytics دعماً أصلياً لـ YOLO11 مما يتيح مراقبة النماذج وتوضيح البيانات والتدريب السحابي بشكل مبسط دون الحاجة إلى ربط أدوات MLops المتباينة معاً.
بالنسبة للمطورين الذين يستهدفون الحوسبة الطرفية، YOLO11 بزمن انتقال منخفض للغاية. وتسمح طبيعته الخفيفة الوزن بتشغيله بكفاءة على أجهزة تتراوح من Raspberry Pis إلى الهواتف المحمولة الاستهلاكية، مما يجعله معيارًا للبيع بالتجزئة الذكي ومراقبة جودة التصنيع وإدارة حركة المرور الآلية.
RTDETRv2: محولات الوقت الحقيقي من Baidu
RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) يمثل جهود Baidu لجعل البنى القائمة على المحولات قابلة للتطبيق في المهام التي تتم في الوقت الحقيقي. وهو يعتمد على RT-DETR الأصلي RT-DETR دمج نهج "bag-of-freebies" لتحسين دقة خط الأساس دون زيادة زمن استجابة الاستدلال.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETRv2 Repository
- المستندات:RTDETRv2 README
الهيكلة ونقاط القوة
على عكس الشبكات العصبية التوافقية التقليدية، تستخدم RTDETRv2 بنية تشفير-فك تشفير مع آليات الانتباه الذاتي، مما يسمح لها بالتقاط السياق العام عبر الصورة. وهذا مفيد بشكل خاص في المشاهد المزدحمة حيث تكثر حالات الحجب. تزيل RTDETRv2 الحاجة إلى القمع غير الأقصى (NMS) في المعالجة اللاحقة، وتعتمد بدلاً من ذلك على المطابقة المجرية أثناء التدريب للمطابقة الثنائية الفردية.
ومع ذلك، من المعروف أن نماذج المحولات تستهلك الكثير من CUDA VRAM CUDA . غالبًا ما يتطلب تدريب RTDETRv2 من البداية أو ضبطه على مجموعات بيانات مخصصة GPU متطورة وكبيرة الحجم، مما قد يشكل عائقًا أمام الفرق الصغيرة المرنة مقارنةً بصغر حجم التدريب الذي تتطلبه Ultralytics .
تحليل الأداء والمقاييس
عند تقييم هذه النماذج على COCO القياسية، نلاحظ وجود تفاوتات واضحة بين المعلمات وعمليات FLOPs والدقة الأولية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل النتائج
كما هو موضح في الجدول، YOLO11 نسبة أداء إلى حجم مذهلة. يحقق YOLO11x قيمةmAPval أعلى (54.7) مقارنةً بـ RTDETRv2-x (54.3)، مع استخدام معلمات أقل بكثير (56.9 مليون مقابل 76 مليون) وعمليات حسابية أقل بكثير (194.9 مليار مقابل 259 مليار).
علاوة على ذلك، فإن سرعات الاستدلال YOLO11 على T4 TensorRT . يكمل YOLO11s الاستدلال في 2.5 مللي ثانية فقط، في حين أن أصغر RTDETRv2-s يستغرق 5.03 مللي ثانية. وهذا يجعل YOLO11 الأمثل لتدفقات تحليل الفيديو عالية السرعة في الوقت الفعلي حيث يمثل وقت معالجة الإطارات العائق الرئيسي.
تكلفة المحولات
بينما يحقق RTDETRv2 دقة ممتازة من خلال طبقات الانتباه الخاصة به، فإن هذه الآليات تتناسب تربيعيًا مع دقة الصورة، مما يؤدي إلى استهلاك أكبر لذاكرة VRAM أثناء التدريب والاستدلال. YOLO11 هذه المشكلة بفضل كتل التحويل الفائقة الكفاءة.
النظام البيئي للتدريب وسهولة الاستخدام
تكمن الميزة الأساسية لاعتماد Ultralytics في النظام البيئي المحيط. غالبًا ما يتطلب تدريب RTDETRv2 التنقل بين مستودعات معقدة على مستوى الأبحاث، وتعديل أوزان الخسارة المطابقة الثنائية المعقدة، وإدارة حمل ذاكرة كبير.
على العكس من ذلك، Ultralytics بشكل كبير على تجربة المطورين. تعمل Python الموحدة على استخلاص الكود النمطي، وتدمج بسلاسة مع أدوات مثل Weights & Biasesلتتبع التجارب ومعالجة زيادات البيانات تلقائيًا.
إليك مدى سهولة تدريب وتصدير نموذج باستخدام ultralytics الحزمة:
from ultralytics import YOLO
# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")
# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Utilize CUDA GPU
)
# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")
بعد الانتهاء من التدريب، يمكن تصدير YOLO11 إلى تنسيقات مثل ONNXو OpenVINOأو CoreML لا يتطلب سوى أمر واحد، مما يضمن إمكانية توسيع نطاق خط أنابيب الرؤية الخاص بك بسهولة عبر خلفيات الأجهزة المتنوعة.
قدرات متعددة المهام
تذكر أن RTDETRv2 يركز حصريًا على اكتشاف المربعات المحيطة، بينما تدعم YOLO11 تقدير الوضع وتجزئة الحالات بشكل أساسي، مما يتيح لك دمج مهام رؤية متعددة في عائلة نماذج واحدة.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLO11 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLO11
YOLO11 خيار قوي لـ:
- نشر حافة الإنتاج: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف والتجزئة وتقدير الوضع و OBB ضمن إطار موحد واحد.
- النماذج الأولية السريعة والنشر: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام Python Ultralytics Python المبسطة.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
نظرة إلى المستقبل: قوة YOLO26
في حين أن YOLO11 خيارًا ممتازًا للإنتاج، YOLO11 الفرق التي تبحث عن أحدث التقنيات يجب أن تفكر جديًا في استخدام YOLO26. تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة المعمارية من خلال دمج تصميم End-to-End NMS (الذي تم ابتكاره لأول مرة في YOLOv10) مباشرة في جوهره، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة وتعقيد منطق النشر.
يقدم YOLO26 أيضًا العديد من الميزات الثورية:
- MuSGD Optimizer: مستوحى من تقنيات تدريب LLM الخاصة بـ Moonshot AI's Kimi K2، يضمن هذا المزيج من SGD Muon تدريبًا مستقرًا للغاية وتقاربًا أسرع بشكل ملحوظ.
- إزالة DFL: تمت إزالة فقدان بؤرة التوزيع (DFL) من أجل عملية تصدير أكثر بساطة ونظافة، مما أدى إلى تحسين كبير في توافق الأجهزة الطرفية منخفضة الطاقة.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مطلب أساسي لمراقبة الطائرات بدون طيار، والمراقبة الزراعية، وأجهزة الاستشعار المتطورة في إنترنت الأشياء.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : بالنسبة لعمليات النشر التي تفتقر إلى وحدات معالجة رسومات مخصصة، تم تحسين YOLO26 خصيصًا CPU ، مما يجعله يتفوق بشكل كبير على الأجيال السابقة.
للمهتمين باستكشاف مجموعة أوسع من البنى، توفر Ultralytics أيضًا رؤى حول YOLOv8، و YOLOv5، ونماذج متخصصة مثل YOLO لتطبيقات الكشف عن المفردات المفتوحة. في النهاية، سواء كنت تفضل الاستقرار المثبت لـ YOLO11 الابتكارات الثورية لـ YOLO26، فإن Ultralytics يوفر أدوات لا مثيل لها لتجسيد حلول الرؤية الحاسوبية الخاصة بك.