مواجهة تقنية:YOLO RTDETRv2 للكشف عن الأجسام في الوقت الفعلي
أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور مجموعة رائعة من البنى الهندسية المصممة لتحقيق التوازن بين السرعة والدقة والكفاءة الحاسوبية. وهناك نموذجان بارزان ساهما في إيجاد حلول فريدة لهذه التحديات، وهماYOLO RTDETRv2. ورغم أن كلا النموذجين يهدفان إلى توفير حلول متطورة للاستدلال في الوقت الفعلي، إلا أنهما يختلفان اختلافًا جوهريًا في فلسفاتهما الهندسية.
يتعمق هذا الدليل الشامل في المواصفات الفنية والابتكارات المعمارية وحالات الاستخدام العملي لكلا النموذجين، بينما يستكشف أيضًا كيف أعادت الحلول الحديثة مثل Ultralytics و YOLO26 المتطورة تعريف معايير الصناعة من حيث النشر وسهولة الاستخدام.
نظرات عامة على النموذج
فهمYOLO
طور باحثون في مجموعة Alibaba GroupYOLO طريقة سريعة ودقيقة للكشف عن الأشياء تعتمد بشكل كبير على البحث في البنية العصبية (NAS). وهي تحل محل الهياكل الأساسية التقليدية المصممة يدويًا بهياكل مصممة بواسطة NAS لتقليل زمن الاستجابة. بالإضافة إلى ذلك، تدمج هذه التقنية شبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) فعالة وتصميم ZeroHead لتبسيط تجميع الميزات وتوقعات المربعات المحيطة.
تفاصيل النموذج الرئيسية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
- المستندات:YOLO
فهم RTDETRv2
يمثل RTDETRv2 من Baidu قفزة كبيرة في مجال محولات الكشف في الوقت الفعلي. على عكس الشبكات العصبية التلافيفية التقليدية (CNNs) التي تعتمد على مربعات التثبيت وقمع غير أقصى (NMS)، يستخدم RTDETRv2 آليات الانتباه الذاتي لعرض الصورة بأكملها في سياقها. ويقوم بإخراج مربعات التثبيت مباشرة، متجاوزًا تمامًا خطوة NMS . يقدم هذا النموذج استراتيجية تدريب "حقيبة الهدايا المجانية" لتحسين دقة خط الأساس دون زيادة زمن الاستدلال.
تفاصيل النموذج الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- المستندات:توثيق RTDETRv2
تبني تقنية Transformers في الرؤية الاصطناعية
في حين أن المحولات تتطلب موارد حاسوبية أعلى، فإن قدرتها على معالجة السياق العام تجعلها فعالة للغاية في فهم المشاهد المعقدة، وهو أحد نقاط القوة الرئيسية لـ RTDETRv2.
مقارنة الأداء
عند تقييم هذه النماذج من أجل نشرها في العالم الواقعي، تعتبر معلمات مثل متوسط الدقة (mAP) وسرعة الاستدلال وحجم الذاكرة أمورًا بالغة الأهمية. تتطلب النماذج القائمة على المحولات مثل RTDETRv2 عمومًا CUDA أعلى أثناء التدريب والاستدلال مقارنة بشبكات CNN خفيفة الوزن مثلYOLO.
فيما يلي مقارنة مفصلة لمقاييس أدائهم.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
حالات الاستخدام المثالية
مجالاتYOLO : نظرًا لكونه مخصصًا لنظام NAS ولعدد معلماته المنخفض للغاية في إصداراته الأصغر (مثل DAMO-YOLOt)، فإنه مناسب للغاية للاستخدام على الأجهزة ذات الموارد المحدودة. إذا كنت تعمل على تطوير حلول للأجهزة المدمجة باستخدام بيئات تشغيل مثل ONNX أو TensorRT للحوسبة الطرفية، فإنYOLO إطار عمل عالي الاستجابة.
مجالات تفوق RTDETRv2: تتألق RTDETRv2 في السيناريوهات التي تتوفر فيها وحدات معالجة الرسومات (GPU) من فئة الخوادم ويكون سياق الصورة الشامل أمراً بالغ الأهمية. تسمح بنية المحول الخاصة بها بحل الصناديق المحددة المتداخلة بشكل طبيعي دون NMS، مما يجعلها خياراً قوياً لإدارة الحشود الكثيفة أو تتبع الكائنات المعقدة حيث تكون العلاقات المكانية بين الكائنات البعيدة أمراً بالغ الأهمية.
Ultralytics : تقديم YOLO26
في حين يمثلYOLO RTDETRv2 إنجازات أكاديمية مهمة، فإن تحويل هذه النماذج إلى تطبيقات قابلة للتطوير وجاهزة للإنتاج قد يمثل تحديًا. غالبًا ما يواجه المطورون قواعد برمجية مجزأة، ونقصًا في دعم التعلم متعدد المهام، وخطوط إنتاج معقدة.
هذا هو المكان الذي يميز Ultralytics عن غيره. من خلال إعطاء الأولوية لسهولة الاستخدام Python جيدة الصيانة وتعدد الاستخدامات الذي لا مثيل له، Ultralytics أن يقضي المطورون وقتًا أقل في تصحيح الأخطاء ووقتًا أطول في البرمجة.
يأخذ نموذج Ultralytics الذي تم إصداره مؤخرًا هذه المزايا إلى مستوى أعلى، حيث يقدم اختراقات تفوق كل منYOLO RTDETRv2:
- تصميم شامل NMS: ابتكر لأول مرة في YOLOv10، YOLO26 هو تصميم شامل أصلاً. وهذا يلغي تماماً NMS مما يجعل النشر أسرع وأبسط بكثير من CNNs التقليدية، مع مطابقة مزايا الإخراج المباشر لـ RTDETRv2.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : تم تحسينه بشكل كبير لأجهزة الذكاء الاصطناعي المتطورة التي لا تحتوي على وحدات معالجة رسومات منفصلة، مما يجعله خيارًا أفضل بكثير لتطبيقات إنترنت الأشياء مقارنة بالمحولات التي تستهلك الكثير من الذاكرة.
- MuSGD Optimizer: مستوحى من Kimi K2 من Moonshot AI، هذا المزيج من SGD Muon يجلب ابتكارات تدريب نموذج اللغة الكبيرة (LLM) إلى الرؤية الحاسوبية، مما ينتج عنه تدريب مستقر بشكل ملحوظ وتقارب أسرع.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال تعاني فيه النماذج عادةً من صعوبات. وهذا أمر بالغ الأهمية بالنسبة للصور الجوية وتطبيقات الطائرات بدون طيار.
- إزالة DFL: تمت إزالة Distribution Focal Loss (فقدان بؤرة التوزيع) لضمان تبسيط تنسيقات التصدير وتحسين التوافق مع الأجهزة الطرفية منخفضة الطاقة.
- تنوع لا مثيل له: على عكس النماذج المنافسة التي تقتصر بشكل صارم على الكشف، يتضمن YOLO26 تحسينات خاصة بالمهام على جميع الأصعدة، مثل فقدان الزاوية المتخصص لـ Oriented Bounding Boxes (OBB)، وفقدان التجزئة الدلالية للحصول على دقة مثالية للبكسل، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع.
كفاءة الذاكرة مهمة
يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 تخصيص مساحات هائلة CUDA مما يستلزم في كثير من الأحيانGPU باهظة التكلفة. تحافظYOLO Ultralytics YOLO على متطلبات ذاكرة أقل بشكل ملحوظ أثناء التدريب والاستدلال، مما يساهم في تعميم تطوير الذكاء الاصطناعي للباحثين والهواة على حد سواء.
مثال على الكود: واجهة برمجة التطبيقات الموحدة Ultralytics
تعد واجهة برمجة التطبيقات الموحدة (API) واحدة من أكبر مزايا Ultralytics . يمكنك تحميل وتدريب والتحقق من صحة مجموعة متنوعة من النماذج بسلاسة، بما في ذلك PyTorch لـ RTDETR YOLO المتطورة، دون تغيير سير عملك.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()
تتعدى هذه البساطة إلى تدريب وتصدير مجموعات البيانات المخصصة. باستخدام Python Ultralytics Python يمكن للمطورين بسهولة نقل أوزانهم المدربة إلى منصات النشر مثل CoreML أو OpenVINO بأمر واحد.
الخلاصة والمزيد من الاستكشاف
لا شك أن كلYOLO RTDETRv2 قد دفعا حدود ما هو ممكن في مجال الكشف عن الكائنات في الوقت الفعلي.YOLO هياكل شبكية محسّنة للغاية ومدعومة بالبحث التلقائي من أجل كفاءة خام، بينما يثبت RTDETRv2 أن المحولات يمكنها المنافسة في مجال الوقت الفعلي من خلال القضاء على العقبات التقليدية مثل NMS.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن التوازن المثالي بين الأداء والوثائق الشاملة والاستعداد للإنتاج، تظل YOLO Ultralytics YOLO هي المعيار الذهبي. مع طرح YOLO26، يحصل المستخدمون على إمكانية الوصول إلى الكشف الشامل الشبيه بالمحول، وكفاءة التدريب المستوحاة من LLM، CPU لا مثيل لها — كل ذلك في نظام بيئي بديهي وقوي.
إذا كنت تقوم بتقييم النماذج لمشروعك القادم، فقد تجد فائدة في قراءة مقارناتنا بين EfficientDet و RTDETR، واستكشاف الجيل السابق YOLO11، أو مراجعة المعايير الأكاديمية مثل YOLOX. ابدأ البناء اليوم من خلال استكشاف دليلUltralytics .