مواجهة تقنية: DAMO-YOLO مقابل RTDETRv2 لاكتشاف الكائنات في الوقت الفعلي.
أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور مجموعة رائعة من البنى الهندسية المصممة لتحقيق التوازن بين السرعة والدقة والكفاءة الحاسوبية. وهناك نموذجان بارزان ساهما في إيجاد حلول فريدة لهذه التحديات، وهماYOLO RTDETRv2. ورغم أن كلا النموذجين يهدفان إلى توفير حلول متطورة للاستدلال في الوقت الفعلي، إلا أنهما يختلفان اختلافًا جوهريًا في فلسفاتهما الهندسية.
يتعمق هذا الدليل الشامل في المواصفات الفنية والابتكارات المعمارية وحالات الاستخدام العملي لكلا النموذجين، بينما يستكشف أيضًا كيف أعادت الحلول الحديثة مثل Ultralytics و YOLO26 المتطورة تعريف معايير الصناعة من حيث النشر وسهولة الاستخدام.
نظرات عامة على النموذج
فهمYOLO
طور باحثون في مجموعة Alibaba GroupYOLO طريقة سريعة ودقيقة للكشف عن الأشياء تعتمد بشكل كبير على البحث في البنية العصبية (NAS). وهي تحل محل الهياكل الأساسية التقليدية المصممة يدويًا بهياكل مصممة بواسطة NAS لتقليل زمن الاستجابة. بالإضافة إلى ذلك، تدمج هذه التقنية شبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) فعالة وتصميم ZeroHead لتبسيط تجميع الميزات وتوقعات المربعات المحيطة.
تفاصيل النموذج الرئيسية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
- الوثائق:وثائق DAMO-YOLO
فهم RTDETRv2
يمثل RTDETRv2 من Baidu قفزة نوعية لمُحولات الكشف في الوقت الفعلي. على عكس الشبكات العصبية التلافيفية التقليدية (CNNs) التي تعتمد على مربعات الارتساء وقمع غير الأقصى (NMS)، يستخدم RTDETRv2 آليات الانتباه الذاتي لعرض الصورة بأكملها سياقيًا. يقوم بإخراج مربعات الإحاطة مباشرة، متجاوزًا تمامًا خطوة المعالجة اللاحقة لـ NMS. يقدم هذا النموذج استراتيجية تدريب "حقيبة المجانيات" لتحسين دقة خط الأساس دون زيادة زمن استنتاج النتائج.
تفاصيل النموذج الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- Arxiv:2407.17140
- GitHub:RT-DETR Repository
- المستندات:توثيق RTDETRv2
تبني تقنية Transformers في الرؤية الاصطناعية
في حين أن المحولات تتطلب موارد حاسوبية أعلى، فإن قدرتها على معالجة السياق العام تجعلها فعالة للغاية في فهم المشاهد المعقدة، وهو أحد نقاط القوة الرئيسية لـ RTDETRv2.
مقارنة الأداء
عند تقييم هذه النماذج من أجل نشرها في العالم الواقعي، تعتبر معلمات مثل متوسط الدقة (mAP) وسرعة الاستدلال وحجم الذاكرة أمورًا بالغة الأهمية. تتطلب النماذج القائمة على المحولات مثل RTDETRv2 عمومًا CUDA أعلى أثناء التدريب والاستدلال مقارنة بشبكات CNN خفيفة الوزن مثلYOLO.
فيما يلي مقارنة تفصيلية لمقاييس أدائهم.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
حالات الاستخدام المثالية
أين يتفوق DAMO-YOLO: نظرًا لبنيته الأساسية المحسّنة بواسطة NAS وعدد المعلمات المنخفض للغاية في متغيراته الأصغر (مثل DAMO-YOLOt)، فإنه مناسب للغاية للنشر على الأجهزة محدودة الموارد. إذا كنت تبني حلولًا للأجهزة المدمجة باستخدام بيئات تشغيل مثل ONNX أو محركات TensorRT المتخصصة للحوسبة الطرفية، فإن DAMO-YOLO يوفر إطار عمل عالي الاستجابة.
أين يتفوق RTDETRv2: يتألق RTDETRv2 في السيناريوهات التي تتوفر فيها وحدات معالجة الرسوميات (GPUs) من فئة الخوادم ويكون سياق الصورة العالمي أمرًا بالغ الأهمية. تسمح بنيته القائمة على المحولات بحل مربعات الإحاطة المتداخلة بشكل طبيعي دون NMS، مما يجعله خيارًا قويًا لـ إدارة الحشود الكثيفة أو تتبع الكائنات المعقد حيث تكون العلاقات المكانية بين الكائنات البعيدة حاسمة.
Ultralytics : تقديم YOLO26
في حين يمثلYOLO RTDETRv2 إنجازات أكاديمية مهمة، فإن تحويل هذه النماذج إلى تطبيقات قابلة للتطوير وجاهزة للإنتاج قد يمثل تحديًا. غالبًا ما يواجه المطورون قواعد برمجية مجزأة، ونقصًا في دعم التعلم متعدد المهام، وخطوط إنتاج معقدة.
هذا هو المكان الذي يميز Ultralytics عن غيره. من خلال إعطاء الأولوية لسهولة الاستخدام Python جيدة الصيانة وتعدد الاستخدامات الذي لا مثيل له، Ultralytics أن يقضي المطورون وقتًا أقل في تصحيح الأخطاء ووقتًا أطول في البرمجة.
يأخذ نموذج Ultralytics الذي تم إصداره مؤخرًا هذه المزايا إلى مستوى أعلى، حيث يقدم اختراقات تفوق كل منYOLO RTDETRv2:
- تصميم شامل خالٍ من NMS: كان YOLO26، الذي كان رائداً في الأصل في YOLOv10، شاملاً بطبيعته. هذا يلغي تماماً المعالجة اللاحقة لـ NMS، مما يجعل النشر أسرع وأبسط بكثير من الشبكات العصبية التلافيفية التقليدية (CNNs)، مع مطابقة مزايا الإخراج المباشر لـ RTDETRv2.
- استدلال أسرع على CPU بنسبة تصل إلى 43%: مُحسّن بشكل كبير لأجهزة الذكاء الاصطناعي الحافي التي لا تحتوي على وحدات GPU منفصلة، مما يجعله خيارًا متفوقًا بشكل كبير لتطبيقات إنترنت الأشياء مقارنة بالمحولات التي تستهلك الكثير من الذاكرة.
- مُحسِّن MuSGD: مستوحى من Kimi K2 من Moonshot AI، يجلب هذا المزيج الهجين من SGD و Muon ابتكارات تدريب نماذج اللغة الكبيرة (LLM) إلى الرؤية الحاسوبية، مما يؤدي إلى تدريب مستقر بشكل ملحوظ وتقارب أسرع.
- ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال تعاني فيه النماذج تقليديًا. وهذا أمر بالغ الأهمية لـالتصوير الجوي وتطبيقات الطائرات بدون طيار.
- إزالة DFL: تمت إزالة خسارة التركيز التوزيعي لضمان تنسيقات تصدير مبسطة وتوافق أفضل مع الأجهزة الطرفية منخفضة الطاقة.
- تعدد استخدامات لا يضاهى: على عكس النماذج المنافسة المقتصرة بشكل صارم على detection، يتضمن YOLO26 تحسينات خاصة بالمهام على نطاق واسع، مثل خسارة الزاوية المتخصصة لـ الصناديق المحيطة الموجهة (OBB)، وخسارة semantic segmentation لدقة مثالية على مستوى البكسل، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لـ تقدير الوضعيات.
كفاءة الذاكرة مهمة
يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 تخصيص مساحات هائلة CUDA مما يستلزم في كثير من الأحيانGPU باهظة التكلفة. تحافظYOLO Ultralytics YOLO على متطلبات ذاكرة أقل بشكل ملحوظ أثناء التدريب والاستدلال، مما يساهم في تعميم تطوير الذكاء الاصطناعي للباحثين والهواة على حد سواء.
مثال برمجي: واجهة برمجة تطبيقات Ultralytics الموحدة
تعد واجهة برمجة التطبيقات الموحدة (API) واحدة من أكبر مزايا Ultralytics . يمكنك تحميل وتدريب والتحقق من صحة مجموعة متنوعة من النماذج بسلاسة، بما في ذلك PyTorch لـ RTDETR YOLO المتطورة، دون تغيير سير عملك.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()
تتعدى هذه البساطة إلى تدريب وتصدير مجموعات البيانات المخصصة. باستخدام Python Ultralytics Python يمكن للمطورين بسهولة نقل أوزانهم المدربة إلى منصات النشر مثل CoreML أو OpenVINO بأمر واحد.
الخلاصة والمزيد من الاستكشاف
لقد دفع كل من DAMO-YOLO و RTDETRv2 بلا شك حدود ما هو ممكن في الكشف عن الكائنات في الوقت الفعلي. يوفر DAMO-YOLO هياكل شبكة محسّنة للغاية ومبحث عنها تلقائيًا لتحقيق الكفاءة الأولية، بينما يثبت RTDETRv2 أن المحولات يمكنها المنافسة في مجال الوقت الفعلي من خلال التخلص من الاختناقات التقليدية مثل NMS.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن التوازن المثالي بين الأداء والوثائق الشاملة والاستعداد للإنتاج، تظل YOLO Ultralytics YOLO هي المعيار الذهبي. مع طرح YOLO26، يحصل المستخدمون على إمكانية الوصول إلى الكشف الشامل الشبيه بالمحول، وكفاءة التدريب المستوحاة من LLM، CPU لا مثيل لها — كل ذلك في نظام بيئي بديهي وقوي.
إذا كنت تقوم بتقييم النماذج لمشروعك القادم، فقد تجد فائدة في قراءة مقارناتنا بين EfficientDet و RTDETR، واستكشاف الجيل السابق YOLO11، أو مراجعة المعايير الأكاديمية مثل YOLOX. ابدأ البناء اليوم من خلال استكشاف دليلUltralytics .