مواجهة تقنية: DAMO-YOLO في مقابل RTDETRv2 للكشف عن الأجسام في الوقت الفعلي
لقد أثمر المشهد المتطور بسرعة لرؤية الحاسوب عن مجموعة مذهلة من البنيات المصممة للموازنة بين السرعة والدقة والكفاءة الحسابية. ومن بين النماذج البارزة التي قدمت مقاربات فريدة لحل هذه التحديات هما DAMO-YOLO وRTDETRv2. وعلى الرغم من أن كلا النموذجين يهدفان إلى توفير حلول متطورة للاستنتاج في الوقت الفعلي، إلا أنهما يختلفان جوهرياً في فلسفتهما المعمارية.
يغوص هذا الدليل الشامل في المواصفات التقنية والابتكارات المعمارية وحالات الاستخدام العملية لكلا النموذجين، مع استكشاف كيفية قيام الحلول الحديثة مثل Ultralytics Platform ونموذج YOLO26 المتطور بإعادة تحديد معايير الصناعة للنشر وسهولة الاستخدام.
نظرة عامة على النماذج
فهم نموذج DAMO-YOLO
طور باحثون في مجموعة Alibaba نموذج DAMO-YOLO، وهو يقدم طريقة سريعة ودقيقة للكشف عن الأجسام تعتمد بشكل كبير على البحث في بنية الشبكات العصبية (NAS). يستبدل النموذج الهياكل التقليدية المصممة يدوياً ببنيات تم إنشاؤها عبر NAS ومصممة لتحقيق زمن وصول منخفض. بالإضافة إلى ذلك، يدمج النموذج شبكة هرمية للميزات عامة ومعادة التقييم (RepGFPN) وتصميماً خالياً من الرأس (ZeroHead) لتبسيط تجميع الميزات وتوقعات مربعات الإحاطة (bounding boxes).
تفاصيل النموذج الأساسية:
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المنظمة: Alibaba Group
- التاريخ: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- المستندات: توثيق DAMO-YOLO
فهم نموذج RTDETRv2
يمثل نموذج RTDETRv2 من Baidu قفزة كبيرة لمحوّلات الكشف في الوقت الفعلي (Real-Time Detection Transformers). على عكس الشبكات العصبية التلافيفية (CNNs) التقليدية التي تعتمد على مربعات الارتساء (anchor boxes) وNMS، يستخدم RTDETRv2 آليات الانتباه الذاتي لعرض سياق الصورة بالكامل. يقوم النموذج بإخراج مربعات الإحاطة بشكل مباشر، متجاوزاً بذلك تماماً خطوة معالجة ما بعد NMS. يقدم هذا النموذج استراتيجية تدريب "حقيبة الهدايا" (bag of freebies) لتحسين الدقة الأساسية دون زيادة زمن وصول الاستنتاج.
تفاصيل النموذج الأساسية:
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 2024-07-24
- Arxiv: 2407.17140
- GitHub: مستودع RT-DETR
- الوثائق: توثيق RTDETRv2
على الرغم من أن المحولات تتطلب موارد حسابية أعلى، إلا أن قدرتها على معالجة السياق العالمي تجعلها فعالة للغاية لفهم المشاهد المعقدة، وهي نقطة قوة رئيسية لنموذج RTDETRv2.
مقارنة الأداء
عند تقييم هذه النماذج للنشر في العالم الحقيقي، تعد معايير مثل متوسط دقة متوسط (mAP) وسرعة الاستنتاج وبصمة الذاكرة أموراً حاسمة. تتطلب النماذج القائمة على المحولات مثل RTDETRv2 عموماً ذاكرة CUDA أعلى أثناء التدريب والاستنتاج مقارنة بشبكات CNN خفيفة الوزن مثل DAMO-YOLO.
فيما يلي مقارنة مفصلة لمقاييس أدائها.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
حالات الاستخدام المثالية
أين يتفوق DAMO-YOLO: بفضل هيكله المحسن عبر NAS وعدد المعلمات المنخفض بشكل استثنائي في متغيراته الأصغر (مثل DAMO-YOLOt)، فهو مناسب جداً للنشر على الأجهزة ذات الموارد المحدودة للغاية. إذا كنت تبني حلولاً للأجهزة المضمنة باستخدام أوقات تشغيل مثل ONNX أو محركات TensorRT المتخصصة للحوسبة الطرفية، فإن DAMO-YOLO يوفر إطار عمل سريع الاستجابة للغاية.
أين يتفوق RTDETRv2: يتألق RTDETRv2 في السيناريوهات التي تتوفر فيها وحدات GPU على مستوى الخادم ويكون سياق الصورة العالمي أمراً بالغ الأهمية. تسمح بنيته المعتمدة على المحولات بحل مشكلة تداخل مربعات الإحاطة بشكل طبيعي دون الحاجة إلى NMS، مما يجعله خياراً قوياً لـ إدارة الحشود الكثيفة أو تتبع الأجسام المعقد حيث تكون العلاقات المكانية بين الأجسام البعيدة أمراً حاسماً.
ميزة Ultralytics: تقديم YOLO26
على الرغم من أن DAMO-YOLO وRTDETRv2 يمثلان إنجازات أكاديمية مهمة، إلا أن نقل هذه النماذج إلى تطبيقات قابلة للتوسع وجاهزة للإنتاج قد يكون أمراً صعباً. غالباً ما يواجه المطورون قواعد تعليمات برمجية مجزأة، ونقصاً في دعم التعلم متعدد المهام، وخطوط أنابيب نشر معقدة.
هنا يبرز نظام Ultralytics البيئي حقاً. من خلال إعطاء الأولوية لسهولة الاستخدام، وواجهة برمجة تطبيقات Python جيدة الصيانة، وتعدد استخدامات لا مثيل له، تضمن Ultralytics أن يقضي المطورون وقتاً أقل في تصحيح الأخطاء ووقتاً أطول في البناء.
ينقل نموذج Ultralytics YOLO26 الذي تم إصداره مؤخراً هذه المزايا إلى المستوى التالي، حيث يقدم اختراقات تتفوق على كل من DAMO-YOLO وRTDETRv2:
- تصميم كامل من البداية للنهاية دون NMS: تم ابتكار هذا التصميم في الأصل في YOLOv10، ونموذج YOLO26 كامل من البداية للنهاية بشكل أصيل. هذا يلغي تماماً معالجة ما بعد NMS، مما يجعل النشر أسرع وأبسط بكثير مقارنة بشبكات CNN التقليدية، مع مطابقة فوائد الإخراج المباشر لنموذج RTDETRv2.
- أسرع بنسبة تصل إلى 43% في استنتاج وحدة المعالجة المركزية (CPU): تم تحسينه بشكل كبير لـ أجهزة ذكاء الرؤية الطرفية التي لا تحتوي على وحدات GPU منفصلة، مما يجعله خياراً متفوقاً بشكل كبير لتطبيقات إنترنت الأشياء (IoT) مقارنة بالمحولات الثقيلة على الذاكرة.
- مُحسِّن MuSGD: مستوحى من نموذج Kimi K2 لشركة Moonshot AI، يجمع هذا الهجين بين SGD وMuon ابتكارات تدريب النماذج اللغوية الكبيرة (LLM) في مجال رؤية الحاسوب، مما يؤدي إلى تدريب مستقر بشكل ملحوظ وتقارب أسرع.
- ProgLoss + STAL: تقدم وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو مجال تعاني فيه النماذج تقليدياً. هذا أمر بالغ الأهمية لـ الصور الجوية وتطبيقات الطائرات بدون طيار.
- إزالة DFL: تمت إزالة خوارزمية Distribution Focal Loss لضمان تبسيط تنسيقات التصدير وتوافق أفضل مع الأجهزة الطرفية منخفضة الطاقة.
- تعدد استخدامات لا مثيل له: على عكس النماذج المنافسة التي تقتصر حصرياً على الكشف، يتضمن YOLO26 تحسينات خاصة بالمهام في جميع المجالات، مثل خسارة الزاوية المتخصصة لـ مربعات الإحاطة الموجهة (OBB)، وخسارة التجزئة الدلالية لدقة مثالية على مستوى البكسل، وتقدير احتمالية السجل المتبقي (RLE) لـ تقدير الوضعية (Pose estimation).
يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 تخصيصات ضخمة لذاكرة CUDA، مما يستلزم غالباً إعدادات مكلفة متعددة وحدات GPU. تحافظ نماذج Ultralytics YOLO على متطلبات ذاكرة أقل بشكل ملحوظ أثناء التدريب والاستنتاج، مما يساهم في دمقرطة تطوير الذكاء الاصطناعي للباحثين والهواة على حد سواء.
مثال برمجي: واجهة برمجة تطبيقات Ultralytics الموحدة
واحدة من أعظم فوائد نظام Ultralytics البيئي هي واجهة برمجة تطبيقاته الموحدة. يمكنك تحميل وتدريب والتحقق من صحة مجموعة متنوعة من النماذج بسلاسة—بما في ذلك تطبيق PyTorch لنموذج RTDETR ونماذج YOLO المتطورة—دون تغيير سير عملك.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()تمتد هذه البساطة إلى تدريب مجموعة البيانات المخصصة والتصدير. باستخدام حزمة Ultralytics Python، يمكن للمطورين دفع أوزانهم المدربة بسهولة إلى منصات النشر مثل CoreML أو OpenVINO باستخدام أمر واحد.
الخلاصة والمزيد من الاستكشاف
لقد دفع كل من DAMO-YOLO وRTDETRv2 بلا شك حدود ما هو ممكن في الكشف عن الأجسام في الوقت الفعلي. يوفر DAMO-YOLO هياكل شبكات محسنة للغاية ومبنية بالبحث التلقائي من أجل كفاءة خام، بينما يثبت RTDETRv2 أن المحولات يمكنها المنافسة في مجال الوقت الفعلي من خلال القضاء على الاختناقات التقليدية مثل NMS.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن التوازن المطلق بين الأداء والتوثيق الشامل وجاهزية الإنتاج، تظل نماذج Ultralytics YOLO هي المعيار الذهبي. مع تقديم YOLO26، يحصل المستخدمون على وصول إلى كشف كامل من البداية للنهاية شبيه بالمحولات، وكفاءة تدريب مستوحاة من LLM، وسرعات CPU لا تضاهى—كل ذلك مغلف ضمن نظام بيئي بديهي وقوي.
إذا كنت تقيم نماذج لمشروعك القادم، فقد تجد أيضاً قيمة في قراءة مقارناتنا بين EfficientDet وRTDETR، أو استكشاف الجيل السابق YOLO11، أو مراجعة الأسس الأكاديمية مثل YOLOX. ابدأ البناء اليوم من خلال استكشاف دليل البدء السريع لـ Ultralytics.