Link to this sectionDAMO-YOLO مقابل RTDETRv2#
أنتج المشهد سريع التطور للرؤية الحاسوبية مجموعة رائعة من البنى المصممة لتحقيق التوازن بين السرعة والدقة والكفاءة الحسابية. ومن أبرز النماذج التي ساهمت بأساليب فريدة لحل هذه التحديات هما DAMO-YOLO و RTDETRv2. وبينما يهدف كلا النموذجين إلى توفير حلول متطورة للاستنتاج في الوقت الفعلي، فإنهما يختلفان جوهرياً في فلسفتهما المعمارية.
يغوص هذا الدليل الشامل في المواصفات التقنية والابتكارات المعمارية وحالات الاستخدام العملي لكلا النموذجين، مع استكشاف كيف أعادت الحلول الحديثة مثل Ultralytics Platform و YOLO26 الرائد في مجاله تعريف معايير الصناعة للنشر وسهولة الاستخدام.
Link to this sectionنظرة عامة على النماذج#
Link to this sectionفهم نموذج DAMO-YOLO#
طوّر باحثون في Alibaba Group نموذج DAMO-YOLO، الذي يقدم طريقة سريعة ودقيقة لاكتشاف الأشياء تعتمد بشكل كبير على البحث في بنية الشبكة العصبية (NAS). حيث يستبدل الهياكل الأساسية التقليدية المصممة يدوياً بهياكل تم إنشاؤها بواسطة NAS ومصممة لتحقيق زمن انتقال منخفض. بالإضافة إلى ذلك، فهو يدمج RepGFPN (شبكة هرمية ميزات معممة معاد برمجتها) وتصميم ZeroHead لتبسيط تجميع الميزات وتوقعات مربع الإحاطة (bounding box).
تفاصيل النموذج الرئيسية:
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المؤسسة: Alibaba Group
- التاريخ: 2022-11-23
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
- الوثائق: توثيق DAMO-YOLO
Link to this sectionفهم نموذج RTDETRv2#
يمثل نموذج RTDETRv2 من Baidu قفزة كبيرة لنماذج محولات الاكتشاف في الوقت الفعلي (Real-Time Detection Transformers). وعلى عكس الشبكات العصبية التلافيفية التقليدية (CNNs) التي تعتمد على مربعات الارتساء (anchor boxes) و NMS، يستخدم RTDETRv2 آليات الانتباه الذاتي لرؤية سياق الصورة بالكامل. وهو يخرج مربعات الإحاطة مباشرة، متجاوزاً بذلك خطوة ما بعد المعالجة NMS تماماً. يقدم هذا النموذج استراتيجية تدريب "مجموعة الهدايا المجانية" (bag of freebies) لتحسين الدقة الأساسية دون زيادة زمن انتقال الاستنتاج.
تفاصيل النموذج الرئيسية:
- المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
- المنظمة: Baidu
- التاريخ: 24-07-2024
- Arxiv: 2407.17140
- GitHub: مستودع RT-DETR
- التوثيق: توثيق RTDETRv2
على الرغم من أن المحولات تتطلب موارد حسابية أعلى، إلا أن قدرتها على معالجة السياق العالمي تجعلها فعالة للغاية لفهم المشاهد المعقدة، وهي نقطة قوة رئيسية لنموذج RTDETRv2.
Link to this sectionمقارنة الأداء#
عند تقييم هذه النماذج للنشر في العالم الحقيقي، تعد معايير مثل متوسط الدقة (mAP)، وسرعة الاستنتاج، والبصمة الذاكرية أموراً بالغة الأهمية. تتطلب النماذج القائمة على المحولات مثل RTDETRv2 عموماً ذاكرة CUDA أعلى أثناء التدريب والاستنتاج مقارنة بالشبكات العصبية التلافيفية خفيفة الوزن مثل DAMO-YOLO.
فيما يلي مقارنة تفصيلية لمقاييس أدائهما.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
Link to this sectionحالات الاستخدام المثالية#
أين يتفوق DAMO-YOLO: نظراً لهيكله الأساسي المحسّن بواسطة NAS وانخفاض عدد المعاملات (parameters) بشكل استثنائي في متغيراته الأصغر (مثل DAMO-YOLOt)، فهو مناسب للغاية للنشر على الأجهزة ذات الموارد المحدودة جداً. إذا كنت تبني حلولاً للأجهزة المضمنة باستخدام أوقات تشغيل مثل ONNX أو محركات TensorRT المتخصصة للحوسبة الطرفية، فإن DAMO-YOLO يوفر إطار عمل سريع الاستجابة للغاية.
أين يتفوق RTDETRv2: يتألق RTDETRv2 في السيناريوهات التي تتوفر فيها وحدات معالجة رسوميات (GPUs) بمستوى الخوادم ويكون سياق الصورة العالمي أمراً بالغ الأهمية. تسمح معمارية المحولات الخاصة به بحل مشكلة تداخل مربعات الإحاطة بشكل طبيعي دون الحاجة إلى NMS، مما يجعله خياراً قوياً لإدارة الحشود الكثيفة أو تتبع الأشياء المعقد حيث تكون العلاقات المكانية بين الأشياء البعيدة حاسمة.
Link to this sectionميزة Ultralytics: تقديم YOLO26#
على الرغم من أن DAMO-YOLO و RTDETRv2 يمثلان إنجازات أكاديمية كبيرة، إلا أن تحويل هذه النماذج إلى تطبيقات قابلة للتوسع وجاهزة للإنتاج قد يكون أمراً صعباً. وغالباً ما يواجه المطورون قواعد تعليمات برمجية مجزأة، ونقصاً في دعم التعلم متعدد المهام، وخطوط أنابيب نشر معقدة.
وهنا يبرز نظام Ultralytics البيئي كعنصر متميز حقاً. فمن خلال إعطاء الأولوية لسهولة الاستخدام، وواجهة برمجة تطبيقات Python (API) مُدارة جيداً، وتعدد استخدامات لا مثيل له، تضمن Ultralytics أن يقضي المطورون وقتاً أقل في تصحيح الأخطاء ووقتاً أطول في البناء.
ينقل نموذج Ultralytics YOLO26 الذي تم إصداره مؤخراً هذه المزايا إلى المستوى التالي، حيث يقدم اختراقات تتفوق على كل من DAMO-YOLO و RTDETRv2:
- تصميم كامل من البداية إلى النهاية بدون NMS: رائد في YOLOv10، نموذج YOLO26 هو نموذج متكامل أصلاً (end-to-end). وهذا يلغي معالجة ما بعد الاستنتاج NMS تماماً، مما يجعل النشر أسرع وأبسط بشكل جذري من الشبكات العصبية التلافيفية التقليدية، مع مطابقة فوائد الإخراج المباشر لنموذج RTDETRv2.
- استنتاج أسرع على CPU بنسبة تصل إلى 43%: تم تحسينه بشكل كبير لـ أجهزة ذكاء الحافة بدون وحدات معالجة رسوميات منفصلة، مما يجعله خياراً متفوقاً بشكل كبير لتطبيقات إنترنت الأشياء (IoT) مقارنة بالمحولات الثقيلة على الذاكرة.
- محسن MuSGD: مستوحى من Kimi K2 لشركة Moonshot AI، يجلب هذا المزيج من SGD و Muon ابتكارات تدريب نماذج اللغة الكبيرة (LLM) إلى الرؤية الحاسوبية، مما يؤدي إلى تدريب مستقر بشكل ملحوظ وتقارب أسرع.
- ProgLoss + STAL: تقدم دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأشياء الصغيرة، وهي منطقة تعاني فيها النماذج تقليدياً. وهذا أمر بالغ الأهمية لـ الصور الجوية وتطبيقات الطائرات بدون طيار.
- إزالة DFL: تمت إزالة Distribution Focal Loss لضمان تبسيط تنسيقات التصدير وتوافق أفضل مع أجهزة الحافة منخفضة الطاقة.
- تعدد استخدامات لا مثيل له: على عكس النماذج المنافسة المقتصرة بدقة على الاكتشاف، يتضمن YOLO26 تحسينات خاصة بالمهام في جميع المجالات، مثل خسارة الزاوية المتخصصة لـ مربعات الإحاطة الموجهة (OBB)، وخسارة التجزئة الدلالية لدقة مثالية على مستوى البكسل، وتقدير احتمالية السجل المتبقية (RLE) لـ تقدير الوضعية (Pose estimation).
يتطلب تدريب النماذج القائمة على المحولات مثل RTDETRv2 تخصيصات هائلة لذاكرة CUDA، مما يستلزم غالباً إعدادات مكلفة متعددة وحدات معالجة الرسوميات. تحافظ نماذج Ultralytics YOLO على متطلبات ذاكرة أقل بشكل ملحوظ أثناء التدريب والاستنتاج، مما يضفي طابعاً ديمقراطياً على تطوير الذكاء الاصطناعي للباحثين والهواة على حد سواء.
Link to this sectionمثال برمجي: واجهة برمجة التطبيقات الموحدة من Ultralytics#
واحدة من أعظم فوائد نظام Ultralytics البيئي هي واجهة برمجة التطبيقات الموحدة (Unified API). يمكنك تحميل وتدريب والتحقق من صحة مجموعة متنوعة من النماذج بسلاسة - بما في ذلك تنفيذ PyTorch لـ RTDETR ونماذج YOLO الحديثة - دون تغيير سير عملك.
from ultralytics import RTDETR, YOLO
# Load an RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")
# Load the cutting-edge YOLO26 model
model_yolo = YOLO("yolo26n.pt")
# Run inference on an image with a simple, unified interface
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
# Display the detected objects
results_yolo[0].show()تمتد هذه البساطة إلى تدريب مجموعة البيانات المخصصة والتصدير. باستخدام حزمة Ultralytics Python، يمكن للمطورين بسهولة دفع أوزانهم المدربة إلى منصات النشر مثل CoreML أو OpenVINO بأمر واحد.
Link to this sectionالخاتمة والمزيد من الاستكشاف#
لقد دفع كل من DAMO-YOLO و RTDETRv2 بلا شك حدود ما هو ممكن في اكتشاف الأشياء في الوقت الفعلي. يوفر DAMO-YOLO هياكل شبكة محسنة للغاية ومبحوثة تلقائياً لتحقيق كفاءة خام، بينما يثبت RTDETRv2 أن المحولات يمكنها المنافسة في مساحة الوقت الفعلي عن طريق القضاء على الاختناقات التقليدية مثل NMS.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن التوازن النهائي للأداء، والتوثيق الشامل، وجاهزية الإنتاج، تظل نماذج Ultralytics YOLO هي المعيار الذهبي. مع تقديم YOLO26، يحصل المستخدمون على وصول إلى اكتشاف متكامل يشبه المحولات، وكفاءة تدريب مستوحاة من LLM، وسرعات CPU لا مثيل لها - كل ذلك مغلف ضمن نظام بيئي بديهي وقوي.
إذا كنت تقيم نماذج لمشروعك التالي، فقد تجد قيمة أيضاً في قراءة مقارناتنا لـ EfficientDet مقابل RTDETR، أو استكشاف الجيل السابق YOLO11، أو مراجعة الأساسيات الأكاديمية مثل YOLOX. ابدأ البناء اليوم باستكشاف دليل البدء السريع لـ Ultralytics.