Meet YOLO26: next-gen vision AI.

Link to this sectionمقارنة بين RTDETRv2 و DAMO-YOLO#

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، حيث يسعى الباحثون والمهندسون لبناء نماذج توازن بشكل مثالي بين السرعة والدقة والكفاءة. ومن أبرز المعماريات التي أحدثت ضجة كبيرة في هذا المجال هي RTDETRv2، التي طورتها Baidu، و DAMO-YOLO، التي ابتكرتها Alibaba Group. يدفع كلا النموذجين حدود اكتشاف الأجسام في الوقت الفعلي، لكنهما يتبنيان فلسفات معمارية مختلفة جذرياً لتحقيق نتائجهما المذهلة.

في هذه المقارنة التقنية، سنتعمق في معمارياتهما، ومنهجيات التدريب، وقدرات النشر في العالم الحقيقي. سنستكشف أيضاً كيفية أداء هذه النماذج مقارنة بالنظام البيئي الأوسع، ولا سيما منصة Ultralytics المتطورة للغاية ومعمارية YOLO26 الرائدة.

Link to this sectionالابتكارات المعمارية#

يعد فهم الآليات الأساسية لهذه النماذج أمراً بالغ الأهمية لـ مهندسي تعلم الآلة المكلفين باختيار الأداة المناسبة لبيئات الإنتاج.

Link to this sectionRTDETRv2: نهج الـ Transformer#

بناءً على نجاح النموذج الأصلي RT-DETR، تستخدم RTDETRv2 مُشفراً هجيناً ومُفكك تشفير Transformer. يسمح هذا التصميم للنموذج بمعالجة السياق العالمي بفعالية عالية، مما يجعله متميزاً بشكل استثنائي في التمييز بين الأجسام المتداخلة في المشاهد المزدحمة. وتكمن الميزة الأكثر أهمية في هذه المعمارية في تصميمها الأصلي الخالي من NMS (قمع غير الحد الأقصى). من خلال التخلص من خطوة المعالجة اللاحقة NMS، تعمل RTDETRv2 على تبسيط خط أنابيب الاستدلال وضمان زمن انتقال أكثر استقراراً عبر تكوينات الأجهزة المختلفة.

اعرف المزيد عن RTDETRv2

Link to this sectionDAMO-YOLO: تعزيز كفاءة الشبكات العصبية التلافيفية (CNN)#

من ناحية أخرى، تظل DAMO-YOLO متجذرة في سلالة YOLO القائمة على CNN الناجحة للغاية، ولكنها تقدم العديد من التحسينات الرائدة. فهي تستفيد من البحث في المعماري العصبية (NAS) لتحسين هيكلها الأساسي، مما يضمن أقصى قدر من كفاءة استخراج الميزات. علاوة على ذلك، فهي تتضمن شبكة RepGFPN (شبكة هرمية للميزات المعممة المعاد تهيئتها) وتصميم ZeroHead، إلى جانب تقنيات AlignedOTA وتعزيز التقطير. تسمح هذه الابتكارات لـ DAMO-YOLO بتحقيق سرعات استدلال سريعة مع الحفاظ على درجة mAPval تنافسية للغاية.

اعرف المزيد عن DAMO-YOLO

التباعد المعماري

بينما تركز RTDETRv2 على الاستفادة من آليات الانتباه لفهم الميزات العالمية بدون NMS، تعمل DAMO-YOLO على زيادة كفاءة CNN التقليدية إلى الحد الأقصى من خلال NAS والتقطير المتقدم، مما يتطلب معالجة لاحقة قياسية ولكنه يوفر مزايا سرعة متميزة على أجهزة معينة.

Link to this sectionمقارنة الأداء والمقاييس#

عند تقييم النماذج للنشر، تكون مقاييس الأداء مثل متوسط دقة متوسط (mAP)، وسرعة الاستدلال، وعدد المعلمات أمراً بالغ الأهمية. فيما يلي مقارنة مفصلة بين عائلتي النماذج.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

Link to this sectionتحليل النتائج#

كما يظهر في الجدول، تحقق RTDETRv2-x أعلى دقة بـ mAPval قدرها 54.3، مما يظهر قوة معمارية Transformer في عمليات التحقق المعقدة مثل مجموعة بيانات COCO. ومع ذلك، يأتي هذا على حساب معلمات أعلى بشكل ملحوظ (76 مليون) وعدد أكبر من عمليات الفاصلة العائمة (FLOPs).

على العكس من ذلك، تعد DAMO-YOLOt (الصغيرة) خفيفة الوزن بشكل استثنائي، حيث تتطلب 8.5 مليون معلمة فقط، مما يجعلها خياراً سريعاً للغاية للبيئات التي تكون فيها ذاكرة CUDA مقيدة بشدة. توفر DAMO-YOLO عموماً مقايضة مواتية بين السرعة والدقة لأجهزة الحافة القديمة.

Link to this sectionالنظام البيئي، وسهولة الاستخدام، وميزة Ultralytics#

بينما توفر المستودعات المستقلة مثل GitHub الخاص بـ RT-DETR و GitHub الخاص بـ DAMO-YOLO الكود الخام لتدريب هذه النماذج، فإن دمجها في خطوط أنابيب الإنتاج غالباً ما يتطلب الكثير من الكود النموذجي والتحسين اليدوي.

وهنا يأتي دور نظام Ultralytics البيئي لتبسيط تجربة المطور بشكل كبير. تدمج Ultralytics نماذج مثل RTDETRv2 مباشرة في واجهة برمجة التطبيقات (API) الموحدة الخاصة بها، مما يسمح للمستخدمين بتدريب النماذج والتحقق منها وتصديرها بسطر واحد من الكود. علاوة على ذلك، تشتهر نماذج Ultralytics بمتطلبات الذاكرة الدنيا أثناء التدريب مقارنة بالمستودعات المستقلة الثقيلة القائمة على Transformer.

Link to this sectionمثال على الكود: تكامل سلس#

إليك مدى سهولة الاستفادة من مكتبة Ultralytics بلغة Python لتشغيل الاستدلال. تظل واجهة برمجة التطبيقات متسقة سواء كنت تستخدم نموذج Transformer أو نموذج CNN متطور.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()
تصدير النماذج للإنتاج

باستخدام واجهة برمجة تطبيقات Ultralytics، يمكنك بسلاسة تصدير نماذجك المدربة إلى تنسيقات مثل TensorRT أو ONNX أو CoreML بأمر بسيط model.export(format="engine")، مما يقلل بشكل كبير من عوائق النشر.

Link to this sectionحالات الاستخدام المثالية#

يعتمد الاختيار بين هذه المعماريات كلياً على متطلبات مشروعك المحددة:

  • RTDETRv2 تتفوق في المعالجة من جانب الخادم حيث تكون ذاكرة الفيديو (VRAM) وفيرة. وعيها بالسياق العالمي مثالي لـ التصوير الطبي وتحليل الحشود الكثيفة حيث تكثر التداخلات.
  • DAMO-YOLO مناسبة جداً لـ تطبيقات إنترنت الأشياء المدمجة وخطوط الفحص الصناعي سريعة الحركة حيث تكون أعداد المعلمات المنخفضة وعدد الإطارات في الثانية المرتفع متطلبات صارمة.

Link to this sectionالمستقبل: Ultralytics YOLO26#

بينما يتمتع كل من RTDETRv2 و DAMO-YOLO بمزاياهما، فإن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمشاريع الجديدة، يمثل أحدث إصدار من Ultralytics YOLO26 التوليف النهائي للسرعة والدقة وتجربة المطور.

تعتمد YOLO26 تصميماً نهائياً خالياً من NMS، مما يلتقط الفائدة الأساسية للـ Transformers بدون العبء الحسابي الهائل. وهي تدمج المحسن المبتكر MuSGD—المستوحى من تدريب النماذج اللغوية الكبيرة—لتحقيق تقارب سريع ومستقر. علاوة على ذلك، مع إزالة DFL (تمت إزالة Distribution Focal Loss لتسهيل التصدير وتحسين التوافق مع أجهزة الحافة/منخفضة الطاقة)، تحقق YOLO26 سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%، مما يجعلها البطل بلا منازع لـ حوسبة الحافة. بالإضافة إلى ذلك، توفر ProgLoss + STAL دوال خسارة مُحسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء، والروبوتات، والصور الجوية.

على عكس النماذج المقتصرة بدقة على الصناديق المحيطة، توفر عائلة YOLO26 تنوعاً لا مثيل له، حيث تدعم مهام تتراوح من تقسيم المثيلات وتقدير الوضعية إلى الصناديق المحيطة الموجهة (OBB)، وكل ذلك يتم إدارته بسلاسة من خلال منصة Ultralytics البديهية.

استكشف YOLO26 على المنصة

Link to this sectionتفاصيل النموذج والمراجع#

Link to this sectionRTDETRv2#

  • المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
  • المنظمة: Baidu
  • التاريخ: 24-07-2024
  • Arxiv: 2407.17140
  • GitHub: مستودع RT-DETR

Link to this sectionDAMO-YOLO#

للمستخدمين المهتمين باستكشاف مقارنات أخرى، راجع أدلتنا حول RTDETRv2 مقابل YOLO11 أو DAMO-YOLO مقابل YOLOv8 لمعرفة كيفية أداء هذه النماذج مقابل الأجيال السابقة من عائلة Ultralytics.

التعليقات