RTDETRv2 مقابلYOLO: دليل شامل لاكتشاف الكائنات في الوقت الحقيقي

يتطور مجال الرؤية الحاسوبية باستمرار، حيث يسعى الباحثون والمهندسون إلى بناء نماذج تحقق التوازن المثالي بين السرعة والدقة والكفاءة. ومن بين البنى البارزة التي أحدثت ثورة في هذا المجال، نجد RTDETRv2، التي طورتها شركة Baidu،YOLO التي صممتها مجموعة Alibaba. وكلا النموذجين يوسعان حدود الكشف عن الأجسام في الوقت الفعلي، لكنهما يعتمدان فلسفتين مختلفتين تمامًا في البنية لتحقيق نتائج مبهرة.

في هذه المقارنة الفنية، سوف نتعمق في هياكلها ومنهجيات التدريب وقدرات النشر في العالم الواقعي. سوف نستكشف أيضًا كيف تقارن هذه النماذج بالنظام البيئي الأوسع، ولا سيما Ultralytics عالية التحسين وهندسة YOLO26 المتطورة.

الابتكارات المعمارية

إن فهم الآليات الأساسية لهذه النماذج أمر بالغ الأهمية لمهندسي التعلم الآلي المكلفين باختيار الأداة المناسبة لبيئات الإنتاج.

RTDETRv2: نهج المحولات

بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 مشفّرًا هجينًا ومفكّك محولات. يسمح هذا التصميم للنموذج بمعالجة السياق العام بفعالية عالية، مما يجعله ممتازًا بشكل استثنائي في التمييز بين الكائنات المتداخلة في المشاهد الكثيفة. الميزة الأكثر أهمية لهذه البنية هي تصميمها الأصلي الخالي من NMS (قمع الحد الأقصى غير الأقصى). من خلال التخلص من خطوة معالجة NMS اللاحقة، يبسّط RTDETRv2 مسار الاستدلال ويضمن زمن استجابة أكثر استقرارًا عبر تكوينات الأجهزة المختلفة.

تعرف على المزيد حول RTDETRv2

DAMO-YOLO: تعزيز كفاءة CNN

من ناحية أخرى، يظل DAMO-YOLO متجذرًا في سلالة YOLO القائمة على الشبكات العصبية التلافيفية (CNN) الناجحة للغاية ولكنه يقدم العديد من التحسينات الرائدة. يستفيد من البحث عن البنية العصبية (NAS) لتحسين هيكله الأساسي، مما يضمن أقصى كفاءة في استخلاص الميزات. علاوة على ذلك، يدمج RepGFPN فعال (شبكة هرمية للميزات المعممة المعاد معايرتها) وتصميم ZeroHead، جنبًا إلى جنب مع تقنيات AlignedOTA وتحسين التقطير. تسمح هذه الابتكارات لـ DAMO-YOLO بتحقيق سرعات استدلال سريعة مع الحفاظ على درجة mAP^val تنافسية للغاية.

تعرف على المزيد حول DAMO-YOLO

التباين المعماري

بينما يركز RTDETRv2 على الاستفادة من آليات الانتباه لفهم الميزات العالمية بدون NMSYOLO كفاءة CNN التقليدية من خلال NAS والتقطير المتقدم، مما يتطلب معالجة لاحقة قياسية ولكنه يوفر مزايا سرعة واضحة على أجهزة معينة.

مقارنة الأداء والمقاييس

عند تقييم النماذج للنشر، تعتبر مقاييس الأداء مثل متوسط الدقة (mAP) وسرعة الاستدلال وعدد المعلمات أمورًا بالغة الأهمية. فيما يلي مقارنة مفصلة بين عائلتي النماذج.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

تحليل النتائج

كما يتضح من الجدول، يحقق RTDETRv2-x أعلى دقة بقيمة mAP^val تبلغ 54.3، مما يبرز قوة بنية المحولات في عمليات التحقق المعقدة مثل مجموعة بيانات COCO. ومع ذلك، يأتي هذا على حساب عدد أكبر بكثير من المعلمات (76 مليون) وعمليات FLOPs.

على العكس من ذلك، فإن DAMO-YOLOt (Tiny) خفيف الوزن بشكل استثنائي، ويتطلب 8.5 مليون معلمة فقط، مما يجعله خيارًا سريعًا بشكل لا يصدق للبيئات التي تكون فيها ذاكرة CUDA مقيدة بشدة. يوفر DAMO-YOLO بشكل عام توازنًا جيدًا بين السرعة والدقة لأجهزة الحافة القديمة.

النظام البيئي، وسهولة الاستخدام، Ultralytics

في حين أن المستودعات المستقلة مثل RT-DETR و YOLO الرسمية توفر الكود الخام لتدريب هذه النماذج، فإن دمجها في خطوط الإنتاج غالبًا ما يتطلب كودًا نمطيًا مكثفًا وتحسينًا يدويًا.

وهنا يأتي دور Ultralytics الذي يبسط تجربة المطورين بشكل كبير. Ultralytics نماذج مثل RTDETRv2 مباشرة في واجهة برمجة التطبيقات الموحدة الخاصة به، مما يتيح للمستخدمين تدريب النماذج والتحقق من صحتها وتصديرها بسطر واحد من التعليمات البرمجية. علاوة على ذلك، تشتهر Ultralytics بمتطلباتها الضئيلة من الذاكرة أثناء التدريب مقارنة بالمستودعات المستقلة الثقيلة القائمة على المحولات.

مثال على الكود: تكامل سلس

إليك كيفية الاستفادة بسهولة منPython Ultralytics Python لتشغيل الاستدلال. تظل واجهة برمجة التطبيقات (API) متسقة سواء كنت تستخدم نموذج محول أو شبكة CNN متطورة.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

تصدير النماذج للإنتاج

باستخدام واجهة Ultralytics ، يمكنك بسلاسة تصدير النماذج المدربة إلى تنسيقات مثل TensorRT أو ONNX أو CoreML model.export(format="engine") أمر، مما يقلل بشكل كبير من تعقيدات النشر.

حالات الاستخدام المثالية

يعتمد الاختيار بين هذه المعماريات كليًا على متطلبات مشروعك المحددة:

RTDETRv2 يتفوق في المعالجة من جانب الخادم حيث تتوفر ذاكرة الفيديو (VRAM) بوفرة. يعد وعيه السياقي الشامل مثاليًا لـالتصوير الطبي وتحليل الحشود الكثيفة حيث تكون الانسدادات متكررة.
DAMO-YOLO مناسب للغاية لتطبيقات إنترنت الأشياء المدمجة وخطوط الفحص الصناعية سريعة الحركة حيث تكون أعداد المعلمات المنخفضة ومعدلات الإطارات العالية (FPS) متطلبات صارمة.

المستقبل: Ultralytics

في حين أن كلا من RTDETRv2 وYOLO مزاياهما، إلا أن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمشاريع الجديدة، فإن أحدث Ultralytics تجسيدًا مثاليًا للسرعة والدقة وتجربة المطورين.

يستخدم YOLO26 تصميمًا شاملاً NMS مما يتيح الاستفادة من الميزة الأساسية للمحولات دون الحاجة إلى تكاليف حسابية باهظة. ويشتمل على مُحسّن MuSGDالمبتكر — المستوحى من تدريب نموذج اللغة الكبيرة — من أجل تقارب مستقر وسريع. علاوة على ذلك، مع إزالة DFL (إزالة الخسارة البؤرية للتوزيع من أجل تصدير مبسط وتوافق أفضل مع الأجهزة المتطورة/منخفضة الطاقة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله البطل بلا منازع في الحوسبة المتطورة. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

على عكس النماذج المقتصرة على الصناديق المحددة، توفر عائلة YOLO26 تنوعًا لا مثيل له، حيث تدعم مهام تتراوح من تقسيم الحالات وتقدير الوضع إلى الصناديق المحددة الموجهة (OBB)، ويتم إدارة كل ذلك بسلاسة من خلال Ultralytics البديهية.

استكشف YOLO26 على المنصة

تفاصيل النموذج والمراجع

RTDETRv2

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETR Repository

DAMO-YOLO

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:2211.15444v2
GitHub:مستودع DAMO-YOLO

للمستخدمين المهتمين باستكشاف مقارنات أخرى، راجعوا أدلةنا حول RTDETRv2 مقابل YOLO11 أو YOLO YOLOv8 لمعرفة أداء هذه النماذج مقارنةً بالأجيال السابقة من Ultralytics .