تخطي إلى المحتوى

RTDETRv2 مقابلYOLO: دليل شامل لاكتشاف الكائنات في الوقت الحقيقي

يتطور مجال الرؤية الحاسوبية باستمرار، حيث يسعى الباحثون والمهندسون إلى بناء نماذج تحقق التوازن المثالي بين السرعة والدقة والكفاءة. ومن بين البنى البارزة التي أحدثت ثورة في هذا المجال، نجد RTDETRv2، التي طورتها شركة Baidu،YOLO التي صممتها مجموعة Alibaba. وكلا النموذجين يوسعان حدود الكشف عن الأجسام في الوقت الفعلي، لكنهما يعتمدان فلسفتين مختلفتين تمامًا في البنية لتحقيق نتائج مبهرة.

في هذه المقارنة الفنية، سوف نتعمق في هياكلها ومنهجيات التدريب وقدرات النشر في العالم الواقعي. سوف نستكشف أيضًا كيف تقارن هذه النماذج بالنظام البيئي الأوسع، ولا سيما Ultralytics عالية التحسين وهندسة YOLO26 المتطورة.

الابتكارات المعمارية

إن فهم الآليات الأساسية لهذه النماذج أمر بالغ الأهمية لمهندسي التعلم الآلي المكلفين باختيار الأداة المناسبة لبيئات الإنتاج.

RTDETRv2: نهج المحولات

بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 مشفرًا هجينًا ومفككًا محولًا. يتيح هذا التصميم للنموذج معالجة السياق العام بفعالية عالية، مما يجعله جيدًا بشكل استثنائي في التمييز بين الكائنات المتداخلة في المشاهد المكتظة. أهم ميزة لهذه البنية هي تصميمها الأصلي NMS(Non-Maximum Suppression). من خلال التخلص من خطوة NMS يعمل RTDETRv2 على تبسيط مسار الاستدلال ويضمن زمن انتقال أكثر استقرارًا عبر تكوينات الأجهزة المختلفة.

تعرف على المزيد حول RTDETRv2

YOLO: تعزيز كفاءة CNN

من ناحية أخرى، يظلYOLO متجذراً في YOLO الناجحة للغاية القائمة على CNN، ولكنه يقدم العديد من التحسينات الرائدة. فهو يستفيد من البحث في البنية العصبية (NAS) لتحسين هيكله الأساسي، مما يضمن أقصى قدر من كفاءة استخراج الميزات. علاوة على ذلك، فإنه يدمج شبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) فعالة وتصميم ZeroHead، إلى جانب تقنيات AlignedOTA وتقنيات تحسين التقطير. تسمح هذه الابتكاراتYOLO سرعات استدلال سريعة مع الحفاظ على درجةmAPval تنافسية للغاية.

تعرف على المزيد حول DAMO-YOLO

الاختلاف المعماري

بينما يركز RTDETRv2 على الاستفادة من آليات الانتباه لفهم الميزات العالمية بدون NMSYOLO كفاءة CNN التقليدية من خلال NAS والتقطير المتقدم، مما يتطلب معالجة لاحقة قياسية ولكنه يوفر مزايا سرعة واضحة على أجهزة معينة.

مقارنة الأداء والمقاييس

عند تقييم النماذج للنشر، تعتبر مقاييس الأداء مثل متوسط الدقة (mAP) وسرعة الاستدلال وعدد المعلمات أمورًا بالغة الأهمية. فيما يلي مقارنة مفصلة بين عائلتي النماذج.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

تحليل النتائج

كما هو موضح في الجدول، يحقق RTDETRv2-x أعلى دقة معmAPval يبلغ 54.3، مما يظهر قوة بنية المحول في عمليات التحقق المعقدة مثل COCO . ومع ذلك، يأتي ذلك على حساب معلمات أعلى بكثير (76 مليون) و FLOPs.

على العكس من ذلك، فإن DAMO-YOLOt (Tiny) خفيف الوزن بشكل استثنائي، حيث لا يتطلب سوى 8.5 مليون معلمة، مما يجعله خيارًا سريعًا للغاية للبيئات التي تكون فيها CUDA مقيدة بشدة. يوفرYOLO توازنًا جيدًا بين السرعة والدقة للأجهزة القديمة.

النظام البيئي، وسهولة الاستخدام، Ultralytics

في حين أن المستودعات المستقلة مثل RT-DETR و YOLO الرسمية توفر الكود الخام لتدريب هذه النماذج، فإن دمجها في خطوط الإنتاج غالبًا ما يتطلب كودًا نمطيًا مكثفًا وتحسينًا يدويًا.

وهنا يأتي دور Ultralytics الذي يبسط تجربة المطورين بشكل كبير. Ultralytics نماذج مثل RTDETRv2 مباشرة في واجهة برمجة التطبيقات الموحدة الخاصة به، مما يتيح للمستخدمين تدريب النماذج والتحقق من صحتها وتصديرها بسطر واحد من التعليمات البرمجية. علاوة على ذلك، تشتهر Ultralytics بمتطلباتها الضئيلة من الذاكرة أثناء التدريب مقارنة بالمستودعات المستقلة الثقيلة القائمة على المحولات.

مثال على الكود: تكامل سلس

إليك كيفية الاستفادة بسهولة منPython Ultralytics Python لتشغيل الاستدلال. تظل واجهة برمجة التطبيقات (API) متسقة سواء كنت تستخدم نموذج محول أو شبكة CNN متطورة.

from ultralytics import RTDETR, YOLO

# Load an RTDETRv2 model for complex scene understanding
model_rtdetr = RTDETR("rtdetr-l.pt")

# Load the latest Ultralytics YOLO26 model for ultimate edge performance
model_yolo26 = YOLO("yolo26n.pt")

# Run inference on a sample image effortlessly
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_yolo = model_yolo26("https://ultralytics.com/images/bus.jpg")

# Display the results
results_yolo[0].show()

تصدير النماذج للإنتاج

باستخدام واجهة Ultralytics ، يمكنك بسلاسة تصدير النماذج المدربة إلى تنسيقات مثل TensorRT أو ONNX أو CoreML model.export(format="engine") الأمر، مما يقلل بشكل كبير من احتكاك النشر.

حالات الاستخدام المثالية

يعتمد الاختيار بين هذه البنى بشكل كامل على متطلبات مشروعك المحددة:

  • يتفوق RTDETRv2 في المعالجة من جانب الخادم حيث تتوفر ذاكرة VRAM بكثرة. إن إدراكه للسياق العام مثالي للتصوير الطبي وتحليل الحشود الكثيفة حيث تكثر حالات الانسداد.
  • YOLO مناسب للغاية لتطبيقات إنترنت الأشياء المدمجة وخطوط الفحص الصناعية سريعة الحركة حيث يعد عدد المعلمات المنخفض ومعدل الإطارات في الثانية (FPS) العالي متطلبات صارمة.

المستقبل: Ultralytics

في حين أن كلا من RTDETRv2 وYOLO مزاياهما، إلا أن مجال الرؤية الحاسوبية يتقدم بسرعة. بالنسبة للمشاريع الجديدة، فإن أحدث Ultralytics تجسيدًا مثاليًا للسرعة والدقة وتجربة المطورين.

يستخدم YOLO26 تصميمًا شاملاً NMS مما يتيح الاستفادة من الميزة الأساسية للمحولات دون الحاجة إلى تكاليف حسابية باهظة. ويشتمل على مُحسّن MuSGDالمبتكر — المستوحى من تدريب نموذج اللغة الكبيرة — من أجل تقارب مستقر وسريع. علاوة على ذلك، مع إزالة DFL (إزالة الخسارة البؤرية للتوزيع من أجل تصدير مبسط وتوافق أفضل مع الأجهزة المتطورة/منخفضة الطاقة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله البطل بلا منازع في الحوسبة المتطورة. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

على عكس النماذج المقتصرة على الصناديق المحددة، توفر عائلة YOLO26 تنوعًا لا مثيل له، حيث تدعم مهام تتراوح من تقسيم الحالات وتقدير الوضع إلى الصناديق المحددة الموجهة (OBB)، ويتم إدارة كل ذلك بسلاسة من خلال Ultralytics البديهية.

استكشف YOLO26 على المنصة

تفاصيل النموذج والمراجع

RTDETRv2

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • Arxiv:2407.17140
  • GitHub:RT-DETR Repository

DAMO-YOLO

للمستخدمين المهتمين باستكشاف مقارنات أخرى، راجعوا أدلةنا حول RTDETRv2 مقابل YOLO11 أو YOLO YOLOv8 لمعرفة أداء هذه النماذج مقارنةً بالأجيال السابقة من Ultralytics .


تعليقات