RTDETRv2 مقابل YOLOv5: تقييم محولات الكشف في الوقت الفعلي وشبكات CNN

لقد تم تحديد تطور الرؤية الحاسوبية إلى حد كبير من خلال السعي الدؤوب لتحقيق التوازن بين الدقة وسرعة الاستدلال في الوقت الفعلي. عند مقارنة RTDETRv2 و Ultralytics YOLOv5 يقوم المطورون بشكل أساسي بموازنة القدرات المتطورة للسياق العالمي لهياكل المحولات مقابل الكفاءة العالية والمُحسّنة للشبكات العصبية التلافيفية (CNNs) التي تم اختبارها في الميدان.

يقدم هذا الدليل تحليلاً تقنياً متعمقاً لهاتين البنيتين البارزتين، مع تفاصيل عن مقاييس أدائهما ومنهجيات التدريب ومتطلبات الذاكرة وسيناريوهات النشر المثالية لمساعدتك في اختيار أفضل نموذج للكشف عن الكائنات لحالة الاستخدام الخاصة بك.

RTDETRv2: نهج المحول للكشف في الوقت الحقيقي

بناءً على محول الكشف في الوقت الحقيقي الأصلي (RT-DETR)، يقدم RTDETRv2 سلسلة من "الحزم المجانية" لتحسين البنية الأساسية دون التضحية بزمن الاستدلال.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
روابط:ورقة Arxiv، مستودع GitHub

الهندسة المعمارية والقدرات

يستفيد RTDETRv2 من بنية هجينة CNN-Transformer. تعمل CNN كعمود فقري لاستخراج الميزات البصرية الدقيقة، بينما تعالج طبقات التشفير والترميز في المحول خريطة الميزات بالكامل لفهم السياق العام. من السمات البارزة لـ RTDETRv2 طبيعته الشاملة، مما يلغي تمامًا الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS).

على الرغم من أن RTDETRv2 يحقق دقة مذهلة - لا سيما في المشاهد المعقدة والكثيفة حيث تتداخل الكائنات - إلا أنه يأتي مع بعض المساوئ الملحوظة. تتطلب آلية الانتباه المتأصلة في المحولات CUDA أعلى بكثير أثناء التدريب مقارنة بشبكات CNN القياسية. علاوة على ذلك، على الرغم من أنه يعمل بشكل جيد على وحدات معالجة الرسومات المتطورة مثل NVIDIA أو T4، إلا أن بنيته أبطأ بشكل ملحوظ على وحدات المعالجة المركزية القياسية والأجهزة الطرفية المقيدة بشدة.

تعرف على المزيد حول RTDETRv2

Ultralytics YOLOv5: المعيار الصناعي للكفاءة

أحدثت Ultralytics YOLOv5 تغييرYOLOv5 في مجال التعلم الآلي التطبيقي عند إطلاقها، حيث أتاحت للمطورين في جميع أنحاء العالم إمكانية الوصول إلى رؤية حاسوبية عالية الأداء من خلال إطار عمل استثنائي سهل الاستخدام.

المؤلف: جلين جوتشر
المنظمة: Ultralytics
التاريخ: 26 يونيو 2020
روابط:الوثائق الرسمية، مستودع GitHub

توازن النظام البيئي والأداء

YOLOv5 مبني بالكامل على PyTorch ويستند إلى بنية CNN عالية الكفاءة. وقد تم تصميمه من الألف إلى الياء ليكون سهل الاستخدام، ويتميز بواجهة برمجة تطبيقات مبسطة وبعض من أكثر الوثائق شمولاً في صناعة الذكاء الاصطناعي.

YOLOv5 أكبر ميزة لـ YOLOv5 في تنوعها الذي لا مثيل له ومتطلباتها المنخفضة من الذاكرة. يتطلب تدريب YOLOv5 ذاكرة VRAM أقل بكثير من النماذج القائمة على المحولات، مما يجعله في متناول الباحثين والمهندسين ذوي الميزانيات المحدودة للأجهزة. علاوة على ذلك، بينما يركز RTDETRv2 حصريًا على اكتشاف الصناديق المحددة، YOLOv5 إلى قوة متنوعة تدعم تقسيم الحالات وتصنيف الصور.

إدارة نموذج المؤسسة

لتجربة سير العمل المُحسّن بشكل مثالي، يمكنك تدريب YOLOv5 والتحقق من صحتها ونشرها YOLOv5 باستخدام Ultralytics . توفر المنصة إمكانات تدريب سحابية وخطوط إنتاج للنشر بدون كود.

تعرف على المزيد حول YOLOv5

مقارنة الأداء والمقاييس

عند تحليل الأداء الخام على COCO القياسية، يمكننا أن نرى فروقًا واضحة في كيفية قيام هذه النماذج بتحديد أولويات الموارد.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

تحليل المقايضات

تكشف البيانات أن RTDETRv2-x يحقق متوسط دقة متوسط (mAP) يبلغ 54.3٪، متفوقًا قليلاً على YOLOv5x الذي يبلغ 50.7٪. ومع ذلك، فإن هذا التحسن الطفيف في الدقة يأتي بتكلفة حسابية هائلة. يعمل YOLOv5x بزمن انتقال أقل (11.89 مللي ثانية مقابل 15.03 مللي ثانية على TensorRT) ويتطلب جزءًا بسيطًا من مساحة الذاكرة. بالنسبة لعمليات النشر ذات الطاقة المنخفضة للغاية، يظل YOLOv5n (Nano) دون منافس، حيث يكمل الاستدلالات في 1.12 مللي ثانية فقط مع مساحة صغيرة تبلغ 2.6 مليون معلمة - وهو مستوى لا يحاول RTDETRv2 حتى منافسته.

كفاءة التدريب وبساطة الكود

تتمثل إحدى نقاط القوة الرئيسية Ultralytics في واجهة برمجة التطبيقات الموحدة. حتى إذا قررت استخدام بنية المحول RT-DETR حسابية معقدة محددة، يمكنك القيام بذلك بالكامل ضمنPython مع إمكانية تبديل النماذج بسلاسة بسطر واحد فقط من التعليمات البرمجية.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

من خلال الاستفادة من Ultralytics ، يحصل المطورون تلقائيًا على إمكانية الوصول إلى نظام بيئي جيد الصيانة يتميز بتكاملات تتبع التجارب (مثل Weights & Biases Comet ) والتصدير بنقرة واحدة إلى تنسيقات النشر مثل ONNX و OpenVINO.

تطبيقات في العالم الحقيقي وحالات استخدام مثالية

أين يتألق RTDETRv2

RTDETRv2 هو الأنسب للبيئات التي لا توجد فيها قيود على الأجهزة، والهدف الوحيد فيها هو تحقيق أقصى دقة ممكنة.

التصوير الطبي من جانب الخادم: الكشف عن الشذوذات المجهرية في الأشعة السينية عالية الدقة.
الصور الساتلية: تتبع الأجسام الكثيفة والمتداخلة في مهام المراقبة الجوية على مجموعات سحابية قوية.

حيث YOLOv5

YOLOv5 البطل الذي لا يمكن إنكاره في مجال النشر العملي والواقعي عبر أجهزة متنوعة.

أجهزة Edge AI: نشر أنظمة الإنذار الأمني على أجهزة Raspberry Pi أو NVIDIA حيث الذاكرة محدودة للغاية.
التطبيقات المحمولة: تشغيل سريع، واستنتاج مربع الحدود والتجزئة في الوقت الفعلي مباشرة على الهواتف الذكية عبر CoreML TFLite.
التصنيع الصناعي عالي السرعة: فحص الأجزاء على خطوط الإنتاج السريعة حيث يكون زمن الاستجابة الذي يقاس بالمللي ثانية عاملاً حاسماً في نجاح العمليات.

استكشاف Ultralytics الأخرى

في حين أن YOLOv5 نموذج أسطوري، فإن Ultralytics يواصل تخطي حدود الذكاء الاصطناعي. إذا كنت تقارن بين النماذج لمشروع جديد في عام 2026، فيجب أن تفكر في استكشاف أحدث نموذج Ultralytics . يشتمل YOLO26 على تصميم أصلي شامل NMS (مشابه للمحولات ولكن بسرعة CNN)، ويتميز بمحسن MuSGD الثوري لتدريب مستقر بشكل لا يصدق، ويوفر CPU أسرع بنسبة تصل إلى 43٪ CPU . بدلاً من ذلك، YOLO11 خيارًا رائعًا ومدعومًا للغاية للنشرات المتنوعة التي تتطلب تقدير الوضع وكشف OBB.

في النهاية، بينما يرفع RTDETRv2 سقف الدقة باستخدام طبقات المحولات، يوفرYOLO Ultralytics YOLO توازنًا لا مثيل له بين السرعة ومتطلبات الذاكرة الخفيفة الوزن وتجربة مطورين مصممة ببراعة تقلل بشكل كبير من الوقت المستغرق من النموذج الأولي إلى الإنتاج.