RTDETRv2 مقابل YOLOv5: تقييم محولات الكشف اللحظي والشبكات العصبية التلافيفية

لقد تحدد تطور رؤية الحاسوب إلى حد كبير من خلال السعي الدؤوب لتحقيق التوازن بين الدقة وسرعة الاستنتاج اللحظي. عند مقارنة RTDETRv2 مع Ultralytics YOLOv5، يوازن المطورون في الأساس بين قدرات السياق العالمي المتطورة لمعماريات المحولات (Transformers) وكفاءة الشبكات العصبية التلافيفية (CNNs) المجربة والمحسّنة للغاية.

يوفر هذا الدليل تحليلاً تقنياً متعمقاً لهاتين المعماريين البارزتين، مع تفصيل مقاييس أدائهما، ومنهجيات التدريب، ومتطلبات الذاكرة، وسيناريوهات النشر المثالية لمساعدتك في اختيار أفضل نموذج لكشف الأشياء لحالة استخدامك المحددة.

RTDETRv2: نهج المحولات (Transformer) للكشف في الوقت الفعلي

بناءً على نموذج محول الكشف اللحظي الأصلي (RT-DETR)، تقدم RTDETRv2 سلسلة من "مجموعة الميزات المجانية" (bag-of-freebies) لتحسين المعمارية الأساسية دون التضحية بزمن الاستجابة للاستنتاج.

المعمارية والقدرات

تستفيد RTDETRv2 من معمارية هجينة تجمع بين CNN وTransformer. تعمل شبكة CNN كعمود فقري لاستخراج السمات البصرية الدقيقة، بينما تقوم طبقات تشفير وفك تشفير المحول بمعالجة خريطة السمات بأكملها لفهم السياق العالمي. إحدى السمات الرئيسية لنموذج RTDETRv2 هي طبيعته الشاملة (end-to-end)، مما يلغي تماماً الحاجة إلى المعالجة اللاحقة لخوارزمية NMS.

بينما تحقق RTDETRv2 دقة مبهرة - خاصة في المشاهد المعقدة والمزدحمة حيث تتداخل الأشياء - فإنها تأتي مع مقايضات ملحوظة. تتطلب آلية الانتباه المتأصلة في المحولات ذاكرة CUDA أعلى بكثير أثناء التدريب مقارنة بشبكات CNN القياسية. علاوة على ذلك، بينما يعمل النموذج بشكل جيد على وحدات معالجة الرسومات (GPU) المتطورة مثل NVIDIA A100 أو T4، إلا أن معماريته أبطأ بشكل ملحوظ على وحدات المعالجة المركزية (CPU) القياسية والأجهزة الطرفية محدودة الموارد.

تعرف على المزيد حول RTDETRv2

Ultralytics YOLOv5: المعيار الصناعي للكفاءة

لقد أحدث Ultralytics YOLOv5 تغييراً جذرياً في مشهد التعلم الآلي التطبيقي عند إطلاقه، مما جعل رؤية الحاسوب عالية الأداء في متناول المطورين في جميع أنحاء العالم من خلال إطار عمل بديهي بشكل استثنائي.

التوازن بين النظام البيئي والأداء

تم بناء YOLOv5 بالكامل على إطار عمل PyTorch ويعتمد على معمارية CNN فائقة الكفاءة. لقد صُمم من الصفر ليكون سهل الاستخدام، ويتميز بواجهة برمجة تطبيقات (API) مبسطة وبعض أكثر التوثيقات شمولاً في صناعة الذكاء الاصطناعي.

تكمن الميزة الأكبر لنموذج YOLOv5 في تنوعه غير المسبوق ومتطلبات الذاكرة المنخفضة. يتطلب تدريب نموذج YOLOv5 ذاكرة فيديو (VRAM) أقل بكثير من النماذج القائمة على المحولات، مما يجعله في متناول الباحثين والمهندسين ذوي ميزانيات الأجهزة المحدودة. علاوة على ذلك، في حين تركز RTDETRv2 حصرياً على كشف الصناديق المحيطة، فقد تطور YOLOv5 ليصبح قوة متنوعة تدعم تجزئة العناصر وتصنيف الصور.

إدارة النماذج للمؤسسات

لتجربة سير عمل مبسط، يمكنك تدريب YOLOv5 والتحقق منه ونشره مباشرة باستخدام منصة Ultralytics. توفر المنصة إمكانات تدريب سحابية وخطوط نشر برمجية دون الحاجة لكتابة كود.

اعرف المزيد حول YOLOv5

مقارنة الأداء والمقاييس

عند تحليل الأداء الخام على مجموعة بيانات COCO القياسية، يمكننا رؤية تمايزات واضحة في كيفية تخصيص هذه النماذج للموارد.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

تحليل المفاضلات

تكشف البيانات أن نموذج RTDETRv2-x يحقق ذروة متوسط دقة متوسط (mAP) تبلغ 54.3%، متفوقاً بشكل طفيف على نموذج YOLOv5x الذي يحقق 50.7%. ومع ذلك، تأتي هذه المكاسب الطفيفة في الدقة بتكلفة حوسبة هائلة. يعمل YOLOv5x بزمن استجابة أقل (11.89 مللي ثانية مقابل 15.03 مللي ثانية على TensorRT) ويتطلب جزءاً بسيطاً من استهلاك الذاكرة. بالنسبة لنشر الأجهزة الطرفية فائقة الانخفاض في استهلاك الطاقة، يظل YOLOv5n (Nano) بلا منازع، حيث يكمل الاستنتاجات في 1.12 مللي ثانية فقط مع بصمة بارامترات ضئيلة تبلغ 2.6 مليون - وهي فئة لا تحاول RTDETRv2 حتى المنافسة فيها.

كفاءة التدريب وبساطة الكود

إحدى نقاط القوة الرئيسية في نظام Ultralytics البيئي هي واجهة برمجة التطبيقات (API) الموحدة. حتى لو قررت استخدام معمارية المحول الخاصة بـ RT-DETR لمهمة محددة تتطلب حوسبة مكثفة، يمكنك القيام بذلك بالكامل داخل حزمة Python الخاصة بـ Ultralytics، مع تبديل النماذج بسلاسة بسطر واحد فقط من الكود.

from ultralytics import RTDETR, YOLO

# Load the Ultralytics YOLOv5 small model
model_yolo = YOLO("yolov5s.pt")

# Load the RT-DETR large model via Ultralytics
model_rtdetr = RTDETR("rtdetr-l.pt")

# Train YOLOv5 effortlessly on your custom data
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference with both models seamlessly
results_yolo = model_yolo("https://ultralytics.com/images/bus.jpg")
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")

results_yolo[0].show()

من خلال الاستفادة من مكتبة Ultralytics، يحصل المطورون تلقائياً على إمكانية الوصول إلى نظام بيئي مُدار جيداً يتميز بـ تكاملات تتبع التجارب (مثل Weights & Biases وComet ML) وعمليات تصدير بنقرة واحدة إلى تنسيقات نشر مثل ONNX وOpenVINO.

التطبيقات الواقعية وحالات الاستخدام المثالية

أين تتألق RTDETRv2

تعتبر RTDETRv2 الأنسب للبيئات التي لا توجد فيها قيود على الأجهزة، ويكون الهدف الوحيد هو تحقيق أقصى دقة ممكنة.

  • التصوير الطبي على جانب الخادم: اكتشاف الشذوذات المجهرية في الأشعة السينية عالية الدقة.
  • صور الأقمار الصناعية: تتبع الأشياء الكثيفة والمتداخلة في مهام المراقبة الجوية على مجموعات سحابية قوية.

أين يهيمن YOLOv5

يعد YOLOv5 البطل الذي لا جدال فيه للنشر العملي في العالم الحقيقي عبر أجهزة متنوعة.

  • أجهزة الذكاء الاصطناعي الطرفية: نشر أنظمة إنذار أمنية على أجهزة Raspberry Pi أو NVIDIA Jetson حيث تكون الذاكرة محدودة للغاية.
  • تطبيقات الهاتف المحمول: تشغيل استنتاج سريع ولحظي للصناديق المحيطة والتجزئة مباشرة على الهواتف الذكية عبر CoreML أو TFLite.
  • التصنيع الصناعي عالي السرعة: فحص الأجزاء على خطوط الإنتاج السريعة حيث يكون زمن الاستجابة بالملي ثانية حاسماً للنجاح التشغيلي.
استكشاف نماذج Ultralytics الأخرى

على الرغم من أن YOLOv5 نموذج أسطوري، إلا أن نظام Ultralytics البيئي يدفع باستمرار حدود الذكاء الاصطناعي. إذا كنت تقارن نماذج لمشروع جديد في عام 2026، فيجب عليك التفكير في استكشاف Ultralytics YOLO26 الأحدث. يتضمن YOLO26 تصميماً أصلياً خالٍ من NMS وشامل (End-to-End) (مشابهاً للمحولات ولكن بسرعة CNN)، ويتميز بمُحسِّن MuSGD الثوري لتدريب مستقر للغاية، ويوفر استنتاجاً أسرع بـ 43% على وحدة المعالجة المركزية (CPU). بدلاً من ذلك، يظل YOLO11 خياراً رائعاً ومدعوماً للغاية للنشر المتعدد الأغراض الذي يتطلب تقدير الوضعية وكشف OBB.

في النهاية، بينما ترفع RTDETRv2 سقف الدقة باستخدام طبقات المحول، يوفر إطار عمل Ultralytics YOLO توازناً لا مثيل له بين السرعة ومتطلبات الذاكرة الخفيفة وتجربة مطور مصممة ببراعة تقلل بشكل كبير من الوقت من النموذج الأولي إلى الإنتاج.

التعليقات