تخطي إلى المحتوى

YOLOv5 RTDETRv2: تقييم هياكل CNN مقابل Transformer لاكتشاف الكائنات

توسع مجال الرؤية الحاسوبية بشكل كبير خلال السنوات القليلة الماضية، مما وفر للمطورين مجموعة واسعة من البنى الهندسية لمعالجة المهام البصرية المعقدة. ومن بين النماذج الأكثر شيوعًا الشبكات العصبية التلافيفية (CNN) ومحولات الكشف (DETR).

يقدم هذا الدليل مقارنة تقنية متعمقة بين نموذجين محوريين في هاتين الفئتين: Ultralytics YOLOv5، وهو نموذج عالي الكفاءة ومستخدم على نطاق واسع يعتمد على شبكة CNN، و RTDETRv2، وهو كاشف كائنات في الوقت الفعلي متطور يعتمد على محول.

Ultralytics YOLOv5: المعيار الصناعي للكفاءة

منذ إطلاقه،YOLOv5 Ultralytics YOLOv5 حجر الزاوية في مجتمع الذكاء الاصطناعي، حيث يدعم آلاف التطبيقات التجارية والمشاريع البحثية على مستوى العالم. تم بناؤه بالكامل على PyTorch ، وأعطى الأولوية لتجربة المطور البديهية دون المساومة على الأداء في الوقت الفعلي.

الخصائص الرئيسية:

الهيكلة ونقاط القوة

YOLOv5 بنية CNN مبسطة مصممة لزيادة كفاءة استخراج الميزات إلى أقصى حد مع الحفاظ على مساحة ذاكرة منخفضة للغاية. ويستخدم العمود الفقري CSPDarknet ورقبة PANet، مما يخلق مزيجًا قويًا لدمج الميزات متعددة النطاقات.

YOLOv5 إحدى المزايا الرئيسية لـ YOLOv5 توازن أدائها. فهي تحقق توازنًا استثنائيًا بين السرعة والدقة، مما يجعلها الخيار المثالي لنشر النماذج على الأجهزة ذات الموارد المحدودة مثل أجهزة NVIDIA والهواتف الذكية.

علاوة على ذلك، YOLOv5 بتنوع لا مثيل له. على عكس النماذج التي تقتصر بشكل صارم على تنبؤات الصندوق المحيط، يدعم YOLOv5 تصنيف الصور وتجزئة الحالات، مما يوفر إطارًا موحدًا لمهام بصرية متنوعة. كما أن كفاءة التدريب فيه رائعة، حيث يتطلب CUDA أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات.

نقاط الضعف

نظرًا لاعتماده على إطار عمل شبكة عصبية تلافيفية (CNN) أقدم، يعتمد YOLOv5 بطبيعته على قمع غير أقصى (NMS) أثناء المعالجة اللاحقة للتخلص من مربعات الإحاطة المكررة. وعلى الرغم من تحسينه بشكل كبير ضمن إطار عمل Ultralytics، يمكن أن يتسبب NMS أحيانًا في اختناقات زمن الوصول على وحدات المعالجة العصبية (NPUs) المتخصصة للحوسبة الطرفية.

تعرف على المزيد حول YOLOv5

RTDETRv2: محولات الوقت الحقيقي من Baidu

يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي v2) قفزة كبيرة في تطبيق بنى المحولات على الكشف عن الكائنات في الوقت الحقيقي، حيث يعالج أوجه القصور الحسابية التي عانت منها محولات DETR القياسية في الماضي.

الخصائص الرئيسية:

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • روابط:ورقة بحث Arxiv، مستودع GitHub

الهيكلة ونقاط القوة

يعتمد RTDETRv2 على سابقه من خلال استخدام مشفر هجين وتصميم مفكك مرن لمعالجة الصور. توفر آلية الانتباه الذاتي للمحول للنموذج فهمًا شاملاً لسياق الصورة، مما يتيح له الأداء بشكل استثنائي في المشاهد المعقدة التي تتسم بانسداد شديد للأجسام.

تتمثل إحدى الميزات المميزة لـ RTDETRv2 في تصميمه الشامل والخالي من NMS. من خلال التنبؤ باستعلامات الكائنات مباشرة دون الحاجة إلى مربعات الارتساء (anchor boxes) أو معالجة NMS اللاحقة، فإنه يبسط مسار الاستدلال. تحقق هذه البنية mAP (متوسط الدقة المتوسطة) مثيرًا للإعجاب على مجموعات البيانات المعيارية مثل COCO.

نقاط الضعف

على الرغم من قدراته في الوقت الفعلي، فإن RTDETRv2 لديه متطلبات ذاكرة أعلى بشكل ملحوظ مقارنة بنماذج YOLO. تتناسب آليات الانتباه في المحولات تربيعيًا مع طول التسلسل، مما قد يؤدي إلى أخطاء نفاد الذاكرة أثناء التدريب عالي الدقة ما لم يتم استخدام مجموعات GPU ضخمة. بالإضافة إلى ذلك، يفتقر إلى التنوع الجاهز لنظام Ultralytics البيئي، حيث يركز بشكل أساسي على اكتشاف الكائنات ثنائي الأبعاد فقط دون دعم أصلي للتجزئة أو تقدير الوضعيات.

تعرف على المزيد حول RTDETR

جدول مقارنة الأداء

لتقييم هذه البنى بشكل موضوعي، قمنا بتجميع مقاييس أدائها. القيم الموضحة بال خط العريض تمثل المقاييس الأكثر كفاءة أو الأعلى أداءً عبر المقاييس المختبرة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

سياق الأداء

بينما يحقق RTDETRv2-x أعلى معدل mAP مطلق، إلا أنه يتطلب ما يقرب من 30 ضعف معلمات YOLOv5n. بالنسبة للتطبيقات عالية السرعة التي تعمل على أجهزة محدودة، توفر Ultralytics باستمرار أفضل كفاءة حسابية.

ميزة النظام البيئي لـ Ultralytics

عند نقل نموذج من دفتر ملاحظات البحث إلى بيئة الإنتاج، فإن البرامج المحيطة بالنموذج لا تقل أهمية عن بنية الشبكة العصبية. يعمل النظام البيئي الجيد الصيانة الذي توفره Ultralytics على تسريع دورة حياة التطوير Ultralytics .

سهولة استخدام لا مثيل لها

تمنح Ultralytics الأولوية لتجربة مستخدم مبسطة للغاية. سواء كنت ترغب في تدريب نموذج مخصص أو إجراء التحقق أو التصدير إلى تنسيقات خاصة بالأجهزة مثل TensorRT أو ONNX، فإن Ultralytics Python تجعل ذلك ممكنًا في بضع أسطر من التعليمات البرمجية.

فيما يلي مثال عملي على كود يوضح مدى سهولة التدريب وتشغيل الاستدلال باستخدام Ultralytics :

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

تدعم واجهة برمجة التطبيقات (API) البسيطة والموحدة هذه بشكل أساسي تكامل تتبع التجارب مع أدوات مثل Weights & Biases و Comet، مما يتيح للمطورين تسجيل المقاييس بسلاسة دون الحاجة إلى كتابة أكواد نمطية معقدة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv5 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv5

YOLOv5 خيار قوي لـ:

  • أنظمة الإنتاج المثبتة: العمليات المنشورة الحالية حيث تُقدر سجل YOLOv5 الطويل في الاستقرار، والتوثيق الشامل، والدعم المجتمعي الهائل.
  • التدريب محدود الموارد: البيئات ذات موارد GPU المحدودة حيث تكون خطة تدريب YOLOv5 الفعالة ومتطلبات الذاكرة الأقل مفيدة.
  • دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX وTensorRT وCoreML وTFLite.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
  • سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

التطلع إلى المستقبل: YOLO11 YOLO26

إذا كنت تبدأ اليوم مشروعًا جديدًا في مجال الرؤية، فمن المستحسن بشدة استكشاف أحدث أجيال Ultralytics .

بينما YOLOv5 موثوقًا للغاية، YOLO11 يوفر دقة محسنة ومجموعة موسعة من المهام بما في ذلك الكشف عن الصندوق المحيط الموجه (OBB).

والأهم من ذلك، أن YOLO26 المتطور يجمع بين أفضل ما في العالمين. فهو يطبق تصميمًا شاملاً NMS (تم تطويره لأول مرة في YOLOv10)، مما يلغي عبء المعالجة اللاحقة مع الحفاظ على كفاءة CNN. يقدم YOLO26 أيضًا مُحسِّن MuSGD، المستوحى من ابتكارات تدريب LLM، من أجل تقارب أسرع. مع إزالة DFL (إزالة الخسارة البؤرية للتوزيع من أجل تصدير مبسط وتوافق أفضل مع الأجهزة المتطورة/منخفضة الطاقة)، يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مما يجعله الخيار الأفضل على الإطلاق للذكاء الاصطناعي المتطور. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء والروبوتات والصور الجوية.

الخلاصة

يعتمد الاختيار بين YOLOv5 و RTDETRv2 بشكل كبير على قيود النشر الخاصة بك. يدفع RTDETRv2 حدود الـ mAP باستخدام آليات انتباه المحولات القوية، ولكنه يأتي بتكلفة باهظة في الذاكرة والنفقات الحسابية.

على النقيض، تقدم Ultralytics YOLOv5 حلاً مثبتًا وعالي التحسين ومتعدد الاستخدامات يعمل بسلاسة في كل مكان - من خوادم السحابة إلى وحدات التحكم الدقيقة. للفرق التي تبحث عن أعلى دقة ممكنة جنبًا إلى جنب مع أدوات النشر السلسة، يوفر الترقية داخل نظام Ultralytics البيئي إلى YOLO26 الحل المتطور والنهائي لتطبيقات الذكاء الاصطناعي البصري الحديثة.


تعليقات