YOLOv5 RTDETRv2: تقييم هياكل CNN مقابل Transformer لاكتشاف الكائنات
توسع مجال الرؤية الحاسوبية بشكل كبير خلال السنوات القليلة الماضية، مما وفر للمطورين مجموعة واسعة من البنى الهندسية لمعالجة المهام البصرية المعقدة. ومن بين النماذج الأكثر شيوعًا الشبكات العصبية التلافيفية (CNN) ومحولات الكشف (DETR).
يقدم هذا الدليل مقارنة تقنية متعمقة بين نموذجين محوريين في هاتين الفئتين: Ultralytics YOLOv5، وهو نموذج عالي الكفاءة ومستخدم على نطاق واسع يعتمد على شبكة CNN، و RTDETRv2، وهو كاشف كائنات في الوقت الفعلي متطور يعتمد على محول.
Ultralytics YOLOv5: المعيار الصناعي للكفاءة
منذ إطلاقه،YOLOv5 Ultralytics YOLOv5 حجر الزاوية في مجتمع الذكاء الاصطناعي، حيث يدعم آلاف التطبيقات التجارية والمشاريع البحثية على مستوى العالم. تم بناؤه بالكامل على PyTorch ، وأعطى الأولوية لتجربة المطور البديهية دون المساومة على الأداء في الوقت الفعلي.
الخصائص الرئيسية:
- المؤلف: جلين جوتشر
- المؤسسة:Ultralytics
- التاريخ: 2020-06-26
- روابط:مستودع GitHub
الهيكلة ونقاط القوة
YOLOv5 بنية CNN مبسطة مصممة لزيادة كفاءة استخراج الميزات إلى أقصى حد مع الحفاظ على مساحة ذاكرة منخفضة للغاية. ويستخدم العمود الفقري CSPDarknet ورقبة PANet، مما يخلق مزيجًا قويًا لدمج الميزات متعددة النطاقات.
YOLOv5 إحدى المزايا الرئيسية لـ YOLOv5 توازن أدائها. فهي تحقق توازنًا استثنائيًا بين السرعة والدقة، مما يجعلها الخيار المثالي لنشر النماذج على الأجهزة ذات الموارد المحدودة مثل أجهزة NVIDIA والهواتف الذكية.
علاوة على ذلك، YOLOv5 بتنوع لا مثيل له. على عكس النماذج التي تقتصر بشكل صارم على تنبؤات الصندوق المحيط، يدعم YOLOv5 تصنيف الصور وتجزئة الحالات، مما يوفر إطارًا موحدًا لمهام بصرية متنوعة. كما أن كفاءة التدريب فيه رائعة، حيث يتطلب CUDA أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات.
نقاط الضعف
نظرًا لأنه يعتمد على إطار عمل CNN أقدم، YOLOv5 يعتمد YOLOv5 على تقنية Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة لإزالة المربعات المحددة المكررة. على الرغم من تحسينه بشكل كبير ضمن Ultralytics إلا أن NMS يتسبب أحيانًا في حدوث اختناقات في زمن الاستجابة على وحدات NPU المتخصصة.
RTDETRv2: محولات الوقت الحقيقي من Baidu
يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي v2) قفزة كبيرة في تطبيق بنى المحولات على الكشف عن الكائنات في الوقت الحقيقي، حيث يعالج أوجه القصور الحسابية التي عانت منها محولات DETR القياسية في الماضي.
الخصائص الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- روابط:ورقة Arxiv، مستودع GitHub
الهيكلة ونقاط القوة
يعتمد RTDETRv2 على سابقه من خلال استخدام مشفر هجين وتصميم مفكك مرن لمعالجة الصور. توفر آلية الانتباه الذاتي للمحول للنموذج فهمًا شاملاً لسياق الصورة، مما يتيح له الأداء بشكل استثنائي في المشاهد المعقدة التي تتسم بانسداد شديد للأجسام.
من السمات المميزة لـ RTDETRv2 تصميمه الشامل NMS. من خلال توقع استعلامات الكائنات مباشرةً دون الحاجة إلى مربعات ربط أو NMS فإنه يبسط مسار الاستدلال. تحقق هذه البنية معدل دقة متوسطmAP مثير للإعجاب في مجموعات البيانات المعيارية مثل COCO.
نقاط الضعف
على الرغم من قدراته في الوقت الفعلي، فإن RTDETRv2 يتطلب ذاكرة أكبر بكثير مقارنة YOLO . تتناسب آليات الانتباه في المحولات بشكل تربيعي مع طول التسلسل، مما قد يؤدي إلى أخطاء نفاد الذاكرة أثناء التدريب عالي الدقة ما لم يتم استخدام GPU ضخمة. بالإضافة إلى ذلك، فإنه يفتقر إلى التنوع الجاهز للاستخدام في Ultralytics حيث يركز بشكل أساسي على اكتشاف الكائنات ثنائية الأبعاد دون دعم أصلي للتجزئة أو تقدير الوضع.
جدول مقارنة الأداء
لتقييم هذه البنى بشكل موضوعي، قمنا بتجميع مقاييس أدائها. القيم الموضحة بال خط العريض تمثل المقاييس الأكثر كفاءة أو الأعلى أداءً عبر المقاييس المختبرة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
سياق الأداء
بينما يحقق RTDETRv2-x أعلى معدل mAP مطلق، إلا أنه يتطلب ما يقرب من 30 ضعف معلمات YOLOv5n. بالنسبة للتطبيقات عالية السرعة التي تعمل على أجهزة محدودة، توفر Ultralytics باستمرار أفضل كفاءة حسابية.
ميزة النظام البيئي لـ Ultralytics
عند نقل نموذج من دفتر ملاحظات البحث إلى بيئة الإنتاج، فإن البرامج المحيطة بالنموذج لا تقل أهمية عن بنية الشبكة العصبية. يعمل النظام البيئي الجيد الصيانة الذي توفره Ultralytics على تسريع دورة حياة التطوير Ultralytics .
سهولة استخدام لا مثيل لها
تمنح Ultralytics الأولوية لتجربة مستخدم مبسطة للغاية. سواء كنت ترغب في تدريب نموذج مخصص أو إجراء التحقق أو التصدير إلى تنسيقات خاصة بالأجهزة مثل TensorRT أو ONNX، فإن Ultralytics Python تجعل ذلك ممكنًا في بضع أسطر من التعليمات البرمجية.
فيما يلي مثال عملي على كود يوضح مدى سهولة التدريب وتشغيل الاستدلال باستخدام Ultralytics :
from ultralytics import YOLO
# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")
# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")
# Display the resulting image with bounding boxes
inference_results[0].show()
تدعم واجهة برمجة التطبيقات (API) البسيطة والموحدة هذه بشكل أساسي تكامل تتبع التجارب مع أدوات مثل Weights & Biases و Comet، مما يتيح للمطورين تسجيل المقاييس بسلاسة دون الحاجة إلى كتابة أكواد نمطية معقدة.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLOv5 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv5
YOLOv5 خيار قوي لـ:
- أنظمة إنتاج مجربة: عمليات النشر الحالية التي تُقدّر فيها track YOLOv5 الطويل في الاستقرار، والوثائق الشاملة، والدعم المجتمعي الهائل.
- التدريب المحدود الموارد: البيئات ذات GPU المحدودة حيث يكون خط التدريب الفعال YOLOv5 ومتطلبات الذاكرة المنخفضة ميزة.
- دعم واسع النطاق لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNXو TensorRTو CoreMLو TFLite.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
التطلع إلى المستقبل: YOLO11 YOLO26
إذا كنت تبدأ اليوم مشروعًا جديدًا في مجال الرؤية، فمن المستحسن بشدة استكشاف أحدث أجيال Ultralytics .
بينما YOLOv5 موثوقًا للغاية، YOLO11 يوفر دقة محسنة ومجموعة موسعة من المهام بما في ذلك الكشف عن الصندوق المحيط الموجه (OBB).
والأهم من ذلك، أن YOLO26 المتطور يجمع بين أفضل ما في العالمين. فهو يطبق تصميمًا شاملاً NMS (تم تطويره لأول مرة في YOLOv10)، مما يلغي عبء المعالجة اللاحقة مع الحفاظ على كفاءة CNN. يقدم YOLO26 أيضًا مُحسِّن MuSGD، المستوحى من ابتكارات تدريب LLM، من أجل تقارب أسرع. مع إزالة DFL (إزالة الخسارة البؤرية للتوزيع من أجل تصدير مبسط وتوافق أفضل مع الأجهزة المتطورة/منخفضة الطاقة)، يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مما يجعله الخيار الأفضل على الإطلاق للذكاء الاصطناعي المتطور. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء والروبوتات والصور الجوية.
الخلاصة
يعتمد الاختيار بين YOLOv5 RTDETRv2 بشكل كبير على قيود النشر الخاصة بك. يوسع RTDETRv2 حدود mAP آليات انتباه محول قوية، ولكنه يأتي بتكلفة باهظة في الذاكرة والتكاليف الحسابية.
على العكس من ذلك،YOLOv5 Ultralytics YOLOv5 حلاً مجرباً ومُحسّناً للغاية ومتعدد الاستخدامات يعمل بسلاسة في كل مكان — من خوادم السحابة إلى المتحكمات الدقيقة. بالنسبة للفرق التي تبحث عن أعلى دقة ممكنة إلى جانب أدوات نشر سلسة، فإن الترقية داخل Ultralytics إلى YOLO26 توفر الحل النهائي المتطور لتطبيقات الذكاء الاصطناعي الحديثة في مجال الرؤية.