YOLOv5 RT-DETRv2: مقارنة تقنية بين أجهزة الكشف عن الأجسام في الوقت الحقيقي
تم تحديد تطور الكشف عن الكائنات في الوقت الفعلي من خلال نموذجين معماريين رئيسيين: YOLO القائمة على الشبكة العصبية التلافيفية (CNN) ونماذج الكشف القائمة على المحول. تستكشف هذه المقارنة الاختلافات التقنية بين Ultralytics YOLOv5، وهو الكاشف القياسي في الصناعة القائم على CNN، و RT-DETRv2، وهو إصدار حديث من محول الكشف في الوقت الفعلي المصمم لتحدي هيمنة CNN التقليدية.
يهدف كلا النموذجين إلى حل التحدي الحاسم المتمثل في تحقيق التوازن بين سرعة الاستدلال والدقة العالية، لكنهما يتعاملان مع هذا الهدف باستخدام منهجيات مختلفة جذريًا.
Ultralytics YOLOv5: معيار الصناعة
YOLOv5 أحد أكثر نماذج الرؤية الحاسوبية انتشارًا على مستوى العالم بفضل التوازن الاستثنائي بين السرعة والدقة والجدوى الهندسية. وقد أطلقته Ultralytics في منتصف عام 2020، وأعاد تعريف قابلية الاستخدام في مجال الذكاء الاصطناعي، حيث أتاح للمهندسين والباحثين على حد سواء إمكانية الوصول إلى أحدث تقنيات الكشف من خلال Python سلسة.
- المؤلفون: Glenn Jocher
- المؤسسة:Ultralytics
- التاريخ: 2020-06-26
- GitHub:https://github.com/ultralytics/yolov5
- الوثائق:https://docs.ultralytics.com/models/yolov5/
الهندسة المعمارية والتصميم
YOLOv5 شبكة CSPDarknet الأساسية، التي تدمج شبكات Cross Stage Partial لتحسين تدفق التدرج وتقليل تكلفة الحوسبة. يستخدم عنقه شبكة PANet (شبكة تجميع المسارات) لتجميع هرم الميزات بشكل فعال، مما يضمن دمج الميزات من مختلف المقاييس بكفاءة.
تشمل الميزات المعمارية الرئيسية ما يلي:
- الكشف القائم على المرجع: يستخدم مربعات مرجعية محددة مسبقًا للتنبؤ بمواقع الكائنات، وهي طريقة مجربة للتحديد الدقيق للمواقع.
- زيادة بيانات الفسيفساء: تقنية تدريب تربط أربع صور معًا، لتعليم النموذج كيفية detect في سياقات ومقاييس متنوعة.
- تنشيط SiLU: وظائف تنشيط أكثر سلاسة تعمل على تحسين تقارب الشبكة العصبية العميقة مقارنة بـ ReLU التقليدية.
نقاط القوة في النشر
YOLOv5 بسهولة الاستخدام. يتيح سير العمل "من الصفر إلى القمة" للمطورين الانتقال من مجموعة البيانات إلى النموذج المنشور في غضون دقائق. يدعم Ultralytics ذلك من خلال أدوات متكاملة لتعليق البيانات والتدريب السحابي والتصدير بنقرة واحدة إلى تنسيقات مثل ONNXو TensorRTو CoreML.
على عكس نماذج المحولات، التي يمكن أن تستهلك الكثير من الذاكرة، YOLOv5 تتطلب ذاكرة أقل بكثير أثناء التدريب. تتيح هذه الكفاءة تشغيلها على وحدات معالجة الرسومات (GPU) الاستهلاكية وحتى الأجهزة المتطورة مثل NVIDIA مما يجعلها متعددة الاستخدامات للغاية للتطبيقات الواقعية التي تتراوح من الحفاظ على الحياة البرية إلى تحليلات البيع بالتجزئة.
RT-DETRv2: منافس المحول
يعتمد RT-DETRv2 محول الكشف في الوقت الحقيقي الإصدار 2) على نجاح RT-DETR الأصلي، بهدف تحقيق دقة المحولات بسرعات في الوقت الحقيقي. وهو يعالج التكلفة الحسابية العالية التي ترتبط عادةً بمحولات الرؤية (ViTs) من خلال تحسين بنية المشفر-المفكك.
- المؤلفون: Wenyu Lv، Yian Zhao، وآخرون.
- المنظمة: بايدو
- التاريخ: 2023-04-17 (الإصدار 1)، 2024-07-24 (الإصدار 2)
- أرشيف:https://arxiv.org/abs/2304.08069
- GitHub:RT-DETR
الهندسة المعمارية والتصميم
RT-DETRv2 بنية هجينة تجمع بين شبكة CNN الأساسية (عادةً ResNet أو HGNet) ومشفّر-مفكّك محوّل فعّال.
- المشفّر الهجين: يفصل التفاعل داخل النطاق والاندماج عبر النطاقات لتقليل الحمل الحسابي.
- اختيار الاستعلاماتIoU: يحسن تهيئة استعلامات الكائنات من خلال إعطاء الأولوية للميزات عالية الثقة.
- بدون مرساة: يتنبأ بالمربعات المحيطة مباشرةً دون مرساة محددة مسبقًا، مما يبسط نظريًا رأس الإخراج.
- NMS: تتمثل إحدى الميزات الرئيسية في التخلص من تقنية Non-Maximum Suppression (NMS)، مما يقلل من تباين زمن الاستجابة في مرحلة ما بعد المعالجة.
اعتبارات النشر
على الرغم من أن RT-DETRv2 دقة تنافسية، إلا أنه يتطلب موارد أكبر. يتطلب تدريب النماذج القائمة على المحولات عمومًا GPU أكبر ووقت تدريب أطول مقارنة بشبكات CNN مثل YOLOv5. علاوة على ذلك، على الرغم من أن إزالة NMS لاستقرار زمن الوصول، NMS عمليات الضرب المصفوفية الثقيلة في طبقات الانتباه قد تكون أبطأ على الأجهزة القديمة أو الأجهزة الطرفية التي تفتقر إلى tensor مخصصة.
مقارنة مقاييس الأداء
يُقارن الجدول التالي أداء YOLOv5 RT-DETRv2 مجموعة بيانات COCO . في حين RT-DETRv2 دقة عالية (mAP)، YOLOv5 يوفر YOLOv5 نسبة سرعة لكل معلمة أعلى، خاصة على الأجهزة القياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
موازنة الأداء
بينما RT-DETRv2 أعلى mAP لاحظ الفرق الكبير في حجم النموذج وسرعته. يعمل YOLOv5n بسرعة تقارب 5 أضعاف على وحدات معالجة الرسومات T4 مقارنة بأصغر RT-DETRv2 مما يجعله الخيار الأفضل للتطبيقات الطرفية ذات الموارد المحدودة للغاية.
الفروق الرئيسية وحالات الاستخدام
1. كفاءة التدريب والنظام البيئي
واحدة من أهم مزايا Ultralytics YOLOv5 هي كفاءة التدريب. إن القدرة على التدريب بفعالية على مجموعات بيانات أصغر باستخدام أجهزة أقل قوة تجعل الوصول إلى الذكاء الاصطناعي متاحًا للجميع. تتيح Ultralytics المتكاملة للمستخدمين تصور مقاييس التدريب وإدارة مجموعات البيانات ونشر النماذج بسلاسة.
في المقابل، يتطلب تدريب RT-DETRv2 المزيد CUDA وفترات تدريب ممتدة للوصول إلى التقارب بسبب طبيعة آليات انتباه المحول. بالنسبة للمطورين الذين يتكررون بسرعة، YOLOv5 دورات التدريب السريعة لـ YOLOv5 عاملاً رئيسياً في تعزيز الإنتاجية.
2. تعدد الاستخدامات
YOLOv5 مجرد كاشف للأجسام. Ultralytics يوسع قدراته ليشمل:
- تجزئة المثيلات: تجزئة الكائنات على مستوى البكسل.
- تصنيف الصور: تصنيف الصور بالكامل بكفاءة.
- تقدير الوضعية: اكتشاف النقاط الرئيسية على أجسام الإنسان.
تعني هذه المرونة أن مكتبة واحدة يمكنها تشغيل مجموعة كاملة من التطبيقات، من تحليلات الرياضة إلى التصوير الطبي، مما يقلل من تعقيد الكود وتكاليف الصيانة. RT-DETRv2 بشكل أساسي على الكشف، مع دعم أقل نضجًا لهذه المهام الإضافية في سير عمل موحد.
3. CPU الحافة CPU
للنشر على وحدات المعالجة المركزية (الشائعة في كاميرات IP أو وظائف السحابة) أو الأجهزة المحمولة، تم تحسين بنية CNN YOLOv5 بشكل كبير. وهي تدعم التصدير إلى TFLite و CoreML مع دعم واسع النطاق للتكمية. RT-DETRv2 تواجه نماذج المحولات مثل RT-DETRv2 صعوبات في زمن الاستجابة علىGPU بسبب عمليات المصفوفات المعقدة التي لا يمكن تسريعها بسهولة بواسطة CPU القياسية.
التوصية: Ultralytics
بينما RT-DETRv2 نتائج أكاديمية مبهرة، توفر YOLO Ultralytics YOLO حلاً أكثر شمولية لأنظمة الإنتاج. ويضمن النظام البيئي الجيد الصيانة التوافق مع أحدث Python وبرامج تشغيل الأجهزة وتنسيقات التصدير، مما يوفر راحة البال للمشاريع طويلة الأجل.
بالنسبة لأولئك الذين يبدؤون مشاريع جديدة في عام 2026، نوصي بشدة بالاطلاع على Ultralytics .
لماذا تختار YOLO26؟
يمثل YOLO26 قمة الكفاءة، حيث يجمع بين أفضل ميزات شبكات CNN و Transformers.
- نهاية إلى نهاية أصلاً: مثل RT-DETRv2، YOLO26 NMS، مما يبسط عمليات النشر.
- MuSGD Optimizer: مُحسِّن هجين متطور لتحقيق تقارب واستقرار أسرع.
- تحسين الحافة: مصمم خصيصًا لتحقيق CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة.
- إزالة DFL: وظائف خسارة مبسطة لتحسين قابلية التصدير إلى الأجهزة الطرفية.
مثال على التعليمات البرمجية: تشغيل YOLOv5
تعد بساطة Ultralytics أحد الأسباب الرئيسية لانتشار استخدامها على نطاق واسع. إليك كيفية تحميل الاستدلال وتشغيله بسهولة.
import torch
# Load the YOLOv5s model from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)
# Define an image URL or local path
img = "https://ultralytics.com/images/zidane.jpg"
# Perform inference
results = model(img)
# Print results to the console
results.print()
# Show the image with bounding boxes
results.show()
للمقارنة، تدعم Ultralytics RT-DETR من خلال نفس الواجهة البسيطة:
from ultralytics import RTDETR
# Load a pre-trained RT-DETR model
model = RTDETR("rtdetr-l.pt")
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
# Display the results
for result in results:
result.show()
الخلاصة
كل من YOLOv5 RT-DETRv2 نموذجان قويان. RT-DETRv2 لمحة عن مستقبل الكشف القائم على المحولات بفضل بنيته NMS ودقته العالية. ومع ذلك، YOLOv5 يظل قوة دافعة للتطبيق العملي في العالم الحقيقي، حيث يوفر سرعة لا مثيل لها على الأجهزة المتطورة، وتكاليف موارد أقل، ونظامًا بيئيًا غنيًا بالأدوات.
بالنسبة للمطورين الذين يرغبون في الحصول على "أفضل ما في العالمين" — سرعة CNNs وراحة المحولات NMS — فإنUltralytics هو الخيار الأمثل لعام 2026 وما بعده.