YOLOv7 مقابل RTDETRv2: مقارنة تقنية بين أجهزة كشف الأجسام الحديثة
يعد اختيار البنية المثلى للكشف عن الأجسام خطوة محورية في تطوير حلول رؤية حاسوبية قوية. وغالبًا ما ينطوي هذا القرار على المفاضلة المعقدة بين سرعة الاستدلال ودقة الكشف ومتطلبات الموارد الحاسوبية. يوفر هذا الدليل مقارنة تقنية متعمقة بين YOLOv7وهو كاشف مُحسَّن للغاية قائم على شبكة CNN ومعروف بسرعته، وRTDETRv2، وهو نموذج حديث قائم على المحولات مصمم لتوفير فهم السياق العالمي لتطبيقات الوقت الحقيقي.
YOLOv7: ذروة كفاءة شبكة CNN
يمثّل YOLOv7 تطوراً كبيراً في عائلة برنامج You Only Look Only OneYOLO)، الذي تم إصداره لتخطي حدود ما يمكن أن تحققه الشبكات العصبية التلافيفية (CNNs) في سيناريوهات الوقت الحقيقي. من خلال التركيز على التحسينات المعمارية واستراتيجيات التدريب المتقدمة، فإنها توفر سرعة مذهلة على أجهزة GPU .
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- اركسيف:https://arxiv.org/abs/2207.02696
- جيثبhttps://github.com/WongKinYiu/yolov7
- المستنداتhttps://docs.ultralytics.com/models/yolov7/
الابتكارات المعمارية
يقدم YOLOv7 شبكة تجميع الطبقات الموسعة الفعالة الموسعة (E-ELAN)، وهو تصميم جديد للعمود الفقري يعزز قدرة الشبكة على التعلم دون تدمير مسار التدرج. يسمح ذلك بشبكات أعمق تظل فعالة في التدريب. من السمات المميزة لـ YOLOv7 هي "حقيبة من الرغبات المجانية القابلة للتدريب"، وهي مجموعة من أساليب التحسين - مثل إعادة تحديد معلمات النموذج وتعيين التسمية الموجهة من الخشنة إلى الدقيقة - التي تعمل على تحسين الدقة دون زيادة زمن انتقال الاستدلال.
نقاط القوة والضعف
يتفوق YOLOv7 في البيئات التي يكون فيها الاستدلال في الوقت الفعلي على وحدات معالجة الرسومات القياسية هو الأولوية. وقد تم تحسين بنيته بشكل كبير لـ CUDA مما يوفر إطارًا عاليًا في الثانية لموجزات الفيديو. ومع ذلك، وباعتبارها شبكة CNN خالصة، فقد تعاني من التبعيات بعيدة المدى مقارنةً بالمحوّلات. بالإضافة إلى ذلك، قد يكون تخصيص بنيتها المعقدة أمرًا صعبًا بالنسبة للمبتدئين.
RTDETRv2: محولات للكشف في الوقت الحقيقي
يعتمد محول الكشف في الوقت الحقيقيRT-DETR) على نجاح محول الكشف في الوقت الحقيقيRT-DETR)، مستفيداً من قوة محولات الرؤية (ViT ) لالتقاط المعلومات العالمية عبر الصورة. وخلافاً لشبكات CNN، التي تعالج الأحياء المحلية من وحدات البكسل، تستخدم المحولات آليات الانتباه الذاتي لفهم العلاقات بين الأجسام البعيدة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 ( RT-DETR الأصلي)، 2024-07 (RTDETRv2)
- اركسيف:https://arxiv.org/abs/2304.08069
- جيثبhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
الابتكارات المعمارية
يستخدم RTDETRv2 بنية هجينة. ويستخدم العمود الفقري لـ CNN لاستخراج الميزات بكفاءة ومُشفّر-مُفك تشفير محوّل لرأس الكشف. والأهم من ذلك أنه خالٍ من الارتكاز، مما يلغي الحاجة إلى مربعات الارتكاز المضبوطة يدويًا والمعالجة اللاحقة للقمع غير الأقصىNMS في بعض التكوينات. تركز التحسينات "الإصدار 2" على العمود الفقري المرن واستراتيجيات التدريب المحسّنة لتقليل زمن الاستجابة بشكل أكبر مع الحفاظ على متوسط دقة عالية (mAP).
نقاط القوة والضعف
تتمثل الميزة الأساسية ل RTDETRv2 في دقته في المشاهد المعقدة ذات الانسدادات، وذلك بفضل وعيه بالسياق العالمي. وغالبًا ما تتفوق في أدائها على CNNs ذات الحجم المماثل في mAP. ومع ذلك، فإن هذا يأتي بتكلفة: من المعروف أن نماذج المحولات متعطشة للذاكرة أثناء التدريب ويمكن أن تكون أبطأ في التقارب. وهي تتطلب عمومًا وحدات معالجة رسومية أكثر قوة للتدريب بفعالية مقارنةً بنماذج الشبكات الشبكية ذات المحولات مثل YOLOv7.
مقارنة الأداء: المقاييس والتحليل
يعرض الجدول التالي مقارنة بين مقاييس الأداء الرئيسية جنبًا إلى جنب. بينما يحقق RTDETRv2-x دقة فائقة, YOLOv7 ميزة تنافسية في سرعة الاستدلال البحتة على تكوينات أجهزة معينة بسبب تصميمها الأصلي لشبكة CNN.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
فهم المفاضلات
عند الاختيار بين هذه البنى، ضع في اعتبارك أجهزة النشر الخاصة بك. غالبًا ما تتطلب المحولات مثل RTDETRv2 تحسينات TensorRT محددة للوصول إلى أقصى سرعة ممكنة على وحدات معالجة الرسومات NVIDIA في حين أن شبكات CNN مثل YOLOv7 تعمل بكفاءة على نطاق أوسع من الأجهزة مع ضبط أقل.
منهجية التدريب والموارد
تختلف منهجيات التدريب اختلافًا كبيرًا بين البنيتين. يستخدم YOLOv7 معالجات التدرج العشوائي القياسية (SGD) أو معالجات Adam مع التركيز على خطوط أنابيب زيادة البيانات مثل Mosaic. وهي فعالة نسبيًا من حيث الذاكرة، مما يجعل من الممكن التدريب على وحدات معالجة الرسومات متوسطة المدى.
في المقابل، يتطلب RTDETRv2 نظام تدريب أكثر كثافة في الموارد. تتوسع آليات الانتباه الذاتي في المحولات بشكل تربيعي مع طول التسلسل (حجم الصورة)، مما يؤدي إلى استخدام أعلى لذاكرة الوصول العشوائي (VRAM). وغالباً ما يحتاج المستخدمون إلى وحدات معالجة رسوماتNVIDIA المتطورة ذات سعات ذاكرة كبيرة (على سبيل المثال، A100s) لتدريب متغيرات RT-DETR الأكبر حجماً بفعالية. علاوةً على ذلك، تتطلب المحولات عادةً جداول تدريب أطول (المزيد من الحقب الزمنية) للتقارب مقارنةً بمتغيرات شبكة CNN.
لماذا تعتبر نماذج Ultralytics الخيار الموصى به
على الرغم من أن YOLOv7 وRTDETRv2 نموذجين ممتازين في حد ذاتهما، فإن نظامUltralytics البيئي -الذي يقوده أحدث YOLO11-يوفر حلاً أكثر شمولاً لتطوير الذكاء الاصطناعي الحديث.
سهولة فائقة في الاستخدام والنظام البيئي
تم تصميم نماذج Ultralytics مع وضع تجربة المطورين كأولوية. على عكس ملفات التكوين المعقدة والإعداد اليدوي المطلوب غالبًا ل YOLOv7 أو احتياجات البيئة المحددة ل RTDETRv2، يوفر Ultralytics واجهة برمجة تطبيقات Python موحدة وبسيطة. يتيح لك ذلك تحميل النماذج وتدريبها ونشرها في بضعة أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
أداء متوازن ومتعدد الاستخدامات
YOLO11 يحقق توازناً استثنائياً بين السرعة والدقة، وغالباً ما يتفوق على كل من YOLOv7 RT-DETR في الكفاءة. والأهم من ذلك، لا تقتصر نماذج Ultralytics على اكتشاف الأجسام. فهي تدعم أصلاً مجموعة واسعة من مهام الرؤية الحاسوبية في نفس الإطار:
- تجزئة المثيل: تحديد دقيق للكائنات.
- تقدير الوضعية: اكتشاف النقاط الرئيسية لوضعية الإنسان أو الحيوان.
- التصنيف: تصنيف الصورة الكاملة.
- الكشف عن الأجسام الموجهة (OBB): اكتشاف الأجسام المدوّرة (على سبيل المثال، في الصور الجوية).
الكفاءة والتدريب
تم تحسين نماذج Ultralytics لتحقيق كفاءة الذاكرة. وعادةً ما تتطلب ذاكرة CUDA أقل بكثير أثناء التدريب من البدائل القائمة على المحولات مثل RTDETRv2، مما يجعل الوصول إلى الذكاء الاصطناعي عالي الأداء أكثر ديمقراطية. وبفضل الأوزان المتاحة على نطاق واسع والمُدرَّبة مسبقاً والقدرات الفعّالة لتعلُّم الت حويل يمكنك تحقيق نتائج جاهزة للإنتاج في جزء صغير من الوقت.
الخلاصة
YOLOv7 منافسًا قويًا للأنظمة القديمة التي تتطلب استدلالًا مُحسَّنًا بدقة من خلال شبكة CNN، بينما يوفر RTDETRv2 دقة فائقة للمشاهد المعقدة حيث تكون الموارد الحاسوبية وفيرة. ومع ذلك، بالنسبة لغالبية المطورين والباحثين الذين يبحثون عن حل حديث ومتعدد الاستخدامات وسهل الاستخدام, Ultralytics YOLO11 هو الخيار الأفضل.
من خلال اختيار Ultralytics يمكنك الوصول إلى مجتمع مزدهر، وتحديثات متكررة، ومجموعة أدوات قوية تبسّط دورة حياة عمليات التشغيل الآلي بالكامل، بدءًا من إدارة البيانات وحتى النشر.
استكشف مقارنات النماذج الأخرى
لمزيد من المعلومات حول قرارك، استكشف هذه المقارنات التقنية الإضافية: