YOLOv7 ضد RTDETRv2: مقارنة فنية لكاشفات الأجسام الحديثة
يُعد اختيار بنية الكشف عن الكائنات المثالية خطوة محورية في تطوير حلول رؤية حاسوبية قوية. غالبًا ما يتضمن هذا القرار التنقل بين المفاضلات المعقدة بين سرعة الاستدلال ودقة الكشف ومتطلبات موارد الحوسبة. يقدم هذا الدليل مقارنة فنية متعمقة بين YOLOv7، وهو كاشف يعتمد على CNN عالي التحسين معروف بسرعته، و RTDETRv2، وهو نموذج حديث قائم على المحولات مصمم لجلب فهم السياق العالمي إلى تطبيقات الوقت الفعلي.
YOLOv7: قمة كفاءة الشبكات العصبونية الالتفافية (CNN)
يمثل YOLOv7 تطورًا كبيرًا في عائلة You Only Look Once (YOLO)، وقد تم إصداره لدفع حدود ما يمكن أن تحققه الشبكات العصبية التلافيفية (CNNs) في سيناريوهات الوقت الفعلي. من خلال التركيز على التحسينات المعمارية واستراتيجيات التدريب المتقدمة، فإنه يوفر سرعة رائعة على أجهزة GPU.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- الوثائق:https://docs.ultralytics.com/models/yolov7/
الابتكارات المعمارية
يقدم YOLOv7 شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN)، وهو تصميم جديد للعمود الفقري يعزز قدرة الشبكة على التعلم دون تدمير مسار التدرج. يتيح ذلك شبكات أعمق تظل فعالة في التدريب. إحدى الميزات المميزة لـ YOLOv7 هي "حقيبة التدريب المجانية"، وهي مجموعة من طرق التحسين - مثل إعادة تحديد معلمات النموذج وتعيين التسميات الموجهة من الخشن إلى الدقيق - التي تعمل على تحسين الدقة دون زيادة زمن انتقال الاستدلال.
نقاط القوة والضعف
يتفوق YOLOv7 في البيئات التي تكون فيها الاستدلال في الوقت الفعلي على وحدات معالجة الرسوميات (GPUs) القياسية هي الأولوية. تم تحسين بنيته بشكل كبير لـ CUDA، مما يوفر FPS عاليًا لتغذية الفيديو. ومع ذلك، باعتباره CNN خالصًا، فقد يواجه صعوبة في الاعتماديات طويلة المدى مقارنة بالمحولات. بالإضافة إلى ذلك، يمكن أن يكون تخصيص بنيته المعقدة أمرًا صعبًا بالنسبة للمبتدئين.
RTDETRv2: محولات للكشف في الوقت الحقيقي
يعتمد RTDETRv2 على نجاح Real-Time Detection Transformer (RT-DETR)، مستفيدًا من قوة محولات الرؤية (ViT) لالتقاط المعلومات الشاملة عبر الصورة. بخلاف الشبكات العصبونية الالتفافية (CNNs) التي تعالج الجوار المحلية للبكسل، تستخدم المحولات آليات الانتباه الذاتي لفهم العلاقات بين الكائنات البعيدة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (أصلي RT-DETR)، 2024-07 (RTDETRv2)
- Arxiv:https://arxiv.org/abs/2304.08069
- GitHub:https://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
الابتكارات المعمارية
يستخدم RTDETRv2 بنية هجينة. فهو يستخدم العمود الفقري للشبكة العصبونية الالتفافية (CNN) من أجل استخراج الميزات بكفاءة ووحدة ترميز وفك ترميز تعتمد على المحولات لرأس الاكتشاف. والأهم من ذلك أنه خالٍ من المرساة، مما يلغي الحاجة إلى مربعات المرساة المضبوطة يدويًا والمعالجة اللاحقة لقمع القيم القصوى غير القصوى (NMS) في بعض التكوينات. تركز تحسينات "الإصدار 2" على العمود الفقري المرن واستراتيجيات التدريب المحسنة لزيادة تقليل زمن الوصول مع الحفاظ على متوسط الدقة (mAP) العالي.
نقاط القوة والضعف
الميزة الأساسية لـ RTDETRv2 هي دقته في المشاهد المعقدة ذات الانسدادات، وذلك بفضل وعيه بالسياق العالمي. غالبًا ما يتفوق على CNNs ذات المقاييس المماثلة في mAP. ومع ذلك، فإن هذا يأتي بتكلفة: نماذج المحولات سيئة السمعة تستهلك الكثير من الذاكرة أثناء التدريب ويمكن أن تكون أبطأ في التقارب. تتطلب عمومًا وحدات معالجة رسومات GPUs أقوى للتدريب بفعالية مقارنة بـ CNNs مثل YOLOv7.
مقارنة الأداء: المقاييس والتحليل
يعرض الجدول التالي مقارنة جنبًا إلى جنب لمقاييس الأداء الرئيسية. في حين أن RTDETRv2-x يحقق دقة فائقة، غالبًا ما توفر نماذج YOLOv7 ميزة تنافسية في سرعة الاستدلال الخالصة على تكوينات أجهزة معينة نظرًا لتصميمها الأصلي القائم على CNN.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
فهم المفاضلات
عند الاختيار بين هذه الهياكل، ضع في اعتبارك أجهزة النشر الخاصة بك. غالبًا ما تتطلب المحولات مثل RTDETRv2 تحسينات TensorRT محددة للوصول إلى إمكاناتها الكاملة للسرعة على وحدات معالجة الرسومات NVIDIA، في حين أن الشبكات العصبية الالتفافية (CNNs) مثل YOLOv7 تعمل عمومًا بكفاءة على نطاق أوسع من الأجهزة مع تقليل الضبط.
منهجية التدريب والموارد
تختلف منهجيات التدريب اختلافًا كبيرًا بين البنيتين. يستخدم YOLOv7 التدرج اللحظي القياسي (stochastic gradient descent (SGD)) أو مُحسِّنات Adam مع التركيز على مسارات زيادة البيانات مثل Mosaic. إنه فعال نسبيًا من حيث الذاكرة، مما يجعله قابلاً للتدريب على وحدات معالجة الرسومات متوسطة المدى.
في المقابل، يتطلب RTDETRv2 نظام تدريب أكثر كثافة في استخدام الموارد. تتوسع آليات الانتباه الذاتي في المحولات تربيعيًا مع طول التسلسل (حجم الصورة)، مما يؤدي إلى زيادة استخدام VRAM. غالبًا ما يحتاج المستخدمون إلى وحدات معالجة رسومات NVIDIA متطورة ذات سعات ذاكرة كبيرة (مثل A100s) لتدريب متغيرات RT-DETR الأكبر حجمًا بشكل فعال. علاوة على ذلك، تتطلب المحولات عادةً جداول تدريب أطول (المزيد من الحقب) للتقارب مقارنةً بشبكات CNN.
لماذا نماذج Ultralytics هي الخيار الموصى به
في حين أن YOLOv7 و RTDETRv2 هما نموذجان ممتازان بحد ذاتهما، فإن النظام البيئي لـ Ultralytics - بقيادة أحدث التقنيات YOLO11 - يقدم حلاً أكثر شمولاً لتطوير الذكاء الاصطناعي الحديث.
سهولة استخدام فائقة ونظام بيئي
تم تصميم نماذج Ultralytics مع إعطاء الأولوية لتجربة المطور. على عكس ملفات التكوين المعقدة والإعداد اليدوي المطلوب غالبًا لـ YOLOv7 أو احتياجات البيئة المحددة لـ RTDETRv2، توفر Ultralytics واجهة برمجة تطبيقات python موحدة وبسيطة. يتيح لك ذلك تحميل النماذج وتدريبها ونشرها في بضعة أسطر فقط من التعليمات البرمجية.
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
أداء وتنوع متوازنان
يحقق YOLO11 توازنًا استثنائيًا بين السرعة والدقة، وغالبًا ما يتجاوز كلاً من YOLOv7 و RT-DETR في الكفاءة. والأهم من ذلك، أن نماذج Ultralytics لا تقتصر على كشف الأجسام. إنها تدعم في الأصل مجموعة واسعة من مهام رؤية الكمبيوتر داخل نفس الإطار:
- تقطيع الحالات: تحديد دقيق لمعالم الكائن.
- تقدير الوضعية: اكتشاف النقاط الرئيسية لوضعية الإنسان أو الحيوان.
- التصنيف: تصنيف الصورة بأكملها.
- اكتشاف الكائنات الموجهة (OBB): اكتشاف الكائنات المدورة (على سبيل المثال، في صور الاستشعار عن بعد).
الكفاءة والتدريب
تم تحسين نماذج Ultralytics لتحقيق كفاءة الذاكرة. إنها تتطلب عادةً ذاكرة CUDA أقل بكثير أثناء التدريب من البدائل القائمة على المحولات مثل RTDETRv2، مما يضفي طابعًا ديمقراطيًا على الوصول إلى الذكاء الاصطناعي عالي الأداء. مع الأوزان المدربة مسبقًا المتاحة على نطاق واسع وقدرات التعلم بالنقل الفعالة، يمكنك تحقيق نتائج جاهزة للإنتاج في جزء صغير من الوقت.
الخلاصة
YOLOv7 لا يزال منافسًا قويًا للأنظمة القديمة التي تتطلب استدلالًا مُحسَّنًا بدقة للشبكات العصبية الالتفافية (CNN)، بينما يوفر RTDETRv2 دقة متطورة للمشاهد المعقدة حيث تكون الموارد الحسابية وفيرة. ومع ذلك، بالنسبة لغالبية المطورين والباحثين الذين يبحثون عن حل حديث ومتعدد الاستخدامات وسهل الاستخدام، فإن Ultralytics YOLO11 هو الخيار الأفضل.
من خلال اختيار Ultralytics، يمكنك الوصول إلى مجتمع مزدهر وتحديثات متكررة ومجموعة أدوات قوية تعمل على تبسيط دورة حياة MLOps بأكملها - من إدارة البيانات إلى النشر.
استكشف مقارنات النماذج الأخرى
لاتخاذ قرار أكثر استنارة، استكشف هذه المقارنات التقنية الإضافية: