RTDETRv2 مقابل YOLOv7: التطور القائم على المحولات مقابل كفاءة CNN
شهد مجال اكتشاف الأجسام تباينًا مثيرًا للاهتمام في الفلسفات المعمارية. من ناحية، لدينا سلالة الشبكات العصبية التلافيفية (CNN)، التي تجسدها الشبكة العصبية التلافيفية عالية الأداء YOLOv7. من ناحية أخرى، أدت ثورة المحولات إلى ظهور RTDETRv2 (محول الكشف في الوقت الحقيقي)، وهو نموذج يهدف إلى توفير قدرات السياق العالمي لمحولات الرؤية (ViTs) بسرعات في الوقت الحقيقي.
يقدم هذا الدليل تحليلاً تقنياً لهاتين البنيتين، ويحلل المزايا والعيوب في السرعة والدقة وتعقيد النشر. على الرغم من أن كلاهما كانا يمثلان أحدث ما توصلت إليه التكنولوجيا عند إطلاقهما، إلا أن التطوير الحديث غالباً ما يفضل النظام البيئي الموحد والأداء المُحسّن للحافة الذي يوفره Ultralytics ، الذي يدمج بشكل أصلي أفضل ميزات كلا العالمين، مثل الاستدلال الشامل NMS.
مقارنة بين المديرين التنفيذيين
يُقارن الجدول التالي بين مقاييس الأداء الرسمية لـ RTDETRv2 و YOLOv7 COCO .
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: منافس المحولات
RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) هو تطور لـ RT-DETR الأصلي، الذي طوره باحثون في Baidu. وهو يعالج التكلفة الحسابية العالية التي ترتبط عادةً بمحولات الرؤية من خلال إدخال مشفر هجين فعال وتبسيط عملية اختيار الاستعلام.
التفاصيل التقنية الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة: بايدو
- التاريخ: 2023-04-17 (سياق إصدار الإصدار 1)
- روابط:ورقة بحثية على ArXiv | مستودع GitHub
يتميز RTDETRv2 بإلغاء الحاجة إلى Non-Maximum Suppression (NMS). على عكس شبكات CNN التي تولد آلاف المربعات المحددة الزائدة التي تتطلب تصفية ما بعد المعالجة، يتنبأ RTDETRv2 بمجموعة ثابتة من استعلامات الكائنات مباشرة. تقلل هذه القدرة الشاملة من تباين زمن الاستجابة، مما يجعلها جذابة للتطبيقات التي يكون فيها وقت الاستدلال المتسق أمرًا بالغ الأهمية.
ومع ذلك، فإن الاعتماد على آليات الانتباه يعني أن RTDETRv2 يمكن أن يكون كثيفًا في استخدام الذاكرة أثناء التدريب مقارنة بشبكات CNN النقية. وهو يتفوق في التقاط السياق العام — فهم العلاقة بين الأجزاء البعيدة من الصورة — مما يساعد في المشاهد المعقدة التي تحتوي على حجب شديد.
YOLOv7: قمة كفاءة الشبكات العصبية المتعمقة
صدر في منتصف عام 2022، YOLOv7 حدود ما يمكن أن تحققه البنى التلافيفية البحتة. وقد صُمم مع التركيز على "حقيبة الهدايا القابلة للتدريب" — وهي طرق تحسين تعمل على تحسين الدقة أثناء التدريب دون زيادة تكلفة الاستدلال.
التفاصيل التقنية الرئيسية:
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
- التاريخ: 2022-07-06
- روابط:ورقة بحثية على ArXiv | مستودع GitHub
الابتكار الأساسي في YOLOv7 شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). تسمح هذه البنية للشبكة بتعلم ميزات أكثر تنوعًا من خلال التحكم في أطوال مسارات التدرج بشكل فعال. على الرغم من أنه يوفر سرعة مذهلة على GPU YOLOv7 كاشف قائم على المراسي. وهذا يعني أنه يتطلب ضبطًا دقيقًا للمعلمات الفائقة لمربعات المراسي لتتناسب مع مقياس الكائنات المحددة في مجموعة بيانات مخصصة، وهي خطوة غالبًا ما يتم أتمتتها أو إزالتها في النماذج الأحدث مثل YOLO11.
نظرة معمارية متعمقة
الانتباه مقابل التداخل
يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للبيانات المرئية. YOLOv7 التلافيف، التي تقوم بمسح الصورة في النوافذ المحلية. وهذا يجعله سريعًا وفعالًا للغاية في اكتشاف الميزات المحلية مثل الحواف والأنسجة، ولكنه قد يكون أضعف في فهم العلاقات الدلالية للمشهد العام.
يستخدم RTDETRv2 آليات الانتباه الذاتي. فهو يحسب مدى صلة كل بكسل بجميع البكسلات الأخرى (أو ضمن نقاط انتباه قابلة للتشوه محددة). وهذا يسمح للنموذج بـ"الانتباه" إلى السمات ذات الصلة بغض النظر عن المسافة المكانية بينها، مما يوفر أداءً فائقًا في المشاهد المزدحمة حيث تتداخل الكائنات بشكل كبير.
المعالجة اللاحقة و NMS
YOLOv7 مثل سابقاتها YOLOv5 و YOLOv6، ينتج تنبؤات كثيفة يجب ترشيحها باستخدام NMS. هذه الخطوة هي عملية تجريبية يمكن أن تشكل عقبة في السيناريوهات المزدحمة وتدخل معلمات فائقة (IoU ) تؤثر على الدقة والاسترجاع.
RTDETRv2 NMS يحتاج NMS. فهو يستخدم المطابقة الثنائية أثناء التدريب لتعيين كائن حقيقي واحد إلى تنبؤ واحد بالضبط. وهذا يبسط عملية النشر، حيث لا توجد حاجة لتنفيذ NMS في ONNX أو TensorRT .
أفضل ما في العالمين
بينما كانت RTDETRv2 رائدة في الكشف NMS للمحولات في الوقت الفعلي، Ultralytics هذا المفهوم بنجاح إلى CNNs. يستخدم YOLO26 تصميمًا أصليًا شاملاً يلغي NMS الحفاظ على انخفاض استهلاك الذاكرة وكفاءة التدريب العالية لـ CNNs.
Ultralytics : لماذا الترقية إلى YOLO26؟
في حين أن تحليل النماذج القديمة يوفر سياقًا قيمًا، فإن بدء مشروع جديد باستخدام Ultralytics يوفر مزايا كبيرة في الأداء وسهولة الاستخدام ومواكبة المستقبل. يمثل YOLO26 أحدث ما توصلت إليه التكنولوجيا حاليًا، حيث يعمل على تحسين الدروس المستفادة من كل من YOLOv7 RTDETR.
1. متكامل أصيل من البداية إلى النهاية (خالٍ من NMS)
مثل RTDETRv2، تم تصميم YOLO26 ليكون NMS، حيث يستخدم رأس One-to-Many للتدريب ورأس One-to-One للاستدلال. وهذا يزيل عبء المعالجة اللاحقة الموجود في YOLOv7 مما يؤدي إلى نشر أسرع وأبسط على الأجهزة الطرفية مثل NVIDIA أو Raspberry Pi.
2. CPU فائق
غالبًا ما تكون المحولات مثل RTDETRv2 ثقيلة على العمليات الحسابية التي تتطلب GPU . يتضمن YOLO26 تحسينات محددة CPU مما يحقق سرعات أسرع بنسبة تصل إلى 43٪ علىGPU مقارنة بالإصدارات السابقة. وهذا يجعله أكثر تنوعًا بالنسبة للتطبيقات المحمولة أو أجهزة استشعار IoT منخفضة الطاقة.
3. استقرار التدريب المتقدم
يقدم YOLO26 محرك MuSGD Optimizer، وهو مزيج من SGD Muon (مستوحى من Kimi K2 من Moonshot AI). وهذا يجلب ابتكارات الاستقرار من تدريب نموذج اللغة الكبيرة (LLM) إلى الرؤية الحاسوبية، مما يضمن تقارب النماذج بشكل أسرع وبدقة أعلى من SGD القياسي SGD في YOLOv7.
4. وظائف الخسارة المتخصصة
بفضل ProgLoss و STAL، يوفر YOLO26 قدرات محسّنة للتعرف على الأجسام الصغيرة، وهي نقطة ضعف تقليدية لكل من شبكات CNN القياسية وبعض بنى المحولات. وهذا أمر بالغ الأهمية لمهام مثل تحليل الصور الجوية أو مراقبة الجودة في التصنيع.
5. Ultralytics الموحدة
غالبًا ما يتطلب التطوير باستخدام YOLOv7 RTDETRv2 إدارة مستودعات متباينة ونصوص برمجية معقدة للتثبيت. Ultralytics توحيد سير العمل. يمكنك تدريب النماذج والتحقق من صحتها ونشرها من أجل الكشف والتجزئة والتصنيف وتقدير الوضع و OBB باستخدام واجهة برمجة تطبيقات واحدة وبسيطة.
from ultralytics import YOLO
# Load the latest YOLO26 model (NMS-free, highly optimized)
model = YOLO("yolo26n.pt")
# Train on COCO dataset with the new MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
توصيات حالات الاستخدام
- اختر RTDETRv2 إذا: كان لديك وصول إلى وحدات معالجة رسومات قوية (مثل NVIDIA أو A100) وكان تطبيقك يتضمن مشاهد مزدحمة للغاية حيث يمثل الحجب نقطة فشل رئيسية لشبكات CNN. يمكن أن يوفر الانتباه إلى السياق العام ميزة طفيفة في هذه السيناريوهات المحددة.
- اختر YOLOv7 : كنت تقوم بصيانة أنظمة قديمة تعتمد بشكل خاص على تنسيقات YOLO القديمة أو إذا كنت بحاجة إلى نهج CNN خالص ولكن لا يمكنك الترقية إلى Python الأحدث التي تدعمها Ultralytics.
- اختر Ultralytics إذا: كنت بحاجة إلى أفضل توازن بين السرعة والدقة عبر جميع أنواع الأجهزة (CPU، GPU، NPU). إن إزالة DFL تجعل من السهل التصدير إلى CoreML أو TFLite كما أن كفاءة ذاكرته تسمح بالتدريب على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين. سواء كنت تقوم ببناء نظام إنذار أمني أو مدير مواقف ذكي، فإن الوثائق الشاملة والدعم النشط من المجتمع يجعله الخيار الأقل مخاطرة لنشره في المؤسسات.
الخلاصة
YOLOv7 كل من RTDETRv2 و YOLOv7 بشكل كبير في تقدم الرؤية الحاسوبية. أثبت RTDETRv2 أن المحولات يمكن أن تكون سريعة، بينما YOLOv7 القوة الدائمة لشبكات CNN المحسّنة جيدًا. ومع ذلك، فإن هذا المجال يتطور بسرعة.
بالنسبة للمطورين والباحثين اليوم، يجمع Ultralytics بين "أفضل ما في كلا النظامين" من خلال دمج سهولة المحولات NMS مع السرعة والكفاءة الخام لشبكات CNN. وبدعم من نظام بيئي قوي يبسط كل شيء بدءًا من تعليق البيانات إلى تصدير النماذج، يظل هذا النظام هو نقطة البداية الموصى بها لمشاريع الذكاء الاصطناعي الحديثة.