YOLOv7 RTDETRv2: مقارنة تقنية لاكتشاف الكائنات في الوقت الفعلي
يستمر مجال الرؤية الحاسوبية في التطور بسرعة، متأثراً بشكل كبير بالمنافسة بين الشبكات العصبية التلافيفية (CNN) ومحولات الرؤية (ViT). تتعمق هذه المقارنة التقنية في بنتيْن معماريتيْن ثقيلتيْن: YOLOv7، وهو كاشف كائنات عالي التحسين يعتمد على الشبكات العصبية التلافيفية، و RTDETRv2، وهو محول كشف في الوقت الفعلي متطور.
من خلال تحليل الاختلافات المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية، يمكن للمطورين اتخاذ قرارات مستنيرة عند دمج نماذج الذكاء الاصطناعي البصري هذه في خطوط الإنتاج الخاصة بهم.
YOLOv7: بنية CNN ذات الحقيبة المجانية
YOLOv7 العديد من التحسينات الهيكلية التي أحدثت تغييرًا جذريًا في YOLO التقليدية، مما دفع حدود الكشف عن الكائنات في الوقت الفعلي إلى أقصى حدودها من خلال سلسلة من "الحزم القابلة للتدريب".
الخصائص الرئيسية:
المؤلفون: Chien-Yao Wang، Alexey Bochkovskiy، Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7
الهيكلة ونقاط القوة
YOLOv7 بهيكلية شبكة التجميع الفعالة الموسعة (E-ELAN). يتيح هذا التصميم الهيكلي للنموذج تعلم ميزات أكثر تنوعًا دون إتلاف مسار التدرج الأصلي. علاوة على ذلك، فإنه يشتمل على تلافيف معاد تخطيطها، والتي تعمل على تحسين سرعة الاستدلال دون الإضرار بالدقة. تسمح له بنية الرأس المنفصلة بتحقيق توازن رائع بين السرعة والدقة، مما يجعله مناسبًا للغاية لمهام الكشف عن الكائنات في الوقت الفعلي على وحدات معالجة الرسومات (GPU) من فئة الخوادم.
YOLOv7 متعدد الاستخدامات أيضًا. بالإضافة إلى الكشف القياسي عن الصناديق المحيطة، يوفر المستودع فروعًا لتقدير الوضع وتجزئة الحالات، مما يدل على قابليته للتكيف.
القيود
مثل العديد من نماذج CNN القديمة، YOLOv7 على تقنية Non-Maximum Suppression (NMS) للمعالجة اللاحقة. NMS زمن انتقال متغير، خاصة في المشاهد المزدحمة، مما قد يعقد ضمانات الوقت الفعلي الصارمة على الأجهزة الطرفية.
RTDETRv2: تطوير المحولات في الوقت الحقيقي
يعتمد RTDETRv2 على RT-DETR الأصلي، مما يؤكد أن المحولات يمكنها منافسة YOLO في زمن الاستجابة الفوري مع الحفاظ على دقة مكانية عالية.
الخصائص الرئيسية:
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: RT-DETR
الهيكلة ونقاط القوة
يمثل RTDETRv2 خطوة مهمة إلى الأمام بالنسبة لمحولات الرؤية. فهو يستفيد من عملية اختيار استعلام مرنة ومشفّر هجين فعال لمعالجة الميزات متعددة النطاقات بسرعة. من خلال تقديم "حقيبة الهدايا" الجديدة المصممة خصيصًا لمحولات الكشف (DETRs)، فإنه يدفع التفكير المكاني إلى أقصى حدوده. نظرًا لأنه NMS بشكل أساسي، فإنه يوفر أوقات استدلال حتمية، وهي ميزة مهمة لتطبيقات المدن الذكية الصارمة والقيادة الذاتية.
القيود
على الرغم من التقدم الذي أحرزته، فإن RTDETRv2 تحمل الأعباء التقليدية للبنى القائمة على المحولات. فهي تتطلب CUDA أعلى بكثير أثناء التدريب والاستدلال مقارنة بشبكات CNN. بالإضافة إلى ذلك، فإن أوقات تقارب التدريب أطول بشكل ملحوظ، مما يتطلب كميات هائلة من البيانات المُعلّقة عالية الجودة (مثل COCO ) وموارد حاسوبية ضخمة.
مقارنة الأداء
عند مقارنة هذه النماذج، يجب أن ننظر إلى الصورة الشاملة التي تشمل الدقة وسرعة الاستدلال الأولية والبصمة الحسابية. فيما يلي جدول مقارنة مباشر.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تفسير المعايير
بينما يدعي RTDETRv2-x أنه يحقق أعلىقيمة mAPval مطلقة بنسبة 54.3٪، إلا أنه يتطلب 259 مليار FLOPs ضخمة. على العكس من ذلك، توفر YOLOv7 أساسًا ممتازًا ولكنها تعاني من NMS القديم الذي لا يتم التقاطه بالكامل في مقاييس زمن انتقال الشبكة الخالصة.
Ultralytics : النظام البيئي والتطور
في حين أن YOLOv7 RTDETRv2 يوفران إمكانات قوية، فإن نشرهما في بيئات الإنتاج غالبًا ما يكشف عن احتكاكات لوجستية. وهنا تكمن ميزة Ultralytics . صُمم Ultralytics للتكامل السلس من البداية إلى النهاية، ويوفر للمطورين واجهة برمجة تطبيقات موحدة تزيل التعقيدات النموذجية لخطوط أنابيب الرؤية الحاسوبية.
تنوع لا مثيل له وكفاءة في استخدام الذاكرة
على عكس نماذج المحولات الصلبة التي تستهلك كميات هائلة من ذاكرة VRAM، تحافظYOLO Ultralytics YOLO على كفاءة ذاكرة صارمة. وهذا يتيح تدريب النماذج بسرعة على الأجهزة المتاحة. يدعم النظام البيئي بطبيعته مهام رؤية حاسوبية متعددة من قاعدة برمجية واحدة، بما في ذلك تصنيف الصور واكتشاف المربعات المحددة (OBB)، مما يوفر مرونة تفتقر إليها RTDETRv2 حاليًا.
نشر سلس
الانتقال من البحث إلى الإنتاج يتطلب خيارات نشر قوية. تتعامل Ultralytics بشكل أساسي مع تصدير النماذج بنقرة واحدة إلى تنسيقات قياسية في الصناعة. سواء كنت تستهدف ONNX لتحقيق التوافق بين الأنظمة الأساسية أو TensorRT لتحقيق أقصى قدر من GPU ، فإن خط الإنتاج مؤتمت بالكامل وموثوق.
التحديث النهائي: Ultralytics
بالنسبة للمطورين الذين يترددون بين YOLOv7 RTDETRv2، فإن المسار الأمثل للمضي قدماً هو في الواقع المعيار الجديد في مجال الذكاء الاصطناعي البصري: Ultralytics . تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة بين سرعة شبكات CNNs والتفكير المعقد للمحولات، مع القضاء تماماً على نقاط الضعف الخاصة بكل منهما.
يقدم YOLO26 ابتكارات ثورية مصممة خصيصًا لنشر الخوادم والحواف:
- تصميم شامل NMS: تم تطويره لأول مرة في YOLOv10، يزيل YOLO26 بشكل أساسي NMS . وهذا يضمن زمن انتقال حتمي لـ RTDETRv2 دون الحاجة إلى الحمل الحسابي المرهق للمحول.
- MuSGD Optimizer: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD Muon. يوفر هذا استقرارًا غير مسبوق في التدريب وأوقات تقارب أسرع بكثير مقارنة AdamW القياسية المستخدمة من قبل ViTs.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وتنافس بشكل مباشر مزايا الميزات متعددة المقاييس لـ RTDETRv2، وهو أمر بالغ الأهمية للأتمتة الروبوتية.
- تحسين الحافة وإزالة DFL: من خلال إزالة Distribution Focal Loss (DFL)، يعمل YOLO26 على تبسيط رأس الإخراج، مما يؤدي إلى زيادة سرعة CPU بنسبةتصل إلى 43٪، مما يجعله أكثر قابلية للتطبيق على الأجهزة الطرفية مقارنة بنماذج المحولات الثقيلة.
مثال تدريبي باستخدام Ultralytics
تتيح لك بساطةPython Ultralytics Python تدريب نموذج YOLO26 المتطور باستخدام بضع أسطر من التعليمات البرمجية فقط:
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)
حالات الاستخدام المثالية
يعتمد اختيار البنية المناسبة بشكل كبير على قيود النشر وتوافر الأجهزة:
متى يجب التفكير في استخدام YOLOv7:
- مشاريع بحثية قديمة حيث YOLOv7 أساسًا راسخًا.
- البيئات التي تتوفر فيها GPU الخام بكثرة وتكون فيها تقلبات NMS مقبولة.
متى يجب التفكير في استخدام RTDETRv2:
- عمليات نشر خوادم متطورة تتطلب أقصى قدر من mAP.
- السيناريوهات التي تتطلب بشكل صارم زمن انتقال استدلال حتمي (NMS)، بشرط أن يكون لديك VRAM لدعم شبكة المحولات الأساسية الخاصة به.
متى تختار Ultralytics :
- في معظم الأحيان. يوفر الحتمية NMS لـ RTDETRv2، ويتفوق على سرعة ودقة YOLOv7 ويستخدم ذاكرة VRAM أقل بكثير، وهو مدمج بالكامل في Ultralytics لإدارة مجموعات البيانات والتدريب والنشر بسهولة.
اكتشف المزيد من الموديلات
هل أنت مهتم بمعرفة كيفية مقارنة البنى الأخرى؟ استكشف تحليلاتنا المتعمقة للأجيال السابقة مثل YOLO11 و YOLOv8، أو تعرف على كيفية الاستفادة من ضبط المعلمات الفائقة لتحقيق أقصى دقة لمشروعك.