Link to this sectionYOLOv7 مقابل RTDETRv2: مقارنة تقنية لاكتشاف الأجسام في الوقت الفعلي#
يستمر مشهد رؤية الحاسوب في التطور بسرعة، متأثراً بشكل كبير بالمنافسة بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs). تتعمق هذه المقارنة التقنية في بنيتين من العيار الثقيل: YOLOv7، وهو كاشف أجسام قائم على الشبكات العصبية التلافيفية ومُحسّن للغاية، وRTDETRv2، وهو محول اكتشاف متطور في الوقت الفعلي.
من خلال تحليل الاختلافات المعمارية، ومقاييس الأداء، وسيناريوهات النشر المثالية، يمكن للمطورين اتخاذ قرارات مستنيرة عند دمج نماذج ذكاء الرؤية الاصطناعي هذه في مسارات العمل الإنتاجية الخاصة بهم.
Link to this sectionYOLOv7: معمارية الشبكة العصبية التلافيفية (CNN) القائمة على مجموعة "الفوائد المجانية" (Bag-of-Freebies)#
قدم YOLOv7 العديد من التحسينات الهيكلية التي غيرت المفاهيم في عائلة YOLO التقليدية، مما دفع حدود اكتشاف الأجسام في الوقت الفعلي من خلال سلسلة من "مجموعة الفوائد المجانية القابلة للتدريب".
الخصائص الرئيسية:
المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7
Link to this sectionالمعمارية ونقاط القوة#
يعتمد YOLOv7 في نجاحه على معمارية شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). يسمح هذا التصميم الهيكلي للنموذج بتعلم ميزات أكثر تنوعاً دون تدمير مسار التدرج الأصلي. علاوة على ذلك، فهو يدمج التلافيف المُعاد تحديد معاملاتها (re-parameterized convolutions) المخطط لها، والتي تعمل على تحسين سرعة الاستدلال دون تقليل الدقة. يسمح نهج "مجموعة الفوائد المجانية القابلة للتدريب" الخاص به بتحقيق توازنات مثيرة للإعجاب بين السرعة والدقة، مما يجعله مناسباً جداً لمهام اكتشاف الأجسام في الوقت الفعلي على وحدات معالجة الرسومات (GPU) المخصصة للخوادم.
يتميز YOLOv7 أيضاً بتعدد استخدامات عالٍ. فإلى جانب اكتشاف الصناديق المحيطة القياسية، يوفر المستودع فروعاً لـ تقدير وضعية الجسم وتجزئة الحالات، مما يثبت قدرته على التكيف.
Link to this sectionالقيود#
مثل العديد من نماذج الشبكات العصبية التلافيفية (CNN) القديمة، يعتمد YOLOv7 على كبت الحد الأقصى غير (NMS) للمعالجة اللاحقة. يُدخل NMS تأخيراً متغيراً، خاصة في المشاهد المزدحمة، مما قد يعقد ضمانات الأداء الصارمة في الوقت الفعلي على أجهزة الحافة.
Link to this sectionRTDETRv2: تطوير محولات الوقت الفعلي#
يبني RTDETRv2 على إطار عمل RT-DETR الأصلي، مما يؤكد بشكل أكبر أن المحولات يمكنها منافسة بنيات YOLO في زمن انتقال الوقت الفعلي مع الحفاظ على دقة مكانية عالية.
الخصائص الرئيسية:
المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR
Link to this sectionالمعمارية ونقاط القوة#
يمثل RTDETRv2 خطوة مهمة للأمام بالنسبة لمحولات الرؤية. فهو يستفيد من عملية اختيار استعلام مرنة ومُشفر هجين فعال لمعالجة الميزات متعددة النطاقات بسرعة. ومن خلال تقديم "مجموعة فوائد مجانية" جديدة مصممة خصيصاً لمحولات الاكتشاف (DETRs)، فإنه يدفع الاستدلال المكاني إلى الحدود القصوى. ولأنه خالٍ من NMS بشكل أصلي، فإنه يوفر أوقات استدلال حتمية، وهي ميزة حاسمة لـ تطبيقات المدن الذكية والقيادة الذاتية الصارمة.
Link to this sectionالقيود#
على الرغم من تقدمه، يحمل RTDETRv2 الأعباء التقليدية للبنى القائمة على المحولات. فهو يتطلب ذاكرة CUDA أعلى بكثير أثناء التدريب والاستدلال مقارنة بـ CNNs. بالإضافة إلى ذلك، فإن أوقات تقارب التدريب الخاصة به أطول بشكل ملحوظ، مما يتطلب كميات هائلة من البيانات المشروحة عالية الجودة (مثل مجموعة بيانات COCO) وموارد حوسبة ثقيلة.
Link to this sectionمقارنة الأداء#
عند قياس أداء هذه النماذج، يجب أن ننظر إلى صورة شاملة تشمل الدقة، وسرعة الاستدلال الخام، والبصمة الحوسبية. فيما يلي جدول مقارنة مباشر.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ms) | السرعة T4 TensorRT10 (ms) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
بينما يدعي RTDETRv2-x تحقيق أعلى mAPval مطلقة بنسبة 54.3%، فإنه يتطلب 259 مليار FLOPs هائلة. في المقابل، توفر بنيات YOLOv7 خط أساس ممتاز ولكنها تعاني من أعباء NMS القديمة التي لا يتم التقاطها بالكامل في مقاييس زمن انتقال الشبكة البحتة.
Link to this sectionميزة Ultralytics: النظام البيئي والتطور#
بينما يقدم YOLOv7 و RTDETRv2 قدرات قوية، فإن نشرهما في بيئات الإنتاج غالباً ما يكشف عن احتكاكات لوجستية. وهنا يتفوق نظام Ultralytics البيئي. تم تصميم إطار عمل Ultralytics للتكامل السلس من البداية إلى النهاية، ويوفر للمطورين واجهة برمجة تطبيقات (API) موحدة تجرد التعقيدات النموذجية لمسارات عمل رؤية الحاسوب.
Link to this sectionتعدد استخدامات لا مثيل له وكفاءة في الذاكرة#
على عكس نماذج المحولات الصلبة التي تستهلك كميات هائلة من ذاكرة الوصول العشوائي للفيديو (VRAM)، تحافظ نماذج Ultralytics YOLO على كفاءة صارمة في الذاكرة. وهذا يتيح تدريب النموذج بسرعة على أجهزة يسهل الوصول إليها. يدعم النظام البيئي بشكل متأصل مهام رؤية حاسوبية متعددة من قاعدة بيانات واحدة، بما في ذلك تصنيف الصور واكتشاف الصندوق المحيط الموجه (OBB)، مما يوفر مرونة يفتقر إليها RTDETRv2 حالياً.
Link to this sectionنشر سلس#
يتطلب الانتقال من البحث إلى الإنتاج خيارات نشر قوية. تتعامل واجهة برمجة تطبيقات Ultralytics بشكل أصلي مع تصدير النموذج بضغطة زر واحدة إلى تنسيقات متوافقة مع معايير الصناعة. سواء كنت تستهدف ONNX للتوافق عبر الأنظمة الأساسية أو TensorRT للحصول على أقصى تسريع لوحدة معالجة الرسومات، فإن المسار مؤتمت بالكامل وموثوق.
Link to this sectionالترقية المطلقة: Ultralytics YOLO26#
بالنسبة للمطورين الذين يجادلون بين YOLOv7 و RTDETRv2، فإن المسار الأمثل للمضي قدماً هو في الواقع المعيار الجديد في ذكاء الرؤية الاصطناعي: Ultralytics YOLO26. تم إطلاق YOLO26 في يناير 2026، وهو يسد الفجوة بين سرعة الشبكات العصبية التلافيفية (CNNs) والاستدلال المتطور للمحولات، مع القضاء تماماً على نقاط ضعف كل منهما.
يقدم YOLO26 ابتكارات رائدة مصممة لكل من عمليات نشر الخوادم والحافة:
- تصميم بدون NMS من البداية إلى النهاية: تم ريادته لأول مرة في YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل أصلي. وهذا يضمن زمن انتقال حتمي لـ RTDETRv2 دون العبء الحوسبي المرهق للمحول.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجاً من SGD و Muon. وهذا يوفر استقراراً غير مسبوق في التدريب وأوقات تقارب أسرع بكثير مقارنة بتطبيقات AdamW القياسية التي تستخدمها ViTs.
- ProgLoss + STAL: تؤدي دوال الخسارة المتقدمة هذه إلى تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما ينافس مباشرة مزايا الميزات متعددة النطاقات لـ RTDETRv2، وهو أمر بالغ الأهمية لـ أتمتة الروبوتات.
- تحسين الحافة وإزالة DFL: من خلال إزالة Distribution Focal Loss (DFL)، يعمل YOLO26 على تبسيط رأس المخرجات، مما يؤدي إلى استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU)، مما يجعله أكثر قابلية للنشر على أجهزة الحافة من نماذج المحولات الثقيلة.
Link to this sectionمثال تدريبي مع Ultralytics#
تسمح بساطة واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics بتدريب نموذج YOLO26 المتطور ببضعة أسطر فقط من الكود:
from ultralytics import YOLO
# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")
# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")
# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)Link to this sectionحالات الاستخدام المثالية#
يعتمد اختيار البنية الصحيحة بشكل كبير على قيود النشر وتوافر الأجهزة:
متى تفكر في YOLOv7:
- مشاريع البحث القديمة حيث يعد YOLOv7 خط أساس راسخ.
- البيئات التي يتوفر فيها تسريع GPU الخام بكثرة ويكون تذبذب زمن انتقال NMS مقبولاً.
متى تفكر في RTDETRv2:
- عمليات نشر الخوادم المتطورة التي تتطلب أقصى mAP ممكن.
- السيناريوهات التي يكون فيها زمن استدلال حتمي (بدون NMS) مطلوباً بصرامة، بشرط توفر ذاكرة الوصول العشوائي للفيديو (VRAM) لدعم بنيتها الأساسية القائمة على المحولات.
متى تختار Ultralytics YOLO26:
- في كل الأوقات تقريباً. فهو يوفر الحتمية الخالية من NMS لـ RTDETRv2، ويتجاوز سرعة ودقة YOLOv7، ويستخدم ذاكرة VRAM أقل بكثير، وهو مدمج بالكامل في منصة Ultralytics لإدارة مجموعة البيانات والتدريب والنشر بسهولة.
هل أنت مهتم بكيفية تصنيف البنى الأخرى؟ استكشف تحليلاتنا العميقة للأجيال السابقة مثل YOLO11 وYOLOv8، أو تعلم كيفية الاستفادة من ضبط المعلمات الفائقة لتعظيم دقة مشروعك.