YOLOv7 مقابل RTDETRv2: مقارنة تقنية لاكتشاف الأجسام في الوقت الفعلي

يستمر مشهد الرؤية الحاسوبية في التطور بسرعة، متأثراً بشكل كبير بالمنافسة بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية (ViTs). تتعمق هذه المقارنة التقنية في بنيتين من العيار الثقيل: YOLOv7، وهو كاشف أجسام قائم على الشبكات العصبية التلافيفية ومُحسَّن للغاية، وRTDETRv2، وهو محول متطور لاكتشاف الأجسام في الوقت الفعلي.

من خلال تحليل اختلافاتهم المعمارية، ومقاييس الأداء، وسيناريوهات النشر المثالية، يمكن للمطورين اتخاذ قرارات مستنيرة عند دمج نماذج ذكاء الرؤية الاصطناعي هذه في خطوط إنتاجهم.

YOLOv7: بنية الشبكة العصبية التلافيفية القائمة على "حقيبة الهدايا" (Bag-of-Freebies)

قدمت YOLOv7 العديد من التحسينات الهيكلية التي غيرت المفاهيم في عائلة YOLO التقليدية، مما دفع حدود اكتشاف الأجسام في الوقت الفعلي من خلال سلسلة من "حقيبة الهدايا القابلة للتدريب".

الخصائص الرئيسية: المؤلفون: Chien-Yao Wang, Alexey Bochkovskiy, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
التاريخ: 2022-07-06
Arxiv: https://arxiv.org/abs/2207.02696
GitHub: WongKinYiu/yolov7

الهيكلية ونقاط القوة

تعتمد YOLOv7 على بنية شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). يتيح هذا التصميم الهيكلي للنموذج تعلم ميزات أكثر تنوعاً دون تدمير مسار التدرج الأصلي. علاوة على ذلك، فهي تدمج عمليات التلافيف المُعاد برمجتها والمخطط لها، والتي تعمل على تحسين سرعة الاستنتاج دون التأثير على الدقة. يسمح هيكل الرأس المنفصل الخاص بها بتحقيق مقايضات مذهلة بين السرعة والدقة، مما يجعلها مناسبة للغاية لمهام اكتشاف الأجسام في الوقت الفعلي على وحدات معالجة الرسوميات (GPUs) من فئة الخوادم.

تتميز YOLOv7 أيضاً بتعدد استخدامات عالٍ. فبخلاف اكتشاف الصناديق المحيطة القياسية، يوفر المستودع فروعاً لـ تقدير الوضعية وتجزئة الأجسام، مما يثبت قابليتها للتكيف.

القيود

مثل العديد من نماذج CNN القديمة، تعتمد YOLOv7 على كبت غير الأقصى (NMS) للمعالجة اللاحقة. يُدخل NMS زمن وصول متغيراً، خاصة في المشاهد المزدحمة، مما قد يعقد ضمانات الوقت الفعلي الصارمة على أجهزة الحافة (edge devices).

اعرف المزيد عن YOLOv7

RTDETRv2: تطوير محولات الوقت الفعلي

تعتمد RTDETRv2 على إطار عمل RT-DETR الأصلي، مما يؤكد بشكل أكبر أن المحولات يمكنها منافسة بنيات YOLO في زمن الوصول في الوقت الفعلي مع الاحتفاظ بدقة مكانية عالية.

الخصائص الرئيسية: المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

الهيكلية ونقاط القوة

تمثل RTDETRv2 خطوة كبيرة إلى الأمام بالنسبة لمحولات الرؤية (Vision Transformers). فهي تستفيد من عملية اختيار استعلام مرنة ومُشفِّر هجين فعال لمعالجة الميزات متعددة المقاييس بسرعة. من خلال تقديم "حقيبة هدايا" جديدة مصممة خصيصاً لمحولات الاكتشاف (DETRs)، فإنها تدفع التفكير المكاني إلى الحدود القصوى. ولأنها خالية من NMS بشكل أصلي، فهي توفر أوقات استنتاج حتمية، وهي ميزة حاسمة لـ تطبيقات المدن الذكية الصارمة والقيادة الذاتية.

القيود

على الرغم من تقدمها، تحمل RTDETRv2 الأعباء التقليدية للبنيات القائمة على المحولات. فهي تتطلب ذاكرة CUDA أعلى بكثير أثناء التدريب والاستنتاج مقارنة بـ CNNs. بالإضافة إلى ذلك، فإن أوقات تقارب التدريب الخاصة بها أطول بشكل ملحوظ، مما يتطلب كميات هائلة من البيانات المشروحة عالية الجودة (مثل مجموعة بيانات COCO) وموارد حوسبة ثقيلة.

اعرف المزيد عن RTDETRv2

مقارنة الأداء

عند تقييم هذه النماذج، يجب أن ننظر إلى صورة شاملة تشمل الدقة، وسرعة الاستنتاج الخام، والبصمة الحسابية. يوجد أدناه جدول مقارنة مباشر.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
تفسير المعايير

بينما تدعي RTDETRv2-x أنها تمتلك أعلى mAPval مطلق عند 54.3%، فإنها تتطلب 259 مليار عملية فاصلة عائمة (FLOPs). في المقابل، توفر بنيات YOLOv7 خط أساس ممتازاً ولكنها تعاني من عبء NMS القديم الذي لا يتم التقاطه بالكامل في مقاييس زمن وصول الشبكة الصرف.

ميزة Ultralytics: النظام البيئي والتطور

بينما توفر YOLOv7 و RTDETRv2 قدرات قوية، فإن نشرها في بيئات الإنتاج غالباً ما يكشف عن احتكاكات لوجستية. وهنا يتفوق نظام Ultralytics البيئي. تم تصميم إطار عمل Ultralytics للتكامل السلس من البداية إلى النهاية، ويوفر للمطورين واجهة برمجة تطبيقات (API) موحدة تُجرِّد التعقيدات المعتادة لخطوط أنابيب الرؤية الحاسوبية.

تنوع لا مثيل له وكفاءة في الذاكرة

على عكس نماذج المحولات الصلبة التي تستهلك كميات هائلة من ذاكرة الوصول العشوائي للفيديو (VRAM)، تحافظ نماذج Ultralytics YOLO على كفاءة صارمة في الذاكرة. وهذا يتيح تدريب النماذج السريع على الأجهزة المتاحة. يدعم النظام البيئي بشكل أصلي مهام رؤية حاسوبية متعددة من قاعدة تعليمات برمجية واحدة، بما في ذلك تصنيف الصور واكتشاف الصندوق المحيط الموجه (OBB)، مما يوفر مرونة تفتقر إليها RTDETRv2 حالياً.

نشر سلس

يتطلب الانتقال من البحث إلى الإنتاج خيارات نشر قوية. تتعامل واجهة برمجة تطبيقات Ultralytics بشكل أصلي مع تصدير النموذج بنقرة واحدة إلى التنسيقات القياسية الصناعية. سواء كنت تستهدف ONNX لتوافق الأنظمة الأساسية المتعددة أو TensorRT للحصول على أقصى تسريع لوحدة معالجة الرسوميات، فإن خط الأنابيب مؤتمت بالكامل وموثوق.

الترقية النهائية: Ultralytics YOLO26

بالنسبة للمطورين الذين يتجادلون بين YOLOv7 و RTDETRv2، فإن المسار الأمثل للمضي قدماً هو في الواقع المعيار الجديد في ذكاء الرؤية الاصطناعي: Ultralytics YOLO26. تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة بين سرعة الشبكات العصبية التلافيفية والتفكير المتطور للمحولات، مع القضاء تماماً على نقاط ضعف كل منهما.

اعرف المزيد عن YOLO26

يقدم YOLO26 ابتكارات رائدة مصممة لكل من عمليات نشر الخوادم والحافة:

  • تصميم بدون NMS من البداية إلى النهاية: تم ريادته لأول مرة في YOLOv10، ويقضي YOLO26 بشكل أصلي على معالجة NMS اللاحقة. وهذا يضمن زمن الوصول الحتمي لـ RTDETRv2 دون العبء الحسابي المرهق للمحول.
  • مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 هجيناً من SGD و Muon. وهذا يوفر استقراراً غير مسبوق في التدريب وأوقات تقارب أسرع بكثير مقارنة بتطبيقات AdamW القياسية المستخدمة من قبل نماذج ViTs.
  • ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يتنافس مباشرة مع مزايا الميزات متعددة المقاييس لـ RTDETRv2، وهو أمر بالغ الأهمية لـ الأتمتة الروبوتية.
  • تحسين الحافة وإزالة DFL: من خلال إزالة خسارة التركيز التوزيعي (DFL)، يعمل YOLO26 على تبسيط رأس الإخراج، مما يؤدي إلى استنتاج CPU أسرع بنسبة تصل إلى 43%، مما يجعله قابلاً للنشر على أجهزة الحافة بشكل لا نهائي أكثر من نماذج المحولات الثقيلة.

مثال تدريب مع Ultralytics

تسمح بساطة واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics لك بتدريب نموذج YOLO26 المتطور ببضعة أسطر فقط من التعليمات البرمجية:

from ultralytics import YOLO

# Load the highly efficient YOLO26 small model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
# The framework automatically manages data augmentation and hyperparameter tuning
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="0")

# Effortlessly export to TensorRT for deployment
model.export(format="engine", dynamic=True)

حالات الاستخدام المثالية

يعتمد اختيار البنية الصحيحة بشكل كبير على قيود النشر وتوافر الأجهزة:

متى تفكر في YOLOv7:

  • المشاريع البحثية القديمة حيث تعد YOLOv7 خط أساس راسخاً.
  • البيئات التي يكون فيها تسريع وحدة معالجة الرسوميات الخام وفيراً ويكون اضطراب زمن وصول NMS مقبولاً.

متى يجب التفكير في RTDETRv2:

  • عمليات نشر الخوادم المتطورة التي تتطلب أقصى حد من mAP.
  • السيناريوهات التي يكون فيها زمن استنتاج حتمي (خالٍ من NMS) مطلوباً بصرامة، بشرط توفر ذاكرة VRAM لدعم بنيتها التحتية للمحول.

متى يجب اختيار Ultralytics YOLO26:

  • تقريباً في كل الأوقات. فهو يوفر حتمية RTDETRv2 الخالية من NMS، ويتجاوز سرعة ودقة YOLOv7، ويستخدم ذاكرة VRAM أقل بكثير، وهو مدمج بالكامل في منصة Ultralytics لإدارة مجموعات البيانات والتدريب والنشر بسهولة.
استكشف المزيد من النماذج

هل أنت مهتم بمعرفة كيف تتراكم البنيات الأخرى؟ استكشف تعمقنا في الأجيال السابقة مثل YOLO11 وYOLOv8، أو تعلم كيفية الاستفادة من ضبط المعلمات الفائقة لزيادة دقة مشروعك إلى أقصى حد.

التعليقات