تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv7: استكشاف تطور الكشف عن الكائنات في الوقت الفعلي

توسع مجال الرؤية الحاسوبية بشكل كبير خلال السنوات القليلة الماضية، مدفوعًا بالابتكارات المستمرة في كل من الشبكات العصبية التلافيفية (CNN) ومحولات الرؤية (ViT). يتطلب اختيار البنية المناسبة لنشر التطبيق فهم التوازن الدقيق بين السرعة والدقة والتكلفة الحسابية. يستكشف هذا الدليل الاختلافات التقنية بين بنيتين تحظيان بتقدير كبير: RTDETRv2 و YOLOv7 مع تسليط الضوء على التطورات الحديثة المتوفرة في Ultralytics YOLO26 الأحدث.

RTDETRv2: نهج المحول للكشف في الوقت الحقيقي

يعتمد RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) على أساس سابقه لإثبات أن البنى القائمة على المحولات يمكنها التنافس بفعالية في سيناريوهات الوقت الحقيقي دون الاعتماد على خطوات المعالجة اللاحقة التقليدية.

المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة:Baidu التاريخ: 2024-07-24 Arxiv:https://arxiv.org/abs/2407.17140
GitHub:مستودع RTDETRv2

أبرز الملامح المعمارية

يستخدم RTDETRv2 مشفرًا هجينًا وبنية فك تشفير محول. من خلال الاستفادة من آليات الانتباه الذاتي، يعالج النموذج الصورة بأكملها بشكل شامل، مما يسمح له بفهم العلاقات المكانية المعقدة بشكل أفضل من النوى التلافيفية المحددة المكان بدقة. واحدة من أكثر ميزاته تميزًا هي تصميمه الأصلي NMS. من خلال القضاء على Non-Maximum Suppression (NMS)، يزيل RTDETRv2 أحد العوائق الشائعة التي تؤدي إلى تأخير متغير في الاستدلال أثناء النشر.

نقاط القوة والقيود

تكمن القوة الأساسية لـ RTDETRv2 في قدرتها على التعامل مع الكائنات الكثيفة والمتداخلة في المشاهد المعقدة. السياق الشامل الذي توفره طبقات الانتباه للمحول يجعلها عالية الدقة، لا سيما في السيناريوهات التي تتكرر فيها حالات الحجب.

ومع ذلك، فإن هذا يأتي بتكلفة حسابية. تتطلب نماذج المحولات عادةً مساحة ذاكرة أكبر أثناء التدريب والاستدلال مقارنةً بشبكات CNN. علاوة على ذلك، يتطلب RTDETRv2 عمومًا المزيد من العصور للتقارب أثناء التدريب الموزع، مما يؤدي إلى دورات تكرار أطول للمطورين الذين يقومون بضبط مجموعات البيانات المخصصة.

تعرف على المزيد حول RTDETRv2

YOLOv7: خط أساس CNN للسرعة

تم إصدار YOLOv7 قبل عام من إصدار RTDETRv2، YOLOv7 عدة تحسينات هيكلية على YOLO الكلاسيكي، مما شكل معيارًا قويًا لأجهزة الكشف في الوقت الفعلي القائمة على شبكات CNN في وقت نشرها.

المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
المنظمة:معهد علوم المعلومات، أكاديمية سينكا، تايوان
التاريخ: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:YOLOv7

أبرز الملامح المعمارية

تم بناء بنية YOLOv7 حول مفهوم شبكة تجميع الطبقات الفعالة الموسعة (E-ELAN). تعمل هذه الطريقة على تحسين مسار التدرج، مما يسمح للنموذج بالتعلم بشكل أكثر فعالية دون زيادة تعقيد الحسابات بشكل كبير. قدم المؤلفون أيضًا "trainable bag-of-freebies"، وهي مجموعة من الأساليب التي تعمل على تحسين دقة النموذج أثناء التدريب دون التأثير على سرعة الاستدلال على الأجهزة الطرفية.

نقاط القوة والقيود

YOLOv7 نموذجًا عالي الكفاءة لمهام الكشف عن الكائنات القياسية، حيث يوفر سرعات معالجة ممتازة على وحدات معالجة الرسومات (GPU) الاستهلاكية. ونظرًا لطبيعته كشبكة CNN، فإنه يتطلب عادةً CUDA أقل أثناء التدريب مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2.

على الرغم من هذه المزايا، YOLOv7 يعتمد على NMS . في البيئات ذات الكثافة العالية للتنبؤات، يمكن أن تتسبب NMS في تقلبات في وقت المعالجة، مما يجعل من الصعب ضمان الوقت الفعلي بشكل صارم. بالإضافة إلى ذلك، مقارنة بالأطر الحديثة، يمكن أن تكون عملية التعامل مع المهام المتنوعة مثل تقسيم الحالات وتقدير الوضع مجزأة.

تعرف على المزيد حول YOLOv7

مقارنة الأداء

يتطلب تقييم هذه النماذج النظر إلى التوازن الدقيق بين متوسط الدقة (mAP) وعدد المعلمات وسرعة الاستدلال.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

سياق الأداء

بينما يحقق RTDETRv2-x أعلى mAP فإنه يحمل أيضًا أكبر عدد من المعلمات وعمليات FLOP. توفر المتغيرات الأصغر مثل RTDETRv2-s سرعة تنافسية على TensorRT ولكن يجب على المستخدمين الذين يستهدفون بيئات منخفضة الطاقة بدون وحدات معالجة رسومات مخصصة تقييم قدرات CPU بعناية.

الحل الحديث: أدخل YOLO26

في حين YOLOv7 RTDETRv2 و YOLOv7 محوريين في توسيع حدود تطبيقات الرؤية الحاسوبية، فإن مجال الذكاء الاصطناعي يتطور بسرعة. تم إصداره في يناير 2026، يجمع YOLO26 أفضل جوانب كفاءة CNN والبنى الشبيهة بالمحولات NMS.

بالنسبة للمطورين والباحثين الذين يعملون على إنشاء أنظمة جديدة، توفر Ultralytics المتكاملة Python تجربة موحدة تقلل بشكل كبير من الديون التقنية.

الابتكارات الرئيسية في YOLO26

  • تصميم شامل NMS: YOLO26 هو نظام شامل بطبيعته، مما يلغي الحاجة إلى NMS من أجل نشر أسرع وأبسط. تم ابتكار هذا النهج الثوري لأول مرة في YOLOv10، مما يضمن استقرار زمن الاستجابة بغض النظر عن كثافة الكائنات.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن خصيصًا للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات معالجة رسومات، مما يجعله أكثر تنوعًا في الاستخدامات الميدانية مقارنةً بنماذج المحولات الثقيلة.
  • MuSGD Optimizer: مزيج من SGD Muon (مستوحى من Kimi K2 من Moonshot AI)، يجلب ابتكارات تدريب LLM إلى الرؤية الحاسوبية من أجل تدريب أكثر استقرارًا وتقاربًا أسرع.
  • إزالة DFL: تمت إزالة Distribution Focal Loss (فقدان بؤرة التوزيع)، مما أدى إلى تبسيط الرسم البياني الحسابي لتسهيل التصدير إلى وحدات NPU المدمجة و TensorRT .
  • ProgLoss + STAL: أدت وظائف الخسارة المحسّنة إلى تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية في مجال الروبوتات وإنترنت الأشياء وتحليل الصور الجوية.
  • تحسينات خاصة بالمهام: YOLO26 ليس مخصصًا للكشف فقط. فهو يتميز بنماذج أولية متعددة المقاييس للتجزئة، وتقدير احتمالية السجل المتبقي (RLE) لتتبع الوضع، وفقدان الزاوية المتخصص الذي يعالج مشكلات حدود الصندوق المحيط (OBB).

تجربة مطور مبسطة

الميزة الحقيقية لاختيار Ultralytics مثل YOLO26 (أو النموذج الشهير YOLO11) هي النظام البيئي الذي يتم صيانته جيدًا. يتطلب تدريب مجموعة بيانات مخصصة الحد الأدنى من الكود النمطي:

from ultralytics import YOLO

# Initialize the state-of-the-art YOLO26 model
model = YOLO("yolo26s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export seamlessly for edge deployment
model.export(format="onnx", dynamic=True)

تعرف على المزيد حول YOLO26

حالات الاستخدام والتطبيقات المثالية

يعتمد الاختيار بين هذه البنى بشكل كبير على الأجهزة المستهدفة والمتطلبات التشغيلية المحددة.

متى تفكر في RTDETRv2

RTDETRv2 فعال للغاية في بيئات المعالجة من جانب الخادم المزودة بوحدات معالجة رسومات قوية. آلية الانتباه الشاملة التي يتميز بها تجعله مناسبًا لفهم المشاهد المعقدة، مثل مراقبة الأحداث المزدحمة للغاية أو التصوير الطبي المتخصص حيث تتطلب الميزات المتداخلة تحليلًا سياقيًا عميقًا.

متى يجب التفكير في YOLOv7

غالبًا YOLOv7 الحفاظ على YOLOv7 في الأبحاث الأكاديمية القديمة كنموذج مقارنة أساسي. كما أنه موجود في عمليات النشر الصناعية القديمة حيث يتم ترميز خطوط الأنابيب الحالية بشكل ثابت PyTorch محددة ولا تتطلب مرونة المهام المتعددة للأطر الأحدث.

بالنسبة للبنية التحتية الحديثة للمدن الذكية والملاحة بالطائرات بدون طيار والتصنيع عالي السرعة، يوفر YOLO26 توازنًا لا مثيل له. متطلباته المنخفضة من الذاكرة تجعل ضبط المعلمات الفائقة والتدريب متاحين على الأجهزة الاستهلاكية، بينما يضمن استنتاجه NMS التنفيذ السريع على الأجهزة الطرفية المقيدة مثل Raspberry Pi أو NVIDIA .

استكشف المزيد من المقارنات

هل أنت مهتم بمعرفة كيفية مقارنة هذه النماذج مع البنى الأخرى؟ اطلع على أدلةنا التفصيلية حول YOLO11 RTDETR و YOLOv8 YOLOv7 لتجد النموذج المثالي لمشروع الرؤية الاصطناعية الخاص بك.


تعليقات