تخطي إلى المحتوى

RTDETRv2 مقابل YOLOv8: مقارنة تقنية بين هياكل الرؤية في الوقت الحقيقي

يتغير مشهد الرؤية الحاسوبية باستمرار، وغالبًا ما يبرز ذلك من خلال التنافس المستمر بين الشبكات العصبية التلافيفية التقليدية (CNN) والبنى الأحدث القائمة على المحولات. في هذه المقارنة التقنية الشاملة، ندرس كيف يقارن RTDETRv2، وهو محول رؤية رائد، مع Ultralytics YOLOv8، أحد نماذج CNN الأكثر استخدامًا وتنوعًا في الصناعة. يوفر كلا النموذجين إمكانات قوية للمهندسين والباحثين، ولكن البنى الأساسية لكل منهما تؤدي إلى اختلافات واضحة في منهجيات التدريب وقيود النشر والأداء العام.


نظرة عامة على النموذج: RTDETRv2

يعتمد RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) على النجاح الأساسي لسابقه من خلال تحسين بنية محول الرؤية لسرعات الاستدلال في الوقت الحقيقي.

التفاصيل التقنية الرئيسية:

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • روابط:منشور ArXiv | مستودع GitHub

الهيكلة ونقاط القوة

في جوهره، يستفيد RTDETRv2 من بنية هجينة تجمع بين العمود الفقري لشبكة CNN وهيكل التشفير والترميز المحول. وهذا يمكّن النموذج من النظر إلى الصورة بأكملها من الناحية السياقية، مما يجعله بارعًا بشكل استثنائي في التعامل مع المشاهد المعقدة التي تتداخل فيها الكائنات. ومن أبرز ميزاته تصميمه الأصلي الشامل، الذي يتجاوز تمامًا معالجة ما بعد الضغط غير الأقصى (NMS). وهذا يقلل من تعقيد الخوارزمية خلال المراحل النهائية من عملية الكشف. علاوة على ذلك، تتيح قدراته متعددة النطاقات في الكشف التعرف بفعالية على كل من الهياكل الضخمة والعناصر الصغيرة في الخلفية.

نقاط الضعف

على الرغم من فهمها القوي للسياق، تتطلب البنى القائمة على المحولات مثل RTDETRv2 عبئًا حسابيًا هائلاً أثناء التدريب. فهي تتطلب قدرًا كبيرًا من CUDA ، مما يجعل من الصعب تدريبها على أجهزة المستهلكين. بالإضافة إلى ذلك، غالبًا ما يتطلب إعداد مجموعة بيانات مخصصة وضبط معلمات التدريب المتقدمة خبرة عميقة في المجال، حيث يفتقر النموذج إلى غلاف برمجي مصقول للغاية وسهل الاستخدام للمبتدئين. قد يكون النشر على أجهزة حافة منخفضة الطاقة مثل أجهزة Raspberry Pi القديمة أمرًا صعبًا أيضًا بسبب آليات الانتباه المكثفة.

تعرف على المزيد حول RTDETRv2


نظرة عامة على النموذج: YOLOv8

منذ إطلاقه، Ultralytics YOLOv8 أثبتت نفسها كمعيار صناعي لمهام الرؤية الحاسوبية على مستوى الإنتاج، مع إعطاء الأولوية لتجربة مطورين خالية من العيوب إلى جانب دقة من الدرجة الأولى.

التفاصيل التقنية الرئيسية:

الهيكلة ونقاط القوة

YOLOv8 بنية CNN عالية التحسين وخالية من المراسي مع رأس منفصل، مما يحسن بشكل كبير من دقة تحديد موقع الكائنات وتصنيفها مقارنة بالأجيال السابقة. وتكمن قوته الأكبر في كفاءته المذهلة وتعدد استخداماته. تتطلب البنية ذاكرة أقل بكثير أثناء التدريب مقارنة بمحولات الرؤية، مما يسمح للممارسين بتشغيل أحجام دفعات أكبر على وحدات معالجة الرسومات القياسية. علاوة على ذلك، يوفر Ultralytics بيئة عمل سلسة لا مثيل لها. تتيح Python الموحدة ضبط المعلمات الفائقة والتدريب والتحقق والتصدير باستخدام بضع أسطر من التعليمات البرمجية.

نقاط الضعف

YOLOv8 على NMS التقليدي NMS مرحلة المعالجة اللاحقة. في حين أن Ultralytics يتعامل مع هذا الأمر بكفاءة، إلا أنه يسبب تقنيًا تأخيرًا طفيفًا في المعالجة اللاحقة مقارنة بالبنى الأصلية NMS.

تعرف على المزيد حول YOLOv8


مقارنة الأداء والمقاييس

عند مقارنة الأرقام الأولية، يتضح أن كلا النموذجين يعطي الأولوية لجوانب مختلفة من مسار النشر. فيما يلي تحليل للأداء جنبًا إلى جنب.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

تفسير المقاييس

بينما يحقق RTDETRv2-x ذروة mAP أعلى قليلاً mAP 54.3 مقارنة بـ 53.9 YOLOv8x فإن YOLOv8 تهيمن على سرعة الاستدلال وكفاءة المعلمات. على سبيل المثال، YOLOv8s بسرعة تقارب ضعف سرعة RTDETRv2-s على TensorRT مع احتياجه إلى ما يقرب من نصف المعلمات.

متطلبات الذاكرة وكفاءة التدريب

أحد العوامل الأكثر أهمية للمطورين المستقلين وفرق المؤسسات على حد سواء هو تكلفة التدريب. تتطلبYOLO Ultralytics YOLO CUDA أقل بكثير أثناء عملية التدريب مقارنة بهياكل المحولات. قد يتسبب نموذج RTDETRv2 القياسي في حدوث اختناق في GPU الاستهلاكية، في حين أن YOLOv8 بسرعة وموثوقية على أجهزة مثل NVIDIA 4070.

النظام البيئي وواجهة برمجة التطبيقات وسهولة الاستخدام

السمة المميزة الحقيقية لحلول الذكاء الاصطناعي الحديثة هي إطار عمل البرامج الداعم. يعمل Ultralytics على تبسيط العقبات الهندسية المعقدة. بفضل التطوير النشط والدعم القوي من المجتمع على منصات مثل Discord، YOLOv8 عدم توقف مشروعك بسبب سوء التوثيق.

علاوة على ذلك، YOLOv8 حدود الكشف القياسي عن الكائنات. فهو شبكة متعددة المهام حقيقية تدعم بشكل أصلي تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومربعات الحدود الموجهة (OBB). أما RTDETRv2 فلا يزال يركز بشكل كبير على الكشف فقط.

مثال على الكود: البساطة الموحدة

باستخدامPython Ultralytics Python ، يمكنك تجربة كلتا عائلتي النماذج بسلاسة في بيئة موحدة.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model and a YOLOv8 model seamlessly
model_transformer = RTDETR("rtdetr-l.pt")
model_cnn = YOLO("yolov8l.pt")

# Predict on a sample image using the exact same API
results_transformer = model_transformer("https://ultralytics.com/images/bus.jpg")
results_cnn = model_cnn("https://ultralytics.com/images/bus.jpg")

# Export YOLOv8 to ONNX for rapid edge deployment
model_cnn.export(format="onnx")

بمجرد الانتهاء من التدريب، YOLOv8 التصدير بنقرة واحدة إلى ONNXو TensorRTو OpenVINO، مما يضمن استنتاجات عالية الإنتاجية عبر خلفيات أجهزة متنوعة.

حالات الاستخدام والتوصيات

YOLOv8 الاختيار بين RT-DETR YOLOv8 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار RT-DETR

RT-DETR خيار قوي لـ:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
  • سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
  • كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.

متى تختار YOLOv8

YOLOv8 في الحالات التالية:

  • نشر متعدد المهام متعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا للكشف والتجزئة والتصنيف وتقدير الوضع داخل نظام Ultralytics .
  • أنظمة الإنتاج الراسخة: بيئات الإنتاج الحالية المبنية بالفعل على YOLOv8 مع خطوط إنتاج مستقرة ومختبرة جيدًا.
  • دعم واسع من المجتمع والنظام البيئي: تطبيقات تستفيد من البرامج التعليمية الشاملة YOLOv8OLOv8، وعمليات الدمج مع أطراف ثالثة، وموارد المجتمع النشطة.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

التطلع إلى المستقبل: ميزة YOLO26

بينما YOLOv8 علامة فارقة أسطورية، YOLOv8 الرؤية الحاسوبية تتطور بسرعة مذهلة. بالنسبة للفرق التي تبحث عن أحدث ما توصلت إليه التكنولوجيا في عام 2026، يمثل Ultralytics التحول النموذجي التالي.

إذا كنت منجذبًا إلى تصميم RTDETRv2 NMS، فإن YOLO26 يدمج تصميمًا أصليًا NMS من البداية إلى النهاية، ويجمع بين بساطة المعالجة اللاحقة للمحولات والسرعة الفائقة لشبكات CNN. بالإضافة إلى ذلك، يستخدم YOLO26 مُحسِّن MuSGD الرائد، مما يوفر استقرارًا في التدريب على غرار LLM لنماذج الرؤية من أجل تقارب سريع للغاية. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة ذات الحواف/الطاقة المنخفضة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU . بالاقتران مع آليات ProgLoss + STAL المتقدمة للكشف الفائق عن الأجسام الصغيرة، يعد YOLO26 بالتأكيد مسار الترقية الموصى به على كل من YOLOv8 RTDETRv2.

لمزيد من القراءة حول النماذج البديلة، استكشف أدلةنا حول YOLO11 أو اقرأ التحليل التفصيلي لـ YOLOv10 YOLOv8 لترى كيف تطورت بنية NMS في YOLO .


تعليقات