RTDETRv2 مقابل YOLOv8: مقارنة تقنية بين هياكل الرؤية في الوقت الحقيقي

يتغير مشهد الرؤية الحاسوبية باستمرار، وغالبًا ما يبرز ذلك من خلال التنافس المستمر بين الشبكات العصبية التلافيفية التقليدية (CNN) والبنى الأحدث القائمة على المحولات. في هذه المقارنة التقنية الشاملة، ندرس كيف يقارن RTDETRv2، وهو محول رؤية رائد، مع Ultralytics YOLOv8، أحد نماذج CNN الأكثر استخدامًا وتنوعًا في الصناعة. يوفر كلا النموذجين إمكانات قوية للمهندسين والباحثين، ولكن البنى الأساسية لكل منهما تؤدي إلى اختلافات واضحة في منهجيات التدريب وقيود النشر والأداء العام.

نظرة عامة على النموذج: RTDETRv2

يعتمد RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) على النجاح الأساسي لسابقه من خلال تحسين بنية محول الرؤية لسرعات الاستدلال في الوقت الحقيقي.

التفاصيل التقنية الرئيسية:

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
روابط:منشور ArXiv | مستودع GitHub

الهيكلة ونقاط القوة

في جوهره، يستفيد RTDETRv2 من بنية هجينة تجمع بين بنية أساسية لشبكة CNN وهيكل محول (transformer) للمشفر والمفكك. وهذا يمكّن النموذج من النظر إلى الصورة بأكملها سياقيًا، مما يجعله بارعًا بشكل استثنائي في التعامل مع المشاهد المعقدة ذات الكائنات المتداخلة. إحدى أبرز ميزاته هي تصميمه الأصلي الشامل (end-to-end)، متجاوزًا تمامًا معالجة ما بعد Non-Maximum Suppression (NMS). وهذا يقلل من التعقيد الخوارزمي خلال المراحل النهائية لخط أنابيب الكشف. علاوة على ذلك، تسمح قدراته على الكشف متعدد المقاييس بتحديد الهياكل الضخمة وعناصر الخلفية الصغيرة بفعالية.

نقاط الضعف

على الرغم من فهمها السياقي القوي، تتطلب البنى القائمة على المحولات مثل RTDETRv2 عبئًا حسابيًا هائلاً أثناء التدريب. فهي تتطلب كمية كبيرة من ذاكرة CUDA، مما يجعل تدريبها صعبًا على الأجهزة الاستهلاكية. بالإضافة إلى ذلك، غالبًا ما يتطلب إعداد مجموعة بيانات مخصصة وضبط المعلمات الفائقة للتدريب خبرة عميقة في المجال، حيث يفتقر النموذج إلى غلاف برمجي مصقول وسهل الاستخدام للمبتدئين. قد يكون النشر على الأجهزة الطرفية منخفضة الطاقة مثل أجهزة Raspberry Pi القديمة أمرًا صعبًا أيضًا بسبب آليات الانتباه الثقيلة.

تعرف على المزيد حول RTDETRv2

نظرة عامة على النموذج: YOLOv8

منذ إطلاقه، Ultralytics YOLOv8 أثبتت نفسها كمعيار صناعي لمهام الرؤية الحاسوبية على مستوى الإنتاج، مع إعطاء الأولوية لتجربة مطورين خالية من العيوب إلى جانب دقة من الدرجة الأولى.

التفاصيل التقنية الرئيسية:

المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
المؤسسة:Ultralytics
التاريخ: 10 يناير 2023
روابط:الوثائق الرسمية | مستودع GitHub

الهيكلة ونقاط القوة

YOLOv8 بنية CNN عالية التحسين وخالية من المراسي مع رأس منفصل، مما يحسن بشكل كبير من دقة تحديد موقع الكائنات وتصنيفها مقارنة بالأجيال السابقة. وتكمن قوته الأكبر في كفاءته المذهلة وتعدد استخداماته. تتطلب البنية ذاكرة أقل بكثير أثناء التدريب مقارنة بمحولات الرؤية، مما يسمح للممارسين بتشغيل أحجام دفعات أكبر على وحدات معالجة الرسومات القياسية. علاوة على ذلك، يوفر Ultralytics بيئة عمل سلسة لا مثيل لها. تتيح Python الموحدة ضبط المعلمات الفائقة والتدريب والتحقق والتصدير باستخدام بضع أسطر من التعليمات البرمجية.

نقاط الضعف

YOLOv8 على NMS التقليدي NMS مرحلة المعالجة اللاحقة. في حين أن Ultralytics يتعامل مع هذا الأمر بكفاءة، إلا أنه يسبب تقنيًا تأخيرًا طفيفًا في المعالجة اللاحقة مقارنة بالبنى الأصلية NMS.

تعرف على المزيد حول YOLOv8

مقارنة الأداء والمقاييس

عند مقارنة الأرقام الأولية، يتضح أن كلا النموذجين يعطي الأولوية لجوانب مختلفة من مسار النشر. فيما يلي تحليل للأداء جنبًا إلى جنب.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

تفسير المقاييس

بينما يحقق RTDETRv2-x ذروة mAP أعلى قليلاً mAP 54.3 مقارنة بـ 53.9 YOLOv8x فإن YOLOv8 تهيمن على سرعة الاستدلال وكفاءة المعلمات. على سبيل المثال، YOLOv8s بسرعة تقارب ضعف سرعة RTDETRv2-s على TensorRT مع احتياجه إلى ما يقرب من نصف المعلمات.

متطلبات الذاكرة وكفاءة التدريب

أحد العوامل الأكثر أهمية للمطورين المستقلين وفرق المؤسسات على حد سواء هو تكلفة التدريب. تتطلبYOLO Ultralytics YOLO CUDA أقل بكثير أثناء عملية التدريب مقارنة بهياكل المحولات. قد يتسبب نموذج RTDETRv2 القياسي في حدوث اختناق في GPU الاستهلاكية، في حين أن YOLOv8 بسرعة وموثوقية على أجهزة مثل NVIDIA 4070.

النظام البيئي وواجهة برمجة التطبيقات وسهولة الاستخدام

السمة المميزة الحقيقية لحلول الذكاء الاصطناعي الحديثة هي إطار عمل البرامج الداعم. يعمل Ultralytics على تبسيط العقبات الهندسية المعقدة. بفضل التطوير النشط والدعم القوي من المجتمع على منصات مثل Discord، YOLOv8 عدم توقف مشروعك بسبب سوء التوثيق.

علاوة على ذلك، YOLOv8 حدود الكشف القياسي عن الكائنات. فهو شبكة متعددة المهام حقيقية تدعم بشكل أصلي تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومربعات الحدود الموجهة (OBB). أما RTDETRv2 فلا يزال يركز بشكل كبير على الكشف فقط.

مثال برمجي: بساطة موحدة

باستخدامPython Ultralytics Python ، يمكنك تجربة كلتا عائلتي النماذج بسلاسة في بيئة موحدة.

from ultralytics import RTDETR, YOLO

# Load an RT-DETR model and a YOLOv8 model seamlessly
model_transformer = RTDETR("rtdetr-l.pt")
model_cnn = YOLO("yolov8l.pt")

# Predict on a sample image using the exact same API
results_transformer = model_transformer("https://ultralytics.com/images/bus.jpg")
results_cnn = model_cnn("https://ultralytics.com/images/bus.jpg")

# Export YOLOv8 to ONNX for rapid edge deployment
model_cnn.export(format="onnx")

بمجرد الانتهاء من التدريب، YOLOv8 التصدير بنقرة واحدة إلى ONNXو TensorRTو OpenVINO، مما يضمن استنتاجات عالية الإنتاجية عبر خلفيات أجهزة متنوعة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين RT-DETR وYOLOv8 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار RT-DETR

RT-DETR خيار قوي لـ:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار YOLOv8

YOLOv8 في الحالات التالية:

نشر متعدد المهام ومتعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا لـ الكشف، والتجزئة، والتصنيف، وتقدير الوضعيات ضمن بيئة Ultralytics.
أنظمة إنتاج راسخة: بيئات الإنتاج الحالية المبنية بالفعل على بنية YOLOv8 مع مسارات نشر مستقرة ومختبرة جيدًا.
دعم واسع للمجتمع والنظام البيئي: التطبيقات التي تستفيد من البرامج التعليمية الشاملة لـ YOLOv8، وعمليات التكامل مع الجهات الخارجية، وموارد المجتمع النشطة.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

التطلع إلى المستقبل: ميزة YOLO26

بينما YOLOv8 علامة فارقة أسطورية، YOLOv8 الرؤية الحاسوبية تتطور بسرعة مذهلة. بالنسبة للفرق التي تبحث عن أحدث ما توصلت إليه التكنولوجيا في عام 2026، يمثل Ultralytics التحول النموذجي التالي.

إذا كنت منجذبًا إلى تصميم RTDETRv2 NMS، فإن YOLO26 يدمج تصميمًا أصليًا NMS من البداية إلى النهاية، ويجمع بين بساطة المعالجة اللاحقة للمحولات والسرعة الفائقة لشبكات CNN. بالإضافة إلى ذلك، يستخدم YOLO26 مُحسِّن MuSGD الرائد، مما يوفر استقرارًا في التدريب على غرار LLM لنماذج الرؤية من أجل تقارب سريع للغاية. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة ذات الحواف/الطاقة المنخفضة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU . بالاقتران مع آليات ProgLoss + STAL المتقدمة للكشف الفائق عن الأجسام الصغيرة، يعد YOLO26 بالتأكيد مسار الترقية الموصى به على كل من YOLOv8 RTDETRv2.

لمزيد من القراءة حول النماذج البديلة، استكشف أدلةنا حول YOLO11 أو اقرأ التحليل التفصيلي لـ YOLOv10 YOLOv8 لترى كيف تطورت بنية NMS في YOLO .

RTDETRv2 مقابل YOLOv8: مقارنة تقنية بين هياكل الرؤية في الوقت الحقيقي

نظرة عامة على النموذج: RTDETRv2

الهيكلة ونقاط القوة

نقاط الضعف

نظرة عامة على النموذج: YOLOv8

الهيكلة ونقاط القوة

نقاط الضعف

مقارنة الأداء والمقاييس

متطلبات الذاكرة وكفاءة التدريب

النظام البيئي وواجهة برمجة التطبيقات وسهولة الاستخدام

مثال برمجي: بساطة موحدة

حالات الاستخدام والتوصيات

متى تختار RT-DETR

متى تختار YOLOv8

متى تختار Ultralytics YOLO26)

التطلع إلى المستقبل: ميزة YOLO26

تعليقات