YOLOv8 مقابل RTDETRv2: مقارنة تقنية متعمقة

يشهد مجال الرؤية الحاسوبية تطوراً مستمراً، حيث تدفع البنيات الجديدة حدود ما هو ممكن في الكشف عن الأجسام في الوقت الفعلي. ومن بين النماذج البارزة التي حظيت باهتمام كبير Ultralytics YOLOv8 ونموذج RTDETRv2 من Baidu. يقدم هذا الدليل مقارنة تقنية شاملة بين هذين النموذجين القويين، مستكشفاً بنيتيهما، ومقاييس أدائهما، وسيناريوهات النشر المثالية لكل منهما.

نظرة عامة على YOLOv8

يمثل Ultralytics YOLOv8 علامة فارقة في عائلة نماذج YOLO (You Only Look Once). وهو يبني على سنوات من البحث التأسيسي لتقديم سرعة استثنائية، ودقة عالية، وسهولة في الاستخدام لمجموعة واسعة من المهام.

الخصائص الرئيسية:

الهيكلية ونقاط القوة

يقدم YOLOv8 بنية انسيابية تعمل على تحسين استخراج الميزات وانحدار مربعات الإحاطة (BBox). إنه كاشف خالٍ من المراسي (anchor-free)، مما يبسط رأس التنبؤ ويقلل من عدد تعديلات المعلمات الفائقة المطلوبة أثناء التدريب. تضمن هذه البنية توازناً رائعاً في الأداء بين سرعة الاستدلال ومتوسط دقة الكشف (mAP)، مما يجعله مناسباً للغاية للنشر في العالم الحقيقي على كل من أجهزة الحافة وخوادم السحابة.

علاوة على ذلك، يتطلب YOLOv8 متطلبات ذاكرة أقل بكثير أثناء التدريب مقارنة بالبنيات القائمة على Transformer. وهذا يسمح للمطورين بتدريب النماذج على وحدات معالجة الرسومات (GPU) الاستهلاكية القياسية دون مواجهة أخطاء نفاد الذاكرة.

تعدد الاستخدامات

إحدى نقاط القوة المحددة لـ YOLOv8 هي تعدد استخداماته الأصلي. فبينما تركز العديد من النماذج فقط على مربعات الإحاطة، يوفر YOLOv8 دعماً جاهزاً لـ كشف الأجسام، وتجزئة المثيلات، وتصنيف الصور، وتقدير الوضعية، وكشف مربع الإحاطة الموجه (OBB).

اعرف المزيد عن YOLOv8

نظرة عامة على RTDETRv2

يعتمد RTDETRv2 (Real-Time Detection Transformer version 2) على نموذج RT-DETR الأصلي، ويهدف إلى جلب آليات الانتباه القوية في Vision Transformers إلى تطبيقات كشف الأجسام في الوقت الفعلي.

الخصائص الرئيسية:

الهيكلية ونقاط القوة

يستفيد RTDETRv2 من بنية هجينة تجمع بين العمود الفقري للشبكة العصبية التلافيفية (CNN) وبنية ترميز-فك ترميز Transformer. وهذا يسمح للنموذج بالتقاط علاقات مكانية معقدة وسياق عالمي من خلال آليات الانتباه الذاتي. وباستخدام مجموعة من استراتيجيات التدريب "bag-of-freebies"، يحقق RTDETRv2 درجات mAP تنافسية على مجموعات بيانات قياسية مثل مجموعة بيانات COCO.

نقاط الضعف

على الرغم من دقته العالية، فإن الطبيعة القائمة على Transformer في RTDETRv2 تقدم استهلاكاً أعلى للذاكرة وأوقات تدريب أبطأ مقارنة ببنيات CNN الصرفة. تتطلب محولات Transformer بطبيعتها المزيد من ذاكرة الفيديو (VRAM)، مما يجعل تدريبها صعباً على الأجهزة ذات الموارد المحدودة. بالإضافة إلى ذلك، بينما يتمتع RTDETRv2 بقوة في الكشف، فإنه يفتقر إلى تعدد المهام (مثل تقدير الوضعية والتجزئة) المتأصل في نظام Ultralytics البيئي.

اعرف المزيد عن RTDETRv2

مقارنة الأداء

عند تقييم النماذج للإنتاج، تعد المفاضلة بين حجم النموذج، وسرعة الاستدلال، والدقة أمراً بالغ الأهمية. يوفر الجدول أدناه مقارنة مباشرة بين متغيرات YOLOv8 و RTDETRv2.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
الأجهزة والمقاييس

تم قياس السرعات باستخدام مثيل Amazon EC2 P4d. استفاد استدلال وحدة المعالجة المركزية (CPU) من ONNX، بينما تم اختبار سرعات وحدة معالجة الرسومات (GPU) باستخدام TensorRT.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv8 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv8

يعد YOLOv8 خياراً قوياً لـ:

  • نشر متعدد المهام متعدد الاستخدامات: المشاريع التي تتطلب نموذجاً ثابتاً لـ الاكتشاف و التجزئة و التصنيف و تقدير الوضع داخل نظام Ultralytics البيئي.
  • أنظمة الإنتاج القائمة: بيئات الإنتاج الحالية التي تم بناؤها بالفعل على بنية YOLOv8 مع خطوط أنابيب نشر مستقرة ومختبرة جيداً.
  • دعم المجتمع والنظام البيئي الواسع: التطبيقات التي تستفيد من دروس YOLOv8 الشاملة وعمليات تكامل الطرف الثالث وموارد المجتمع النشطة.

متى تختار RT-DETR

يُوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics

يتجاوز اختيار النموذج المقاييس الخام؛ فبيئة البرمجيات المحيطة ضرورية لإنتاجية المطورين. يُعرف نظام Ultralytics البيئي بسهولة استخدامه، حيث يوفر واجهة برمجة تطبيقات (API) موحدة بلغة Python تبسط دورة حياة التعلم الآلي بأكملها.

بدءاً من إدارة مجموعات البيانات وصولاً إلى التدريب الموزع، يقوم Ultralytics بتجريد الكود المصدري المعقد والمتكرر. يستفيد المطورون من الأوزان المدربة مسبقاً والمتاحة بسهولة والتكامل السلس مع منصات مثل Hugging Face وأدوات المراقبة. يضمن هذا النظام البيئي المُدار جيداً تطويراً نشطاً، وتحديثات متكررة، ودعماً قوياً من المجتمع.

علاوة على ذلك، تعد كفاءة التدريب سمة مميزة لنماذج Ultralytics YOLO. فهي محسنة للغاية من أجل التقارب السريع وبصمات ذاكرة أقل أثناء عملية التدريب، مما يسرع بشكل كبير دورات التجريب مقارنة بالكواشف القائمة على Transformer مثل RTDETRv2.

نظرة مستقبلية: قوة YOLO26

بينما يظل YOLOv8 قوة رائدة، يجب على المطورين الذين يتطلعون إلى أحدث التقنيات التفكير في الترقية إلى YOLO26 المرتقب بشدة، والذي تم إصداره في يناير 2026. يعيد YOLO26 تعريف حالة الفن بالعديد من الابتكارات الرائدة:

  • تصميم من طرف إلى طرف بدون NMS: يلغي YOLO26 معالجة ما بعد الكشف بقمع غير الأعظم (NMS)، مما يؤدي إلى سير عمل نشر أسرع وأكثر حتمية.
  • إزالة DFL: تعمل إزالة Distribution Focal Loss على تبسيط النموذج لتعزيز التوافق مع أجهزة الحافة والأجهزة منخفضة الطاقة.
  • محسن MuSGD: من خلال دمج ابتكارات تدريب LLM، يضمن محسن MuSGD عمليات تدريب أكثر استقراراً وتقارباً أسرع.
  • سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: محسّن بشكل كبير للبيئات التي تفتقر إلى وحدات معالجة الرسومات المخصصة.
  • ProgLoss + STAL: تحقق وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية للتصوير الجوي والروبوتات.

البدائل الحديثة الأخرى التي تستحق الاستكشاف ضمن مجموعة Ultralytics تشمل YOLO11، الذي يقدم أداءً قوياً للمشاريع القديمة، على الرغم من التوصية باستخدام YOLO26 لجميع عمليات النشر الجديدة.

مثال برمجي: التدريب والاستنتاج

تعني بساطة واجهة برمجة تطبيقات Ultralytics أنه يمكنك تحميل النماذج وتدريبها ونشرها في بضعة أسطر فقط من كود Python. تأكد من تثبيت PyTorch قبل تشغيل المثال التالي.

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")
جاهز للنشر

يدعم Ultralytics التصدير بنقرة واحدة إلى تنسيقات عديدة، بما في ذلك ONNX، وTensorRT، وCoreML، مما يبسط خيارات نشر النماذج عبر بنيات الأجهزة المختلفة.

خاتمة

يوفر كل من YOLOv8 و RTDETRv2 قدرات مقنعة للكشف عن الأجسام في الوقت الفعلي. يوضح RTDETRv2 قوة المحولات في التقاط السياق العالمي، مما يجعله مناسباً لمهام الاستدلال المكاني المعقدة حيث لا تكون سرعة الاستدلال وعبء الذاكرة هي القيود الأساسية.

ومع ذلك، بالنسبة للمطورين الذين يعطون الأولوية لتوازن استثنائي بين السرعة والدقة وكفاءة الموارد، تظل نماذج Ultralytics YOLO هي الخيار المتفوق. إن الطبيعة خفيفة الوزن لـ YOLOv8، إلى جانب سهولة استخدامه التي لا تضاهى، وتعدد استخداماته عبر مهام الرؤية المتعددة، والنظام البيئي مفتوح المصدر المزدهر، تجعله الحل الأمثل لبيئات الإنتاج القابلة للتوسع. بالنسبة لأولئك الذين يسعون إلى قمة أداء الحافة، يوفر YOLO26 الذي تم إصداره حديثاً كفاءة لا مثيل لها بدون NMS والتي تواصل قيادة الصناعة.

التعليقات