YOLOv8 RTDETRv2: مقارنة تقنية متعمقة

يتطور مجال الرؤية الحاسوبية باستمرار، حيث توسع البنى الجديدة حدود الإمكانيات في مجال الكشف عن الأجسام في الوقت الفعلي. ومن النماذج البارزة التي حظيت باهتمام كبير Ultralytics YOLOv8 RTDETRv2 من Baidu. يقدم هذا الدليل مقارنة تقنية شاملة بين هذين النموذجين القويين، ويستكشف بنيتهما ومقاييس أدائهما وسيناريوهات النشر المثالية.

نظرة عامة على YOLOv8

YOLOv8 Ultralytics YOLOv8 علامة فارقة في عائلة نماذج YOLO You Only Look Once). وهو يعتمد على سنوات من الأبحاث الأساسية لتوفير سرعة ودقة واستخدام سهل استثنائيين لمجموعة واسعة من المهام.

الخصائص الرئيسية:

المؤلفون: جلين جوشر، أيوش شوراسيا، وجينغ تشيو
المنظمة: Ultralytics
التاريخ: 10 يناير 2023
GitHub: Ultralytics
المستندات: YOLOv8

الهيكلة ونقاط القوة

YOLOv8 بنية مبسطة تعمل على تحسين استخراج الميزات وانحدار المربع المحيط. وهو كاشف خالٍ من المراسي، مما يبسط رأس التنبؤ ويقلل من عدد تعديلات المعلمات الفائقة المطلوبة أثناء التدريب. تضمن هذه البنية توازنًا رائعًا في الأداء بين سرعة الاستدلال والدقة المتوسطة (mAP)، مما يجعلها مناسبة للغاية للنشر في العالم الحقيقي على كل من الأجهزة الطرفية وخوادم السحابة.

علاوة على ذلك، YOLOv8 متطلبات ذاكرة أقل بكثير أثناء التدريب مقارنة بالبنى القائمة على المحولات. وهذا يسمح للمطورين بتدريب النماذج على وحدات معالجة الرسومات القياسية للمستهلكين دون مواجهة أخطاء نفاد الذاكرة.

تعدد الاستخدامات

YOLOv8 إحدى نقاط القوة المميزة لـ YOLOv8 تنوعها الأصلي. في حين تركز العديد من النماذج على الصناديق المحددة فقط، YOLOv8 دعمًا جاهزًا للاستخدام لاكتشاف الكائنات وتجزئة الحالات وتصنيف الصور وتقدير الوضع واكتشاف الصناديق المحددة الموجهة (OBB).

تعرف على المزيد حول YOLOv8

نظرة عامة على RTDETRv2

RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) مبني على RT-DETR الأصلي، ويهدف إلى توفير آليات الانتباه القوية لمحولات الرؤية لتطبيقات الكشف عن الأشياء في الوقت الحقيقي.

الخصائص الرئيسية:

المؤلفون: وينيو ليو، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
المنظمة: Baidu
التاريخ: 2024-07-24
Arxiv: 2407.17140
GitHub: RT-DETR
المستندات: RTDETRv2 README

الهيكلة ونقاط القوة

يستفيد RTDETRv2 من بنية هجينة تجمع بين شبكة عصبية تلافيفية (CNN) وهيكل مشفر-مفكك محول. وهذا يسمح للنموذج بالتقاط العلاقات المكانية المعقدة والسياق العام من خلال آليات الانتباه الذاتي. من خلال استخدام مجموعة من استراتيجيات التدريب "bag-of-freebies"، يحقق RTDETRv2 mAP تنافسية في مجموعات البيانات المعيارية القياسية مثل COCO .

نقاط الضعف

على الرغم من دقتها العالية، فإن طبيعة RTDETRv2 القائمة على المحولات تؤدي إلى استهلاك ذاكرة أعلى وأوقات تدريب أبطأ مقارنة بهندسات CNN النقية. تتطلب المحولات بطبيعتها ذاكرة وصول عشوائي للفيديو (VRAM) أكبر، مما يجعل تدريبها صعبًا على الأجهزة ذات الموارد المحدودة. بالإضافة إلى ذلك، بينما تتفوق RTDETRv2 في detect، فإنها تفتقر إلى تعدد المهام (مثل تقدير الوضعيات وsegment) المتأصل في نظام Ultralytics البيئي.

تعرف على المزيد حول RTDETRv2

مقارنة الأداء

عند تقييم نماذج الإنتاج، فإن المفاضلة بين حجم النموذج وسرعة الاستدلال والدقة أمر بالغ الأهمية. يقدم الجدول أدناه مقارنة مباشرة بين متغيرات YOLOv8 RTDETRv2.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

الأجهزة والمقاييس

تم قياس السرعات باستخدام مثيل Amazon EC2 P4d. تم الاستفادة من CPU ONNX، بينما تم اختبار GPU باستخدام TensorRT.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv8 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv8

YOLOv8 خيار قوي لـ:

نشر متعدد المهام ومتعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا لـ الكشف، والتجزئة، والتصنيف، وتقدير الوضعيات ضمن بيئة Ultralytics.
أنظمة إنتاج راسخة: بيئات الإنتاج الحالية المبنية بالفعل على بنية YOLOv8 مع مسارات نشر مستقرة ومختبرة جيدًا.
دعم واسع للمجتمع والنظام البيئي: التطبيقات التي تستفيد من البرامج التعليمية الشاملة لـ YOLOv8، وعمليات التكامل مع الجهات الخارجية، وموارد المجتمع النشطة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

ميزة Ultralytics

يتجاوز اختيار النموذج المقاييس الأولية؛ فالنظام البيئي للبرمجيات المحيط به أمر بالغ الأهمية لإنتاجية المطورين. يشتهر نظام Ultralytics البيئي بسهولة استخدامه، حيث يوفر واجهة برمجة تطبيقات Python موحدة تبسط دورة حياة التعلم الآلي بأكملها.

من إدارة مجموعات البيانات إلى التدريب الموزع، Ultralytics الكود النمطي المعقد. يستفيد المطورون من الأوزان المعدة مسبقًا والمتاحة بسهولة والتكامل السلس مع منصات مثل Hugging Face وأدوات المراقبة. يضمن هذا النظام البيئي الذي يتم صيانته جيدًا التطوير النشط والتحديثات المتكررة والدعم القوي من المجتمع.

علاوة على ذلك، تعد كفاءة التدريب سمة مميزةYOLO Ultralytics YOLO . فهي مُحسّنة للغاية من أجل التوافق السريع وتقليل مساحة الذاكرة المستخدمة أثناء عملية التدريب، مما يسرع بشكل كبير من دورات التجريب مقارنةً بأجهزة الكشف القائمة على المحولات مثل RTDETRv2.

نظرة إلى المستقبل: قوة YOLO26

بينما YOLOv8 قوة دافعة، يجب على المطورين الباحثين عن أحدث التقنيات التفكير في الترقية إلى YOLO26 المرتقب، والذي سيصدر في يناير 2026. يعيد YOLO26 تعريف أحدث التقنيات من خلال العديد من الابتكارات الثورية:

تصميم شامل خالٍ من NMS: يلغي YOLO26 المعالجة اللاحقة لقمع غير الأقصى (NMS)، مما يؤدي إلى سير عمل نشر أسرع وأكثر حتمية.
إزالة DFL: تبسط إزالة Distribution Focal Loss النموذج لتعزيز التوافق مع الأجهزة الطرفية ومنخفضة الطاقة.
مُحسِّن MuSGD: بدمج ابتكارات تدريب نماذج LLM، يضمن مُحسِّن MuSGD دورات تدريب أكثر استقرارًا وتقاربًا أسرع.
استدلال أسرع على CPU بنسبة تصل إلى 43%: مُحسّن بشكل كبير للبيئات التي تفتقر إلى وحدات GPU مخصصة.
ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية للتصوير الجوي والروبوتات.

من البدائل الحديثة الأخرى التي تستحق الاستكشاف ضمن Ultralytics ما يلي YOLO11، الذي يوفر أداءً قويًا للمشاريع القديمة، على الرغم من أن YOLO26 موصى به لجميع عمليات النشر الجديدة.

مثال على الكود: التدريب والاستدلال

بساطة Ultralytics تطبيقات Ultralytics تعني أنه يمكنك تحميل النماذج وتدريبها ونشرها في بضع أسطر فقط من Python . تأكد من أن لديك PyTorch قبل تشغيل المثال التالي.

from ultralytics import YOLO

# Load a pretrained YOLOv8 small model
model = YOLO("yolov8s.pt")

# Train the model on your custom dataset
# Memory efficient training allows for larger batch sizes
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640, batch=16)

# Run inference on a test image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the results
results[0].show()

# Export seamlessly for edge deployment
export_path = model.export(format="onnx")

النشر جاهز

Ultralytics التصدير بنقرة واحدة إلى العديد من التنسيقات، بما في ذلك ONNX و TensorRT و CoreML مما يبسط خيارات نشر النماذج عبر بنى الأجهزة المختلفة.

الخلاصة

يقدم كل من YOLOv8 وRTDETRv2 قدرات مقنعة لاكتشاف الكائنات في الوقت الفعلي. يوضح RTDETRv2 قوة المحولات في التقاط السياق العالمي، مما يجعله مناسبًا لمهام التفكير المكاني المعقدة حيث لا تكون سرعة الاستدلال والنفقات العامة للذاكرة هي القيود الأساسية.

ومع ذلك، بالنسبة للمطورين الذين يولون الأولوية لتحقيق توازن استثنائي بين السرعة والدقة وكفاءة الموارد، تظلYOLO Ultralytics YOLO هي الخيار الأفضل. إن الطبيعة الخفيفة YOLOv8 إلى جانب سهولة استخدامها التي لا مثيل لها، وتعدد استخداماتها في العديد من مهام الرؤية، ونظامها المفتوح المصدر المزدهر، تجعلها الحل الأمثل لبيئات الإنتاج القابلة للتطوير. بالنسبة لأولئك الذين يبحثون عن قمة الأداء المطلق، يوفر YOLO26 الذي تم إصداره مؤخرًا كفاءة لا مثيل لها NMS والتي لا تزال رائدة في هذا المجال.

YOLOv8 RTDETRv2: مقارنة تقنية متعمقة

نظرة عامة على YOLOv8

الهيكلة ونقاط القوة

تعدد الاستخدامات

نظرة عامة على RTDETRv2

الهيكلة ونقاط القوة

نقاط الضعف

مقارنة الأداء

حالات الاستخدام والتوصيات

متى تختار YOLOv8

متى تختار RT-DETR

متى تختار Ultralytics YOLO26)

ميزة Ultralytics

نظرة إلى المستقبل: قوة YOLO26

مثال على الكود: التدريب والاستدلال

الخلاصة

تعليقات