مقارنة بين RTDETRv2 و YOLOv8: مقارنة تقنية
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح المشروع. هناك فلسفتان معماريتان متميزتان تهيمنان حالياً على هذا المجال: النهج القائم على المحولات التي يمثلها RTDETRv2 وتصميمات الشبكة العصبية التلافيفية (CNN) المحسنة للغاية التي تمثلها Ultralytics YOLOv8.
بينما يتخطى RTDETRv2 حدود الدقة باستخدام محولات الرؤية، فإن YOLOv8 يحسّن التوازن بين السرعة والدقة وسهولة النشر. تستكشف هذه المقارنة المواصفات الفنية والاختلافات المعمارية ومقاييس الأداء العملية لمساعدة المطورين والباحثين على اختيار الحل الأمثل لتطبيقاتهم.
مقاييس الأداء: السرعة، والدقة، والكفاءة
يسلط مشهد الأداء الضوء على مفاضلة واضحة. يركز RTDETRv2 على تعظيم متوسط الدقة المتوسطةmAP من خلال آليات الانتباه المعقدة، بينما يعطي YOLOv8 الأولوية لتحقيق توازن متعدد الاستخدامات بين سرعة الاستدلال في الوقت الحقيقي والدقة العالية المناسبة للنشر على الحافة والسحابة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
تحليل النتائج
تكشف البيانات عن العديد من الأفكار الهامة لاستراتيجيات النشر:
- الكفاءة الحسابية: يُظهر YOLOv8 كفاءة فائقة. على سبيل المثال YOLOv8l يحقق تكافؤًا قريبًا في الدقة (52.9 mAP) مع RTDETRv2-l (53.4 mAP) أثناء العمل بسرعات استدلالية أعلى على GPU.
- أداءCPU : يوفر YOLOv8 أداءً موثقًا وقويًا على أجهزة CPU المركزية، مما يجعله الخيار العملي لأجهزة الذكاء الاصطناعي المتطورة التي تفتقر إلى مسرعات مخصصة. غالبًا ما تكون معايير RTDETRv2 لوحدة المعالجة CPU غير متوفرة بسبب التكلفة الحسابية الثقيلة لطبقات المحولات.
- كفاءة المعلمة: تتطلب نماذج YOLOv8 باستمرار عددًا أقل من المعلمات وعمليات النقاط العائمة (FLOPs) لتحقيق نتائج تنافسية، مما يترجم مباشرةً إلى استهلاك أقل للذاكرة وأوقات تدريب أسرع.
اعتبارات الأجهزة
إذا كان هدف النشر الخاص بك يتضمن وحدات المعالجة المركزية القياسية (مثل معالجات Intel ) أو الأجهزة المدمجة (مثل Raspberry Pi)، فإن البنية القائمة على CNN في YOLOv8 توفر ميزة كبيرة في زمن الاستجابة مقارنةً بالعمليات الثقيلة للمحول في RTDETRv2.
RTDETRv2: الكشف في الوقت الحقيقي باستخدام المحولات
يمثل RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) التطور المستمر لتطبيق محولات الرؤية (ViT) على اكتشاف الأجسام. تم تطويره من قبل باحثين في Baidu، ويهدف إلى حل مشكلات زمن الاستجابة المرتبطة تقليديًا بالنماذج القائمة على DETR مع الاحتفاظ بقدرتها على فهم السياق العام.
المؤلفون: وينيو لف، ويان تشاو، وتشينياو تشانغ، وكوي هوانغ، وغوانزونغ وانغ، ويي ليو
المنظمة:بايدو
التاريخ: 2024-07-24 (الإصدار 2)
اركسيف:https://arxiv.org/abs/2304.08069https://arxiv.org/abs/2304.08069
جيثبRT-DETR
البنية
يستخدم RTDETRv2 بنية هجينة تجمع بين العمود الفقري (عادةً شبكة CNN مثل شبكة ريسنت) مع أداة تشفير وفك تشفير محول فعالة. الميزة الرئيسية هي الفصل بين التفاعل داخل النطاق والاندماج عبر النطاق، مما يساعد النموذج على التقاط التبعيات بعيدة المدى عبر الصورة. وهذا يسمح للنموذج "بالاهتمام" بأجزاء مختلفة من المشهد في وقت واحد، مما قد يحسن الأداء في البيئات المزدحمة.
نقاط القوة والضعف
تكمن القوة الأساسية لبرنامج RTDETRv2 في دقته العالية في مجموعات البيانات المعقدة حيث يكون السياق العام أمرًا بالغ الأهمية. ومن خلال تجنب مربعات الارتكاز لصالح استعلامات الكائن، فإنه يبسّط خط المعالجة اللاحقة عن طريق إزالة الحاجة إلى القمع غير الأقصىNMS.
ومع ذلك، فإن هذه الفوائد تأتي بتكلفة:
- كثافة الموارد: يتطلب هذا النموذج ذاكرة GPU أكبر بكثير للتدريب مقارنةً بنماذج CNNs.
- تقارب أبطأ: تستغرق النماذج القائمة على المحولات عمومًا وقتًا أطول للتدريب على التقارب.
- براعة محدودة: تم تصميمه في المقام الأول لاكتشاف المربع المحدود، ويفتقر إلى الدعم الأصلي للتجزئة أو تقدير الوضعية.
Ultralytics YOLOv8: السرعة وتعدد الاستخدامات والنظام البيئي
Ultralytics YOLOv8 هو نموذج متطور للكشف عن الأجسام الخالية من الارتكازات يضع معيارًا لتعدد الاستخدامات وسهولة الاستخدام في هذا المجال. وهو يعتمد على إرث عائلة YOLO حيث يقدم تحسينات معمارية تعزز الأداء مع الحفاظ على السرعة في الوقت الحقيقي التي جعلت YOLO مشهورًا.
المؤلفون: جلين جوتشر، وأيوش تشوراسيا، وجينغ كيو
المنظمة:Ultralytics
التاريخ: 2023-01-10
GitHubultralytics
المستنداتyolov8
البنية
يتميز YOLOv8 بعمود فقري للشبكة المظلمة (CSP) جزئيًا (عبر المرحلة المتقاطعة) وعنق شبكة تجميع المسار، مما يؤدي إلى رأس كشف منفصل. هذه البنية خالية من الارتكاز، مما يعني أنها تتنبأ بمراكز الكائنات مباشرة، مما يبسّط التصميم ويحسّن التعميم. تم تحسين النموذج بشكل كبير لوحدات معالجةtensor ووحدات معالجة الرسومات، مما يضمن أقصى إنتاجية.
المزايا الرئيسية للمطورين
- سهولة الاستخدام: من خلال واجهة برمجة تطبيقات Pythonic وواجهة برمجة تطبيقات Pythonic CLI قوية، يمكن للمستخدمين تدريب النماذج ونشرها في بضعة أسطر من التعليمات البرمجية. تقلل الوثائق الشاملة من عائق الدخول للمبتدئين والخبراء على حد سواء.
- نظام بيئي جيد الصيانة: بدعم من Ultralytics يستفيد YOLOv8 من التحديثات المتكررة، ودعم المجتمع، والتكامل السلس مع أدوات مثل TensorBoard و MLFlow.
- تعدد الاستخدامات: على عكس RTDETRv2، يدعم YOLOv8 مجموعة واسعة من المهام الجاهزة، بما في ذلك تجزئة المثيل وتقدير الوضعية والتصنيف والكشف عن الأجسام الموجهة (OBB).
- كفاءة التدريب: تم تصميم النموذج ليتدرب بسرعة مع متطلبات ذاكرة CUDA أقل، مما يجعله في متناول الباحثين ذوي الميزانيات المحدودة للأجهزة.
التعمّق في العمق: البنية وحالات الاستخدام
غالباً ما يعتمد الاختيار بين هذين النموذجين على المتطلبات المحددة لبيئة التطبيق.
الفلسفة المعمارية
يعتمد YOLOv8 على الشبكات العصبية التلافيفية (CNNs)، التي تتفوق في معالجة السمات المحلية والتسلسلات الهرمية المكانية بكفاءة. وهذا يجعلها أسرع بطبيعتها وأقل استهلاكاً للذاكرة. يسمح اعتماد RTDETRv2 على المحولات بنمذجة العلاقات العالمية بفعالية ولكنه يُدخل تعقيداً تربيعياً فيما يتعلق بحجم الصورة، مما يؤدي إلى زيادة زمن الاستجابة واستخدام الذاكرة، خاصةً عند الدقة العالية.
حالات الاستخدام المثالية
اختر YOLOv8 عندما:
- الأداء في الوقت الحقيقي أمر بالغ الأهمية: تتطلب تطبيقات مثل القيادة الذاتية، وتحليلات الفيديو، ومراقبة جودة التصنيع زمن استجابة منخفض.
- الأجهزة مقيدة: يُعد النشر على NVIDIA Jetson أو Raspberry Pi أو الأجهزة المحمولة سلسًا مع YOLOv8.
- تعدد المهام مطلوب: إذا كان مشروعك يتطلب تجزئة الكائنات أو تتبع النقاط الرئيسية إلى جانب الكشف، فإن YOLOv8 يوفر إطار عمل موحد.
- دورات تطوير سريعة: يعمل نظامUltralytics البيئي على تسريع عملية تصنيف البيانات والتدريب والنشر.
اختر RTDETRV2 عندما:
- الدقة القصوى هي المقياس الوحيد: بالنسبة للمعايير الأكاديمية أو السيناريوهات التي يتوفر فيها الحوسبة اللانهائية وكل جزء من mAP مهم.
- الانسدادات المعقدة: في المشاهد شديدة الازدحام حيث يكون فهم العلاقة بين وحدات البكسل البعيدة أمرًا حيويًا، قد تقدم آلية الانتباه الشامل ميزة طفيفة.
ملخص المقارنة
بينما يمثل RTDETRv2 تقدمًا أكاديميًا مثيرًا للاهتمام في تطبيق المحولات على الكشف YOLOv8 يظل الخيار الأفضل لمعظم التطبيقات العملية. فتوازنه بين السرعة والدقة والكفاءة لا مثيل له. علاوة على ذلك، فإن القدرة على أداء مهام متعددة للرؤية الحاسوبية داخل مكتبة واحدة سهلة الاستخدام تجعلها أداة متعددة الاستخدامات لتطوير الذكاء الاصطناعي الحديث.
بالنسبة للمطورين الذين يبحثون عن أحدث ما توصل إليه المطورون في الأداء ومجموعات الميزات، فإن التطلع إلى الإصدارات الأحدث مثل YOLO11 مكاسب أكبر في الكفاءة والدقة مقارنةً بكلٍ من YOLOv8 وRTDETRv2.
مثال على الكود: البدء باستخدام YOLOv8
يعد دمج YOLOv8 في سير عملك أمرًا بسيطًا ومباشرًا. فيما يلي مثال من Python يوضح كيفية تحميل نموذج مُدرَّب مسبقًا وتشغيل الاستدلال وتصديره للنشر.
from ultralytics import YOLO
# Load a pre-trained YOLOv8 model
model = YOLO("yolov8n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on a local image
# Ensure the image path is correct or use a URL
results = model("path/to/image.jpg")
# Export the model to ONNX format for deployment
success = model.export(format="onnx")
استكشف نماذج أخرى
للحصول على منظور أوسع حول بنيات الكشف عن الأجسام، فكّر في استكشاف هذه المقارنات ذات الصلة: