RTDETRv2 مقابل YOLOv8: مقارنة تقنية بين هياكل الرؤية في الوقت الحقيقي
يتغير مشهد الرؤية الحاسوبية باستمرار، وغالبًا ما يبرز ذلك من خلال التنافس المستمر بين الشبكات العصبية التلافيفية التقليدية (CNN) والبنى الأحدث القائمة على المحولات. في هذه المقارنة التقنية الشاملة، ندرس كيف يقارن RTDETRv2، وهو محول رؤية رائد، مع Ultralytics YOLOv8، أحد نماذج CNN الأكثر استخدامًا وتنوعًا في الصناعة. يوفر كلا النموذجين إمكانات قوية للمهندسين والباحثين، ولكن البنى الأساسية لكل منهما تؤدي إلى اختلافات واضحة في منهجيات التدريب وقيود النشر والأداء العام.
نظرة عامة على النموذج: RTDETRv2
يعتمد RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) على النجاح الأساسي لسابقه من خلال تحسين بنية محول الرؤية لسرعات الاستدلال في الوقت الحقيقي.
التفاصيل التقنية الرئيسية:
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- روابط:منشور ArXiv | مستودع GitHub
الهيكلة ونقاط القوة
في جوهره، يستفيد RTDETRv2 من بنية هجينة تجمع بين العمود الفقري لشبكة CNN وهيكل التشفير والترميز المحول. وهذا يمكّن النموذج من النظر إلى الصورة بأكملها من الناحية السياقية، مما يجعله بارعًا بشكل استثنائي في التعامل مع المشاهد المعقدة التي تتداخل فيها الكائنات. ومن أبرز ميزاته تصميمه الأصلي الشامل، الذي يتجاوز تمامًا معالجة ما بعد الضغط غير الأقصى (NMS). وهذا يقلل من تعقيد الخوارزمية خلال المراحل النهائية من عملية الكشف. علاوة على ذلك، تتيح قدراته متعددة النطاقات في الكشف التعرف بفعالية على كل من الهياكل الضخمة والعناصر الصغيرة في الخلفية.
نقاط الضعف
على الرغم من فهمها القوي للسياق، تتطلب البنى القائمة على المحولات مثل RTDETRv2 عبئًا حسابيًا هائلاً أثناء التدريب. فهي تتطلب قدرًا كبيرًا من CUDA ، مما يجعل من الصعب تدريبها على أجهزة المستهلكين. بالإضافة إلى ذلك، غالبًا ما يتطلب إعداد مجموعة بيانات مخصصة وضبط معلمات التدريب المتقدمة خبرة عميقة في المجال، حيث يفتقر النموذج إلى غلاف برمجي مصقول للغاية وسهل الاستخدام للمبتدئين. قد يكون النشر على أجهزة حافة منخفضة الطاقة مثل أجهزة Raspberry Pi القديمة أمرًا صعبًا أيضًا بسبب آليات الانتباه المكثفة.
نظرة عامة على النموذج: YOLOv8
منذ إطلاقه، Ultralytics YOLOv8 أثبتت نفسها كمعيار صناعي لمهام الرؤية الحاسوبية على مستوى الإنتاج، مع إعطاء الأولوية لتجربة مطورين خالية من العيوب إلى جانب دقة من الدرجة الأولى.
التفاصيل التقنية الرئيسية:
- المؤلفون: Glenn Jocher و Ayush Chaurasia و Jing Qiu
- المؤسسة:Ultralytics
- التاريخ: 10 يناير 2023
- الروابط:الوثائق الرسمية | مستودع GitHub
الهيكلة ونقاط القوة
YOLOv8 بنية CNN عالية التحسين وخالية من المراسي مع رأس منفصل، مما يحسن بشكل كبير من دقة تحديد موقع الكائنات وتصنيفها مقارنة بالأجيال السابقة. وتكمن قوته الأكبر في كفاءته المذهلة وتعدد استخداماته. تتطلب البنية ذاكرة أقل بكثير أثناء التدريب مقارنة بمحولات الرؤية، مما يسمح للممارسين بتشغيل أحجام دفعات أكبر على وحدات معالجة الرسومات القياسية. علاوة على ذلك، يوفر Ultralytics بيئة عمل سلسة لا مثيل لها. تتيح Python الموحدة ضبط المعلمات الفائقة والتدريب والتحقق والتصدير باستخدام بضع أسطر من التعليمات البرمجية.
نقاط الضعف
YOLOv8 على NMS التقليدي NMS مرحلة المعالجة اللاحقة. في حين أن Ultralytics يتعامل مع هذا الأمر بكفاءة، إلا أنه يسبب تقنيًا تأخيرًا طفيفًا في المعالجة اللاحقة مقارنة بالبنى الأصلية NMS.
مقارنة الأداء والمقاييس
عند مقارنة الأرقام الأولية، يتضح أن كلا النموذجين يعطي الأولوية لجوانب مختلفة من مسار النشر. فيما يلي تحليل للأداء جنبًا إلى جنب.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv8n | 640 | 37.3 | 80.4 | 1.47 | 3.2 | 8.7 |
| YOLOv8s | 640 | 44.9 | 128.4 | 2.66 | 11.2 | 28.6 |
| YOLOv8m | 640 | 50.2 | 234.7 | 5.86 | 25.9 | 78.9 |
| YOLOv8l | 640 | 52.9 | 375.2 | 9.06 | 43.7 | 165.2 |
| YOLOv8x | 640 | 53.9 | 479.1 | 14.37 | 68.2 | 257.8 |
تفسير المقاييس
بينما يحقق RTDETRv2-x ذروة mAP أعلى قليلاً mAP 54.3 مقارنة بـ 53.9 YOLOv8x فإن YOLOv8 تهيمن على سرعة الاستدلال وكفاءة المعلمات. على سبيل المثال، YOLOv8s بسرعة تقارب ضعف سرعة RTDETRv2-s على TensorRT مع احتياجه إلى ما يقرب من نصف المعلمات.
متطلبات الذاكرة وكفاءة التدريب
أحد العوامل الأكثر أهمية للمطورين المستقلين وفرق المؤسسات على حد سواء هو تكلفة التدريب. تتطلبYOLO Ultralytics YOLO CUDA أقل بكثير أثناء عملية التدريب مقارنة بهياكل المحولات. قد يتسبب نموذج RTDETRv2 القياسي في حدوث اختناق في GPU الاستهلاكية، في حين أن YOLOv8 بسرعة وموثوقية على أجهزة مثل NVIDIA 4070.
النظام البيئي وواجهة برمجة التطبيقات وسهولة الاستخدام
السمة المميزة الحقيقية لحلول الذكاء الاصطناعي الحديثة هي إطار عمل البرامج الداعم. يعمل Ultralytics على تبسيط العقبات الهندسية المعقدة. بفضل التطوير النشط والدعم القوي من المجتمع على منصات مثل Discord، YOLOv8 عدم توقف مشروعك بسبب سوء التوثيق.
علاوة على ذلك، YOLOv8 حدود الكشف القياسي عن الكائنات. فهو شبكة متعددة المهام حقيقية تدعم بشكل أصلي تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومربعات الحدود الموجهة (OBB). أما RTDETRv2 فلا يزال يركز بشكل كبير على الكشف فقط.
مثال على الكود: البساطة الموحدة
باستخدامPython Ultralytics Python ، يمكنك تجربة كلتا عائلتي النماذج بسلاسة في بيئة موحدة.
from ultralytics import RTDETR, YOLO
# Load an RT-DETR model and a YOLOv8 model seamlessly
model_transformer = RTDETR("rtdetr-l.pt")
model_cnn = YOLO("yolov8l.pt")
# Predict on a sample image using the exact same API
results_transformer = model_transformer("https://ultralytics.com/images/bus.jpg")
results_cnn = model_cnn("https://ultralytics.com/images/bus.jpg")
# Export YOLOv8 to ONNX for rapid edge deployment
model_cnn.export(format="onnx")
بمجرد الانتهاء من التدريب، YOLOv8 التصدير بنقرة واحدة إلى ONNXو TensorRTو OpenVINO، مما يضمن استنتاجات عالية الإنتاجية عبر خلفيات أجهزة متنوعة.
حالات الاستخدام والتوصيات
YOLOv8 الاختيار بين RT-DETR YOLOv8 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار YOLOv8
YOLOv8 في الحالات التالية:
- نشر متعدد المهام متعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا للكشف والتجزئة والتصنيف وتقدير الوضع داخل نظام Ultralytics .
- أنظمة الإنتاج الراسخة: بيئات الإنتاج الحالية المبنية بالفعل على YOLOv8 مع خطوط إنتاج مستقرة ومختبرة جيدًا.
- دعم واسع من المجتمع والنظام البيئي: تطبيقات تستفيد من البرامج التعليمية الشاملة YOLOv8OLOv8، وعمليات الدمج مع أطراف ثالثة، وموارد المجتمع النشطة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
التطلع إلى المستقبل: ميزة YOLO26
بينما YOLOv8 علامة فارقة أسطورية، YOLOv8 الرؤية الحاسوبية تتطور بسرعة مذهلة. بالنسبة للفرق التي تبحث عن أحدث ما توصلت إليه التكنولوجيا في عام 2026، يمثل Ultralytics التحول النموذجي التالي.
إذا كنت منجذبًا إلى تصميم RTDETRv2 NMS، فإن YOLO26 يدمج تصميمًا أصليًا NMS من البداية إلى النهاية، ويجمع بين بساطة المعالجة اللاحقة للمحولات والسرعة الفائقة لشبكات CNN. بالإضافة إلى ذلك، يستخدم YOLO26 مُحسِّن MuSGD الرائد، مما يوفر استقرارًا في التدريب على غرار LLM لنماذج الرؤية من أجل تقارب سريع للغاية. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة ذات الحواف/الطاقة المنخفضة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU . بالاقتران مع آليات ProgLoss + STAL المتقدمة للكشف الفائق عن الأجسام الصغيرة، يعد YOLO26 بالتأكيد مسار الترقية الموصى به على كل من YOLOv8 RTDETRv2.
لمزيد من القراءة حول النماذج البديلة، استكشف أدلةنا حول YOLO11 أو اقرأ التحليل التفصيلي لـ YOLOv10 YOLOv8 لترى كيف تطورت بنية NMS في YOLO .