تخطي إلى المحتوى

YOLOv10 RTDETRv2: تقييم أجهزة الكشف عن الأجسام في الوقت الفعلي من البداية إلى النهاية

يتطور مجال الرؤية الحاسوبية بوتيرة سريعة، حيث تعيد البنى الجديدة تعريف أحدث ما توصلت إليه التكنولوجيا في مجال الكشف عن الأجسام في الوقت الفعلي. يعد YOLOv10 RTDETRv2 من المعالم الهامة في هذا التطور. يهدف كلا النموذجين إلى حل مشكلة أساسية في أنظمة الكشف التقليدية من خلال التخلص من الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، لكنهما يتعاملان مع هذا التحدي من خلال نماذج معمارية مختلفة تمامًا.

تقدم هذه المقارنة الفنية تحليلاً متعمقاً لهيكلها ومنهجيات التدريب وسيناريوهات النشر المثالية لمساعدة المطورين والباحثين على اختيار الأداة المناسبة لمشروع الرؤية الاصطناعية التالي.

YOLOv10: الرائد NMS

تم تطوير YOLOv10 من قبل باحثين في جامعة تسينغهوا، YOLOv10 بشكل كبير على كفاءة البنية وإزالة معوقات المعالجة اللاحقة. من خلال إدخال مهام مزدوجة متسقة للتدريب NMS، يحقق أداءً تنافسيًا مع تقليل زمن الاستدلال بشكل كبير.

المواصفات الفنية

الهندسة المعمارية والمنهجيات

يتمثل الإنجاز الرئيسي YOLOv10 في تصميم نموذجها الشامل الذي يركز على الكفاءة والدقة. فهو يعمل على تحسين مختلف المكونات من كلا المنظورين، مما يقلل بشكل كبير من الأعباء الحسابية. تسمح استراتيجية المهام المزدوجة المتسقة للنموذج بالتدريب دون الاعتماد على NMS مما يترجم إلى خط أنابيب نشر مبسط وشامل. وهذا مفيد بشكل خاص عند تصدير النماذج إلى تنسيقات حافة مثل ONNX أو TensorRT، حيث يمكن أن تؤدي عمليات المعالجة اللاحقة إلى حدوث تأخير غير متوقع.

نقاط القوة والضعف

يتميز هذا النموذج بتوازن استثنائي بين السرعة والدقة، خاصة في الإصدارات الأصغر حجمًا (N و S). كما أن زمن الاستجابة المنخفض يجعله مثاليًا للبيئات المتطورة عالية السرعة. ومع ذلك، على الرغم من YOLOv10 في سرعة الكشف الأولية، إلا أنه يظل نموذجًا متخصصًا في الكشف فقط. وستحتاج الفرق التي تتطلب تقسيم الحالات أو تقدير الوضع إلى البحث عن أطر عمل أكثر تنوعًا.

تعرف على المزيد حول YOLOv10

RTDETRv2: تحسين محول الكشف

بناءً على محول الكشف في الوقت الحقيقي الأصلي، يدمج RTDETRv2 "مجموعة من الميزات المجانية" لتحسين خط الأساس الخاص به، مما يثبت أن المحولات يمكنها منافسة شبكات CNN في سيناريوهات الوقت الحقيقي.

المواصفات الفنية

  • المؤلفون: وينيو لوف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
  • المنظمة: Baidu
  • التاريخ: 2024-07-24
  • ArXiv: ورقة RTDETRv2
  • GitHub: RT-DETR
  • المستندات: وثائق RTDETRv2

الهندسة المعمارية والمنهجيات

يستخدم RTDETRv2 بنية هجينة، تجمع بين شبكة عصبية تلافيفية (CNN) لاستخراج الميزات البصرية ومشفّر-مفكّك Transformer لفهم المشهد بشكل شامل. تسمح آلية الانتباه الذاتي في Transformer للنموذج بمشاهدة الصورة بشكل شامل، مما يجعله فعالاً للغاية في التعامل مع المشاهد المعقدة والأجسام المتداخلة والحشود الكثيفة.

نقاط القوة والضعف

توفر بنية المحول دقة ممتازة، لا سيما على نطاقات المعلمات الأكبر حجماً، وتقوم بإخراج نتائج الكشف النهائية بشكل أصلي دون الحاجة إلى NMS. لكن هذا يأتي بتكلفة. تتطلب نماذج المحولات عادةً CUDA أكبر بكثير أثناء التدريب ويمكن أن تكون أبطأ في التכנס مقارنةً ببنى CNN الخالصة. على الرغم من أن RTDETRv2 قد حسّنت سرعات الاستدلال، إلا أنها تستهلك عموماً ذاكرة أكبر من YOLO خفيفة الوزن.

تعرف على المزيد حول RTDETRv2

مقارنة الأداء

يوفر تقييم مقاييس الأداء صورة أوضح عن المجالات التي يتفوق فيها كل نموذج. يوضح الجدول التالي قدرات كل نموذج على COCO :

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

عند تحليل البيانات، YOLOv10 ميزة واضحة في كفاءة المعلمات وسرعة TensorRT عبر أحجام قابلة للمقارنة. يتطابق RTDETRv2-x مع YOLOv10x الضخم من حيث الدقة، ولكنه يتطلب ما يقرب من 20 مليون معلمة إضافية وFLOPs أعلى بكثير.

حالات الاستخدام والتوصيات

RT-DETR الاختيار بين YOLOv10 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv10

YOLOv10 خيار قوي لـ:

  • الكشف في الوقت الفعليNMS: تطبيقات تستفيد من الكشف الشامل بدون قمع غير أقصى، مما يقلل من تعقيد النشر.
  • التوازن بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر نماذج مختلفة.
  • تطبيقات ذات زمن انتقال ثابت: سيناريوهات النشر التي يكون فيها زمن الاستدلال المتوقع أمرًا بالغ الأهمية، مثل الروبوتات أو الأنظمة المستقلة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
  • سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
  • كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

Ultralytics : النظام البيئي والابتكار

بينما يوفر YOLOv10 RTDETRv2 قدرات كشف قوية، غالبًا ما يكون اختيار النموذج مرتبطًا بنظام البرمجيات المحيط. توفر Ultralytics واجهة موحدة سلسة تزيل تعقيدات التعلم العميق.

المعيار الجديد: Ultralytics

بالنسبة للمطورين الذين يبحثون عن أفضل أداء على الإطلاق، يمثل Ultralytics تتويجًا للتطورات المعمارية الحديثة. تم إصدار YOLO26 في أوائل عام 2026، وهو يرث تصميم End-to-End NMS Design الذي ابتكره YOLOv10 مما يلغي تمامًا NMS من أجل نشر أسرع وأبسط.

لماذا تختار YOLO26؟

يجلب YOLO26 ابتكارات تدريب LLM إلى الرؤية الحاسوبية عبر MuSGD Optimizer (مزيج من SGD Muon)، مما ينتج عنه تدريب أكثر استقرارًا وتقاربًا أسرع. كما أنه يتميز CPU أسرع بنسبة تصل إلى 43٪، مما يجعله الخيار الأول للحوسبة المتطورة.

علاوة على ذلك، يقدم YOLO26 ProgLoss + STAL لتحسينات ملحوظة في التعرف على الأجسام الصغيرة، وعلى عكس YOLOv10 المتخصص، فإنه يوفر تنوعًا كبيرًا. وهو يدعم بشكل أساسي اكتشاف الأجسام والتجزئة والوضع والمربعات المحيطة الموجهة (OBB) مع تحسينات خاصة بالمهام مثل فقدان التجزئة الدلالية وتقدير الاحتمالية المتبقية (RLE) للوضع. علاوة على ذلك، تضمن إزالة Distribution Focal Loss (DFL) تبسيط عملية التصدير وتحسين توافق الأجهزة منخفضة الطاقة.

تعرف على المزيد حول YOLO26

سهولة الاستخدام وكفاءة التدريب

سواء كنت تجرب نماذج من الجيل القديم مثل Ultralytics YOLO11 أو طراز YOLO26 المتطور، تضمن واجهة برمجة التطبيقات Python المبسطة استخدامًا أقل للذاكرة أثناء التدريب وسير عمل سريعًا للغاية.

from ultralytics import RTDETR, YOLO

# Train the end-to-end YOLOv10 model
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Alternatively, evaluate RTDETR within the same API
model_rtdetr = RTDETR("rtdetr-l.pt")
results = model_rtdetr.predict("https://ultralytics.com/images/bus.jpg")

يوفر النظام البيئي الذي يتم صيانته جيدًا أدوات لتسهيل ضبط المعلمات الفائقة ويتكامل بشكل مثالي مع حلول التتبع الشاملة وخيارات نشر النماذج.

الخلاصة

يمثل كل YOLOv10 RTDETRv2 معالم بارزة في السعي نحو الكشف عن الأجسام NMS. يثبت RTDETRv2 أن المحولات يمكنها تحقيق زمن انتقال في الوقت الفعلي مع فهم ممتاز للسياق العام، وإن كان ذلك مع متطلبات ذاكرة أعلى. YOLOv10 بديلاً عالي الكفاءة وسريعًا لشبكة CNN مصممًا خصيصًا لمهام الكشف المحدودة الموارد.

ومع ذلك، من أجل الحصول على أداء متوازن وتعدد المهام وتوافقية متطورة، يُنصح المطورون بشدة بالاستفادة Ultralytics . فهو يجمع بشكل رائع بين الابتكارات المعمارية لسابقيه والأدوات القوية وسهلة الاستخدام التي تجعل نشر الذكاء الاصطناعي البصري حقيقة واقعة.


تعليقات