RTDETRv2 مقابل YOLOv10: التطورات في الكشف عن الكائنات في الوقت الحقيقي NMS
لقد كان التطور في مجال الرؤية الحاسوبية مدفوعًا إلى حد كبير بالسعي الدؤوب لتحقيق التوازن بين السرعة والدقة. تقليديًا، اعتمدت خطوط إنتاج الكشف عن الكائنات في الوقت الفعلي على تقنية Non-Maximum Suppression (NMS) كخطوة ما بعد المعالجة لتصفية المربعات المتداخلة. ومع ذلك، NMS اختناقات في زمن الاستجابة وتعقيدًا في ضبط المعلمات الفائقة. مؤخرًا، ظهرت طريقتان معماريتان متميزتان لحل هذه المشكلة بشكل أصلي: النماذج القائمة على المحولات مثل RTDETRv2 والنماذج القائمة على CNN مثل YOLOv10.
يقدم هذا الدليل مقارنة تقنية شاملة بين هذين النموذجين، حيث يحلل هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية، مع تسليط الضوء على كيفية تقديم أحدث الابتكارات في Ultralytics الحل الأمثل للنشر الحديث.
RTDETRv2: محولات الكشف في الوقت الحقيقي
RTDETRv2 مبني على RT-DETR الأصلية، بهدف الجمع بين فهم السياق العالمي لـ Vision Transformers ومتطلبات السرعة في الوقت الفعلي التي تهيمن عليها عادةً YOLO .
الخصائص الرئيسية:
- المؤلفون: وينيو ليو، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
- المنظمة: Baidu
- التاريخ: 2024-07-24
- أرشيف: https://arxiv.org/abs/2407.17140
- GitHub: RT-DETR
الهندسة المعمارية ومنهجيات التدريب
يستخدم RTDETRv2 بنية محول شاملة تتجنب NMS بشكل أساسي. وهو يحسن من سابقه من خلال إدخال نهج "Bag-of-Freebies" (حقيبة الهدايا المجانية)، وتحسين استراتيجية التدريب ودمج قدرات الكشف متعددة المقاييس. يستخدم النموذج هيكل CNN لاستخراج خرائط الميزات (التفاصيل المرئية مثل الحواف والأنسجة)، والتي تتم معالجتها بعد ذلك بواسطة بنية محول التشفير-الترميز. وهذا يسمح للنموذج بتحليل سياق الصورة بالكامل في وقت واحد، مما يجعله فعالًا للغاية في فهم المشاهد المعقدة حيث تكون الكائنات مكتظة أو متداخلة.
نقاط القوة والضعف
نقاط القوة:
- السياق العالمي: تتيح آلية الانتباه للنموذج التفوق في البيئات المعقدة والمزدحمة.
- خالٍ من NMS: يتنبأ بإحداثيات الكائنات مباشرة، مما يبسط خط أنابيب النشر.
- دقة عالية: يحقق متوسط الدقة المتوسطة (mAP) ممتازًا على مجموعة بيانات COCO.
نقاط الضعف:
- كثيفة الموارد: تتطلب معماريات Transformer عادةً ذاكرة CUDA أكبر بكثير أثناء التدريب مقارنةً بشبكات CNN، مما يجعل ضبطها الدقيق مكلفًا على الأجهزة القياسية.
- تباين سرعة الاستدلال: على الرغم من سرعتها، يمكن أن تؤدي حسابات الانتباه الكثيفة إلى انخفاض معدل الإطارات في الثانية (FPS) في الرؤية الحاسوبية على الأجهزة الطرفية التي تفتقر إلى مسرعات الذكاء الاصطناعي المخصصة.
YOLOv10: الكشف الشامل عن الأجسام في الوقت الفعلي
YOLOv10 تحولًا كبيرًا في سلسلة اكتشافYOLO من خلال معالجة NMS طويل الأمد مباشرةً ضمن إطار عمل CNN.
الخصائص الرئيسية:
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمة: جامعة Tsinghua
- التاريخ: 2024-05-23
- أرشيف: https://arxiv.org/abs/2405.14458
- GitHub: https://github.com/THU-MIG/yolov10
الهندسة المعمارية ومنهجيات التدريب
الابتكار الأساسي في YOLOv10 التعيينات المزدوجة المتسقة للتدريب NMS. يستخدم رأسين للكشف أثناء التدريب: أحدهما مع تعيين واحد إلى العديد (مثل YOLOs التقليدية) لتوفير إشارات إشراف غنية، والآخر مع تعيين واحد إلى واحد لإلغاء الحاجة إلى NMS. أثناء الاستدلال، يتم استخدام الرأس واحد إلى واحد فقط، مما ينتج عنه عملية شاملة. علاوة على ذلك، طبق المؤلفون استراتيجية تصميم نموذج شاملة تعتمد على الكفاءة والدقة، حيث قاموا بتحسين مختلف المكونات بشكل شامل لتقليل التكرار الحسابي.
نقاط القوة والضعف
نقاط القوة:
- سرعة فائقة: عن طريق إزالة NMS وتحسين البنية، يحقق YOLOv10 زمن استجابة استدلال منخفضًا بشكل لا يصدق.
- الكفاءة: يتطلب عددًا أقل من المعلمات وFLOPs لتحقيق دقة مماثلة للنماذج الأخرى، مما يجعله مناسبًا جدًا للبيئات المقيدة.
- عمليات نشر خالية من NMS: تبسط التكامل في تطبيقات الحافة مثل المراقبة الذكية.
نقاط الضعف:
- مفهوم الجيل الأول: كأول YOLO يطبق هذه البنية الخالية من NMS، فقد أرسى الأساس ولكنه ترك مجالًا لتعدد المهام والتحسين الذي شوهد في النماذج اللاحقة مثل YOLO11 وYOLO26.
مقارنة الأداء
عند تقييم نماذج الإنتاج، من الضروري تحقيق التوازن بين الدقة والتكلفة الحسابية. يوضح الجدول أدناه المفاضلات في الأداء بين مختلف أحجام RTDETRv2 و YOLOv10.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
بينما يوفر RTDETRv2 دقة عالية، YOLOv10 ميزة ملحوظة في زمن الاستجابة وكفاءة المعلمات، لا سيما في إصداراته الأصغر حجماً (Nano و Small)، مما يجعله جذاباً للغاية لتطبيقات الحوسبة الطرفية و AIoT.
اختيار المقياس الصحيح
إذا كنت تقوم بالنشر على وحدات معالجة رسومات (GPU) من فئة الخوادم حيث حجم الدفعة و VRAM أقل تقييدًا، فإن النماذج الأكبر (مثل -x أو -l) تزيد الدقة إلى أقصى حد. بالنسبة للأجهزة الطرفية مثل Raspberry Pi أو الهواتف المحمولة، أعطِ الأولوية للنانو (-n) أو صغيرة (-s) نسخ للحفاظ على معدلات إطارات في الوقت الفعلي.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR وYOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
- سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.
متى تختار YOLOv10
يوصى YOLOv10 في الحالات التالية:
- detect في الوقت الفعلي خالٍ من NMS: التطبيقات التي تستفيد من detect الشامل دون التثبيط غير الأقصى، مما يقلل من تعقيد النشر.
- مقايضات متوازنة بين السرعة والدقة: المشاريع التي تتطلب توازنًا قويًا بين سرعة الاستدلال ودقة الكشف عبر مقاييس النماذج المختلفة.
- تطبيقات زمن الاستجابة المتسق: سيناريوهات النشر التي تكون فيها أوقات الاستدلال المتوقعة حاسمة، مثل الروبوتات أو الأنظمة المستقلة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
Ultralytics : تقديم YOLO26
في حين أن كلا من RTDETRv2 و YOLOv10 تطورات أكاديمية جذابة، فإن نشرهما في سيناريوهات واقعية يتطلب نظامًا بيئيًا برمجيًا قويًا ومُحافظًا عليه جيدًا. توفر Ultralytics تجربة مطورين لا مثيل لها، حيث تجمع بين سهولة الاستخدام والوثائق الشاملة والأدوات القوية لتعليق البيانات ونشرها.
للمطورين الباحثين عن أحدث التقنيات في عام 2026، Ultralytics هو الخيار الأمثل. فهو يجمع بين أفضل الأفكار من كلا البنيتين مع إدخال تحسينات رائدة:
- تصميم شامل خالٍ من NMS: استنادًا إلى المفهوم الرائد الذي ابتكرته YOLOv10، يلغي YOLO26 بشكل أصيل معالجة ما بعد NMS، مما يؤدي إلى منطق نشر أسرع وأبسط وتباين صفر في زمن الانتقال.
- إزالة DFL: من خلال إزالة خسارة التركيز التوزيعي، يبسط YOLO26 تصدير النموذج ويحسن بشكل كبير التوافق مع الأجهزة الطرفية ومنخفضة الطاقة.
- مُحسِّن MuSGD: هجين من SGD و Muon (مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة LLM)، يوفر هذا المُحسِّن الجديد تدريبًا أكثر استقرارًا وتقاربًا أسرع بكثير مقارنة بالطرق التقليدية.
- سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: تم تحسينه بعناية للبيئات التي لا تحتوي على وحدات GPU مخصصة، مما يضفي طابعًا ديمقراطيًا على الذكاء الاصطناعي عالي الأداء للرؤية.
- ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لـ التطبيقات التي تستخدم الطائرات بدون طيار ومستشعرات إنترنت الأشياء.
- تعدد استخدامات لا مثيل له: على عكس النماذج المقتصرة على الصناديق المحيطة، يدعم YOLO26 مجموعة كاملة من المهام بما في ذلك تجزئة الكائنات (instance segmentation)، وتقدير الوضعيات، وتصنيف الصور، وOBB detection، مع تحسينات خاصة بالمهام مثل تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) للوضعيات.
تنفيذ سلس باستخدام Python
تم تصميم تدريب ونشر هذه النماذج باستخدام واجهة برمجة Python Ultralytics Python بحيث تكون سلسة. متطلبات الذاكرة أقل بشكل ملحوظ أثناء التدريب مقارنة بالبنى الثقيلة المحولة، مما يتيح لك تدريب نماذج قوية على أجهزة قياسية.
from ultralytics import YOLO
# Load the cutting-edge YOLO26 model (recommended)
# Alternatively, load a YOLOv10 model using YOLO('yolov10n.pt')
model = YOLO("yolo26n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Easily export to various formats for edge deployment
model.export(format="onnx", simplify=True)
سواء كنت تقوم بتنفيذ أنظمة إنذار أمنية أو إجراء تحليل للصور الطبية، فإن اختيار نموذج مدعوم من Ultralytics النشط يضمن حصولك على الأدوات وأدلة ضبط المعلمات الفائقة والتحديثات المستمرة اللازمة للنجاح. في حين أن YOLOv10 RTDETRv2 مهدا الطريق للبنى NMS فإن YOLO26 يحسن الصيغة، ويقدم أفضل توازن بين الأداء والتنوع والاستعداد للإنتاج.