RTDETRv2 مقابل YOLO: نظرة متعمقة في الكشف عن الأجسام في الوقت الحقيقي
يشهد مجال الرؤية الحاسوبية تطوراً سريعاً، حيث يدفع الباحثون باستمرار الحدود بين سرعة الاستدلال ودقة الكشف. هناك متنافسان بارزان في هذا المجال هما RTDETRv2، وهو نموذج قائم على المحولات من بايدو، YOLO وهي شبكة تلافيفية مُحسّنة للغاية من علي بابا. تستكشف هذه المقارنة التقنية الفلسفات المعمارية المتميزة لهذه النماذج، ومقاييس أدائها، وسيناريوهات التطبيق المثالية.
معايير الأداء: السرعة مقابل الدقة
عند اختيار نموذج لاكتشاف الأجسام، عادةً ما تكمن المفاضلة الأساسية بين متوسط الدقةmAP والكمون. تبرز البيانات التالية الاختلافات في الأداء بين RTDETRv2 YOLO على مجموعة بيانات التحقق من صحة COCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تكشف البيانات عن تمييز واضح في فلسفة التصميم. حيث يعطي YOLO الأولوية للسرعة والكفاءة الأولية، حيث يحقق المتغير "Tiny" زمن استجابة منخفض للغاية ومناسب لبيئات الحوسبة الطرفية المقيدة. وعلى العكس من ذلك، يسعى RTDETRv2 إلى تحقيق أقصى قدر من الدقة، حيث يحقق متغيره الأكبر حجماً 54.3 mAP مما يجعله متفوقاً في المهام التي تكون فيها الدقة أمراً بالغ الأهمية.
RTDETRv2: محول الطاقة
تعتمد RTDETRv2 على نجاح بنية محول الكشف (DETR)، وتعالج التكلفة الحسابية العالية المرتبطة عادةً بمحولات الرؤية مع الحفاظ على قدرتها على التقاط السياق العالمي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2023-04-17 (أولي)، 2024-07-24 (تحديث الإصدار 2)
- اركسيف:RT-DETRv2: خط الأساس المحسّن مع حقيبة المجانية
- جيثب:مستودعRT-DETRv2
البنية والقدرات
يستخدم RTDETRv2 برنامج تشفير هجين يعالج الميزات متعددة المقاييس بكفاءة. وخلافاً لنماذج YOLO التقليدية القائمة على شبكة CNN، فإن RTDETR يلغي الحاجة إلى المعالجة اللاحقة للقمع غير الأقصى (NMS). يعمل هذا النهج المتكامل على تبسيط خط أنابيب النشر ويقلل من تباين زمن الاستجابة في المشاهد المزدحمة.
يستخدم النموذج مُشفّرًا هجينًا فعالاً يفصل بين التفاعل داخل النطاق والاندماج عبر النطاقات، مما يقلل بشكل كبير من النفقات الحسابية الزائدة مقارنةً بنماذج DETR القياسية. يسمح له هذا التصميم بالتفوق في تحديد الأجسام في البيئات المعقدة حيث قد يؤدي الانسداد إلى إرباك أجهزة الكشف الالتفافية القياسية.
استخدام ذاكرة المحول
بينما توفر RTDETRv2 دقة عالية، من المهم ملاحظة أن معماريات المحولات تستهلك بشكل عام ذاكرة CUDA أكثر بكثير أثناء التدريب مقارنةً بنماذج CNNs. قد يجد المستخدمون الذين لديهم ذاكرة VRAM محدودة GPU أن تدريب هذه النماذج يمثل تحدياً مقارنةً بالبدائل الفعالة مثل YOLO11.
YOLO: مُحسَّن للكفاءة
يمثل YOLO نهجًا صارمًا للتحسين المعماري، مستفيدًا من البحث عن البنية العصبية (NAS) للعثور على الهياكل الأكثر كفاءة لاستخراج الميزات ودمجها.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:YOLO: تقرير عن تصميم الكشف عن الكائنات في الوقت الحقيقي
- جيثب:مستودع YOLO
الابتكارات المعمارية الرئيسية
يدمج YOLO العديد من التقنيات المتقدمة لتحقيق أقصى قدر من المفاضلة بين السرعة والدقة:
- العمود الفقري MAE-NAS: يستخدم عمودًا فقريًا تم اكتشافه من خلال البحث عن البنية العصبية الفعالة الواعية بالمنهج، مما يضمن أن كل معلمة تساهم بفعالية في استخراج الميزة.
- RepGFPPN: تصميم متخصص للرقبة يدمج الميزات عبر المقاييس بأقل تكلفة حسابية، مما يعزز اكتشاف الأجسام الصغيرة دون تعطيل سرعات الاستدلال.
- ZeroHead: رأس كشف مبسط يقلل من تعقيد طبقات التنبؤ النهائية.
يعتبر هذا النموذج قويًا بشكل خاص في السيناريوهات التي تتطلب إنتاجية عالية، مثل خطوط التجميع الصناعية أو مراقبة حركة المرور عالية السرعة، حيث يتم حساب أجزاء من الثانية.
سيناريوهات التطبيق في العالم الحقيقي
غالبًا ما يعود الاختيار بين هذين النموذجين إلى القيود المحددة لبيئة النشر.
متى تختار RTDETRv2
RTDETRv2 هو الخيار المفضل للتطبيقات التي تكون فيها الدقة غير قابلة للتفاوض وتكون موارد الأجهزة وفيرة.
- التصوير الطبي: في تحليل الصور الطبية، يمكن أن يكون لفقدان الكشف (سلبي كاذب) عواقب وخيمة. إن ارتفاع mAP الخاص بـ RTDETRv2 يجعله مناسبًا للكشف عن الحالات الشاذة في الأشعة السينية أو التصوير بالرنين المغناطيسي.
- المراقبة التفصيلية: بالنسبة للأنظمة الأمنية التي تتطلب التعرف على الوجه أو تحديد التفاصيل الصغيرة عن بُعد، فإن قدرات السياق العالمي لبنية المحول توفر ميزة مميزة.
متى تختار YOLO
يتألق YOLO في البيئات ذات الموارد المحدودة أو التطبيقات التي تتطلب زمن استجابة منخفض للغاية.
- الروبوتات: بالنسبة إلى الروبوتات المتنقلة المستقلة التي تعالج البيانات المرئية على الأجهزة المدمجة التي تعمل بالبطارية، تضمن كفاءة YOLO الاستجابة في الوقت الفعلي.
- التصنيع عالي السرعة: في أتمتة التصنيع، يتطلب الكشف عن العيوب على سيور النقل السريعة الحركة سرعات الاستدلال السريعة التي توفرها متغيرات YOLO الصغيرة والصغيرة.
ميزة Ultralytics : لماذا يعتبر YOLO11 هو الخيار الأمثل
بينما تقدم RTDETRv2 YOLO ميزات مقنعة, Ultralytics YOLO11 حلاً شاملاً يوازن بين الأداء وسهولة الاستخدام ودعم النظام البيئي، مما يجعله الخيار الأفضل لمعظم المطورين والباحثين.
نظام بيئي وسهولة استخدام لا مثيل له
إن أحد أهم العوائق التي تحول دون اعتماد نماذج البحث هو تعقيد قاعدة رموزها البرمجية. يزيل Ultralytics هذا الاحتكاك من خلال واجهة برمجة تطبيقات Python موحّدة وسهلة الاستخدام. سواء كنت تقوم بتجزئة النماذج أو تقدير الوضعية أو التصنيف، يظل سير العمل متسقًا وبديهيًا.
from ultralytics import YOLO
# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
تعدد الاستخدامات عبر المهام
على عكس YOLO الذي يركز في المقام الأول على الكشف، فإن YOLO11 هو منصة متعددة الاستخدامات. فهو يدعم مجموعة واسعة من مهام الرؤية الحاسوبية خارج الصندوق، بما في ذلك الكشف عن المربع المحدد الموجه (OBB) ، وهو أمر بالغ الأهمية للصور الجوية وتحليل الوثائق. يسمح هذا التنوع للفرق بتوحيد إطار عمل واحد لمتطلبات المشاريع المتعددة.
كفاءة التدريب وإدارة الذاكرة
تم تصميم YOLO11 لتحقيق الكفاءة. وعادةً ما يتطلب ذاكرة أقل GPU (VRAM) للتدريب مقارنةً بالنماذج القائمة على المحولات مثل RTDETRv2. تُقلل هذه الكفاءة من عائق الأجهزة، مما يسمح للمطورين بتدريب أحدث النماذج على وحدات معالجة الرسومات من فئة المستهلك أو الاستفادة الفعالة من الموارد السحابية عبر نظامUltralytics البيئي. علاوة على ذلك، تضمن المكتبة الواسعة من الأوزان المدربة مسبقاً سرعة وفعالية التعلّم المنقول، مما يقلل بشكل كبير من الوقت اللازم لوصول حلول الذكاء الاصطناعي إلى السوق.
لأولئك الذين يبحثون عن حل قوي وجيد الصيانة وعالي الأداء يتطور مع تطور الصناعة, Ultralytics YOLO11 يظل المعيار الموصى به.
استكشف مقارنات أخرى
لفهم كيفية تناسب هذه النماذج مع المشهد الأوسع للرؤية الحاسوبية، استكشف هذه المقارنات ذات الصلة:
- YOLO11 ضد RTDETR
- YOLO11 ضد DAMO-YOLO
- YOLOv8 ضد RTDETR
- YOLOv8 ضد DAMO-YOLO
- EfficientDet ضد DAMO-YOLO
- PP-YOLOE مقابل RTDETR