RTDETRv2 ضد DAMO-YOLO: نظرة متعمقة في الكشف عن الأجسام في الوقت الفعلي
يتطور مشهد رؤية الكمبيوتر بسرعة، حيث يدفع الباحثون باستمرار الحدود بين سرعة الاستدلال ودقة الاكتشاف. من بين المتنافسين البارزين في هذا المجال RTDETRv2، وهو نموذج قائم على المحولات من Baidu، و DAMO-YOLO، وهي شبكة التفافية مُحسَّنة للغاية من Alibaba. تستكشف هذه المقارنة الفنية الفلسفات المعمارية المتميزة لهذه النماذج ومقاييس أدائها وسيناريوهات التطبيق المثالية.
معايير الأداء: السرعة مقابل الدقة
عند اختيار نموذج للكشف عن الكائنات، يكمن المقايضة الأساسية عادةً بين متوسط الدقة (mAP) وزمن الوصول. تسلط البيانات التالية الضوء على اختلافات الأداء بين RTDETRv2 و DAMO-YOLO على مجموعة بيانات التحقق من COCO.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تكشف البيانات عن تمييز واضح في فلسفة التصميم. تعطي DAMO-YOLO الأولوية للسرعة والكفاءة الخام، حيث يحقق متغير 'Tiny' زمن انتقال منخفضًا بشكل استثنائي ومناسبًا لبيئات الحوسبة الطرفية المقيدة. وعلى العكس من ذلك، يدفع RTDETRv2 لتحقيق أقصى قدر من الدقة، حيث يحقق أكبر متغير له 54.3 mAP ملحوظًا، مما يجعله متفوقًا في المهام التي تكون فيها الدقة ذات أهمية قصوى.
RTDETRv2: قوة المحولات
يبني RTDETRv2 على نجاح بنية Detection Transformer (DETR)، ويعالج التكلفة الحسابية العالية المرتبطة عادةً بمحولات الرؤية مع الحفاظ على قدرتها على التقاط السياق العام.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2023-04-17 (الأولي)، 2024-07-24 (تحديث v2)
- Arxiv:RT-DETRv2: Improved Baseline with Bag-of-Freebies
- GitHub:RT-DETRv2 Repository
الهندسة المعمارية والقدرات
يستخدم RTDETRv2 وحدة ترميز هجينة تعالج ميزات متعددة المقاييس بكفاءة. بخلاف نماذج YOLO التقليدية القائمة على الشبكات العصبونية الالتفافية (CNN)، يلغي RTDETR الحاجة إلى المعالجة اللاحقة لـ قمع القيم القصوى غير القصوى (NMS). يبسط هذا النهج الشامل خط أنابيب النشر ويقلل من تباين زمن الوصول في المشاهد المزدحمة.
يستخدم النموذج مشفرًا هجينًا فعالاً يفصل التفاعل داخل النطاق والاندماج عبر النطاق، مما يقلل بشكل كبير من النفقات الحسابية مقارنة بنماذج DETR القياسية. يسمح له هذا التصميم بالتفوق في تحديد الكائنات في البيئات المعقدة حيث قد يؤدي الانسداد إلى إرباك أجهزة الكشف التلافيفية القياسية.
استخدام ذاكرة المحولات (Transformer)
في حين أن RTDETRv2 يوفر دقة عالية، من المهم ملاحظة أن Architectures Transformer تستهلك بشكل عام المزيد من ذاكرة CUDA أثناء التدريب مقارنة بشبكات CNN. قد يجد المستخدمون ذوو ذاكرة GPU VRAM المحدودة صعوبة في تدريب هذه النماذج مقارنة بالبدائل الفعالة مثل YOLO11.
DAMO-YOLO: مُحسَّن لتحقيق الكفاءة
يمثل DAMO-YOLO نهجًا صارمًا لتحسين التصميم المعماري، والاستفادة من البحث عن البنية العصبية (NAS) للعثور على الهياكل الأكثر كفاءة لاستخراج الميزات ودمجها.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:DAMO-YOLO: تقرير عن تصميم كشف الأجسام في الوقت الفعلي
- GitHub:مستودع DAMO-YOLO
الابتكارات المعمارية الرئيسية
تدمج DAMO-YOLO العديد من التقنيات المتقدمة لزيادة المفاضلة بين السرعة والدقة:
- العمود الفقري MAE-NAS: يستخدم عمودًا فقريًا تم اكتشافه عبر البحث في بنية الشبكة العصبية الفعالة الواعية بالطريقة، مما يضمن أن تساهم كل معلمة بفعالية في استخراج الميزات.
- RepGFPN: تصميم رقبة متخصص يدمج الميزات عبر المقاييس بأقل تكلفة حسابية، مما يعزز detect الأجسام الصغيرة دون إيقاف inference speeds.
- ZeroHead: رأس detect مبسط يقلل من تعقيد طبقات التوقع النهائية.
هذا النموذج قوي بشكل خاص في السيناريوهات التي تتطلب إنتاجية عالية، مثل خطوط التجميع الصناعية أو مراقبة حركة المرور عالية السرعة، حيث تُحتسب الملّي ثانية.
سيناريوهات تطبيق العالم الحقيقي
غالبًا ما يرجع الاختيار بين هذين النموذجين إلى القيود المحددة لبيئة النشر.
متى تختار RTDETRv2
يعد RTDETRv2 هو الخيار المفضل للتطبيقات التي تكون فيها الدقة غير قابلة للتفاوض وتكون موارد الأجهزة وفيرة.
- التصوير الطبي: في تحليل الصور الطبية، يمكن أن يكون لفقدان الكشف (سلبية كاذبة) عواقب وخيمة. إن ارتفاع mAP في RTDETRv2 يجعله مناسبًا لـ detect التشوهات في الأشعة السينية أو فحوصات التصوير بالرنين المغناطيسي.
- مراقبة تفصيلية: بالنسبة للأنظمة الأمنية التي تتطلب التعرف على الوجوه أو تحديد التفاصيل الصغيرة عن بعد، توفر إمكانات السياق العالمي لبنية المحولات ميزة واضحة.
متى تختار DAMO-YOLO
يتألق DAMO-YOLO في البيئات محدودة الموارد أو التطبيقات التي تتطلب زمن انتقال منخفض للغاية.
- الروبوتات: بالنسبة للروبوتات المتنقلة المستقلة التي تعالج البيانات المرئية على الأجهزة المدمجة التي تعمل بالبطاريات، تضمن كفاءة DAMO-YOLO استجابة في الوقت الفعلي.
- تصنيع عالي السرعة: في أتمتة التصنيع، يتطلب الكشف عن العيوب على السيور الناقلة سريعة الحركة سرعات استدلال سريعة توفرها المتغيرات DAMO-YOLO-tiny والصغيرة.
ميزة Ultralytics: لماذا YOLO11 هو الخيار الأمثل
في حين أن RTDETRv2 و DAMO-YOLO يقدمان ميزات مقنعة، فإن Ultralytics YOLO11 يوفر حلاً شاملاً يوازن بين الأداء وسهولة الاستخدام ودعم النظام البيئي، مما يجعله الخيار الأفضل لمعظم المطورين والباحثين.
نظام بيئي وسهولة استخدام لا مثيل لهما
تتمثل إحدى أهم العوائق التي تحول دون تبني نماذج البحث في تعقيد قاعدة التعليمات البرمجية الخاصة بها. تزيل Ultralytics هذا الاحتكاك من خلال واجهة Python API موحدة وسهلة الاستخدام. سواء كنت تقوم بتنفيذ تقسيم المثيلات (instance segmentation) أو تقدير الوضعية (pose estimation) أو التصنيف (classification)، فإن سير العمل يظل ثابتًا وبديهيًا.
from ultralytics import YOLO
# Load a model (YOLO11 offers various sizes: n, s, m, l, x)
model = YOLO("yolo11n.pt")
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
تعدد الاستخدامات عبر المهام
على عكس DAMO-YOLO، الذي يركز في المقام الأول على الـ detect، فإن YOLO11 عبارة عن نظام أساسي متعدد الاستخدامات. وهو يدعم مجموعة واسعة من مهام رؤية الكمبيوتر خارج الصندوق، بما في ذلك Oriented Bounding Box (OBB) detection، وهو أمر بالغ الأهمية لتصوير الصور الجوية وتحليل المستندات. يتيح هذا التنوع للفرق توحيد معايير إطار عمل واحد لمتطلبات المشاريع المتعددة.
كفاءة التدريب وإدارة الذاكرة
تم تصميم YOLO11 لتحقيق الكفاءة. يتطلب عادةً ذاكرة GPU (VRAM) أقل للتدريب مقارنة بالنماذج القائمة على المحولات مثل RTDETRv2. تعمل هذه الكفاءة على خفض حاجز الأجهزة، مما يسمح للمطورين بتدريب أحدث النماذج على وحدات معالجة الرسومات من الدرجة الاستهلاكية أو استخدام الموارد السحابية بشكل فعال عبر نظام Ultralytics البيئي. علاوة على ذلك، تضمن المكتبة الواسعة للأوزان المدربة مسبقًا أن يكون التعلم بالنقل سريعًا وفعالًا، مما يقلل بشكل كبير من الوقت اللازم لطرح حلول الذكاء الاصطناعي في السوق.
بالنسبة لأولئك الذين يبحثون عن حل قوي ومصان جيدًا وعالي الأداء يتطور مع الصناعة، يظل Ultralytics YOLO11 هو المعيار الموصى به.
استكشف مقارنات أخرى
لفهم أفضل لكيفية ملاءمة هذه النماذج لمشهد رؤية الكمبيوتر الأوسع، استكشف هذه المقارنات ذات الصلة:
- YOLO11 ضد RTDETR
- YOLO11 ضد DAMO-YOLO
- YOLOv8 ضد RTDETR
- YOLOv8 ضد DAMO-YOLO
- EfficientDet ضد DAMO-YOLO
- PP-YOLOE مقابل RTDETR