RTDETRv2 مقابل EfficientDet: تحليل بنى الكشف في الوقت الحقيقي
يعد اختيار بنية الشبكة العصبية المثلى خيارًا حاسمًا لأي مشروع رؤية حاسوبية. تحلل هذه المقارنة التقنية الشاملة نموذجين مؤثرين للكشف عن الكائنات: RTDETRv2، وهو كاشف متطور يعتمد على المحولات، و EfficientDet، وهي شبكة عصبية تلافيفية عالية القابلية للتوسع. سنقوم بتقييم بنياتهما المتميزة ومقاييس الأداء ومنهجيات التدريب وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرارات تستند إلى البيانات لخطوط إنتاج الذكاء الاصطناعي الخاصة بك.
RTDETRv2: محول الكشف في الوقت الحقيقي
بناءً على نجاح RT-DETR الأصلي، يعمل RTDETRv2 على تحسين نموذج الكشف عن الكائنات القائم على المحولات. من خلال تحسين هياكل التشفير وفك التشفير، يوفر دقة عالية مع الحفاظ على سرعات الاستدلال في الوقت الفعلي، مما يسد الفجوة بين شبكات CNN التقليدية ومحولات الرؤية بشكل فعال.
تفاصيل النموذج
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة: Baidu
التاريخ: 2024-07-24
الروابط: Arxiv، GitHub، Docs
الهندسة المعمارية ونقاط القوة الأساسية
يستخدم RTDETRv2 بنية هجينة تجمع بين شبكة CNN قوية (غالبًا ResNet أو HGNet) ومفكك محول فعال. السمة الأكثر تميزًا لـ RTDETRv2 هي قدرته الأصلية على تجاوز عدم القمع الأقصى (NMS). تتطلب أجهزة الكشف التقليدية NMS المربعات المحددة المكررة، مما يضيف زمن استدلال متغير أثناء المعالجة اللاحقة. يصوغ RTDETRv2 الكشف كمشكلة تنبؤ مباشرة، باستخدام المطابقة الثنائية لإخراج تنبؤات فريدة.
يتميز هذا النموذج في عمليات النشر من جانب الخادم حيث تتوفر GPU بكثرة. توفر آلية الانتباه الشاملة الخاصة به وعيًا استثنائيًا بالسياق، مما يجعله بارعًا للغاية في فصل الكائنات المتداخلة في البيئات المزدحمة والمكتظة مثل أنظمة الإنذار الأمني الآلية أو مراقبة الحشود الكثيفة.
القيود
على الرغم من قوتها، تتطلب بنى المحولات بطبيعتها المزيد من CUDA أثناء التدريب مقارنة بشبكات CNN القياسية. علاوة على ذلك، قد يتطلب ضبط RTDETRv2 أوقات تقارب بيانات تدريب أطول، مما يجعل النماذج الأولية السريعة أكثر استهلاكًا للموارد.
EfficientDet: شبكات CNN قابلة للتطوير وفعالة
قدمت EfficientDet مجموعة من نماذج الكشف عن الأشياء التي تم تحسينها من حيث الدقة والكفاءة عبر نطاق واسع من قيود الموارد. ولا تزال هذه المجموعة مثالاً كلاسيكياً لتصميم الرؤية الآلية القابلة للتطوير.
تفاصيل النموذج
المؤلفون: Mingxing Tan و Ruoming Pang و Quoc V. Le
المنظمة: Google
التاريخ: 2019-11-20
الروابط: Arxiv، GitHub، Docs
الهندسة المعمارية ونقاط القوة الأساسية
يكمن الابتكار وراء EfficientDet في مجالين رئيسيين: شبكة هرم الميزات ثنائية الاتجاه (BiFPN) وطريقة القياس المركبة. تسمح BiFPN باستخراج ميزات متعددة المقاييس بشكل بسيط وسريع من خلال إدخال أوزان قابلة للتعلم لتعلم أهمية ميزات الإدخال المختلفة، مع تطبيق اندماج الميزات متعددة المقاييس من أعلى إلى أسفل ومن أسفل إلى أعلى بشكل متكرر. تعمل طريقة القياس المركبة على قياس الدقة والعمق والعرض للشبكة بشكل موحد في وقت واحد.
تتراوح نماذج EfficientDet من D0 فائقة الخفة إلى D7 الضخمة. وهذا يجعلها متعددة الاستخدامات للغاية في عمليات نشر الذكاء الاصطناعي المتطورة حيث يتعين على المطورين تحقيق التوازن بين الميزانيات الحسابية المحدودة ومتطلبات الدقة، مثل تطبيقات الواقع المعزز المبكرة للأجهزة المحمولة.
القيود
EfficientDet هي بنية قديمة تعتمد بشكل كبير على صناديق الربط وخط أنابيب NMS التقليدي. تتطلب عملية إنشاء الربط ضبطًا دقيقًا للمعلمات الفائقة، ويمكن أن تؤدي NMS إلى إعاقة النشر على الأجهزة المدمجة مثل Raspberry Pi. كما أنها تفتقر إلى الدعم الأصلي للمهام الحديثة مثل تقدير الوضع أو الصناديق المحددة الموجهة (OBB).
تعرف على المزيد حول EfficientDet
مقارنة الأداء والمقاييس
لفهم المفاضلات الدقيقة بين هذه النماذج، يلزم تحليل إنتاجيتها وكفاءة معلماتها. يوضح الجدول أدناه مقارنة بين سلسلة RTDETRv2 الحديثة وعائلة EfficientDet القابلة للتطوير.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
كما هو موضح أعلاه، يحقق RTDETRv2 متوسط دقة أعلى بكثير (mAP) عند عدد معلمات مماثل لنماذج EfficientDet متوسطة المستوى، حيث يستخدم بشكل مكثف بنية المحول لتعزيز الدقة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR EfficientDet على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار EfficientDet
يوصى باستخدام EfficientDet في الحالات التالية:
- Google و TPU : أنظمة متكاملة بشكل عميق مع واجهات برمجة تطبيقات Google Vision أو TPU حيث يتمتع EfficientDet بتحسين أصلي.
- أبحاث التوسع المركب: مقارنة أكاديمية تركز على دراسة آثار التوازن بين عمق الشبكة وعرضها وتوسع الدقة.
- النشر عبر الأجهزة المحمولة باستخدام TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow لأجهزة Android أجهزة Linux المدمجة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
Ultralytics : تطوير أحدث التقنيات
على الرغم من أن كلا من RTDETRv2 و EfficientDet يتمتعان بمزايا قوية، إلا أن تطوير الذكاء الاصطناعي الحديث يتطلب أطر عمل توفر تجربة مطور سلسة إلى جانب أداء متطور. يوفر Ultralytics نهجًا أكثر بساطة لمهام الرؤية الحاسوبية.
إذا كنت تبحث عن أحدث تقنيات الكشف، فإن Ultralytics الذي تم إصداره مؤخرًا يجمع بين أفضل جوانب كل من CNNs و transformers.
لماذا تختار YOLO26؟
يطبق YOLO26 تصميمًا شاملاً NMS، مما يوفر بساطة نشر RTDETRv2 إلى YOLO فائقة الكفاءة. علاوة على ذلك، يقدم مُحسّن MuSGD— المستوحى من ابتكارات تدريب LLM — لتحقيق استقرار تدريب فائق. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة ذات الحافة/الطاقة المنخفضة)، يتميز YOLO26 CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة، مما يجعله خيارًا استثنائيًا للحوسبة الطرفية مقارنة بالنماذج الأثقل. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.
سهولة الاستخدام التي توفرها Python Ultralytics Python لا مثيل لها. يمكن للمطورين تدريب النماذج والتحقق من صحتها وتصديرها باستخدام واجهة برمجة تطبيقات بديهية تعمل على تجريد الكود النمطي الذي تتطلبه عادة مستودعات الأبحاث.
from ultralytics import RTDETR
# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export for optimized inference on TensorRT
model.export(format="engine")
تدعم Ultralytics بشكل أساسي مهام متعددة، بما في ذلك تجزئة الحالات وتصنيف الصور، مما يوفر مجموعة أدوات متنوعة لتلبية احتياجات الصناعات المختلفة. علاوة على ذلك، فإن إزالة Distribution Focal Loss (DFL) في Ultralytics الحديثة يبسط الرسم البياني الحسابي، مما يضمن تصديرًا أكثر سلاسة إلى وحدات NPUs و TPUs المدمجة.
من أجل توفير تعليقات على البيانات وإدارة نماذج سلسة، توفر Ultralytics بيئة سحابية شاملة للإشراف على دورة حياة التعلم الآلي بأكملها، مما يجعلها الخيار الأول لنشر حلول رؤية حاسوبية قوية في الإنتاج.