RTDETRv2 مقابل EfficientDet: تحليل بنى الكشف في الوقت الحقيقي

يعد اختيار بنية الشبكة العصبية المثلى خيارًا حاسمًا لأي مشروع رؤية حاسوبية. تحلل هذه المقارنة التقنية الشاملة نموذجين مؤثرين للكشف عن الكائنات: RTDETRv2، وهو كاشف متطور يعتمد على المحولات، و EfficientDet، وهي شبكة عصبية تلافيفية عالية القابلية للتوسع. سنقوم بتقييم بنياتهما المتميزة ومقاييس الأداء ومنهجيات التدريب وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرارات تستند إلى البيانات لخطوط إنتاج الذكاء الاصطناعي الخاصة بك.

RTDETRv2: محول الكشف في الوقت الحقيقي

بناءً على نجاح RT-DETR الأصلي، يقوم RTDETRv2 بتحسين نموذج اكتشاف الكائنات القائم على المحولات. من خلال تحسين هياكل المشفّر والمفكّك، فإنه يوفر دقة عالية مع الحفاظ على سرعات الاستدلال في الوقت الفعلي، مما يسد الفجوة بشكل فعال بين الشبكات العصبية التقليدية (CNNs) ومحولات الرؤية.

تفاصيل النموذج المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
المنظمة: Baidu التاريخ: 2024-07-24 الروابط: Arxiv, GitHub, الوثائق

الهندسة المعمارية ونقاط القوة الأساسية

يستخدم RTDETRv2 بنية هجينة تجمع بين شبكة CNN قوية (غالبًا ResNet أو HGNet) ومفكك محول فعال. السمة الأكثر تميزًا لـ RTDETRv2 هي قدرته الأصلية على تجاوز عدم القمع الأقصى (NMS). تتطلب أجهزة الكشف التقليدية NMS المربعات المحددة المكررة، مما يضيف زمن استدلال متغير أثناء المعالجة اللاحقة. يصوغ RTDETRv2 الكشف كمشكلة تنبؤ مباشرة، باستخدام المطابقة الثنائية لإخراج تنبؤات فريدة.

يتميز هذا النموذج في عمليات النشر من جانب الخادم حيث تتوفر GPU بكثرة. توفر آلية الانتباه الشاملة الخاصة به وعيًا استثنائيًا بالسياق، مما يجعله بارعًا للغاية في فصل الكائنات المتداخلة في البيئات المزدحمة والمكتظة مثل أنظمة الإنذار الأمني الآلية أو مراقبة الحشود الكثيفة.

القيود

على الرغم من قوتها، تتطلب بنى المحولات بطبيعتها المزيد من CUDA أثناء التدريب مقارنة بشبكات CNN القياسية. علاوة على ذلك، قد يتطلب ضبط RTDETRv2 أوقات تقارب بيانات تدريب أطول، مما يجعل النماذج الأولية السريعة أكثر استهلاكًا للموارد.

تعرف على المزيد حول RTDETRv2

EfficientDet: شبكات CNN قابلة للتطوير وفعالة

قدمت EfficientDet مجموعة من نماذج الكشف عن الأشياء التي تم تحسينها من حيث الدقة والكفاءة عبر نطاق واسع من قيود الموارد. ولا تزال هذه المجموعة مثالاً كلاسيكياً لتصميم الرؤية الآلية القابلة للتطوير.

تفاصيل النموذج المؤلفون: Mingxing Tan, Ruoming Pang, and Quoc V. Le
المنظمة: Google
التاريخ: 2019-11-20
الروابط: Arxiv, GitHub, الوثائق

الهندسة المعمارية ونقاط القوة الأساسية

يكمن الابتكار وراء EfficientDet في مجالين رئيسيين: شبكة هرم الميزات ثنائية الاتجاه (BiFPN) وطريقة القياس المركبة. تسمح BiFPN باستخراج ميزات متعددة المقاييس بشكل بسيط وسريع من خلال إدخال أوزان قابلة للتعلم لتعلم أهمية ميزات الإدخال المختلفة، مع تطبيق اندماج الميزات متعددة المقاييس من أعلى إلى أسفل ومن أسفل إلى أعلى بشكل متكرر. تعمل طريقة القياس المركبة على قياس الدقة والعمق والعرض للشبكة بشكل موحد في وقت واحد.

تتراوح نماذج EfficientDet من D0 فائقة الخفة إلى D7 الضخمة. وهذا يجعلها متعددة الاستخدامات للغاية في عمليات نشر الذكاء الاصطناعي المتطورة حيث يتعين على المطورين تحقيق التوازن بين الميزانيات الحسابية المحدودة ومتطلبات الدقة، مثل تطبيقات الواقع المعزز المبكرة للأجهزة المحمولة.

القيود

EfficientDet هي بنية قديمة تعتمد بشكل كبير على صناديق الربط وخط أنابيب NMS التقليدي. تتطلب عملية إنشاء الربط ضبطًا دقيقًا للمعلمات الفائقة، ويمكن أن تؤدي NMS إلى إعاقة النشر على الأجهزة المدمجة مثل Raspberry Pi. كما أنها تفتقر إلى الدعم الأصلي للمهام الحديثة مثل تقدير الوضع أو الصناديق المحددة الموجهة (OBB).

تعرف على المزيد حول EfficientDet

مقارنة الأداء والمقاييس

لفهم المفاضلات الدقيقة بين هذه النماذج، يلزم تحليل إنتاجيتها وكفاءة معلماتها. يوضح الجدول أدناه مقارنة بين سلسلة RTDETRv2 الحديثة وعائلة EfficientDet القابلة للتطوير.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

EfficientDet-d0	640	34.6	10.2	3.92	3.9	2.54
EfficientDet-d1	640	40.5	13.5	7.31	6.6	6.1
EfficientDet-d2	640	43.0	17.7	10.92	8.1	11.0
EfficientDet-d3	640	47.5	28.0	19.59	12.0	24.9
EfficientDet-d4	640	49.7	42.8	33.55	20.7	55.2
EfficientDet-d5	640	51.5	72.5	67.86	33.7	130.0
EfficientDet-d6	640	52.6	92.8	89.29	51.9	226.0
EfficientDet-d7	640	53.7	122.0	128.07	51.9	325.0

كما هو موضح أعلاه، يحقق RTDETRv2 متوسط دقة متوسط (mAP) أعلى بكثير عند أعداد معلمات مماثلة لنماذج EfficientDet متوسطة المستوى، مستفيدًا بشكل كبير من بنية المحولات الخاصة به لتعزيز الدقة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين RT-DETR وEfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار RT-DETR

RT-DETR خيار قوي لـ:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار EfficientDet

يوصى باستخدام EfficientDet في الحالات التالية:

خطوط أنابيب Google Cloud و TPU: الأنظمة المدمجة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
بحث التحجيم المركب: قياس الأداء الأكاديمي الذي يركز على دراسة تأثيرات تحجيم عمق الشبكة وعرضها ودقتها المتوازن.
النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

Ultralytics : تطوير أحدث التقنيات

على الرغم من أن كلا من RTDETRv2 و EfficientDet يتمتعان بمزايا قوية، إلا أن تطوير الذكاء الاصطناعي الحديث يتطلب أطر عمل توفر تجربة مطور سلسة إلى جانب أداء متطور. يوفر Ultralytics نهجًا أكثر بساطة لمهام الرؤية الحاسوبية.

إذا كنت تبحث عن أحدث تقنيات الكشف، فإن Ultralytics الذي تم إصداره مؤخرًا يجمع بين أفضل جوانب كل من CNNs و transformers.

لماذا تختار YOLO26؟

يطبق YOLO26 تصميمًا شاملاً NMS، مما يوفر بساطة نشر RTDETRv2 إلى YOLO فائقة الكفاءة. علاوة على ذلك، يقدم مُحسّن MuSGD— المستوحى من ابتكارات تدريب LLM — لتحقيق استقرار تدريب فائق. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين توافق الأجهزة ذات الحافة/الطاقة المنخفضة)، يتميز YOLO26 CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالأجيال السابقة، مما يجعله خيارًا استثنائيًا للحوسبة الطرفية مقارنة بالنماذج الأثقل. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

سهولة الاستخدام التي توفرها Python Ultralytics Python لا مثيل لها. يمكن للمطورين تدريب النماذج والتحقق من صحتها وتصديرها باستخدام واجهة برمجة تطبيقات بديهية تعمل على تجريد الكود النمطي الذي تتطلبه عادة مستودعات الأبحاث.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

تدعم Ultralytics بشكل أساسي مهام متعددة، بما في ذلك تجزئة الحالات وتصنيف الصور، مما يوفر مجموعة أدوات متنوعة لتلبية احتياجات الصناعات المختلفة. علاوة على ذلك، فإن إزالة Distribution Focal Loss (DFL) في Ultralytics الحديثة يبسط الرسم البياني الحسابي، مما يضمن تصديرًا أكثر سلاسة إلى وحدات NPUs و TPUs المدمجة.

من أجل توفير تعليقات على البيانات وإدارة نماذج سلسة، توفر Ultralytics بيئة سحابية شاملة للإشراف على دورة حياة التعلم الآلي بأكملها، مما يجعلها الخيار الأول لنشر حلول رؤية حاسوبية قوية في الإنتاج.