EfficientDet مقابل YOLOv9: مقارنة بين البنية والأداء
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار بنية الكشف عن الأجسام المناسبة قرارًا بالغ الأهمية يؤثر على كل شيء بدءًا من تكاليف التدريب وحتى زمن الاستجابة عند النشر. يقدم هذا التحليل الفني مقارنة شاملة بين EfficientDet، وهي بنية رائدة من Google على التوسع الفعال، و YOLOv9، وهي نسخة حديثة من YOLO تقدم معلومات تدرج قابلة للبرمجة لتعلم الميزات بشكل فائق.
ملخص تنفيذي
على الرغم من أن EfficientDet قد أدخلت مفاهيم رائدة في مجال تحجيم النماذج ودمج الميزات، إلا أنها تعتبر الآن بنية قديمة. غالبًا ما يؤدي اعتمادها على طبقات BiFPN المعقدة إلى إبطاء سرعات الاستدلال على الأجهزة الحديثة مقارنة بالتصميمات المبسطة YOLO .
YOLOv9 يمثل قفزة كبيرة إلى الأمام، حيث يوفر دقة أعلى مع سرعات استدلال فائقة. علاوة على ذلك، كجزء من Ultralytics YOLOv9 من واجهة برمجة تطبيقات موحدة، ونشر مبسط، ودعم قوي من المجتمع، مما يجعله الخيار الموصى به لبيئات الإنتاج.
EfficientDet: كشف الكائنات بكفاءة وقابلية للتوسع
تم تصميم EfficientDet لحل مشكلة توسيع نطاق أجهزة الكشف عن الأجسام بكفاءة. غالبًا ما كانت النماذج السابقة توسع نطاقها ببساطة عن طريق تكبير العمود الفقري، مما يتجاهل التوازن بين الدقة والعمق والعرض.
الميزات المعمارية الرئيسية
- التحجيم المركب: يقترح EfficientDet طريقة تحجيم مركبة تعمل على تحجيم الدقة والعمق والعرض بشكل موحد لجميع شبكات العمود الفقري وشبكات الميزات وشبكات التنبؤ بالصناديق/الفئات.
- BiFPN (شبكة هرمية ثنائية الاتجاه): ابتكار رئيسي يتيح دمج الميزات متعددة المستويات بسهولة. على عكس شبكات FPN التقليدية، تضيف BiFPN مسارات تصاعدية وتزيل العقد التي تحتوي على مدخل واحد فقط، وتدمج الأوزان القابلة للتعلم لفهم أهمية ميزات المدخلات المختلفة.
- الهيكل الأساسي لـ EfficientNet: يستخدم EfficientNet كهيكل أساسي، وهو مُحسّن من أجل كفاءة المعلمات.
المؤلفون: مينغشينغ تان، رومينغ بانغ، وكووك في. لي
المنظمة:Google
التاريخ: 2019-11-20
الروابط:Arxiv | GitHub
تعرف على المزيد حول EfficientDet
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9 يعالج مشكلة أساسية في التعلم العميق: اختناقات المعلومات. عندما تمر البيانات عبر طبقات شبكة عصبية عميقة، لا مفر من فقدان المعلومات. YOLOv9 هذه المشكلة من خلال معلومات التدرج القابلة للبرمجة (PGI) وبنية جديدة تسمى GELAN.
الميزات المعمارية الرئيسية
- GELAN (شبكة تجميع الطبقات الفعالة المعممة): تجمع هذه البنية بين أفضل جوانب CSPNet و ELAN. وهي تعمل على تحسين مسارات الانحدار التدرجي ، مما يضمن أن يتعلم النموذج ميزات خفيفة الوزن ولكنها غنية بالمعلومات.
- PGI (معلومات التدرج القابلة للبرمجة): توفر PGI فرعًا إضافيًا للإشراف يوجه عملية التعلم، مما يضمن احتفاظ الفرع الرئيسي بالمعلومات الهامة اللازمة للكشف الدقيق. وهذا مفيد بشكل خاص للكشف عن الأهداف الصعبة في البيئات المعقدة.
- البساطة: على الرغم من هذه التعقيدات الداخلية، تظل بنية الاستدلال مبسطة، مما يتجنب التكلفة الحسابية الباهظة المرتبطة بـ BiFPN المستخدمة في EfficientDet.
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينكا، تايوان
التاريخ: 2024-02-21
الروابط:Arxiv | GitHub
مقارنة الأداء الفني
عند مقارنة هذه النماذج، يتضح التوازن بين كفاءة المعلمات وزمن الاستجابة الفعلي. في حين أن EfficientDet يتسم بكفاءة المعلمات، فإن هيكله البياني المعقد (BiFPN) أقل ملاءمة GPU مقارنة بالتلافيف القياسية المستخدمة في YOLOv9.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
تحليل الأداء
يتفوق YOLOv9 على EfficientDet من حيث نسبة السرعة إلى الدقة. على سبيل المثال، يحقق YOLOv9c معدل mAP 53.0٪) مماثل لـ EfficientDet-d6 (52.6٪) ولكنه يعمل بسرعة تزيد عن 12 ضعفًا على GPU T4 GPU 7.16 مللي ثانية مقابل 89.29 مللي ثانية). وهذا يجعل YOLOv9 الخيار الأفضل للتطبيقات في الوقت الفعلي.
التدريب وتجربة النظام البيئي
أحد العوامل الرئيسية التي تميز هذه البنى هي سهولة الاستخدام ودعم النظام البيئي الذي توفره Ultralytics.
تحديات الكفاءة
عادةً ما يتضمن تدريب EfficientDet التنقل في واجهة برمجة تطبيقاتTensorFlow Detection API أو المستودعات القديمة. قد يكون من الصعب إعدادها بسبب تعارضات التبعية، وغالبًا ما تفتقر إلى دعم الميزات الحديثة مثل التدريب التلقائي بدقة مختلطة أو سهولة تكامل التسجيل السحابي.
ميزة Ultralytics
يوفر استخدام YOLOv9 Ultralytics تجربة سلسة. يتعامل النظام البيئي مع زيادة البيانات وتطور المعلمات الفائقة والتصدير تلقائيًا.
- سهولة الاستخدام: يمكنك بدء التدريب ببضع أسطر من التعليمات البرمجية.
- كفاءة الذاكرة: تم تحسين Ultralytics لاستخدام قدر أقل من ذاكرة VRAM أثناء التدريب، مما يسمح بأحجام دفعات أكبر على وحدات معالجة الرسومات (GPU) الاستهلاكية مقارنة بالشبكات المعقدة متعددة الفروع.
- تعدد الاستخدامات: بالإضافة إلى الكشف، تدعم Ultralytics تقسيم الحالات وتقدير الوضع، وهي ميزات غير متوفرة أصلاً في تطبيقات EfficientDet القياسية.
from ultralytics import YOLO
# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train on a custom dataset with a single command
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
تطبيقات عملية في أرض الواقع
يؤثر اختيار النموذج بشكل كبير على جدوى التطبيقات المختلفة.
حالات الاستخدام المثالية لـ EfficientDet
- البحث الأكاديمي: مفيد لدراسة تقنيات دمج الميزات ونظريات القياس المركب.
- سيناريوهات الطاقة المنخفضة/السرعة المنخفضة: في حالات حافة محددة للغاية حيث يتم ترميز الأجهزة القديمة بشكل ثابت لشبكات EfficientNet الأساسية (على سبيل المثال، بعض وحدات معالجة Coral TPUs القديمة)، قد تظل متغيرات EfficientDet-Lite ذات صلة.
حالات الاستخدام المثالية لـ YOLOv9
- الملاحة الذاتية: تعد سرعة الاستدلال العالية أمرًا بالغ الأهمية للسيارات ذاتية القيادة التي يجب أن تعالج المدخلات في أجزاء من الثانية لضمان السلامة.
- تحليلات البيع بالتجزئة: بالنسبة لتطبيقات مثل إدارة المخزون، YOLOv9 الدقة اللازمة للتمييز بين المنتجات المماثلة دون تعطيل أنظمة الدفع.
- الرعاية الصحية: في تحليل الصور الطبية، تساعد بنية PGI في الاحتفاظ بالتفاصيل الدقيقة اللازمة للكشف عن الشذوذات الصغيرة في الأشعة السينية أو فحوصات التصوير بالرنين المغناطيسي.
المستقبل: الترقية إلى YOLO26
على الرغم من YOLOv9 أداة قوية، YOLOv9 Ultralytics توسيع حدود الذكاء الاصطناعي في مجال الرؤية. بالنسبة للمطورين الباحثين عن أحدث التقنيات، يقدم YOLO26 تطورات مهمة مقارنة بكل من EfficientDet و YOLOv9.
يقدم YOLO26 تصميمًا شاملاً NMS، مما يلغي تمامًا الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression. وينتج عن ذلك خطوط أنابيب نشر أبسط واستدلال أسرع. بالإضافة إلى ذلك، مع محسن MuSGDالجديد — وهو مزيج من SGD Muon — يوفر YOLO26 تدريبًا أكثر استقرارًا وتقاربًا أسرع.
بالنسبة للنشر على الحافة، تم تحسين YOLO26 ليحقق CPU أسرع بنسبة تصل إلى 43٪ CPU ويتضمن إزالة DFL لتحسين التوافق مع الأجهزة منخفضة الطاقة. سواء كنت تعمل في مجال الروبوتات أو تحليلات الفيديو عالية الإنتاجية، فإن YOLO26 يمثل المعيار الجديد.
بالنسبة للمستخدمين المهتمين ببنى حديثة أخرى، نوصي أيضًا باستكشاف YOLO11 و RT-DETR في Ultralytics .