EfficientDet مقابل YOLOv6-3.0: مقارنة فنية شاملة
في المشهد المتطور للرؤية الحاسوبية، يعد اختيار البنية الصحيحة للكشف عن الكائنات أمرًا بالغ الأهمية للنشر الناجح. تستكشف هذه المقارنة الفروق الفنية بين EfficientDet، وهو نموذج يركز على الأبحاث من Google و YOLOv6.0، وهو كاشف من الدرجة الصناعية من Meituan. بينما قدم EfficientDet مفاهيم كفاءة رائدة مثل القياس المركب، تم تصميم YOLOv6.0 خصيصًا للتطبيقات الصناعية ذات الكمون المنخفض، مما يسلط الضوء على التحول من المعايير الأكاديمية إلى الإنتاجية في العالم الحقيقي.
مقارنة مقاييس الأداء
توضح المعايير التالية على مجموعة بيانات COCO المفاضلة بين الكفاءة المعمارية وزمن انتقال الاستدلال. يُظهر YOLOv6-3.0 سرعة فائقة على أجهزة GPU، وذلك باستخدام تقنيات إعادة المعلمات، بينما تحافظ EfficientDet على دقة تنافسية بتكاليف حسابية أعلى.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
EfficientDet: كفاءة قابلة للتطوير
مثلت EfficientDet نقلة نوعية في تصميم النموذج من خلال التحسين المنهجي لعمق الشبكة وعرضها ودقتها. استنادًا إلى EfficientNet backbone، قدمت شبكة Bi-directional Feature Pyramid Network (BiFPN)، مما يسمح بدمج الميزات متعددة المقاييس بسهولة.
- المؤلفون: Mingxing Tan و Ruoming Pang و Quoc V. Le
- المؤسسة: Google
- التاريخ: 2019-11-20
- Arxiv: https://arxiv.org/abs/1911.09070
- GitHub: https://github.com/google/automl/tree/master/efficientdet
- المستندات: https://github.com/google/automl/tree/master/efficientdet#readme
الابتكارات المعمارية
يكمن جوهر EfficientDet في BiFPN، والذي يسمح بتدفق المعلومات من أعلى إلى أسفل ومن أسفل إلى أعلى، ودمج الميزات بشكل متكرر على مقاييس مختلفة. يتناقض هذا مع شبكات هرم الميزات (FPN) الأبسط المستخدمة غالبًا في الكاشفات القديمة. بالإضافة إلى ذلك، تستخدم EfficientDet توسيع النطاق المركب، وهي طريقة تعمل على توسيع النطاق بشكل موحد للعمود الفقري و BiFPN وشبكات الفئة/المربع باستخدام معامل مركب واحد $\phi$. يضمن هذا النهج المنظم موازنة الموارد عبر أبعاد النموذج، وتجنب الاختناقات التي توجد غالبًا في البنى المصممة يدويًا.
نقاط القوة والضعف
يتفوق EfficientDet في كفاءة المعلمات، حيث يحقق mAP عاليًا مع عدد معلمات أقل نسبيًا من معاصريه مثل YOLOv3. إنه فعال بشكل خاص في مهام تصنيف الصور و detect حيث يكون حجم النموذج (التخزين) قيدًا ولكن وقت الاستجابة قابل للتفاوض. ومع ذلك، يمكن أن تكون الاتصالات غير المنتظمة المعقدة في طبقة BiFPN والاستخدام المكثف لالتواءات قابلة للفصل بعمق غير فعال على وحدات معالجة الرسومات القياسية، مما يؤدي إلى وقت استجابة استنتاج أعلى على الرغم من انخفاض عدد FLOP.
زمن الوصول مقابل FLOPs
بينما يتمتع EfficientDet بعمليات الفاصلة العائمة المنخفضة (FLOPs)، فإن هذا لا يترجم دائمًا إلى سرعة أكبر على وحدات معالجة الرسوميات GPUs. يمكن أن تتسبب تكاليف الوصول إلى الذاكرة لالتفافات قابلة للفصل المتعمقة في تقييد الأداء مقارنة بالالتفافات القياسية المستخدمة في نماذج YOLO.
تعرف على المزيد حول EfficientDet
YOLOv6-3.0: السرعة الصناعية
ينأى YOLOv6-3.0 بنفسه عن المقاييس الأكاديمية البحتة ليركز على الإنتاجية الواقعية، وتحديدًا التحسين للقيود المفروضة على الأجهزة الموجودة في البيئات الصناعية.
- المؤلفون: تشوي لي، لولو لي، ييفي قنغ، هونغليانغ جيانغ، منغ تشنغ، بو تشانغ، زيدان كه، شياومينغ شو، وشيانغشيانغ تشو
- المنظمة: Meituan
- التاريخ: 2023-01-13
- Arxiv: https://arxiv.org/abs/2301.05586
- GitHub: https://github.com/meituan/YOLOv6
- المستندات: https://docs.ultralytics.com/models/yolov6/
الهندسة المعمارية والتصميم
تستخدم YOLOv6-3.0 عمودًا فقريًا EfficientRep، والذي يستخدم إعادة المعلمات (نمط RepVGG) لفصل معماريات وقت التدريب ووقت الاستدلال. أثناء التدريب، يستخدم النموذج كتلًا معقدة متعددة الفروع لتدفق تدرج أفضل؛ أثناء الاستدلال، تتداخل هذه في التفافات فردية $3 \times 3$، مما يزيد من كثافة حساب وحدة معالجة الرسومات (GPU). قام الإصدار 3.0 أيضًا بدمج استراتيجيات متقدمة مثل التدريب المدرك للتكميم (QAT) والتقطير الذاتي، مما يسمح للنموذج بالحفاظ على الدقة حتى عند تكميمه إلى دقة INT8 للنشر على الأجهزة الطرفية.
حالات الاستخدام المثالية
نظرًا لتصميمها الملائم للأجهزة، فإن YOLOv6-3.0 مثالية لما يلي:
- تصنيع عالي السرعة: الكشف عن العيوب على السيور الناقلة سريعة الحركة حيث تكون سرعة الاستدلال غير قابلة للتفاوض.
- أتمتة البيع بالتجزئة: تشغيل أنظمة الدفع بدون أمين الصندوق التي تتطلب التعرف على الكائنات بزمن انتقال منخفض.
- تحليلات المدن الذكية: معالجة تدفقات الفيديو المتعددة لتحليل حركة المرور أو الأنظمة الأمنية.
تعرف على المزيد حول YOLOv6-3.0
تحليل مقارن
يخلق التباعد في فلسفة التصميم بين هذين النموذجين مزايا متميزة اعتمادًا على أجهزة النشر.
الدقة مقابل السرعة
كما هو موضح في الجدول، يحقق YOLOv6-3.0l قيمة mAP مماثلة (52.8) لـ EfficientDet-d6 (52.6) ولكنه يعمل أسرع بحوالي 10 مرات على وحدة معالجة الرسومات T4 (8.95 مللي ثانية مقابل 89.29 مللي ثانية). تسلط هذه الفجوة الهائلة الضوء على عدم كفاءة الالتفافات المتعمقة على الأجهزة ذات الإنتاجية العالية مقارنة بالالتفافات الكثيفة لـ YOLOv6. تحتفظ EfficientDet بميزة طفيفة في الدقة المطلقة مع أكبر متغير D7 الخاص بها، ولكن بتكلفة زمن انتقال تحظر الاستدلال في الوقت الفعلي.
التدريب والتنوع
تعتمد EfficientDet بشكل كبير على نظام TensorFlow البيئي وتسريع TPU للتدريب الفعال. على النقيض من ذلك، تتناسب YOLOv6 مع نظام PyTorch البيئي، مما يجعلها أكثر سهولة للباحثين بشكل عام. ومع ذلك، تم تصميم كلا النموذجين في المقام الأول لاكتشاف الأجسام. بالنسبة للمشاريع التي تتطلب تجزئة المثيلات أو تقدير الوضعية، غالبًا ما يحتاج المستخدمون إلى البحث عن تفرعات خارجية أو هياكل بديلة.
ميزة Ultralytics
في حين أن YOLOv6-3.0 و EfficientDet هما نموذجان قادران، فإن Ultralytics YOLO11 يمثل التطور التالي في رؤية الكمبيوتر، حيث يعالج قيود كل من سابقيه من خلال إطار عمل موحد يركز على المستخدم.
لماذا تختار Ultralytics YOLO11؟
- سهولة الاستخدام والنظام البيئي: على عكس المستودعات المجزأة لنماذج الأبحاث، توفر Ultralytics تجربة سلسة. يتيح لك Python API ثابت تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر فقط من التعليمات البرمجية.
- تنوع لا يضاهى: لا يقتصر YOLO11 على مربعات الإحاطة. بل يدعم أصلاً تصنيف الصور Image Classification، و تقسيم المثيلات Instance Segmentation، و تقدير الوضع Pose Estimation، و صناديق الإحاطة الموجهة (OBB)، مما يجعله حلاً شاملاً لخطوط أنابيب الذكاء الاصطناعي المعقدة.
- كفاءة التدريب: تم تحسين نماذج Ultralytics لـ متطلبات الذاكرة، وغالبًا ما تتقارب بشكل أسرع وتستخدم ذاكرة VRAM أقل من البنى الثقيلة القائمة على المحولات أو البنى القديمة. هذا الوصول يضفي طابعًا ديمقراطيًا على تطوير الذكاء الاصطناعي المتطور لأولئك الذين ليس لديهم مجموعات حوسبة ضخمة.
- نظام بيئي مُدار بشكل جيد: مدعومًا بمجتمع نشط وتحديثات متكررة، يضمن نظام Ultralytics البيئي بقاء مشاريعك مُحدّثة، مع عمليات تكامل سهلة في أدوات شرح البيانات والتسجيل والنشر.
تطوير مبسط
باستخدام Ultralytics، يكون التبديل من الكشف عن الكائنات إلى تقسيم المثيلات بسيطًا مثل تغيير اسم النموذج (على سبيل المثال، yolo11n.pt إلى yolo11n-seg.pt). تقلل هذه المرونة بشكل كبير من وقت التطوير مقارنة بتكييف معماريات مختلفة مثل EfficientDet لمهام جديدة.
مثال على التعليمات البرمجية
اختبر بساطة واجهة برمجة التطبيقات Ultralytics مقارنة بقواعد التعليمات البرمجية البحثية المعقدة:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model.predict("https://ultralytics.com/images/bus.jpg")
الخلاصة
تظل EfficientDet علامة فارقة في نظرية توسيع نطاق النموذج، وهي مثالية للبحث الأكاديمي أو المعالجة دون اتصال بالإنترنت حيث تكون الدقة هي المقياس الوحيد. تدفع YOLOv6-3.0 حدود الذكاء الاصطناعي الطرفي الصناعي، مما يوفر سرعة ممتازة على الأجهزة المدعومة.
ومع ذلك، للحصول على حل شامل يوازن بين الأداء الحديث وإنتاجية المطور، فإن Ultralytics YOLO11 هو الخيار الموصى به. إن تكامله لمهام الرؤية المتنوعة، وتقليل مساحة الذاكرة، ونظام الدعم القوي يمكّن المطورين من الانتقال من النموذج الأولي إلى الإنتاج بثقة.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف المزيد، ففكر في هذه المقارنات ذات الصلة في وثائقنا: