YOLOv10 مقابل EfficientDet: مقارنة تقنية
لقد تطوّر مشهد اكتشاف الأجسام بسرعة خلال السنوات القليلة الماضية، حيث انتقل من خطوط أنابيب معقدة ومتعددة المراحل إلى بنيات مبسطة في الوقت الحقيقي. تستكشف هذه المقارنة الاختلافات التقنية بين YOLOv10وهو نموذج متطور أصدره باحثون من جامعة تسينغهوا في عام 2024، و EfficientDet، وهي بنية رائدة قدمتها Google في عام 2019.
في حين أن EfficientDet وضع معايير لكفاءة المعلمات خلال فترة عمله، فإن YOLOv10 يتخطى حدود زمن الاستجابة والدقة، حيث يقدم نموذج تدريب NMS يعزز سرعة الاستدلال بشكل كبير. يقوم هذا الدليل بتحليل بنيتها ومقاييس أدائها وحالات الاستخدام المثالية لمساعدتك في اختيار النموذج المناسب لمشاريع الرؤية الحاسوبية الخاصة بك.
YOLOv10: الكشف عن الكائنات من النهاية إلى النهاية في الوقت الفعلي
يُمثل YOLOv10 قفزة كبيرة في سلسلة YOLO (أنت تنظر مرة واحدة فقط)، مع التركيز على التخلص من خطوة المعالجة اللاحقة التي لا تتطلب الحد الأقصىNMS) والتي غالبًا ما تعيق سرعة الاستدلال. من خلال استخدام التعيينات المزدوجة المتسقة للتدريب NMS NMS، فإنه يحقق أداءً تنافسيًا مع زمن انتقال أقل مقارنةً بالتكرارات السابقة.
تفاصيل فنية:
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمةجامعة تسينغهوا
- التاريخ: 2024-05-23
- Arxiv:YOLOv10: الكشف عن الأجسام من النهاية إلى النهاية في الوقت الحقيقي
- جيثب:THU-MIG/yolov10
الميزات المعمارية الرئيسية
يقدم YOLOv10 تصميم نموذج شامل قائم على الكفاءة والدقة. يكمن الابتكار الأساسي في استراتيجية التعيين المزدوج. فأثناء التدريب، يستخدم النموذج كلاً من التعيينات من واحد إلى متعدد (الشائعة في YOLOv8) للإشراف الغني والتعيينات من واحد إلى واحد لضمان النشر الشامل دون الحاجة إلى NMS.
- تدريبNMS: تتطلب أجهزة الكشف التقليدية NMS لتصفية المربعات المحدودة المكررة، مما يؤدي إلى تأخير في الاستدلال. تسمح بنية YOLOv10 للنموذج بالتنبؤ بمربع واحد فقط لكل كائن أثناء الاستدلال، مما يزيل هذا التأخير بشكل فعال.
- تصميم يعتمد على الكفاءة: يستخدم النموذج رؤوس تصنيف خفيفة الوزن وتقليل التباين بين القنوات المكانية لتقليل التكلفة الحسابية (FLOPs) وعدد المعلمات.
- التلافيف ذات النواة الكبيرة: من خلال الاستخدام الانتقائي للتلافيف ذات النواة الكبيرة ذات العمق الكبيرة، يعزز YOLOv10 مجاله الاستقبالي وقدرته على detect الأجسام الصغيرة دون زيادة هائلة في الحوسبة.
سبب أهمية NMS
تؤدي إزالة الكبت غير الأقصىNMS) إلى إنشاء خط أنابيب من طرف إلى طرف حقًا. وهذا أمر بالغ الأهمية لتطبيقات الذكاء الاصطناعي المتطورة حيث يكون لكل جزء من الثانية أهمية، مثل أجهزة NVIDIA Jetson، مما يضمن زمن انتقال مستقر ويمكن التنبؤ به.
نقاط القوة
- سرعة فائقة: مُحسَّن للاستدلال في الوقت الفعلي، متفوقًا بشكل كبير على النماذج القديمة على أجهزة GPU .
- تكاملUltralytics : كجزء من نظام Ultralytics البيئي، يستفيد YOLOv10 من واجهة برمجة تطبيقاتPython البسيطة، مما يجعل من السهل للغاية التدريب والتحقق من الصحة والنشر.
- استخدام أقل للذاكرة: تتطلب الهندسة المعمارية الفعالة ذاكرة CUDA أقل أثناء التدريب مقارنةً بأجهزة الكشف القائمة على المحولات مثل RT-DETR.
EfficientDet: بنية قابلة للتطوير وفعالة
تم تصميم EfficientDet، الذي طوره فريق Google Brain، لتحسين كل من الدقة والكفاءة. فقد قدم عائلة من النماذج (D0-D7) التي تم تحجيمها باستخدام طريقة تحجيم مركبة تضبط الدقة والعمق والعرض بشكل موحد.
تفاصيل فنية:
- المؤلفون: مينغشينغ تان، رومينغ بانغ، وكوك ف. لي
- المنظمة:Google
- التاريخ: 2019-11-20
- اركسيف:EfficientDet: كشف الكائنات القابل للتطوير والفعال
- جيثب:google
تعرف على المزيد حول EfficientDet
الميزات المعمارية الرئيسية
بُنيت EfficientDet على العمود الفقري EfficientNet وتقدم شبكة الهرم ثنائية الاتجاه (شبكة الهرم ثنائية الاتجاه).
- الشبكة الثنائية للشبكات ثنائية الاتجاه: على عكس شبكات FPNs القياسية، تسمح الشبكة الثنائية الإطارية للتخطيط الأحيائي بتدفق المعلومات ثنائية الاتجاه وتستخدم أوزانًا قابلة للتعلم لدمج ميزات من مقاييس مختلفة. وينتج عن ذلك تمثيل أفضل للميزات متعددة المقاييس بمعلمات أقل.
- التحجيم المركب: تضمن هذه الطريقة توسيع نطاق شبكات العمود الفقري وشبكة الميزات وشبكات التنبؤ بالمربعات/الفئات معًا بكفاءة. نموذج D0 صغير وسريع بالنسبة للأجهزة المحمولة، بينما يدفع نموذج D7 الدقة الفائقة للبيئات عالية الموارد.
نقاط القوة والضعف
- كفاءة المعلمة: يُعرف EfficientDet بتحقيقه نسبة عالية من mAP مع عدد قليل نسبيًا من المعلمات وعمليات التصفية.
- قابلية التوسع: يوفر النطاق D0-D7 مرونة لمختلف الميزانيات الحسابية.
- الكمون العالي: على الرغم من انخفاض عدد وحدات FLOP، يمكن أن تؤدي الوصلات المعقدة في BiFPPN والالتفافات القابلة للفصل من حيث العمق إلى زمن انتقال أعلى على وحدات معالجة الرسومات مقارنةً ببنى CNN المبسطة لنماذج YOLO .
- التعقيد: البنية أكثر صعوبة في التخصيص أو الضبط مقارنة بالتصميم المباشر لـ Ultralytics YOLOv8 أو YOLOv10.
تحليل الأداء: السرعة مقابل الكفاءة
عند المقارنة بين هذين النموذجين، يصبح التمييز بين الكفاءة النظرية (FLOPs) والسرعة العملية (الكمون) واضحًا. تتفوق EfficientDet في تقليل عدد وحدات العمليات الفلوب إلى الحد الأدنى، لكن YOLOv10 تهيمن في سرعة الاستدلال في العالم الحقيقي على الأجهزة الحديثة مثل وحدات معالجة الرسومات.
يوضح الجدول أدناه أنه على الرغم من أن نماذج EfficientDet مدمجة، إلا أن YOLOv10 يوفر مفاضلة أفضل بكثير لتطبيقات الوقت الفعلي. على سبيل المثال، يوفر YOLOv10 نسبة 46.7% mAP تنافسية مع زمن انتقال يبلغ 2.66 مللي ثانية فقط على GPU T4، في حين أن EfficientDet-d3 (47.5% mAP) أبطأ بنحو 7 أضعاف عند 19.59 مللي ثانية.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| EfficientDet-d0 | 640 | 34.6 | 10.2 | 3.92 | 3.9 | 2.54 |
| EfficientDet-d1 | 640 | 40.5 | 13.5 | 7.31 | 6.6 | 6.1 |
| EfficientDet-d2 | 640 | 43.0 | 17.7 | 10.92 | 8.1 | 11.0 |
| EfficientDet-d3 | 640 | 47.5 | 28.0 | 19.59 | 12.0 | 24.9 |
| EfficientDet-d4 | 640 | 49.7 | 42.8 | 33.55 | 20.7 | 55.2 |
| EfficientDet-d5 | 640 | 51.5 | 72.5 | 67.86 | 33.7 | 130.0 |
| EfficientDet-d6 | 640 | 52.6 | 92.8 | 89.29 | 51.9 | 226.0 |
| EfficientDet-d7 | 640 | 53.7 | 122.0 | 128.07 | 51.9 | 325.0 |
الترجمة الفورية
- هيمنةGPU : يستخدم YOLOv10 خيارات تصميم مدركة للأجهزة تتوافق بشكل جيد مع بنيات GPU ات، مما يؤدي إلى إنتاجية فائقة بشكل كبير.
- تكافؤ الدقة: تسمح استراتيجيات التدريب الأحدث لـ YOLOv10 بمطابقة أو تجاوز دقة متغيرات EfficientDet الأبطأ بكثير.
- النشر: تعمل طبيعة YOLOv10 NMS على تبسيط عملية التصدير إلى تنسيقات مثل TensorRT و ONNX مما يقلل من تعقيد عملية النشر.
سهولة الاستخدام والنظام البيئي
أحد أهم العوامل الحاسمة بالنسبة للمطورين هو النظام البيئي المحيط بالنموذج. وهنا، تقدم Ultralytics ميزة كبيرة.
ميزة Ultralytics
تم دمج YOLOv10 في حزمة Ultralytics Python مما يوفر تجربة سلسة بدءًا من التعليقات التوضيحية للبيانات وحتى النشر.
- واجهة برمجة تطبيقات بسيطة: يمكنك التحميل والتدريب والتنبؤ ببضعة أسطر من التعليمات البرمجية.
- صيانة جيدة: تضمن لك التحديثات المتكررة والدعم المجتمعي والتوثيق الشامل عدم تركك في تصحيح الأخطاء الغامضة.
- كفاءة التدريب: تم تحسين نماذج Ultralytics من أجل التقارب السريع. تتوفر الأوزان المدربة مسبقًا بسهولة، مما يسمح بتعلم النقل الفعال على مجموعات البيانات المخصصة.
تدريب YOLOv10 باستخدام Ultralytics
يعد تدريب نموذج YOLOv10 على مجموعة بيانات COCO8 أمرًا مباشرًا باستخدام واجهة برمجة تطبيقات Ultralytics .
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 example dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
في المقابل، يعتمد EfficientDet على مستودعات TensorFlow القديمة أو تطبيقات PyTorch التابعة لجهات خارجية والتي قد تفتقر إلى الدعم الموحّد، مما يجعل التكامل في خطوط أنابيب MLOps الحديثة أكثر صعوبة.
حالات الاستخدام المثالية
يعتمد الاختيار بين YOLOv10 و EfficientDet على القيود الخاصة بك.
متى تختار YOLOv10
YOLOv10 هو الخيار الأفضل لمعظم تطبيقات الرؤية الحاسوبية الحديثة، خاصةً:
- الأنظمة ذاتية القيادة: تحتاج السيارات ذاتية القيادة والطائرات بدون طيار إلى سرعة منخفضة في الكشف عن الوقت من أجل السلامة. تضمن سرعة YOLOv10 سرعة رد الفعل السريع.
- تحليلات الفيديو: معالجة تدفقات الفيديو عالية الإطارات في الثانية للمراقبة الأمنية أو مراقبة حركة المرور.
- النشر على الحافة: النشر على الأجهزة المضمّنة مثل Raspberry Pi أو NVIDIA Jetson حيث تكون الموارد محدودة ولكن الأداء في الوقت الحقيقي غير قابل للتفاوض.
متى تختار EfficientDet
تظل EfficientDet ذات صلة في سيناريوهات متخصصة محددة:
- البحث الأكاديمي: إذا كان الهدف هو دراسة قوانين التوسع المركب أو مبادئ تصميم الشبكات العصبية الفعالة.
- قيود صارمة على وحدات FLOPs: في بيئات أجهزة محددة للغاية حيث تكون وحدات FLOP النظرية هي عنق الزجاجة الصعب بدلاً من زمن الاستجابة أو عرض النطاق الترددي للذاكرة.
الخلاصة
بينما كان EfficientDet علامة بارزة في تصميم النماذج الفعالة, YOLOv10 يمثل المعيار الجديد للكشف عن الأجسام عالية الأداء. توفر بنيته المبتكرة NMS ميزة حاسمة في سرعة الاستدلال دون المساس بالدقة، مما يجعله أكثر عملية بكثير للنشر في العالم الحقيقي.
علاوةً على ذلك، يضمن نظامUltralytics البيئي القوي أن يكون العمل مع YOLOv10 فعالاً وملائماً للمطورين. من خيارات التصدير السهلة إلى الأدلة الشاملة حول إدارة مجموعة البيانات، تمكّنك Ultralytics من تفعيل مشاريع الذكاء الاصطناعي ذات الرؤية الخاصة بك بشكل أسرع.
بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه التكنولوجيا الحديثة في تعدد الاستخدامات والأداء، نوصي أيضًا باستكشاف Ultralytics YOLO11الذي يعتمد على هذه التطورات لتقديم أحدث الإمكانات في مهام الكشف والتجزئة وتقدير الوضعية.