YOLOv10 مقابل YOLOv7: تطوير بنية الكشف عن الأجسام في الوقت الحقيقي
لقد دفع تطور عائلة YOLO (أنت تنظر مرة واحدة فقط) باستمرار حدود الرؤية الحاسوبية، حيث وازنت بين السرعة والدقة لتطبيقات الوقت الحقيقي. تستكشف هذه المقارنة التحولات المعمارية واختلافات الأداء بين YOLOv10وهو نموذج متطور أصدره باحثون من جامعة تسينغهوا، و YOLOv7وهو نموذج مؤثر للغاية طورته أكاديميا سينيكا. في حين أن كلا النموذجين قد قدما إسهامات كبيرة في مجال اكتشاف الأجسام، إلا أنهما يستخدمان استراتيجيات متميزة لتحقيق أهداف أدائهما.
تطور البنى النموذجية
يمثل الانتقال من YOLOv7 إلى YOLOv10 نقلة نوعية في كيفية تعامل الشبكات العصبية مع المعالجة اللاحقة وتكامل الميزات.
YOLOv10: الثورة NMS
YOLOv10الذي تم إصداره في 23 مايو 2024، من قبل أو وانغ وهوي تشين وآخرين من جامعة تسينغهوا، استراتيجية تدريب رائدة NMS. تقليديًا، تعتمد أجهزة الكشف عن الكائنات على الكبح غير الأقصى (NMS) لتصفية المربعات المحدودة المكررة، والتي يمكن أن تخلق عنق الزجاجة في زمن الاستجابة للاستدلال.
يستخدم YOLOv10 التعيينات المزدوجة المتسقة للتدريب NMS مما يسمح للنموذج بالتنبؤ بحالات الكائنات الفريدة مباشرةً. وبالاقتران مع تصميم نموذج شامل مدفوع بالكفاءة والدقة، فإنه يعمل على تحسين المكونات المختلفة - بما في ذلك رأس التصنيف خفيف الوزن وفصل القناة المكانية عن القناة المكانية - لتقليل التكرار الحسابي.
YOLOv7: مُحسَّن لحقيبة مجانية قابلة للتدريب
YOLOv7الذي صدر في 6 يوليو 2022، من إعداد تشين ياو وانغ وأليكسي بوشكوفسكي وهونغ يوان مارك لياو من أكاديميا سينيكا، يركز على تحسين عملية التدريب دون زيادة تكلفة الاستدلال. وقد قدم هذا البحث شبكة تجميع الطبقات الموسعة الفعالة الموسعة (E-ELAN)، والتي تعزز قدرة الشبكة على التعلم من خلال التحكم في مسار التدرج.
تستفيد YOLOv7 بشكل كبير من "حقيبة المجاني" - وهي أساليب تعمل على تحسين الدقة أثناء التدريب دون التأثير على سرعة الاستدلال - وتقنيات توسيع نطاق النموذج التي تُركّب المعلمات بكفاءة. على الرغم من فعاليتها العالية، إلا أن اعتمادها على المعالجة اللاحقة NMS التقليدي يعني أن زمن انتقالها من طرف إلى طرف غالبًا ما يكون أعلى من البنى الأحدث NMS.
مقارنة الأداء الفني
عند تقييم هذه النماذج، تظهر أنماط متميزة فيما يتعلق بالكفاءة والقدرة على الكشف الخام. يوفر YOLOv7 كفاءة أعلى بشكل عام، حيث يحقق متوسطmAP قةmAP أو أفضل (متوسط الدقة) مع عدد أقل بكثير من المعلمات وأوقات استدلال أسرع مقارنةً YOLOv7.
يوضح الجدول أدناه المقاييس الرئيسية في مجموعة بياناتCOCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
نظرة على الكفاءة
تسلط البيانات الضوء على ميزة حاسمة لـ YOLOv10 في البيئات محدودة الموارد. يحقق YOLOv10m دقة مماثلة تقريبًا (51.3% mAP) ل YOLOv7l (51.4% mAP) ولكنه يحقق ذلك بأقل من نصف المعلمات (15.4 مليون مقابل 36.9 مليون) وعدد عمليات تشغيل FLOP أقل بكثير (59.1B مقابل 104.7B).
زمن الاستجابة والإنتاجية
إن إزالة YOLOv10 لخطوة NMS يقلل بشكل كبير من تباين زمن الاستجابة الذي غالبًا ما يظهر في المشاهد المزدحمة. في تطبيقات مثل المركبات ذاتية القيادة أو مراقبة الطائرات بدون طيار، حيث يكون لكل جزء من الثانية أهميته، يوفر وقت الاستدلال المتوقع في YOLOv10 ميزة مهمة للسلامة. لا يزال YOLOv7 منافسًا في الإنتاجية على وحدات معالجة الرسومات المتطورة ولكنه يستهلك المزيد من الذاكرة والحسابات لتحقيق نتائج مماثلة.
حالات الاستخدام والتطبيقات
تحدد الاختلافات المعمارية سيناريوهات النشر المثالية لكل نموذج.
السيناريوهات المثالية لـ YOLOv10
- الذكاء الاصطناعي المتطور: نظرًا لانخفاض عدد معلماته وفلوبسه، يُعد YOLOv10 مثاليًا لأجهزة مثل Raspberry Pi أو NVIDIA Jetson.
- تحليلات الفيديو في الوقت الحقيقي: تدعم سرعة الاستدلال العالية معالجة عالية في الثانية لإدارة حركة المرور وتحليلات البيع بالتجزئة.
- الروبوتات: يُترجم الكمون المنخفض إلى أوقات رد فعل أسرع لمهام الملاحة والمعالجة الروبوتية.
السيناريوهات المثالية لـ YOLOv7
- الأنظمة القديمة: قد تجد المشاريع المدمجة بالفعل مع قاعدة كود YOLOv7 أنها مستقرة بما يكفي لصيانتها دون إعادة هيكلة فورية.
- الكشف للأغراض العامة: بالنسبة لعمليات النشر من جانب الخادم حيث تكون ذاكرة الوصول العشوائي (VRAM) وفيرة، لا تزال نماذج YOLOv7 الأكبر حجمًا توفر قدرات كشف قوية، على الرغم من أنها أقل كفاءة من البدائل الأحدث مثل YOLO11.
ميزة Ultralytics
وعلى الرغم من قوة كلا النموذجين، إلا أن الاستفادة من نظامUltralytics يوفر مزايا مميزة للمطورين والباحثين. يعمل إطار عمل Ultralytics على توحيد واجهة التدريب والتحقق من الصحة والنشر، مما يسهل بشكل كبير التبديل بين النماذج وقياس الأداء.
سهولة الاستخدام وكفاءة التدريب
أحد العوائق الأساسية في التعلم العميق هو تعقيد خطوط أنابيب التدريب. نماذج Ultralytics بما في ذلك YOLOv10 و YOLO11تستخدم واجهة برمجة تطبيقات Python مبسطة تتعامل مع زيادة البيانات وضبط المعلمات الفائقة والتصدير تلقائيًا.
- واجهة برمجة تطبيقات بسيطة: تدريب نموذج في بضعة أسطر من التعليمات البرمجية.
- كفاءة الذاكرة: غالبًا ما تؤدي تحسينات Ultralytics إلى انخفاض استخدام ذاكرة CUDA أثناء التدريب مقارنةً بالتطبيقات الأولية.
- أوزان مدربة مسبقاً: الوصول إلى نماذج عالية الجودة مدربة مسبقًا على ImageNet و COCO يسرّع من عملية تعلّم التحويل.
تعدد الاستخدامات عبر المهام
تمتد نماذج Ultralytics الحديثة إلى ما هو أبعد من مجرد الكشف البسيط للمربع المحدود. فهي تدعم تجزئة المثيلات، وتقدير الوضعية، والكشف عن الكائنات الموجهة (OBB)، والتصنيف في نفس الإطار. يعد هذا التنوع ميزة رئيسية مقارنةً بالمستودعات المستقلة القديمة.
مثال على الكود: تشغيل YOLOv10 مع Ultralytics
يوضّح المثال التالي بساطة استخدام واجهة برمجة تطبيقات Ultralytics لتحميل نموذج YOLOv10 المدرّب مسبقًا وتشغيل الاستدلال. تتباين سهولة الاستخدام هذه مع الإعداد اليدوي الذي غالبًا ما يكون مطلوبًا في البنى القديمة مثل YOLOv7.
from ultralytics import YOLO
# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
الخلاصة والتوصية
للمشاريع الجديدة YOLOv10 أو الأكثر تقدمًا YOLO11 هما الخياران الموصى بهما. توفر بنية YOLOv10 NMS توازنًا فائقًا بين السرعة والدقة، مما يجعلها قابلة للتكيف بدرجة كبيرة مع احتياجات الحوسبة الحديثة. وهي تعالج اختناقات زمن الاستجابة للأجيال السابقة مع تقليل البصمة الحاسوبية.
على الرغم من أن YOLOv7 لا يزال علامة فارقة محترمة في تاريخ الرؤية الحاسوبية، إلا أن بنيته أقل كفاءة وفقًا لمعايير اليوم. سيجد المطورون الذين يبحثون عن أفضل أداء وصيانة طويلة الأجل وسهولة النشر أن نظامUltralytics البيئي - بتحديثاتهالمستمرة ودعمه الواسع للأدوات - هو البيئة الأكثر إنتاجية لبناء حلول الذكاء الاصطناعي للرؤية.
اكتشف المزيد
- مقارنة بين YOLOv10 و YOLOv8
- مقارنة بين YOLOv10 و YOLOv9
- YOLO11: أحدث ما تم التوصل إليه في مجال الكشف في الوقت الحقيقي
- دليل تصدير النماذج إلى TensorRT