تخطي إلى المحتوى

YOLOv10 مقابل YOLOv7: تطوير بنية الكشف عن الكائنات في الوقت الفعلي

لقد دفع تطور عائلة YOLO ‏(You Only Look Once) باستمرار حدود رؤية الكمبيوتر، مع الموازنة بين السرعة والدقة لتطبيقات الوقت الفعلي. يستكشف هذا التحليل التحولات المعمارية والاختلافات في الأداء بين YOLOv10، وهو نموذج حديث تم إصداره بواسطة باحثين من جامعة Tsinghua، و YOLOv7، وهو نموذج مؤثر للغاية تم تطويره بواسطة Academia Sinica. في حين أن كلا النموذجين قد قدما مساهمات كبيرة في مجال اكتشاف الكائنات، إلا أنهما يستخدمان استراتيجيات متميزة لتحقيق أهداف الأداء الخاصة بهما.

تطوير معمارية النماذج

تمثل المرحلة الانتقالية من YOLOv7 إلى YOLOv10 تحولًا نموذجيًا في كيفية تعامل الشبكات العصبية مع المعالجة اللاحقة وتكامل الميزات.

YOLOv10: ثورة NMS-Free

YOLOv10، الذي تم إصداره في 23 مايو 2024، بواسطة Ao Wang و Hui Chen وآخرين من جامعة Tsinghua، يقدم استراتيجية تدريب رائدة خالية من NMS. تقليديًا، تعتمد كاشفات الكائنات على Non-Maximum Suppression (NMS) لتصفية مربعات الإحاطة المكررة، مما قد يخلق اختناقًا في زمن انتقال الاستدلال.

يستخدم YOLOv10 تعيينات مزدوجة متسقة للتدريب الخالي من NMS، مما يسمح للنموذج بالتنبؤ بمثيلات كائنات فريدة مباشرةً. جنبًا إلى جنب مع تصميم نموذج شامل مدفوع بالكفاءة والدقة، فإنه يحسن المكونات المختلفة - بما في ذلك رأس التصنيف خفيف الوزن وتقليل أخذ العينات المكانية والقنوات المفصولة - لتقليل التكرار الحسابي.

تعرف على المزيد حول YOLOv10

YOLOv7: مُحسَّنة لحقيبة التحسينات المجانية القابلة للتدريب

YOLOv7، الذي تم إصداره في 6 يوليو 2022، بواسطة Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao من Academia Sinica، يركز على تحسين عملية التدريب دون زيادة تكلفة الاستدلال. قدم شبكة تجميع الطبقات الفعالة الممتدة (E-ELAN)، والتي تعزز قدرة تعلم الشبكة من خلال التحكم في مسار التدرج.

يستفيد YOLOv7 بشكل كبير من "حقيبة الميزات المجانية" - وهي طرق تعمل على تحسين الدقة أثناء التدريب دون التأثير على سرعة الاستدلال - وتقنيات توسيع نطاق النموذج التي تزيد من المعلمات بكفاءة. على الرغم من فعاليته العالية، فإن اعتماده على معالجة NMS اللاحقة التقليدية يعني أن زمن الوصول الشامل غالبًا ما يكون أعلى من بنيات NMS الخالية الأحدث.

تعرف على المزيد حول YOLOv7

مقارنة الأداء الفني

عند تقييم هذه النماذج، تظهر أنماط متميزة فيما يتعلق بالكفاءة وقدرة الكشف الخام. يوفر YOLOv10 عمومًا كفاءة فائقة، حيث يحقق متوسط دقة (mAP) مماثلًا أو أفضل مع عدد أقل بكثير من المعلمات وأوقات استدلال أسرع مقارنةً بـ YOLOv7.

يحدد الجدول أدناه المقاييس الرئيسية على مجموعة بيانات COCO.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

نظرة معمقة حول الكفاءة

تُظهر البيانات ميزة حاسمة لـ YOLOv10 في البيئات ذات الموارد المحدودة. يحقق YOLOv10m دقة متطابقة تقريبًا (51.3% mAP) مع YOLOv7l (51.4% mAP) ولكنه يفعل ذلك بـ معاملات أقل من النصف (15.4 مليون مقابل 36.9 مليون) و FLOPs أقل بكثير (59.1 مليار مقابل 104.7 مليار).

زمن الوصول والإنتاجية

إن إزالة خطوة NMS في YOLOv10 تقلل بشكل كبير من تباين زمن الوصول الذي يظهر غالبًا في المشاهد المزدحمة. في تطبيقات مثل المركبات ذاتية القيادة أو المراقبة بالطائرات بدون طيار، حيث يهم كل جزء من الألف من الثانية، يوفر وقت الاستدلال القابل للتوقع في YOLOv10 ميزة حاسمة للسلامة. يظل YOLOv7 منافسًا من حيث الإنتاجية على وحدات معالجة الرسومات (GPUs) المتطورة ولكنه يستهلك المزيد من الذاكرة والحساب لتحقيق نتائج مماثلة.

حالات الاستخدام والتطبيقات

تحدد الاختلافات المعمارية سيناريوهات النشر المثالية لكل نموذج.

السيناريوهات المثالية لـ YOLOv10

  • الذكاء الاصطناعي الطرفي: نظرًا لانخفاض عدد المعلمات و FLOPs، فإن YOLOv10 مثالي للأجهزة مثل Raspberry Pi أو NVIDIA Jetson.
  • تحليلات الفيديو الآنية: تدعم سرعة الاستدلال العالية معالجة عالية الإطارات في الثانية من أجل إدارة حركة المرور وتحليلات البيع بالتجزئة.
  • الروبوتات: يُترجم زمن الوصول الأقل إلى أوقات رد فعل أسرع لمهام الملاحة ومعالجة الروبوت.

السيناريوهات المثالية لـ YOLOv7

  • الأنظمة القديمة: قد تجد المشاريع المدمجة بالفعل مع قاعدة أكواد YOLOv7 أنها مستقرة بما يكفي للحفاظ عليها دون إعادة بناء فورية.
  • اكتشاف للأغراض العامة: بالنسبة لعمليات النشر من جانب الخادم حيث يكون VRAM وفيرًا، لا تزال نماذج YOLOv7 الأكبر حجمًا توفر إمكانات اكتشاف قوية، على الرغم من أنها أقل كفاءة من البدائل الأحدث مثل YOLO11.

ميزة Ultralytics

في حين أن كلا النموذجين قويان، فإن الاستفادة من النظام البيئي Ultralytics يوفر فوائد واضحة للمطورين والباحثين. يعمل إطار Ultralytics على توحيد الواجهة للتدريب والتحقق من الصحة والنشر، مما يجعل من السهل جدًا التبديل بين النماذج وقياس الأداء.

سهولة الاستخدام وكفاءة التدريب

تتمثل إحدى الحواجز الرئيسية في التعلم العميق في تعقيد مسارات التدريب. تستخدم نماذج Ultralytics، بما في ذلك YOLOv10 و YOLO11، واجهة برمجة تطبيقات Python مبسطة تتعامل مع زيادة البيانات، و ضبط المعلمات الفائقة، و التصدير تلقائيًا.

  • واجهة برمجة تطبيقات بسيطة: تدريب نموذج في بضعة أسطر من التعليمات البرمجية.
  • كفاءة الذاكرة: غالبًا ما تؤدي تحسينات Ultralytics إلى تقليل استخدام ذاكرة CUDA أثناء التدريب مقارنةً بالتطبيقات الخام.
  • الأوزان المدربة مسبقًا: الوصول إلى نماذج مدربة مسبقًا عالية الجودة على ImageNet و COCO يسرع التعلم بالنقل.

تعدد الاستخدامات عبر المهام

تتجاوز نماذج Ultralytics الحديثة مجرد الكشف عن مربعات الإحاطة البسيطة. فهي تدعم تقسيم المثيلات، و تقدير الوضعية، و الكشف عن الأجسام الموجهة (OBB)، و التصنيف ضمن نفس إطار العمل. هذا التنوع هو ميزة رئيسية مقارنة بالمستودعات القديمة المستقلة.

مثال على التعليمات البرمجية: تشغيل YOLOv10 مع Ultralytics

يوضح المثال التالي بساطة استخدام Ultralytics API لتحميل نموذج YOLOv10 مُدرَّب مسبقًا وتشغيل الاستدلال. تتناقض سهولة الاستخدام هذه مع الإعداد اليدوي المطلوب غالبًا للبنى القديمة مثل YOLOv7.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model("path/to/image.jpg")

# Display the results
results[0].show()

الخلاصة والتوصية

بالنسبة للمشاريع الجديدة، يُعد YOLOv10 أو YOLO11 الأكثر تقدمًا الخيارات الموصى بها. توفر بنية YOLOv10 الخالية من NMS توازنًا فائقًا بين السرعة والدقة، مما يجعلها قابلة للتكيف بدرجة كبيرة مع احتياجات الحوسبة الطرفية الحديثة. يعالج اختناقات زمن الوصول للأجيال السابقة مع تقليل البصمة الحسابية.

على الرغم من أن YOLOv7 لا يزال علامة فارقة محترمة في تاريخ الرؤية الحاسوبية، إلا أن بنيته أقل كفاءة وفقًا لمعايير اليوم. سيجد المطورون الذين يبحثون عن أفضل أداء وصيانة طويلة الأجل وسهولة النشر أن نظامUltralytics البيئي - بتحديثاتهالمستمرة ودعمه الواسع للأدوات - هو البيئة الأكثر إنتاجية لبناء حلول الذكاء الاصطناعي للرؤية.

استكشف المزيد


تعليقات