تخطي إلى المحتوى

YOLO مقابل YOLOv10: نظرة متعمقة في تطور اكتشاف الأجسام

يُعد اختيار النموذج الصحيح للكشف عن الكائنات قرارًا محوريًا يؤثر على كل شيء بدءًا من تكاليف النشر إلى تجربة المستخدم. تستكشف هذه المقارنة التقنية الاختلافات بين نموذج YOLO وهو نموذج قائم على الأبحاث من مجموعة علي بابا، و YOLOv10وهو أحدث كاشف متكامل في الوقت الحقيقي طوره باحثون في جامعة تسينغهوا وتم دمجه في نظام Ultralytics البيئي.

في حين أن كلا النموذجين يهدفان إلى تحسين المفاضلة بين السرعة والدقة، إلا أنهما يستخدمان استراتيجيات معمارية مختلفة إلى حد كبير. يتعمق هذا التحليل في المواصفات الفنية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في التنقل في المشهد المعقد للرؤية الحاسوبية.

مقاييس الأداء

يقدم الجدول أدناه مقارنة مباشرة بين الكفاءة والدقة على مجموعة بياناتCOCO . تتضمن النقاط الرئيسية كفاءة المعلمات وسرعات الاستدلال حيث YOLOv10 مزايا كبيرة نظرًا لتصميمه NMS.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

YOLO: الابتكار القائم على البحث العلمي

تم إصدار DAMO-YOLO في أواخر عام 2022، ويمثل YOLO جهدًا كبيرًا من قبل مجموعة علي بابا لتوسيع حدود أجهزة الكشف YOLO من خلال البحث المتقدم في البنية العصبية وتقنيات دمج الميزات الجديدة.

التفاصيل الفنية:
المؤلفون: شيانزي شو، ييكي جيانغ، ويهوا تشين، وآخرون.
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
اركسيف:https://arxiv.org/abs/2211.15444v2
جيثب:YOLO

تعرف على المزيد حول DAMO-YOLO

البنية والميزات الرئيسية

تدمج YOLO العديد من المفاهيم المتطورة لتحقيق أدائها:

  1. بحث البنية العصبية (NAS): على عكس النماذج ذات الهياكل الأساسية المصممة يدويًا، يستخدم YOLO نظام البحث عن البنية العصبية (NAS) لاكتشاف هياكل الشبكة الفعالة تلقائيًا، وتحسين عمق الشبكة وعرضها لقيود أجهزة معينة.
  2. RepGFPPN الرقبة: توظف هذه الشبكة الهرمية للميزات إعادة المعلمات لإدارة دمج الميزات بكفاءة. وهي تتيح هياكل معقدة في وقت التدريب تنهار إلى كتل أبسط في وقت الاستدلال، مما يحافظ على الدقة مع زيادة السرعة.
  3. ZeroHead & AlignedOTA: يستخدم النموذج تصميم "ZeroHead" لتقليل تعقيد رأس الكشف ويستخدم AlignedOTA (تعيين النقل الأمثل) للتعامل مع تعيين التسمية أثناء التدريب، وحل المشكلات المتعلقة بعدم التوافق بين مهام التصنيف والانحدار.

اعتبارات التعقيد

بينما يقدم YOLO ابتكارات مثيرة للإعجاب، إلا أن اعتماده على NAS والمكونات المتخصصة يمكن أن يجعل خط أنابيب التدريب أكثر تعقيداً وأقل سهولة للمطورين الذين يحتاجون إلى التخصيص السريع أو النشر على أجهزة متنوعة دون ضبط مكثف.

نقاط القوة والضعف

  • نقاط القوة: توفر YOLO دقة عالية، خاصةً بالنسبة لوقت إصدارها، وقدمت مفاهيم جديدة مثل تحسين التقطير للنماذج الأصغر حجمًا.
  • نقاط الضعف: يرتبط النظام البيئي المحيط بنظام YOLO في المقام الأول بإطار عمل MMDetection، والذي قد يمثل منحنى تعليمي أكثر حدة مقارنةً بنظامUltralytics سهل الاستخدام. بالإضافة إلى ذلك، فإنه يتطلب معالجة تقليدية لاحقة NMS مما يضيف وقت استجابة.

YOLOv10: عصر الكشف في الوقت الحقيقي من البداية إلى النهاية

يمثل YOLOv10 الذي أصدره باحثون في جامعة تسينغهوا في مايو 2024، نقلة نوعية في سلالة YOLO . من خلال التخلص من الحاجة إلى الكبح غير الأقصىNMS)، فإنه يحقق أداءً حقيقيًا من طرف إلى طرف، مما يقلل بشكل كبير من زمن انتقال الاستدلال.

التفاصيل الفنية:
المؤلفون: Ao Wang, Hui Chen, Lihao Liu, et al.
المنظمة:جامعة تسينغهوا
التاريخ: 2024-05-23
Arxiv:https://arxiv.org/abs/2405.14458
GitHub:https://github.com/THU-MIG/yolov10
Docsultralytics


اعرف المزيد عن YOLOv10

الهندسة المعمارية والابتكارات

يركز YOLOv10 على الكفاءة الشاملة، مستهدفاً كلاً من البنية وخط أنابيب ما بعد المعالجة:

  1. تصميمNMS: من خلال استراتيجية تسمى التعيينات المزدوجة المتناسقة، يتدرب YOLOv10 على تعيينات التسمية من واحد إلى متعدد ومن واحد إلى واحد. يسمح هذا للنموذج بالتنبؤ بأفضل مربع واحد لكل كائن أثناء الاستدلال، مما يجعل NMS عتيقًا. هذه ميزة بالغة الأهمية للاستدلال في الوقت الحقيقي حيث يمكن أن تصبح المعالجة اللاحقة في كثير من الأحيان عنق الزجاجة.
  2. تصميم شامل بين الكفاءة والدقة: تتميز الهندسة المعمارية برأس تصنيف خفيف الوزن وقناة مكانية مفصولة عن القناة المكانية. وتقلل هذه التحسينات من التكرار الحسابي، مما يؤدي إلى انخفاض عدد وحدات FLOP وعدد المعلمات مقارنةً بالأجيال السابقة.
  3. تصميم الكتل الموجهة بالترتيب: يكيّف النموذج تصميم كتلته الداخلية بناءً على التكرار في المراحل المختلفة، باستخدام الكتل المقلوبة المدمجة (CIB) حيث تكون الكفاءة مطلوبة والاهتمام الذاتي الجزئي (PSA) حيث يكون تعزيز الميزة أمرًا بالغ الأهمية.

سهولة الاستخدام مع Ultralytics

تتمثل إحدى أهم مزايا YOLOv10 في تكامله السلس مع نظامUltralytics البيئي. يمكن للمطورين تدريب YOLOv10 والتحقق من صحته ونشره باستخدام نفس واجهة برمجة التطبيقات البسيطة المستخدمة في YOLOv8 و YOLO11.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Train the model on your custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

تحليل مقارن

عند المقارنة بين YOLO و YOLOv10 يكمن الفرق في نهج كل منهما في الكفاءة ونظامهما التشغيلي.

السرعة والكمون

يتمتع YOLOv10 بميزة متميزة في زمن الاستجابة في العالم الحقيقي. تتطلب نماذج YOLO القياسية (ونماذج YOLO-YOLO) القياسية (YOLO) قمعًا غير أقصى (NMS) لتصفية المربعات المحدودة المتداخلة. يختلف وقت تنفيذ NMS باختلاف عدد الأجسام المكتشفة، مما يتسبب في زمن انتقال لا يمكن التنبؤ به. يوفر تصميم YOLOv10 المتكامل في YOLOv10 زمن كمون حتمي، مما يجعله متفوقًا للتطبيقات ذات الوقت الحرج مثل القيادة الذاتية أو الروبوتات الصناعية عالية السرعة.

كفاءة الموارد

كما هو موضح في جدول الأداء، يحقق YOLOv10s mAP أعلى (46.7%) من YOLO (46.0%) مع استخدام أقل من نصف المعلمات (7.2M مقابل 16.3M). تُعد هذه البصمة المخفضة للذاكرة أمرًا بالغ الأهمية لنشر الحافة. تشتهر نماذج Ultralytics بمتطلبات الذاكرة المنخفضة أثناء التدريب والاستدلال على حد سواء، مما يتيح التدريب على وحدات معالجة الرسومات من فئة المستهلكين حيث قد تعاني البنى الأخرى من أخطاء خارج الذاكرة (OOM).

النظام البيئي والدعم

في حين أن YOLO هو مساهمة أكاديمية قوية، فإن YOLOv10 يستفيد من نظام Ultralytics البيئي الذي يتم صيانته جيدًا. وهذا يشمل

  • تطوير نشط: تحديثات متكررة وإصلاحات أخطاء متكررة.
  • دعم المجتمع: مجتمع ضخم من المطورين على GitHub و Discord.
  • التوثيق: وثائق شاملة تغطي كل شيء بدءاً من زيادة البيانات إلى النشر.
  • كفاءة التدريب: إجراءات روتينية مبسطة تدعم ميزات مثل الدقة المختلطة التلقائية (AMP) والتدريب متعدد GPU معالجة الرسومات خارج الصندوق.

ما بعد الكشف

إذا كان مشروعك يتطلب تنوعًا يتجاوز المربعات المحدودة - مثل تجزئة المثال، أو تقدير الوضع، أو اكتشاف الكائنات الموجهة (OBB)- ففكر في استكشاف YOLO11 أو YOLOv8. بينما يتفوق YOLOv10 في الاكتشاف البحت، تقدم عائلة Ultralytics الأوسع نطاقًا حلولاً متطورة لهذه الاحتياجات المعقدة متعددة المهام.

حالات الاستخدام المثالية

متى تختار YOLOv10

  • حافة الذكاء الاصطناعي وإنترنت الأشياء: إن انخفاض عدد المعلمات (على سبيل المثال، YOLOv10n عند 2.3 مليون بارامتر) يجعلها مثالية لأجهزة مثل Raspberry Pi أو NVIDIA Jetson.
  • تحليلات الفيديو في الوقت الحقيقي: يضمن الاستغناء عن NMS معدل إطارات ثابت، وهو أمر ضروري لمراقبة حركة المرور أو التغذية الأمنية.
  • التطور السريع: ستستفيد الفرق التي تحتاج إلى الانتقال من البيانات إلى النشر بسرعة من هذه الميزة البديهية ultralytics واجهة برمجة تطبيقات Python و Ultralytics HUB.

متى يجب التفكير في DAMO-YOLO

  • البحث الأكاديمي: قد يجد الباحثون الذين يدرسون البحث عن البنية العصبية (NAS) أو تحسين هرم الميزات في بنية YOLO مرجعًا قيمًا.
  • خطوط الأنابيب القديمة: قد تجد المشاريع المدمجة بالفعل بعمق في إطار عمل MMDetection أنه من الأسهل اعتماد YOLO بدلاً من تبديل الأطر.

الخلاصة

يمثل كلا النموذجين علامة فارقة في مجال الرؤية الحاسوبية. استعرضت YOLO قوة NAS ودمج الميزات المتقدمة في عام 2022. ومع ذلك، بالنسبة للتطبيقات الحديثة في عام 2024 وما بعده, YOLOv10 حزمة أكثر إقناعاً. تعمل بنيتها المتكاملة NMS على حل مشكلة طويلة الأمد في اكتشاف الأجسام، بينما يضمن تكاملها في نظام Ultralytics البيئي إمكانية الوصول إليها وصيانتها وسهولة نشرها.

بالنسبة للمطورين الذين يسعون إلى تحقيق أفضل توازن بين السرعة والدقة وسهولة الاستخدام، فإن YOLOv10YOLO11-الخيار الأفضل لبناء حلول ذكاء اصطناعي قوية.


تعليقات