تخطي إلى المحتوى

YOLOv6.0 مقابل YOLOv7: نظرة متعمقة في السرعة والدقة الصناعية

يُعد اختيار النموذج الأمثل للكشف عن الأجسام قرارًا حاسمًا يتوقف على الموازنة بين سرعة الاستدلال والدقة والكفاءة الحسابية. تستكشف هذه المقارنة التقنية الفروق بين YOLOv6.0، وهو إطار عمل يركّز على الصناعة، و YOLOv7وهو نموذج مصمم لتخطي حدود الدقة باستخدام "حقيبة من الأشياء المجانية" القابلة للتدريب. من خلال تحليل بنيتيهما ومعاييرهما وحالات الاستخدام المثالية، يمكن للمطورين تحديد الحل الذي يناسب قيود النشر الخاصة بهم.

YOLOv6.0: مصممة للكفاءة الصناعية

يمثل YOLOv6.0 تطورًا كبيرًا في سلسلة YOLO وهو مصمم خصيصًا للتطبيقات الصناعية حيث السرعة في الوقت الحقيقي وكفاءة الأجهزة غير قابلة للتفاوض. تم تطوير هذا الإصدار من قبل Meituan، ويركز هذا الإصدار على تحسين المفاضلة بين زمن الوصول والدقة، مما يجعله خيارًا رائعًا للحوسبة المتطورة والبيئات عالية الإنتاجية.

المؤلفون: Chuyi Li وLulu Li وYifei Geng وHongliang Jiang وMeng Cheng وBo Zhang وZaidan Ke وXiaoming Xu وXiangxiang Chu
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHubYOLOv6
Docsultralytics

البنية والميزات الرئيسية

بُنيت بنية YOLOv6.0 حول مفهوم التصميم المدرك للأجهزة. فهي تستخدم عمودًا فقريًا قابلًا لإعادة تحديد المعلمات (EfficientRep)، والذي يسمح للنموذج باستخدام هياكل معقدة أثناء التدريب لتعلم الميزات بشكل أفضل، بينما ينهار إلى هياكل أبسط وأسرع أثناء الاستدلال. تقلل هذه التقنية بشكل كبير من تكاليف الوصول إلى الذاكرة وتحسّن من زمن الاستجابة للاستدلال.

تشمل الابتكارات المعمارية الرئيسية ما يلي:

  • التسلسل ثنائي الاتجاه (BiC): تعمل هذه الوحدة النمطية على تحسين دقة التوطين من خلال تعزيز نشر الميزة.
  • التدريب بمساعدة المرساة (AAT): استراتيجية تجمع بين مزايا أجهزة الكشف القائمة على المرساة وأجهزة الكشف الخالية من المرساة لتثبيت التدريب وتعزيز الأداء.
  • التقطير الذاتي: يستخدم YOLOv6.0 تقنيات التقطير الذاتي حيث يتعلم نموذج الطالب من تنبؤات نموذج المعلم الخاص به، مما يحسن الدقة دون الحاجة إلى نماذج خارجية كبيرة.

نقاط القوة والضعف

تكمن القوة الأساسية ل YOLOv6.0 في سرعة الاستدلال. وكما تُشير المعايير، فإن المتغيرات الأصغر (مثل YOLOv6.0n) سريعة بشكل استثنائي على أجهزة GPU مما يجعلها مثالية لخطوط أنابيب تحليلات الفيديو التي يجب أن تعالج معدلات إطارات عالية. بالإضافة إلى ذلك، فإن دعم النموذج لتكميم النموذج يسهّل النشر على الأجهزة ذات الموارد المحدودة.

ومع ذلك، اقتصرت الإصدارات السابقة من YOLOv6 في المقام الأول على اكتشاف الأجسام، حيث تفتقر إلى التنوع الأصلي الموجود في الأطر الأكثر شمولاً التي تدعم التجزئة أو تقدير الوضعيات خارج الصندوق. علاوة على ذلك، على الرغم من كفاءته العالية، إلا أن دعم النظام البيئي ليس واسع النطاق مثل المشاريع الأخرى التي يقودها المجتمع.

حالات الاستخدام المثالية

يتفوق YOLOv6.0 في سيناريوهات مثل:

  • خطوط التصنيع: عند الحاجة إلى الكشف عن العيوب عالية السرعة على السيور الناقلة.
  • تحليلات البيع بالتجزئة: لإدارة قوائم الانتظار وتتبع المخزون حيث تكون الموارد الحاسوبية محدودة.
  • الأنظمة المدمجة: النشر على أجهزة مثل سلسلة NVIDIA Jetson.

اعرف المزيد عن YOLOv6

YOLOv7: تحسين حقيبة المجانية القابلة للتدريب

YOLOv7 نهجًا مختلفًا، حيث يركز بشكل كبير على الإصلاحات المعمارية لزيادة الدقة إلى أقصى حد دون زيادة تكلفة الاستدلال. قدم المؤلفون أساليب تحسين "حقيبة من الرغبات المجانية القابلة للتدريب" - وهي أساليب تحسين تحسن أداء النموذج أثناء التدريب ولكنها لا تغير بنية الاستدلال أو سرعته.

المؤلفون: تشين ياو وانغ، وأليكسي بوشكوفسكي، وهونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية للعلوم بتايوان
التاريخ: 2022-07-06
اركسيف:https://arxiv.org/abs/2207.02696
جيثب:https://github.com/WongKinYiu/yolov7
المستندات:ultralytics

البنية والميزات الرئيسية

YOLOv7 شبكة تجميع الطبقات الموسّعة الفعّالة E-ELAN (شبكة تجميع الطبقات الموسّعة الفعّالة). تسمح هذه البنية للنموذج بتعلم المزيد من الميزات المتنوعة من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقارب الشبكة بفعالية.

تشمل الميزات البارزة ما يلي:

  • تحجيم النموذج: على عكس الطرق السابقة التي كانت تقوم بقياس العمق أو العرض فقط، يقترح YOLOv7 طريقة تحجيم مركبة تقوم بتوصيل الطبقات بدلاً من تغيير حجمها فقط، مع الحفاظ على خصائص التحسين للنموذج.
  • تدريب الرأس المساعد: يستخدم النموذج رأسًا مساعدًا أثناء التدريب لمساعدة الرأس الرئيسي. تعمل تقنية الإشراف العميق هذه على تحسين تعلم الطبقات الوسيطة ولكن تتم إزالتها أثناء الاستدلال للحفاظ على السرعة.
  • التلافيف المخطط لإعادة المعرفات: تطبيق متخصص لإعادة التحديد يتجنب اتصالات الهوية في طبقات معينة لمنع تدهور الأداء.

نقاط القوة والضعف

يشتهر YOLOv7 بدقته العالية، حيث يحقق متوسط درجات دقة (mAP) مذهل على مجموعة بيانات COCO . وهو يعمل بفعالية على سد الفجوة بين قيود الوقت الحقيقي والحاجة إلى عمليات الكشف عالية الدقة.

على الجانب السلبي، يمكن أن يؤدي التعقيد المعماري واستخدام الرؤوس المساعدة إلى جعل عملية التدريب أكثر كثافة في الذاكرة مقارنةً بالبنى الأبسط. على الرغم من كفاءتها أثناء الاستدلال، تتطلب مرحلة التدريب ذاكرة كبيرة GPU خاصةً بالنسبة للمتغيرات الأكبر حجماً "E6E".

حالات الاستخدام المثالية

يُعد YOLOv7 مناسبًا بشكل خاص لما يلي:

  • المراقبة التفصيلية: تحديد الأجسام الصغيرة أو الإجراءات الدقيقة في اللقطات الأمنية المعقدة.
  • القيادة الذاتية: حيث الدقة أمر بالغ الأهمية للسلامة والملاحة.
  • البحث العلمي: التطبيقات التي تتطلب مقاييس AP عالية، مثل التصوير الطبي أو المسوحات البيولوجية.

اعرف المزيد عن YOLOv7

مقارنة الأداء: المقاييس والتحليل

يقارن الجدول التالي بين أداء متغيري YOLOv6.0 و YOLOv7 على مجموعة بيانات التحقق من صحة COCO . وهو يسلط الضوء على المفاضلة بين حجم النموذج والحمل الحسابي (FLOPs) والسرعة.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv6.0n64037.5-1.174.711.4
YOLOv6.0s64045.0-2.6618.545.3
YOLOv6.0 م64050.0-5.2834.985.8
YOLOv6.0L64052.8-8.9559.6150.7
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

تفسير المعايير المرجعية

على الرغم من أن YOLOv7x يحقق أعلى دقة(53.1% mAP)، إلا أنه يتطلب معلمات أكثر بكثير (71.3 مليون) وعمليات تشغيل FLOP (189.9 مليار). في المقابل، تم تحسين YOLOv6.0n لتحقيق أقصى سرعة، حيث يحقق استدلالًا بسرعة 1.17 مللي ثانية على GPU T4، مما يجعله أسرع 10 مرات تقريبًا من متغير YOLOv7 الأكبر، وإن كان ذلك بدقة أقل.

تكشف البيانات عن تمييز واضح: يهيمن YOLOv6.0 في البيئات ذات الكمون المنخفض، بينما يتفوق YOLOv7 عندما تكون الأولوية لجودة الكشف القصوى وتكون موارد الأجهزة أكثر وفرة.

ميزة Ultralytics : ما وراء المقاييس الأولية

على الرغم من أن YOLOv6 و YOLOv7 يوفران إمكانات قوية، إلا أن مشهد الرؤية الحاسوبية يتطور بسرعة. بالنسبة للمطورين والباحثين الذين يبحثون عن حل مستقبلي ومتعدد الاستخدامات وسهل الاستخدام, Ultralytics YOLO11 و YOLOv8 يقدمان مزايا مقنعة تتجاوز المعايير الأولية.

سهولة الاستخدام والنظام البيئي

أحد أهم العوائق في اعتماد نماذج الذكاء الاصطناعي المتقدمة هو تعقيد التنفيذ. تشتهر نماذج Ultralytics بتجربة المستخدم المبسطة. فباستخدام واجهة برمجة تطبيقاتPython API وواجهة برمجة تطبيقات بسيطة CLI يمكن للمستخدمين تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر من التعليمات البرمجية. وهذا يتناقض مع المستودعات الموجهة نحو البحث والتي غالباً ما تتطلب إعدادات بيئة معقدة وتعديلات في التكوين.

from ultralytics import YOLO

# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

تعدد الاستخدامات عبر المهام

على عكس الإصدارات السابقة YOLO التي كانت في المقام الأول للكشف فقط، فإن نماذج Ultralytics متعددة الوسائط في الأصل. يدعم إطار عمل واحد:

توازن الأداء والكفاءة

نماذج Ultralytics مثل YOLO11مصممة لتوفير التوازن الأمثل بين السرعة والدقة. وغالبًا ما تحقق هذه النماذج mAP أعلى من YOLOv7 مع الحفاظ على سرعات الاستدلال المرتبطة بالبنى الفعالة مثل YOLOv6. بالإضافة إلى ذلك، صُممت نماذج Ultralytics لتحقيق كفاءة التدريب، مما يتطلب استخدامًا أقل لذاكرة GPU مقارنةً بالنماذج القائمة على المحولات (مثل RT-DETR)، مما يسرع من دورات التجربة ويقلل من تكاليف الحوسبة السحابية.

نظام بيئي جيد الصيانة

إن اختيار نموذج Ultralytics يعني الشراء في نظام بيئي مدعوم. وهذا يشمل:

  • تحديثات متكررة: تحسينات منتظمة على البنية والأوزان.
  • دعم التصدير على نطاق واسع: تصدير سلس إلى ONNX, TensorRTو CoreML و TFLite للنشر على أي جهاز.
  • المجتمع: مجتمع ضخم من المطورين ووثائق واسعة النطاق تضمن توفر المساعدة دائماً.

الخلاصة

قدم كل من YOLOv6.0 و YOLOv7 مساهمات كبيرة في مجال الرؤية الحاسوبية. YOLOv6.0 هو الخيار المفضل للتطبيقات الصناعية التي تتطلب استدلالاً فائق السرعة ودعمًا للتقدير الكمي. YOLOv7 منافسًا قويًا للسيناريوهات التي تكون فيها دقة الكشف أمرًا بالغ الأهمية وتكون قيود الأجهزة مرنة.

ومع ذلك، بالنسبة للحل الشامل الذي يجمع بين الأداء المتطور وسهولة الاستخدام وتعدد الاستخدامات ومرونة النشر التي لا مثيل لها, Ultralytics YOLO11 الخيار الأفضل لتطوير الذكاء الاصطناعي الحديث. سواء كنت تقوم بالنشر على الحافة أو التوسع في السحابة، فإن نظام Ultralytics البيئي يوفر الأدوات اللازمة لتحقيق النجاح.

لمزيد من القراءة، يمكنك الاطلاع على مقارناتنا على YOLOX أو مراجعة إمكانيات RT-DETR للكشف القائم على المحولات.


تعليقات