YOLOv8 YOLO: مقارنة تقنية شاملة لنماذج الكشف عن الكائنات

يتطور مجال الرؤية الحاسوبية باستمرار، حيث توسع البنى الجديدة حدود الإمكانيات المتاحة على الأجهزة الطرفية ومجموعات السحابة الضخمة. في هذا التحليل التقني المتعمق، نقارن بين نموذجين بارزين للكشف عن الكائنات في الوقت الفعلي: YOLOv8 و YOLO. من خلال دراسة هندستهما ومقاييس أدائهما ومنهجيات تدريبهما، يمكن لمهندسي التعلم الآلي اتخاذ قرارات مستنيرة بشأن خطوط إنتاجهما.

خلفيات وأصول النماذج

تم تقديم كلا النموذجين في نفس الوقت تقريبًا، لكنهما ينبعان من فلسفات تصميم وأهداف بحثية مختلفة.

تفاصيل YOLOv8

المؤلفون: جلين جوشر، أيوش شوراسيا، وجينغ تشيو
المنظمة: Ultralytics
التاريخ: 2023-01-10
GitHub: مستودعUltralytics
المستندات: الوثائقYOLOv8

تعرف على المزيد حول YOLOv8

تفاصيل DAMO-YOLO

المؤلفون: شيانزه شو، ييتشي جيانغ، ويهوا تشن، ييلون هوانغ، يوان تشانغ، وشيويو صن
المنظمة: مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv: ورقة بحث DAMO-YOLO
GitHub: مستودعYOLO

تعرف على المزيد حول DAMO-YOLO

الابتكارات المعمارية

YOLOv8: تصميم متعدد الاستخدامات بدون مرساة

قدم Ultralytics YOLOv8 تحسينات كبيرة على أسلافه، مما رسخ مكانته كنموذج حديث ومتطور وموثوق للغاية. يتميز برأس كشف خالٍ من المراسي، مما يقلل عدد تنبؤات الصناديق ويسرع الاستدلال. يستخدم الهيكل رأسًا مفصولًا، يفصل مهام الكائنية والتصنيف والانحدار، مما يؤدي إلى تنبؤات أكثر دقة للمربعات المحيطة.

علاوة على ذلك، YOLOv8 خسارة التركيز التوزيعي (DFL) جنبًا إلى جنب مع CIoU مما يعزز قدرة النموذج على تحديد حدود الكائنات بدقة، خاصة بالنسبة للأهداف الأصغر حجمًا أو المحجوبة. تم تحسين هيكله الأساسي بشكل كبير CPU كل من GPU CPU .

DAMO-YOLO: مدفوع بالبحث عن البنية

يتخذ DAMO-YOLO نهجًا مختلفًا، معتمدًا بشكل كبير على البحث عن البنية العصبية (NAS) لتصميم عموده الفقري تلقائيًا. قدم فريق Alibaba "MAE-NAS" للعثور على هياكل توفر الموازنات المثلى بين زمن الاستجابة والدقة خصيصًا تحت تسريع TensorRT.

يشتمل النموذج على شبكة RepGFPN (شبكة هرمية عامة معاد تقييم معلماتها) من أجل دمج المعلمات بكفاءة وتصميم "ZeroHead" لتقليل العبء الحسابي لرأس الكشف. أثناء التدريب، يستفيد النموذج من AlignedOTA لتعيين التسميات ويعتمد بشكل كبير على عملية تقطير المعرفة المعقدة، مما يتطلب نموذجًا تعليميًا أكبر للإشراف على النموذج الطلابي المستهدف.

تعقيد التدريب

بينماYOLO مقاييس زمن انتقال مذهلة عبر NAS والتقطير، إلا أن هذا يتطلب CUDA ووقت حسابي أكبر بكثير أثناء التدريب مقارنةً بخط أنابيب التدريب أحادي المرحلة والمُحسّن للغاية في YOLOv8.

الأداء والمقاييس

عند نشر نماذج الرؤية الحاسوبية في الإنتاج، من الضروري تحقيق التوازن بين الدقة (mAP) وسرعة الاستدلال. يوضح الجدول أدناه أداء كلا النموذجين عبر أحجام مختلفة.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv8n	640	37.3	80.4	1.47	3.2	8.7
YOLOv8s	640	44.9	128.4	2.66	11.2	28.6
YOLOv8m	640	50.2	234.7	5.86	25.9	78.9
YOLOv8l	640	52.9	375.2	9.06	43.7	165.2
YOLOv8x	640	53.9	479.1	14.37	68.2	257.8

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv8 توازنًا استثنائيًا في الأداء. YOLOv8n يتطلب نموذج (nano) 3.2 مليون معامل فقط مقارنة بـ 8.5 مليون لـ DAMO-YOLOt، مما يجعله متفوقًا بشكل كبير للأجهزة المحمولة أو البيئات ذات متطلبات الذاكرة الصارمة. علاوة على ذلك، تقدم YOLOv8 مجموعة أوسع من الأحجام، تتوسع لتصل إلى الدقة العالية YOLOv8x لأعباء العمل المستندة إلى السحابة.

تجربة المطورين والنظام البيئي

سهولة الاستخدام وكفاءة التدريب

أحد أكبر العوامل المميزة هو تجربة المستخدم. تم تصميم Ultralytics لسرعة المطورين. يتطلب تدريب YOLOv8 المخصص استخدام ذاكرة منخفضة للغاية ويمكن تنفيذه عبر Python موحدة أو واجهة سطر الأوامر.

على العكس من ذلك، غالبًا ما يتطلب إعادة إنتاج التدريب المحسن بالتقطير لـ DAMO-YOLO التعامل مع ملفات التكوين المعقدة وإدارة تتبع التجارب متعدد المراحل بين المعلم والطالب.

فيما يلي مثال على مدى سهولة تدريب YOLOv8 والتحقق من صحته وتصديره YOLOv8 Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device="cpu")

# Export the trained model to ONNX format
path = model.export(format="onnx")

تعدد الاستخدامات في مهام الرؤية

تم تصميم DAMO-YOLO حصريًا للكشف عن الكائنات باستخدام صناديق الإحاطة. على النقيض من ذلك، تدعم بنية YOLOv8 مهام متعددة بشكل أساسي. فبمجرد تبديل أوزان النموذج، يمكن للمطورين إجراء تجزئة الكائنات، وتصنيف الصور، وتقدير الوضعيات دون تغيير قاعدة التعليمات البرمجية الأساسية للنشر. هذه المرونة تجعل نماذج Ultralytics أكثر عملية بكثير للتطبيقات المعقدة.

حالات الاستخدام في العالم الحقيقي

متى يجب استخدام YOLOv8

إن الجمع بين السرعة والدقة وسهولة النشر YOLOv8 يجعله مثالياً لما يلي:

تحليلات تجارة التجزئة الذكية: إجراء تتبع الأجسام لمراقبة سلوك العملاء أو أتمتة فحوصات المخزون.
الروبوتات الزراعية: الاستفادة من أدائها القوي على الأجهزة المتنوعة لتحديد المحاصيل أو الآفات في الوقت الفعلي.
تشخيصات الرعاية الصحية: استخدام تجزئة الكائنات (instance segmentation) لرسم خرائط الشذوذات في الصور الطبية بسرعة ودقة.
عمليات النشر على الحافة: يتيح التكامل السلس مع تنسيقات التصدير مثل OpenVINO و CoreML لـ YOLOv8 التألق على الأجهزة المقيدة.

متى تستخدم DAMO-YOLO

يمكن أن يكون DAMO-YOLO مفيدًا في سيناريوهات متخصصة، لا سيما:

أبحاث NAS الأكاديمية: للفرق التي تدرس إعادة المعايرة (rep-parameterization) أو منهجيات تصميم البنية المعمارية الآلية.
مسارات العمل المقيدة بوحدة معالجة الرسوميات (GPU) بشكل صارم: التطبيقات التي تعمل حصريًا على أجهزة NVIDIA محددة حيث تم تحسين هياكل NAS بشكل كبير لحدود تنفيذ TensorRT.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv8 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv8

YOLOv8 خيار قوي لـ:

نشر متعدد المهام ومتعدد الاستخدامات: المشاريع التي تتطلب نموذجًا مثبتًا لـ الكشف، والتجزئة، والتصنيف، وتقدير الوضعيات ضمن بيئة Ultralytics.
أنظمة إنتاج راسخة: بيئات الإنتاج الحالية المبنية بالفعل على بنية YOLOv8 مع مسارات نشر مستقرة ومختبرة جيدًا.
دعم واسع للمجتمع والنظام البيئي: التطبيقات التي تستفيد من البرامج التعليمية الشاملة لـ YOLOv8، وعمليات التكامل مع الجهات الخارجية، وموارد المجتمع النشطة.

متى تختار DAMO-YOLO

يوصى بـ DAMO-YOLO لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

التطلع إلى المستقبل: Ultralytics الأحدث

بينما YOLOv8 أداة عمل موثوقة للغاية، فإن مجال الرؤية الحاسوبية يتطور بسرعة. يجب على المستخدمين أيضًا التفكير في استكشاف الأجيال الأحدث:

YOLO26: أحدث جيل، Ultralytics YOLO26، يمثل نقلة نوعية. يقدم تصميمًا أصيلًا شاملاً وخاليًا من NMS، مما يزيل تمامًا اختناقات زمن الانتقال المرتبطة بالمعالجة اللاحقة لقمع غير الحد الأقصى (Non-Maximum Suppression). مدعومًا بمحسّن MuSGD Optimizer الجديد (وهو مزيج من SGD و Muon) ودوال خسارة ProgLoss + STAL المتخصصة، يحقق YOLO26 تدريبًا مستقرًا بشكل ملحوظ وتحسينًا كبيرًا في التعرف على الكائنات الصغيرة. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين التوافق مع الأجهزة الطرفية/منخفضة الطاقة)، توفر التعديلات المعمارية ما يصل إلى 43% استدلال أسرع لوحدة المعالجة المركزية (CPU) مقارنة بالأجيال السابقة، مما يجعله الخيار الأمثل للحوسبة الطرفية الحديثة.

YOLO11: بديل ممتاز آخر، Ultralytics YOLO11 يقدم تحسينات معمارية تدريجية على YOLOv8 ويظل نموذجًا قويًا ومعتمدًا على نطاق واسع في المجتمع.

تبسيط سير عملك

هل أنت مستعد لنقل نماذجك من مرحلة النموذج الأولي إلى مرحلة الإنتاج؟ استخدم Ultralytics لتعليق مجموعات البيانات تلقائيًا track ونشر النماذج بسلاسة على السحابة أو الأجهزة الطرفية.

في الختام، في حينYOLO رؤى أكاديمية مثيرة للاهتمام في مجال البحث عن البنية، توفر Ultralytics نظامًا بيئيًا أكثر نضجًا وتعددًا في الاستخدامات وسهولة في الاستخدام للمطورين. سواء اخترت الاستمرار في استخدام YOLOv8 الذي أثبت استقراره YOLOv8 الترقية إلى بنية YOLO26 فائقة السرعة NMS تظل Ultralytics الخيار الأول للذكاء الاصطناعي للرؤية في الوقت الفعلي.