تخطي إلى المحتوى

YOLO مقابل YOLOv8: نظرة فنية متعمقة

يتطور مشهد اكتشاف الأجسام باستمرار، حيث يسعى الباحثون والمهندسون جاهدين لتحقيق التوازن بين المتطلبات المتنافسة للسرعة والدقة والكفاءة الحسابية. هناك بنيتان بارزتان، أحدثتا ضجة كبيرة في مجتمع الرؤية الحاسوبية وهما YOLO التي طورتها مجموعة علي بابا، و YOLOv8التي أنشأتها Ultralytics.

تستكشف هذه المقارنة التقنية الابتكارات المعمارية ومقاييس الأداء وسهولة الاستخدام العملي لكلا النموذجين. في حين يقدم نموذج YOLO مفاهيم بحثية جديدة مثل البحث المعماري العصبي (NAS)، يركزYOLOv8 Ultralytics YOLOv8 على تقديم نظام بيئي قوي وسهل الاستخدام يعمل على تبسيط سير العمل من التدريب إلى النشر.

تحليل الأداء: السرعة والدقة

لفهم كيفية مقارنة هذه النماذج في سيناريوهات العالم الحقيقي، نقوم بتحليل أدائها على مجموعة بياناتCOCO القياسية. تسلط المقاييس أدناه الضوء على المفاضلة بين متوسط متوسط الدقةmAP)، وسرعة الاستدلال على الأجهزة المختلفة، وتعقيد النموذج.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

النقاط الرئيسية

تكشف البيانات عن مزايا مميزة حسب هدف النشر:

  • أداء الحافة: الـ YOLOv8n (Nano) هو النموذج الرائد بلا منازع في البيئات محدودة الموارد. فمع 3.2 مليون معلمة فقط و8.7 مليار عملية معالجة FLOP، فإنه يحقق أسرع سرعات استدلال على كل من CPU GPU. وهذا يجعله مثاليًا لتطبيقات الأجهزة المحمولة أو أجهزة إنترنت الأشياء حيث تكون الذاكرة والطاقة شحيحة.
  • دقة الذروة: للتطبيقات التي تكون فيها الدقة بالغة الأهمية, YOLOv8x يحقق أعلى mAP كشف mAP تبلغ 53.9%. بينما تحقق نماذج YOLO أداءً جيدًا، فإن متغير YOLOv8 الأكبر يدفع حدود دقة الكشف إلى أبعد من ذلك.
  • مقايضات الكمون: يُظهر YOLO إنتاجية مذهلة على وحدات معالجة الرسومات المخصصة (مثل T4)، مدفوعةً بالعمود الفقري المحسّن لوحدات معالجة الرسومات. ومع ذلك، يحافظYOLOv8 Ultralytics YOLOv8 على توازن متفوق عبر مجموعة متنوعة من الأجهزة، بما في ذلك وحدات المعالجة المركزية، مما يضمن مرونة أوسع في النشر.

YOLO: الابتكار القائم على البحث العلمي

YOLO هو نتاج مبادرات مجموعة علي بابا البحثية. يرمز الاسم إلى "الاكتشاف والمغامرة والزخم والتوقعات"، مما يعكس التركيز على استكشاف آفاق معمارية جديدة.

المؤلفون: شيانزهي شو، وييكي جيانغ، وويهوا تشن، وويهوا تشن، ويلون هوانغ، ويوان تشانغ، وشيويو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:2211.15444v2
GitHub:YOLO

الملامح المعمارية البارزة

يدمج YOLO العديد من التقنيات المتقدمة لتحسين المفاضلة بين زمن الاستجابة والدقة:

  1. العمود الفقري MAE-NAS: يستخدم البحث عن البنية العصبية (NAS) لاكتشاف هياكل الشبكة الفعالة تلقائيًا، وتحديدًا باستخدام طريقة تسمى MAE-NAS.
  2. شبكة هرم السمات المعممة المعممة: يتم استخدام شبكة هرم السمات المعممة المعممة (GFPN) ذات بارامترات كبيرة لزيادة تدفق المعلومات بين مستويات المقياس المختلفة، مما يحسن من اكتشاف الأجسام على مسافات متفاوتة.
  3. ZeroHead: لموازنة ثقل الرقبة، يستخدم النموذج "ZeroHead" خفيف الوزن، مما يقلل من العبء الحسابي في مرحلة الكشف النهائي.
  4. AlignedOTA: استراتيجية تعيين التسمية الديناميكية التي تعمل على مواءمة مهام التصنيف والانحدار أثناء التدريب، مما يساعد النموذج على التقارب بشكل أكثر فعالية.

تعرف على المزيد حول DAMO-YOLO

Ultralytics YOLOv8: معيار النظام الإيكولوجي

يمثّل YOLOv8 تحسينًا لبنية YOLO مع التركيز على سهولة الاستخدام وتعدد الاستخدامات والأداء المتطور. على عكس النماذج البحثية البحتة، صُمم YOLOv8 كمنتج للمطورين، مع التركيز على نظام بيئي جيد الصيانة وسهولة التكامل.

المؤلفون: جلين جوتشر، وأيوش تشوراسيا، وجينغ كيو
المنظمة:Ultralytics
التاريخ: 2023-01-10
المستندات:Ultralytics YOLOv8

نقاط القوة المعمارية

  • الكشف الخالي من المرساة: يستبعد YOLOv8 مربعات الارتكاز، مما يقلل من عدد المعلمات الفائقة التي يحتاج مطورو البرامج إلى ضبطها وتبسيط عملية التدريب.
  • الوحدة النمطية C2f: تستبدل البنية الوحدة C3 بالوحدة C2f، مما يوفر معلومات أكثر ثراءً عن تدفق التدرج مع الحفاظ على بصمة خفيفة الوزن.
  • الرأس المنفصل: من خلال الفصل بين مهام التصنيف والانحدار في الرأس، يحقق النموذج دقة أعلى في تحديد الموقع.
  • إطار عمل موحد: ربما تكون أقوى ميزاته المعمارية هي دعمه الأصلي لمهام الرؤية المتعددة -تجزئة الحالة وتقدير الوضعية والتصنيف والكشف عن الأجسام الموجهة (OBB)- كل ذلك ضمن قاعدة برمجية واحدة.

هل كنت تعلم؟

يوفر Ultralytics مسارًا سلسًا لتصدير النماذج إلى تنسيقات محسّنة مثل ONNX, TensorRT, CoreMLو OpenVINO. تضمن إمكانية التصدير هذه إمكانية تشغيل نماذجك المدربة بكفاءة على أي منصة أجهزة تقريبًا.

تعرف على المزيد حول YOLOv8

سهولة الاستخدام وتجربة المطور

يكمن الاختلاف الأكثر أهمية بين النموذجين في سهولة استخدامهما والنظام البيئي المحيط بهما.

Ultralytics YOLO تشتهر النماذج بتجربة "من الصفر إلى البطل". من خلال تثبيت PIP بسيط، يحصل المطورون على إمكانية الوصول إلى CLI برمجة تطبيقات CLI Python API قوية. وهذا يقلل من عائق الدخول بشكل كبير مقارنةً بمستودعات البحث التي غالباً ما تتطلب إعدادات بيئة معقدة.

كفاءة التدريب

تم تصميم نماذج Ultralytics لتحقيق كفاءة التدريب. فهي تستخدم ذاكرة CUDA بكفاءة، مما يسمح بأحجام دفعات أكبر أو التدريب على وحدات معالجة الرسومات من فئة المستهلك. علاوةً على ذلك، فإن توافر أوزان عالية الجودة مُدرّبة مسبقًا يُسرّع من عملية التقارب، مما يوفر وقت الحوسبة والطاقة.

إليك مثال كامل وقابل للتشغيل لكيفية التحميل والتنبؤ باستخدام نموذج YOLOv8 في ثلاثة أسطر فقط من Python:

from ultralytics import YOLO

# Load a pre-trained YOLOv8n model
model = YOLO("yolov8n.pt")

# Run inference on an image (automatically downloads image if needed)
results = model.predict("https://ultralytics.com/images/bus.jpg")

# Show the results
for result in results:
    result.show()

في المقابل، في حين أن YOLO تقدم أداءً قويًا، إلا أنها تتطلب عمومًا المزيد من التكوين اليدوي والإلمام بالأطر الموجهة نحو البحث، مما يجعلها أقل سهولة في النماذج الأولية السريعة أو التكامل التجاري.

الخاتمة اختيار الأداة المناسبة

يُعد كل من YOLO و YOLOv8 إنجازين استثنائيين في مجال الرؤية الحاسوبية.

يعد YOLO خيارًا ممتازًا للباحثين المهتمين بالبحث في البنية العصبية وأولئك الذين ينشرون على وجه التحديد على الأجهزة حيث تم تحسين عمودها الفقري المخصص بالكامل.

ومع ذلك، بالنسبة لمعظم المطورين والباحثين والمؤسسات, Ultralytics YOLOv8 (والإصدار الأحدث YOLO11) يقدمان عرضًا ذا قيمة فائقة:

  1. تعدد الاستخدامات: قادرة على التعامل مع الكشف، والتقسيم، والوضعية، و OBB في إطار واحد.
  2. سهولة الاستخدام: وثائق لا مثيل لها، وواجهة برمجة تطبيقات بسيطة، ودعم مجتمعي قوي.
  3. النشر: دعم واسع النطاق لأوضاع التصدير يغطي كل شيء من الهواتف المحمولة إلى الخوادم السحابية.
  4. توازن الأداء: نسبة دقة إلى سرعة ممتازة، خاصةً على أجهزة CPU وأجهزة Edge.

لأولئك الذين يتطلعون إلى البقاء في الطليعة المطلقة، نوصي أيضاً بالاطلاع على YOLO11الذي يعتمد على نقاط قوة YOLOv8 بكفاءة ودقة أكبر.

استكشف مقارنات النماذج الأخرى

لمساعدتك في اتخاذ القرار الأكثر استنارة لمشاريع الرؤية الحاسوبية الخاصة بك، استكشف هذه المقارنات التفصيلية الإضافية:


تعليقات