تخطي إلى المحتوى

DAMO-YOLO مقابل YOLOv5: مقارنة فنية شاملة

يعد اختيار بنية الكشف عن الكائنات المثالية خطوة محورية في تطوير رؤية الحاسوب، مما يتطلب تقييمًا دقيقًا للدقة وسرعة الاستدلال وتعقيد التكامل. يقارن هذا التحليل بين DAMO-YOLO، وهو نموذج عالي الدقة تم تطويره بواسطة مجموعة Alibaba، مع Ultralytics YOLOv5، وهي بنية قياسية في الصناعة مشهورة بتوازنها بين الأداء والسرعة والنظام البيئي سهل الاستخدام للمطورين. نستكشف ابتكاراتهم المعمارية ومقاييس الأداء المعياري وسيناريوهات التطبيقات المثالية لمساعدتك في اتخاذ قرار مستنير.

DAMO-YOLO: بنية تعتمد على الدقة

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، يي لون هوانغ، يوان تشانغ، و شيو يو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO
المستندات:DAMO-YOLO README

يمثل DAMO-YOLO جهدًا كبيرًا من قبل مجموعة Alibaba لدفع حدود دقة detect مع الحفاظ على زمن انتقال معقول. فهو يدمج تقنيات البحث المتقدمة عن البنية العصبية (NAS) واستراتيجيات دمج الميزات الجديدة لتتفوق على العديد من المعاصرين في المعايير الثابتة.

الابتكارات المعمارية

تتميز DAMO-YOLO بالعديد من المكونات المعقدة تقنيًا والمصممة لتقديم أقصى أداء من الشبكة:

  • العمود الفقري MAE-NAS: بخلاف النماذج ذات الأعمدة الفقرية المصممة يدويًا، تستخدم DAMO-YOLO البحث في بنية الشبكة العصبية (NAS) الموجه بمبدأ الحد الأقصى للإنتروبيا. ينتج عن هذا بنية عمود فقري مُحسَّنة خصيصًا لكفاءة استخراج الميزات في ظل قيود مختلفة.
  • RepGFPN الفعال: يستخدم النموذج شبكة هرم الميزات المعممة المُعاد تهيئتها (RepGFPN). تعمل وحدة "الرقبة" المتقدمة هذه على تحسين شبكات FPN القياسية من خلال تحسين دمج الميزات عبر مقاييس مختلفة والاستفادة من إعادة التهيئة لتقليل زمن انتقال الاستدلال دون التضحية بالدقة.
  • ZeroHead: لتقليل التكلفة الحسابية لرأس الاكتشاف، يقدم DAMO-YOLO ZeroHead، وهو رأس مفصول خفيف الوزن يتعامل بكفاءة مع مهام التصنيف والانحدار.
  • AlignedOTA: يتم تعزيز استقرار التدريب ودقته من خلال إسناد النقل الأمثل المحاذي (AlignedOTA)، وهي إستراتيجية ديناميكية لإسناد الملصقات تعمل على محاذاة نقاط الارتكاز للتنبؤ مع كائنات الحقيقة الأساسية بشكل أكثر فعالية من قواعد المطابقة الثابتة.
  • تحسين التقطير: غالبًا ما تتضمن عملية التدريب تقطير المعرفة، حيث يوجه نموذج "معلم" أكبر حجمًا تعلم نموذج "طالب" أصغر حجمًا، مما يضفي تمثيلات ميزات أكثر ثراءً.

تصميم موجه نحو البحث

تم تحسين DAMO-YOLO بشكل كبير لتحقيق mAP عالي على المعايير مثل COCO. إن استخدامه لـ NAS والتقطير يجعله أداة قوية للبحث الأكاديمي والسيناريوهات التي تكون فيها كل نسبة مئوية ضئيلة في الدقة مهمة، حتى لو كان ذلك على حساب تعقيد التدريب.

نقاط القوة والضعف

الميزة الأساسية لـ DAMO-YOLO هي دقة الكشف الخام. من خلال الاستفادة من NAS وتصميمات العنق المتقدمة، فإنه غالبًا ما يحقق درجات متوسط دقة (mAP) أعلى من النماذج المماثلة من نفس الجيل. إنه يتفوق في تحديد الكائنات في المشاهد المعقدة حيث يكون التمييز الدقيق بين الميزات أمرًا بالغ الأهمية.

ومع ذلك، تأتي هذه المكاسب مع مقايضات. الاعتماد على NAS backbones وخطوط أنابيب التقطير يزيد من تعقيد التدريب والتكامل. على عكس طبيعة التوصيل والتشغيل لبعض البدائل، يمكن أن يكون إعداد خط أنابيب تدريب مخصص لـ DAMO-YOLO كثيف الاستخدام للموارد. بالإضافة إلى ذلك، فإن نظامه البيئي أصغر نسبيًا، مما يعني وجود عدد أقل من موارد المجتمع والبرامج التعليمية وعمليات تكامل الطرف الثالث المتاحة مقارنة بالأطر الأكثر رسوخًا.

تعرف على المزيد حول DAMO-YOLO

Ultralytics YOLOv5: معيار الذكاء الاصطناعي العملي

Author: Glenn Jocher
Organization:Ultralytics
Date: 2020-06-26
GitHub:https://github.com/ultralytics/yolov5
Docs:https://docs.ultralytics.com/models/yolov5/

منذ إصداره، أثبت Ultralytics YOLOv5 نفسه كحل أساسي لتطبيقات الرؤية الحاسوبية في العالم الحقيقي. إنه يحقق توازنًا أسطوريًا بين السرعة والدقة وسهولة الاستخدام، مدعومًا بنظام بيئي يبسط كل مرحلة من مراحل دورة حياة تعلم الآلة، بدءًا من تنظيم مجموعات البيانات وحتى النشر.

الهيكلة وسهولة الاستخدام

يستخدم YOLOv5 العمود الفقري CSPDarknet53 جنبًا إلى جنب مع عنق PANet، وهي بنى تم اختيارها لقوتها وكفاءتها على أجهزة GPU و CPU. على الرغم من أنه يستخدم الكشف المستند إلى المرساة - وهي منهجية مثبتة - إلا أن قوته الحقيقية تكمن في هندسته ونظامه البيئي:

  • تجربة مستخدم مبسطة: يشتهر YOLOv5 بفلسفة "من الصفر إلى البطل". يمكن للمطورين إعداد البيئة والتدريب على مجموعات بيانات مخصصة وتشغيل الاستدلال ببضعة أسطر فقط من التعليمات البرمجية.
  • تنوع الاستخدامات: بالإضافة إلى الكشف القياسي عن الكائنات، يدعم YOLOv5 تقسيم المثيلات و تصنيف الصور، مما يسمح للمستخدمين بمعالجة مهام رؤية متعددة داخل إطار عمل واحد.
  • قابلية التصدير: يدعم النموذج التصدير السلس إلى العديد من التنسيقات بما في ذلك ONNX و TensorRT و CoreML و TFLite، مما يضمن سهولة النشر على كل شيء بدءًا من الخوادم السحابية وحتى الأجهزة الطرفية.
  • كفاءة الذاكرة: تُظهر نماذج Ultralytics عادةً استخدامًا أقل للذاكرة أثناء التدريب مقارنةً بالبنى المعقدة القائمة على المحولات أو النماذج الثقيلة NAS، مما يجعلها في متناول مجموعة واسعة من الأجهزة.

ميزة النظام البيئي

نظامUltralytics البيئي هو مسرع هائل للتطوير. وبفضل التوثيق الشامل ومنتديات المجتمع النشطة والتحديثات المتكررة، يقضي المطورون وقتًا أقل في تصحيح الأخطاء ووقتًا أطول في الابتكار. تعمل عمليات التكامل مع أدوات مثل Ultralytics HUB على تبسيط إدارة النماذج والتدريب.

لماذا يختار المطورون YOLOv5؟

تظل YOLOv5 خيارًا رئيسيًا لأنها تعطي الأولوية لسهولة الاستخدام و كفاءة التدريب. الأوزان المدربة مسبقًا متاحة بسهولة وقوية، مما يسمح بالتعلم بالنقل السريع. سرعة الاستدلال الخاصة بها استثنائية، مما يجعلها مثالية للتطبيقات في الوقت الفعلي مثل تحليلات الفيديو والملاحة الذاتية والتفتيش الصناعي.

بينما قدمت النماذج الأحدث مثل YOLO11 منذ ذلك الحين بنى خالية من المرساة ومكاسب إضافية في الأداء، يظل YOLOv5 حصان عمل موثوق به ومدعوم جيدًا وقادرًا للغاية للعديد من أنظمة الإنتاج.

تعرف على المزيد حول YOLOv5

مقارنة الأداء

في مقارنة مباشرة، يصبح التمييز بين النموذجين واضحًا: يميل DAMO-YOLO نحو زيادة دقة التحقق (mAP)، بينما يعمل YOLOv5 على تحسين سرعة الاستدلال والتطبيق العملي للنشر. يسلط الجدول أدناه الضوء على أنه في حين أن نماذج DAMO-YOLO غالبًا ما تحقق درجات mAP أعلى بأعداد معلمات مماثلة، فإن نماذج YOLOv5 (خاصة المتغيرات Nano و Small) توفر سرعة فائقة على CPU و GPU، وهو ما غالبًا ما يكون العامل الحاسم في عمليات النشر المتطورة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv5n64028.073.61.122.67.7
YOLOv5s64037.4120.71.929.124.0
YOLOv5m64045.4233.94.0325.164.2
YOLOv5l64049.0408.46.6153.2135.0
YOLOv5x64050.7763.211.8997.2246.4

كود تطبيق العالم الحقيقي

تتمثل إحدى أقوى الحجج لنماذج Ultralytics في بساطة التكامل. يوجد أدناه مثال تم التحقق منه لمدى سهولة تحميل نموذج YOLOv5 واستخدامه للاستدلال باستخدام PyTorch Hub، مما يدل على الطبيعة سهلة الاستخدام للمطورين في النظام البيئي.

import torch

# Load YOLOv5s from PyTorch Hub
model = torch.hub.load("ultralytics/yolov5", "yolov5s", pretrained=True)

# Define an image source (URL or local path)
img = "https://ultralytics.com/images/zidane.jpg"

# Run inference
results = model(img)

# Print results to console
results.print()

# Show the results
results.show()

الخلاصة

يخدم كلا التصميمين المعماريين أدوارًا متميزة في مجال رؤية الحاسوب. يعتبر DAMO-YOLO خيارًا هائلاً للبحث الأكاديمي والمسابقات حيث تحقيق أحدث دقة هو الهدف الوحيد، وحيث تكون تعقيدات خطوط أنابيب التدريب القائمة على NAS مقبولة.

ومع ذلك، بالنسبة للغالبية العظمى من المطورين والباحثين والشركات، يظل Ultralytics YOLOv5 (وخلفه YOLO11) هو التوصية الأفضل. لا يمكن المبالغة في تقدير مزايا النظام البيئي الذي تتم صيانته جيدًا: واجهات برمجة تطبيقات بسيطة ووثائق شاملة وخيارات تصدير سلسة تقلل بشكل كبير من الوقت اللازم لطرح المنتج في السوق. بفضل توازن الأداء الذي يتعامل مع قيود الوقت الفعلي بشكل فعال و تعدد الاستخدامات عبر مهام مثل التقسيم والتصنيف، توفر نماذج Ultralytics أساسًا قويًا ومستقبليًا لبناء حلول الذكاء الاصطناعي العملية.

بالنسبة لأولئك الذين يبحثون عن أحدث ما توصلت إليه الأداء والميزات، نوصي بشدة باستكشاف YOLO11، الذي يعتمد على إرث YOLOv5 بدقة وكفاءة أكبر.

استكشف مقارنات أخرى

لتقييم أفضل نموذج لاحتياجاتك بشكل أكبر، استكشف هذه المقارنات التفصيلية:


تعليقات