تخطي إلى المحتوى

DAMO-YOLO مقابل Ultralytics YOLOv8: مقارنة تقنية شاملة

يتغير مشهد الرؤية الحاسوبية في الوقت الفعلي باستمرار مع سعي الباحثين والمهندسين إلى تخطي حدود السرعة والدقة. ومن المعالم البارزة في هذه الرحلة YOLO و Ultralytics YOLOv8. في حين يهدف كلا النموذجين إلى تحسين التوازن بين زمن الاستجابة ومتوسط الدقة (mAP)، إلا أنهما يتبعان نهجين مختلفين تمامًا من حيث البنية والفلسفة لحل تحديات اكتشاف الأجسام.

سيقارن هذا التحليل الفني الشامل بين البنى الأساسية ومنهجيات التدريب والتطبيقات العملية لمساعدتك في اختيار الأداة المناسبة لمشروعك التالي في مجال الذكاء الاصطناعي.

سلسلة الطرازات والمواصفات

إن فهم أصول نماذج التعلم العميق هذه يوفر سياقًا قيمًا فيما يتعلق بأهداف تصميمها وأنظمة نشرها.

تفاصيل DAMO-YOLO

المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:tinyvision/DAMO-YOLO

تعرف على المزيد حول DAMO-YOLO

YOLOv8 Ultralytics YOLOv8

المؤلفون: جلين جوشر، أيوش شوراسيا، وجينغ تشيو
المنظمة:Ultralytics
التاريخ: 2023-01-10
GitHub:ultralytics
الوثائق:YOLOv8

تعرف على المزيد حول YOLOv8

الابتكارات المعمارية

تنبع خصائص أداء كلتا البنيتين من قراراتهما الهيكلية الفريدة.

يعتمد DAMO-YOLO بشكل كبير على البحث عن البنية العصبية (NAS) لاكتشاف هياكل الشبكة المثلى تلقائيًا. يقدم مفهومًا يسمى MAE-NAS، والذي يبحث عن العمود الفقري الذي يوفر أداءً عاليًا بزمن استجابة منخفض. بالإضافة إلى ذلك، فإنه يستخدم RepGFPN فعالاً (شبكة هرمية للميزات المعممة المعاد توسيطها) لتعزيز دمج الميزات عبر مقاييس مكانية مختلفة.

لتحسين التدريب، أدرج فريق Alibaba تصميم ZeroHead وتعيين علامة AlignedOTA. علاوة على ذلك، يعتمدون بشكل كبير على عملية تقطير المعرفة المعقدة، حيث يوجه نموذج المعلم الثقيل نموذج الطالب الخفيف، مما يؤدي إلى الحصول على مقاييس دقة أعلى في المعايير الأكاديمية.

YOLOv8: مبسطة ومتعددة الاستخدامات

Ultralytics نهجًا يركز على المطورين في المقام الأول مع YOLOv8. فقد تحولت من التصميم القائم على المراسي YOLOv5 إلى بنية خالية من المراسي، مما أدى إلى تقليل عدد تنبؤات المربعات المحيطة بشكل كبير وتسريع الاستدلال. أدى إدخال وحدة C2f (عنق الزجاجة الجزئي عبر المراحل مع 2 تلافيف) إلى تحسين تدفق التدرج وتمثيل الميزات دون إضافة أعباء حسابية زائدة.

على عكس النماذج التي تستهدف الصناديق المحددة بدقة، YOLOv8 تصميم YOLOv8 من الألف إلى الياء ليكون متعدد الوسائط. موحد PyTorch يدعم بشكل أساسي تقسيم المثيلات وتقدير الوضع وتصنيف الصور، مما يوفر على المهندسين عناء تجميع مستودعات متباينة.

تدريب فعال

تتطلب Ultralytics بطبيعتها ذاكرة أقل أثناء التدريب مقارنة بالبنى القائمة على المحولات الثقيلة، مما يتيح الحصول على نتائج متطورة على وحدات معالجة الرسومات القياسية للمستهلكين.

مواجهة الأداء

عند مقارنة المقاييس الأولية، من الضروري تحليل كيفية ترجمة القدرات النظرية إلى أداء الأجهزة. يوضح الجدول أدناه المفاضلات بين أحجام النماذج.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv8n64037.380.41.473.28.7
YOLOv8s64044.9128.42.6611.228.6
YOLOv8m64050.2234.75.8625.978.9
YOLOv8l64052.9375.29.0643.7165.2
YOLOv8x64053.9479.114.3768.2257.8

بينماYOLO بنسب عالية من الدقة إلى المعلمات بفضل تقنيات التقطير التي يستخدمها، YOLOv8 نطاقًا أوسع من أحجام النماذج (من Nano إلى Extra-large). يمثل نموذج YOLOv8 نموذجًا مثاليًا في تحسين الحواف، حيث يستهلك موارد أقل مع توفير دقة عالية الاستخدام.

النظام البيئي وتجربة المطور

الفاصل الحقيقي بين الأوراق الأكاديمية والأنظمة الجاهزة للإنتاج هو النظام البيئي.

يمكن أن يؤدي اعتماد DAMO-YOLO على مسارات تقطير المعرفة الواسعة إلى جعل التدريب المخصص مرهقًا. يتطلب إنشاء نموذج معلم، ونقل المعرفة، وضبط الهياكل الأساسية المستندة إلى NAS ذاكرة CUDA عالية وتكوينًا متقدمًا، مما يؤدي غالبًا إلى إبطاء فرق الهندسة الرشيقة.

على العكس من ذلك، يدعم النظام البيئي لـ Ultralytics سهولة الاستخدام. من خلال منصة Ultralytics، يمكن للمطورين الوصول إلى واجهات برمجة تطبيقات بسيطة، ووثائق شاملة، وتكاملات قوية لتتبع التجارب. يجعل إطار عمل Python الموحد بناء خطوط الأنابيب المعقدة أمرًا سهلاً.

from ultralytics import YOLO

# Load a pretrained YOLOv8 nano model
model = YOLO("yolov8n.pt")

# Train the model on a custom dataset with built-in augmentations
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

هذا سير العمل المبسط، إلى جانب عمليات التصدير السلسة إلى OpenVINO و TensorRT، يضمن مسارًا سلسًا من النماذج الأولية المحلية إلى عمليات النشر السحابية أو الطرفية.

تطبيقات في العالم الحقيقي وحالات استخدام مثالية

غالبًا ما يعتمد الاختيار بين هذه المعماريات على القيود التشغيلية لبيئتك.

أينYOLO

يعد DAMO-YOLO خيارًا ممتازًا للبيئات الأكاديمية التي تدرس البحث عن البنية العصبية أو للباحثين الذين يحاولون تكرار استراتيجيات إعادة المعلمات المعقدة. يمكن أن يتفوق أيضًا في التطبيقات الصناعية شديدة التحكم، مثل اكتشاف العيوب عالية السرعة على خطوط التصنيع، شريطة أن يمتلك الفريق موارد الحوسبة اللازمة للتعامل مع تدريبه متعدد المراحل.

لماذا Ultralytics مجال الإنتاج

بالنسبة للغالبية العظمى من المشاريع التجارية، توفر Ultralytics توازنًا فائقًا في الأداء.

  • تجارة التجزئة الذكية: استخدام قدرات YOLOv8 متعددة المهام للتعامل مع اكتشاف الصناديق المحيطة للمخزون و تقدير الوضع لتحليل سلوك العملاء.
  • الزراعة: توظيف تجزئة الكائنات (instance segmentation) للكشف عن حدود النباتات والأعشاب الضارة بدقة في خلاصات الجرارات في الوقت الفعلي.
  • التصوير الجوي: بالاستفادة من الصناديق المحيطة الموجهة (OBB) لـ track المركبات والسفن الدوارة بدقة من الطائرات بدون طيار أو الأقمار الصناعية.

نماذج أخرى بارزة

إذا كنت تستكشف المشهد الأوسع نطاقًا، فقد تكون مهتمًا أيضًا بمقارنة YOLOv10 أو YOLO11 اللذين يقدمان المزيد من التطورات في مجال الكشف بدون مرساة.

الاستعداد للمستقبل: أدخل YOLO26

بينما YOLOv8 نموذجًا أساسيًا، استمر هذا المجال في التقدم. بالنسبة لجميع التطورات الجديدة، يُعد YOLO26 هو المعيار الموصى به. تم إصداره في يناير 2026، وهو يمثل قفزة هائلة في Ultralytics .

تعتبر YOLO26 رائدة في تصميمها الأصلي الشامل NMS، مما يزيل تمامًا عنق الزجاجة التقليدي المتمثل في عدم القمع الأقصى. ينتج عن هذا الاختراق الهيكلي CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعلها قوة مطلقة للحوسبة المتطورة وأجهزة إنترنت الأشياء.

علاوة على ذلك، يقدم YOLO26 مُحسّن MuSGD، وهو مُحسّن هجين مستوحى من تقنيات تدريب نموذج اللغة الكبيرة (LLM) التي تضمن تقاربًا أسرع وحلقات تدريب عالية الاستقرار. إلى جانب خوارزميات ProgLoss + STAL الجديدة، يُظهر YOLO26 تحسينات كبيرة في التعرف على الأجسام الصغيرة، مما يضمن أن عمليات النشر ليست سريعة فحسب، بل دقيقة أيضًا.

تعرف على المزيد حول YOLO26


تعليقات