تخطي إلى المحتوى

YOLO YOLO11: نظرة متعمقة على الكشف عن الكائنات في الوقت الفعلي

يتطور مجال اكتشاف الأجسام باستمرار، حيث يسعى الباحثون والمهندسون إلى تحقيق التوازن بين المتطلبات المتنافسة للدقة وسرعة الاستدلال وكفاءة الحوسبة. ومن بين البنى البارزة التي ظهرت في هذا المجالYOLO التي طورتها مجموعة Alibaba، وبنية YOLO11، وهي نسخة قوية من Ultralytics.

بينماYOLO مفاهيم جديدة في البحث عن البنية العصبية (NAS) وإعادة المعلمات بشكل مكثف، YOLO11 نهجًا محسنًا يركز على المستخدم ويتمحور حول الاستعداد للإنتاج والتنوع. تستكشف هذه المقارنة الفروق الدقيقة في البنية ومقاييس الأداء واعتبارات النشر العملي لكلا النموذجين.

نظرة عامة على DAMO-YOLO

YOLO كاشف كائنات عالي الأداء اقترحه باحثون في أكاديمية DAMO التابعة لشركة Alibaba. ويتميز هذا الكاشف باستخدامه تقنية البحث عن البنية العصبية (NAS) لتصميم هياكل أساسية فعالة تلقائيًا ومصممة خصيصًا لتلبية قيود محددة.

تدمج البنية شبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) متخصصة لدمج الميزات ورأس خفيف الوزن يُطلق عليه اسم "ZeroHead". أحد المكونات الرئيسية لاستراتيجية التدريب هو "AlignedOTA"، وهي طريقة ديناميكية لتعيين التسميات مصممة لحل مشكلات عدم التوافق بين مهام التصنيف والانحدار. بالإضافة إلى ذلك، تعتمد بشكل كبير على التقطير من نماذج "معلم" أكبر حجماً لتعزيز أداء المتغيرات الأصغر حجماً.

YOLO11

YOLO11 على إرثYOLO Ultralytics YOLO حيث يعمل على تحسين تصميم شبكة CSP (Cross Stage Partial) لتعظيم كفاءة المعلمات. على عكس النماذج التي تركز على البحث والتي قد تتطلب إعدادات معقدة، YOLO11 تصميم YOLO11 للتطبيق الفوري في العالم الواقعي، مما يوفر تجربة "شاملة".

YOLO11 تصميم كتلة C3k2 ويقدم وحدات C2PSA (Cross Stage Partial with Spatial Attention) لالتقاط السياق العام بشكل أفضل. وهو مدمج بالكامل في Ultralytics ويدعم التدريب والتحقق والنشر السلس عبر أجهزة متنوعة بما في ذلك وحدات المعالجة المركزية ووحدات معالجة الرسومات والأجهزة الطرفية.

تعرف على المزيد حول YOLO11

مقارنة فنية

يوضح الجدول التالي الاختلافات في الأداء بين النماذج. في حينYOLO أداءً نظريًا قويًا، YOLO11 يوفر YOLO11 ملفًا شخصيًا أكثر توازنًا من حيث السرعة والدقة في السيناريوهات العملية، لا سيما عند النظر إلى تكلفة التصدير والنشر.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

الهندسة المعمارية ومنهجيات التدريب

يستخدم YOLO MAE-NAS (البحث عن بنية عصبية للتشفير التلقائي المقنع) لاكتشاف الهياكل الأساسية المثلى في ظل قيود زمنية محددة. وينتج عن ذلك نماذج فعالة من الناحية النظرية، ولكن قد يكون من الصعب تعديلها أو ضبطها بدون خط أنابيب NAS الأصلي. عملية التدريب معقدة، وغالبًا ما تتطلب نهجًا من مرحلتين حيث يتم تدريب نموذج معلم ثقيل أولاً لتقطير المعرفة في نموذج هدف أصغر.

YOLO11، على العكس من ذلك، يستخدم بنية مصممة يدويًا ولكنها محسّنة للغاية وتوازن بين العمق والعرض والدقة. تم تبسيط مسار التدريب باستخدام تعزيزات قياسية ووظائف خسارة لا تتطلب نماذج تعليمية مساعدة أو مراحل تقطير معقدة. وهذا يجعل YOLO11 أسهل YOLO11 في التدريب على مجموعات البيانات المخصصة دون الحاجة إلى خبرة عميقة في المجال.

تحذير: التعقيد مقابل سهولة الاستخدام

بينما ينتج نهجYOLO القائم على NAS هياكل مثالية من الناحية الحسابية، فإن Ultralytics تعطي الأولوية لسهولة الاستخدام. YOLO11 تدريب نموذج مثل YOLO11 باستخدام CLI واحد. yolo train، في حين أن مستودعات الأبحاث غالبًا ما تتطلب ملفات تكوين معقدة وإعدادات متعددة الخطوات.

ميزة Ultralytics

اختيار النموذج لا يقتصر على mAP الأولية فحسب، بل يشمل دورة حياة مشروع التعلم الآلي بأكملها. توفر Ultralytics مثل YOLO11و YOLO26المتطورة مزايا مميزة تبسط عملية التطوير.

سهولة استخدام ونظام بيئي لا مثيل لهما

تم تصميم Ultralytics لتقليل الاحتكاك. يتطلب تدريب YOLO11 الحد الأدنى من التعليمات البرمجية، كما أن Python متسقة عبر جميع إصدارات النموذج. وهذا يتناقض معYOLO حيث غالبًا ما يتنقل المستخدمون بين قاعدة بيانات برمجية على مستوى البحث العلمي قد تفتقر إلى الوثائق القوية أو الصيانة طويلة الأجل.

from ultralytics import YOLO

# Load a YOLO11 model
model = YOLO("yolo11n.pt")

# Train on a custom dataset with a single line
results = model.train(data="coco8.yaml", epochs=100)

علاوة على ذلك، توفر Ultralytics واجهة سلسة لإدارة مجموعات البيانات ووضع العلامات والتدريب السحابي، مما يؤدي إلى إتاحة الوصول إلى قدرات الرؤية الحاسوبية المتقدمة بشكل فعال.

تعدد الاستخدامات عبر المهام

أحد أقوى الحجج لتبني Ultralytics هو تعدد الاستخدامات. في حين أنYOLO في الأساس كاشف كائنات، YOLO11 مجموعة واسعة من مهام الرؤية الحاسوبية ضمن نفس قاعدة الكود:

موازنة الأداء وكفاءة الذاكرة

تشتهر Ultralytics بكفاءتها في استخدام الموارد. YOLO11 يتطلب YOLO11 CUDA أقل أثناء التدريب مقارنةً بالبنى الثقيلة المحولة أو النماذج المعقدة المشتقة من NAS. وهذا يتيح للمطورين تدريب مجموعات أكبر على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين، مما يسرع دورة التكرار.

للاستدلال، تم تحسين YOLO11 للتصدير إلى تنسيقات مثل ONNXو TensorRTو CoreML. وهذا يضمن أن الدقة العالية التي تظهر في المعايير القياسية تترجم إلى أداء في الوقت الفعلي على الأجهزة المتطورة، من وحدات NVIDIA إلى Raspberry Pis.

نظرة إلى المستقبل: قوة YOLO26

للمطورين الباحثين عن أعلى مستويات الأداء، Ultralytics نموذج YOLO26. هذا النموذج من الجيل التالي يحل محل YOLO11 ثورية:

  • تصميم شامل NMS: يزيل YOLO26 المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). هذا النهج الشامل الأصلي يبسط خطوط الإنتاج ويقلل من تباين زمن الاستجابة، وهي ميزة تم استكشافها لأول مرة في YOLOv10.
  • محسّن MuSGD: مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 محسّن MuSGD لتحقيق تقارب أسرع واستقرار أكبر في التدريب.
  • تحسين الحافة أولاً: مع إزالة Distribution Focal Loss (DFL) CPU معينة CPU ، يحقق YOLO26 استنتاجًا أسرع بنسبة تصل إلى 43٪ على وحدات المعالجة المركزية (CPU)، مما يجعله الخيار الأفضل للحوسبة الطرفية.
  • ProgLoss + STAL: وظائف خسارة جديدة تحسن من كشف الأجسام الصغيرة، وهي قدرة حاسمة لتطبيقات الطائرات بدون طيار وإنترنت الأشياء.

تعرف على المزيد حول YOLO26

حالات الاستخدام المثالية

  • اخترYOLO : كنت باحثًا يدرس فعالية NAS في أساسيات الرؤية، أو إذا كان لديك قيود خاصة جدًا على الأجهزة تتطلب بنية مخصصة للبحث ولديك الموارد اللازمة لإدارة خط أنابيب تقطير معقد.
  • اختر YOLO11 : كنت بحاجة إلى كاشف قوي متعدد الأغراض يوازن بين السرعة والدقة بشكل استثنائي. إنه مثالي للتطبيقات التجارية التي تتطلب التتبع والتدريب السهل على البيانات المخصصة والتوافق الواسع مع المنصات.
  • اختر YOLO26 إذا: كنت بحاجة إلى أسرع سرعات استدلال ممكنة، خاصة على وحدات المعالجة المركزية المتطورة، أو كنت بحاجة إلى تبسيط مكدس النشر عن طريق إزالة NMS. إنه الخيار الموصى به للمشاريع الجديدة التي تتطلب كفاءة وتعدد استخدامات على أحدث طراز.

الخلاصة

YOLO11 كلYOLO YOLO11 مساهمات مهمة في مجال الرؤية الحاسوبية.YOLO إمكانات البحث الآلي في الهندسة المعمارية، بينما YOLO11 التطبيق العملي للتعلم العميق مع التركيز على سهولة الاستخدام ودعم النظام البيئي.

بالنسبة لمعظم المطورين والمؤسسات، فإن Ultralytics الذي يرتكز على YOLO11 YOLO26المتطور، يوفر المسار الأكثر مباشرة لتحقيق القيمة. بفضل الوثائق الشاملة والدعم النشط من المجتمع والأدوات مثل Ultralytics يمكن للمستخدمين الانتقال من المفهوم إلى التنفيذ بثقة وسرعة.

بالنسبة للمهتمين بالبنى الأخرى، توفر Ultralytics أيضًا مقارنات مع نماذج مثل RT-DETR (محول الكشف في الوقت الحقيقي) و YOLOv9، مما يضمن حصولك على الصورة الكاملة عند اختيار الأداة المناسبة لاحتياجات الرؤية الاصطناعية الخاصة بك.


تعليقات