تخطي إلى المحتوى

YOLO YOLOX: نظرة متعمقة على اكتشاف الكائنات بدون مرساة

تميز تطور الكشف عن الكائنات في الوقت الفعلي بالانتقال من الأنظمة المعقدة القائمة على المراسي إلى البنى المبسطة الخالية من المراسي. ومن المعالم البارزة في هذه الرحلة YOLO الذي طورته مجموعة Alibaba، ونظام YOLOX الذي أنشأته Megvii. ويتحدى كلا النموذجين نماذج التصميم التقليدية، ويقدمان نُهجًا فريدة لاستخراج الميزات وتعيين التسميات وكفاءة التدريب.

تستكشف هذه المقارنة التفصيلية ابتكاراتهما المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك في تحديد النموذج الذي يناسب احتياجاتك الخاصة في مجال الرؤية الحاسوبية. على الرغم من الأهمية التاريخية لكلا النموذجين، سنستكشف أيضًا كيف قامت الحلول الحديثة مثل Ultralytics بدمج هذه التطورات في نظام بيئي أكثر قوة وجاهزًا للإنتاج.

نظرة عامة على DAMO-YOLO

يمثل YOLO (Distillation-Enhanced Neural Architecture Search-based YOLO) نهجًا عالي الأداء يجمع بين البحث في البنية العصبية (NAS) وتقنيات التدريب المتقدمة. وقد تم تصميمه لتجاوز حدود السرعة والدقة من خلال أتمتة تصميم الهياكل الأساسية والرقبة.

الميزات الرئيسية لـYOLO

  1. الهيكل الأساسي MAE-NAS: على عكس الهياكل الأساسية المصممة يدويًا،YOLO نهج الترميز التلقائي المقنع (MAE) ضمن إطار عمل البحث عن البنية العصبية. وينتج عن ذلك هيكل مُحسّن للغاية لاستخراج الميزات المكانية بأقل قدر من الحمل الحسابي.
  2. RepGFPN الفعال: يستخدم النموذج شبكة هرمية معيارية معاد تقييمها (RepGFPN). وهذا يحسن دمج الميزات عبر مستويات مختلفة، وهو أمر بالغ الأهمية لاكتشاف كائنات ذات أحجام متفاوتة، مع الحفاظ على زمن استنتاج منخفض من خلال إعادة التقييم أثناء النشر.
  3. ZeroHead: تم تبسيط رأس الكشف بشكل كبير ("ZeroHead")، مما أدى إلى تقليل عدد المعلمات المطلوبة لانحدار وتصنيف مربع الحدود النهائي.
  4. AlignedOTA: تضمن استراتيجية التخصيص الديناميكي للعلامات المسماة Aligned One-to-Many Assignment تخصيص العينات الإيجابية بشكل أكثر دقة أثناء التدريب، مما يحل حالات الغموض في المشاهد المزدحمة.

تحسين التقطير

إحدى السمات المميزةYOLO هي اعتمادها الكبير على تقطير المعرفة. حيث يوجه نموذج "المعلم" الأكبر حجماً تدريب نموذج "الطالب" الأصغر حجماً. ورغم أن هذا يعزز الدقة، إلا أنه يعقد بشكل كبير مسار التدريب مقارنة بأساليب التدريب القياسية "bag-of-freebies".

نظرة عامة على YOLOX

كان YOLOX إصدارًا محوريًا أدخل آليات بدون مرساة إلى YOLO السائدة. من خلال فصل رؤوس التنبؤ وإزالة مربعات المرساة، فقد بسط عملية التصميم وحسّن الأداء، خاصة للمطورين المعتادين على تعقيد ضبط المرساة.

الميزات الرئيسية لـ YOLOX

  1. تصميم بدون مرساة: من خلال توقع مراكز الكائنات مباشرةً بدلاً من الإزاحة من مربعات المرساة المحددة مسبقًا، يلغي YOLOX الحاجة إلى تحليل التجميع (مثل K-means) لتحديد الأشكال المثلى للمرساة لمجموعات البيانات المخصصة.
  2. رأس منفصل: يفصل YOLOX مهام التصنيف والتحديد المكاني إلى فروع مختلفة من رأس الشبكة. يحل هذا الفصل التضارب بين متطلبات الميزات لتصنيف كائن ما مقابل تحديد حدوده الدقيقة.
  3. SimOTA: استراتيجية مبسطة لتخصيص النقل الأمثل تقوم بتخصيص العينات الإيجابية ديناميكيًا استنادًا إلى تكلفة التحسين الشامل، مع تحقيق التوازن بين جودة التصنيف والانحدار.
  4. توسيع البيانات القوي: يستخدم YOLOX بشكل مكثف MixUp Mosaic و MixUp والتي كانت حاسمة لقدرته على التدريب بفعالية دون أساسيات مسبقة التدريب في بعض التكوينات.

تعرف على المزيد حول YOLOX

مقارنة تقنية: الأداء والسرعة

عند مقارنة هاتين البنيتين، يتفوقYOLO على YOLOX من حيث التوازن بين الدقة والكمون، ويرجع ذلك إلى حد كبير إلى إطلاقه في وقت لاحق ودمج تقنيات NAS فيه. ومع ذلك، يظل YOLOX المفضل بسبب بساطة بنيته وسهولة قراءة كوده.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

الهندسة المعمارية وتعقيد التدريب

يُشاد بـ YOLOX لتنفيذه "النظيف". إنه PyTorch خالصة يسهل تعديلها لأغراض البحث. عملية التدريب عليه بسيطة، وتتطلب ضبط معلمات فرعية قياسية.

على العكس من ذلك، يقدم YOLO تعقيدًا كبيرًا. الاعتماد على البحث في البنية العصبية (NAS) يعني أن العمود الفقري ليس بنية قياسية ثابتة مثل ResNet أو CSPDarknet. علاوة على ذلك، تتطلب عملية التقطير تدريب نموذج معلم ثقيل أولاً للإشراف على نموذج الطالب خفيف الوزن. وهذا يضاعف الموارد الحاسوبية اللازمة للتدريب ويجعل من الصعب على المستخدمين الذين لديهم GPU محدود GPU تكرار نتائج الورقة البحثية على مجموعات البيانات المخصصة.

Ultralytics : ما وراء نماذج البحث

في حين أنYOLO YOLOX يقدمان رؤى أكاديمية قيّمة، فإن تطوير المؤسسات الحديثة يتطلب أكثر من مجرد مقاييس أولية. يحتاج المطورون إلى الاستقرار وسهولة الاستخدام ونظام بيئي كامل. وهنا تبرز Ultralytics كخيار متميز.

سهولة استخدام ونظام بيئي لا مثيل لهما

غالبًا ما يتطلب تدريبYOLO ملفات تكوين معقدة وخطوط أنابيب تقطير متعددة المراحل. في المقابل، توفر Ultralytics و Python تجربة "من الصفر إلى القمة". سواء كنت تستخدم CLI Python فإن بدء عملية التدريب يستغرق ثوانٍ معدودة.

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a dataset with a single command
results = model.train(data="coco8.yaml", epochs=100)

يتم صيانة Ultralytics بشكل فعال، مما يضمن توافقه مع أحدث إصدارات PyTorch و CUDA و Apple Metal. على عكس مستودعات الأبحاث التي غالبًا ما تصبح غير نشطة بعد النشر، تتلقى Ultralytics تحديثات متكررة وإصلاحات للأخطاء وتحسينات في الأداء.

توازن الأداء وتعدد الاستخدامات

يمثل YOLO26 قمة الكفاءة. يتميز بتصميم شامل NMS، وهو إنجاز رائد تم تحقيقه لأول مرة في YOLOv10. من خلال التخلص من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، يقلل YOLO26 من تباين زمن الاستدلال ويبسط منطق النشر، مما يحل مشكلة كبيرة موجودة في كل من YOLOX وYOLO.

علاوة على ذلك، تم تحسين YOLO26 ليتوافق مع الأجهزة التي تتجاوز مجرد وحدات معالجة الرسومات (GPU) من فئة الخوادم. فهو يوفر CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله الخيار المثالي للأجهزة الطرفية وأجهزة Raspberry Pi والتطبيقات المحمولة التي تعتبر فيها مدة عمر البطارية والقيود الحرارية من العوامل الحاسمة.

في حين أن YOLOX وYOLO في الأساس أجهزة كشف للأجسام، فإن Ultralytics يوفر دعماً أصلياً لمجموعة واسعة من المهام:

تعرف على المزيد حول YOLO26

تطبيقات عملية في أرض الواقع

يعتمد اختيار النموذج المناسب بشكل كبير على القيود المحددة لبيئة النشر الخاصة بك.

حالات الاستخدام المثالية لـYOLO

  • خوادم عالية الإنتاجية: تتيح بنية RepGFPN المحسّنة الحصول على معدل إطارات في الثانية (FPS) عالٍ جدًا على الأجهزة المخصصة TensorRT(مثل NVIDIA أو A100)، مما يجعلها مناسبة لمعالجة أرشيفات الفيديو الضخمة.
  • المشاهد المزدحمة: تساعد عملية تخصيص علامة AlignedOTA في السيناريوهات التي تتسم بارتفاع نسبة حجب الكائنات، مثل عد الأشخاص في حشد مزدحم أو مراقبة الماشية.

حالات الاستخدام المثالية لـ YOLOX

  • البحث الأكاديمي: قاعدة الكود النظيفة تجعله أساسًا ممتازًا للباحثين الذين يسعون إلى اختبار وظائف خسارة جديدة أو تعديلات أساسية دون تكلفة NAS.
  • دعم الأجهزة المحمولة القديمة: تستخدم طرازات YOLOX-Nano و Tiny التلافيف القابلة للفصل عمقياً والتي كانت مدعومة جيداً في الماضي على Android القديمة للأجهزة المحمولة عبر NCNN.

لماذا يعتبر Ultralytics المعيار الحديث

بالنسبة لجميع المشاريع التجارية والصناعية الجديدة تقريبًا، يُعد YOLO26 الحل الموصى به.

  • الحوسبة الطرفية وإنترنت الأشياء: إن إزالة فقدان التركيز التوزيعي (DFL) ووظائف ProgLoss + STAL الجديدة تجعل YOLO26 مستقرة بشكل استثنائي على الأجهزة منخفضة الطاقة. وهي تتفوق في مجال الروبوتات وملاحة الطائرات بدون طيار حيث تعتبر CPU ثمينة.
  • دورات تطوير سريعة: يتيح التكامل مع Ultralytics للفرق تسمية البيانات وتدريب النماذج ونشرها بتنسيقات مثل ONNX أو CoreML سير عمل موحد، مما يقلل بشكل كبير من وقت طرح المنتج في السوق.
  • المهام المعقدة: سواء كنت بحاجة إلى detect حزمة (OBB) أو تحليل وضعية عامل (Pose)، فإن YOLO26 يتعامل مع هذه المهام المعقدة ضمن إطار عمل واحد فعال من حيث استخدام الذاكرة، على عكسYOLO المتخصص في الكشف فقط.

الخلاصة

لعب كل منYOLO YOLOX دورًا حاسمًا في تاريخ اكتشاف الأجسام، مما يثبت أن التصميمات الخالية من المراسي يمكن أن تحقق نتائج متطورة. ومع ذلك، فإن هذا المجال يتطور بسرعة.

يعتمد Ultralytics على هذه الدروس، حيث يدمج استقرار MuSGD Optimizer (المستوحى من تدريب LLM) وبساطة البنية NMS. للمطورين الذين يبحثون عن أفضل توازن بين الدقة والسرعة وسهولة الاستخدام، يقدم YOLO26 حلاً مستقبليًا مدعومًا بمجتمع مزدهر ووثائق شاملة.

لمزيد من المعلومات حول Ultralytics بالبنى الأخرى، اطلع على مقارناتنا مع EfficientDet و YOLOv6و RT-DETR.


تعليقات