تخطي إلى المحتوى

YOLOX ضد DAMO-YOLO: نظرة متعمقة على تطور الكشف عن الكائنات

إن مشهد اكتشاف الأجسام يتطور باستمرار، حيث يدفع الباحثون باستمرار حدود الدقة وسرعة الاستدلال والكفاءة المعمارية. من المساهمات البارزة في هذا المجال YOLOX و DAMO-YOLO. أعاد YOLOX تنشيط عائلة YOLO من خلال تقديم آلية خالية من المرساة، بينما استفاد DAMO-YOLO من البحث عن التصميمات العصبية (NAS) لتحسين الأداء خصيصًا للتطبيقات الصناعية.

يقدم هذا الدليل مقارنة فنية شاملة لمساعدة المطورين والباحثين على فهم الفروق الدقيقة لكل نموذج، وحالات الاستخدام المثالية الخاصة بها، وكيفية مقارنتها بالحلول الحديثة مثل Ultralytics YOLO11.

YOLOX: الرائد الخالي من الـ Anchor

يمثل YOLOX، الذي تم تطويره بواسطة Megvii، تحولًا كبيرًا في سلالة YOLO عندما تم إصداره في عام 2021. من خلال التحول إلى تصميم خالٍ من المرساة، فقد قام بتبسيط عملية التدريب وإلغاء الحاجة إلى حسابات مربعات الإرساء المعقدة، والتي كانت عنصرًا أساسيًا في التكرارات السابقة مثل YOLOv4 و YOLOv5.

تفاصيل فنية:

تعرف على المزيد حول YOLOX

الميزات المعمارية الرئيسية

يدمج YOLOX العديد من التقنيات المتقدمة لتحقيق أدائه:

  1. آلية خالية من المرتكزات (Anchor-Free Mechanism): من خلال التنبؤ بمراكز الكائنات مباشرةً، يقلل YOLOX من عدد معلمات التصميم وخطوات الضبط التجريبية المرتبطة بالطرق القائمة على المرتكزات.
  2. رأس غير مقترن: على عكس الرؤوس المقترنة التي تتعامل مع التصنيف والانحدار معًا، يفصل YOLOX هذه المهام. يؤدي هذا الفصل إلى تحسين سرعة التقارب والدقة الإجمالية.
  3. SimOTA: استراتيجية متقدمة لتعيين التسميات تسمى تعيين النقل الأمثل المبسط (SimOTA) تقوم بتعيين عينات إيجابية ديناميكيًا للحقائق الأرضية، مما يحسن هدف التدريب بشكل أكثر فعالية من المطابقة الثابتة.

لماذا Anchor-Free؟

تعمل أجهزة الكشف الخالية من المرساة على تبسيط تصميم النموذج عن طريق إزالة الحاجة إلى ضبط المعلمات الفائقة لصندوق الارتكاز يدويًا (مثل الحجم ونسبة العرض إلى الارتفاع) لمجموعات بيانات محددة. يؤدي هذا غالبًا إلى تعميم أفضل عبر أشكال الأجسام المتنوعة.

DAMO-YOLO: بنية عصبونية محسّنة بالبحث

تم إصداره بواسطة مجموعة Alibaba في أواخر عام 2022، يركز DAMO-YOLO على سد الفجوة بين الأداء العالي والكمون المنخفض. يستخدم تقنيات التعلم الآلي الآلية لاكتشاف هياكل الشبكات الفعالة، مما يجعله منافسًا قويًا للتطبيقات الصناعية التي تتطلب معالجة في الوقت الفعلي.

تفاصيل فنية:

تعرف على المزيد حول DAMO-YOLO

الميزات المعمارية الرئيسية

تقدم DAMO-YOLO العديد من "التقنيات الجديدة" إلى النظام البيئي YOLO:

  1. العمود الفقري MAE-NAS: يستخدم النموذج عمودًا فقريًا تم إنشاؤه عبر البحث في بنية الشبكة العصبية (NAS) بناءً على مقياس متوسط الخطأ المطلق (MAE). وهذا يضمن أن يكون مستخرج الميزات مصممًا تمامًا لمهمة الكشف.
  2. RepGFPN: تصميم رقبة ثقيل يعتمد على شبكة Generalized Feature Pyramid Network (GFPN) التي تستخدم إعادة التهيئة لزيادة كفاءة feature fusion مع الحفاظ على زمن انتقال الاستدلال منخفضًا.
  3. ZeroHead: رأس detect مبسط يقلل من النفقات الحسابية دون التضحية بدقة التوقعات.
  4. AlignedOTA: تطور في إسناد الملصقات يعمل على تحسين محاذاة درجات التصنيف مع دقة الانحدار، مما يضمن إعطاء الأولوية للتنبؤات عالية الجودة.

تحليل الأداء

عند مقارنة هذين النموذجين، من الضروري النظر إلى المفاضلات بين الدقة (mAP) وسرعة الاستدلال (زمن الانتقال). يوضح الجدول أدناه أنه في حين أن YOLOX لا يزال منافسًا، فإن بنية DAMO-YOLO الأحدث توفر عمومًا سرعة فائقة على أجهزة GPU لتحقيق مستويات دقة مماثلة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

نقاط مقارنة نقدية

  • السرعة مقابل الدقة: تحقق DAMO-YOLO-Tiny ‏(DAMO-YOLOt) ‏mAP أعلى (42.0) من YOLOX-Small ‏(40.5) مع التشغيل بشكل أسرع (2.32 مللي ثانية مقابل 2.56 مللي ثانية) واستخدام عدد أقل من FLOPs. يوضح هذا فعالية العمود الفقري المحسن بواسطة NAS.
  • كفاءة المعلمات: YOLOX-Nano خفيف الوزن للغاية (0.91 مليون معلمة)، مما يجعله خيارًا قابلاً للتطبيق للأجهزة الطرفية ذات الموارد المحدودة للغاية حيث يهم كل بايت، على الرغم من أن DAMO-YOLO لا يقدم منافسًا مباشرًا بهذا الحجم المحدد.
  • أداء عالي المستوى: بينما يدفع YOLOX-X الدقة إلى 51.1 mAP، فإنه يفعل ذلك بعدد كبير من المعلمات (99.1 مليون). يصل DAMO-YOLO-Large إلى 50.8 mAP مماثل مع أقل من نصف عدد المعلمات (42.1 مليون)، مما يسلط الضوء على تصميم أكثر حداثة وكفاءة.

حالات الاستخدام والتطبيقات

غالبًا ما يعتمد الاختيار بين YOLOX و DAMO-YOLO على بيئة النشر المحددة.

  • YOLOX مناسبة تمامًا لبيئات البحث والسيناريوهات التي تتطلب تطبيقًا مباشرًا وخاليًا من الارتكاز. يعني نضجها وجود العديد من موارد المجتمع والبرامج التعليمية المتاحة. إنها مرشح قوي لمهام الكشف عن الكائنات للأغراض العامة حيث تكون هناك حاجة إلى توافق قديم.
  • DAMO-YOLO يتفوق في التشغيل الآلي الصناعي وتطبيقات المدينة الذكية حيث يكون زمن الوصول المنخفض على أجهزة وحدة معالجة الرسومات (GPU) أمرًا بالغ الأهمية. تجعلها بنيتها المحسّنة مثالية لتحليلات الفيديو عالية الإنتاجية و detect العيوب في الوقت الفعلي في التصنيع.

Ultralytics YOLO11: البديل الأفضل

في حين أن YOLOX و DAMO-YOLO يوفران قدرات detect قوية، إلا أنهما يقتصران إلى حد كبير على هذه المهمة الفردية ويفتقران إلى نظام بيئي موحد وداعم. بالنسبة للمطورين الذين يبحثون عن حل شامل، يمثل Ultralytics YOLO11 أحدث ما توصلت إليه تقنيات الذكاء الاصطناعي البصرية.

تعرف على المزيد حول YOLO11

تم تصميم نماذج Ultralytics ليس فقط كهياكل، ولكن كأدوات تطوير كاملة.

لماذا تختار Ultralytics YOLO11؟

  1. Versatility Across Tasks: على عكس YOLOX و DAMO-YOLO، اللذين يركزان بشكل أساسي على الكشف عن المربعات المحيطة، يدعم YOLO11 أصلاً مجموعة واسعة من مهام رؤية الكمبيوتر. وهذا يشمل instance segmentation و pose estimation و oriented object detection (OBB) و image classification.
  2. سهولة استخدام لا مثيل لها: يتيح لك Ultralytics Python API تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر فقط من التعليمات البرمجية. ليست هناك حاجة لاستنساخ المستودعات المعقدة أو تكوين مسارات البيئة يدويًا.
  3. نظام بيئي مُدار بشكل جيد: توفر Ultralytics تحديثات متكررة، مما يضمن التوافق مع أحدث إصدارات PyTorch و ONNX و TensorRT. يعني المجتمع النشط و الوثائق الشاملة أنك لن تواجه مشكلة بدون دعم.
  4. كفاءة التدريب والذاكرة: تم تصميم YOLO11 لتحقيق الكفاءة. يتطلب عادةً ذاكرة GPU أقل أثناء التدريب مقارنة بالبنى القديمة أو النماذج الثقيلة القائمة على المحولات، مما يسمح بتكرارات أسرع وتقليل تكاليف الحوسبة السحابية.
  5. موازنة الأداء: يعتمد YOLO11 على إرث إصدارات YOLO السابقة لتقديم توازن مثالي بين السرعة والدقة، مما يجعله مناسبًا للنشر على كل شيء بدءًا من أجهزة NVIDIA Jetson الطرفية إلى الخوادم السحابية على مستوى المؤسسات.

سهولة الاستخدام مع Ultralytics

يعد تدريب نموذج YOLO11 أمرًا مباشرًا بشكل لا يصدق مقارنة بالأطر التقليدية.

from ultralytics import YOLO

# Load a model
model = YOLO("yolo11n.pt")  # load a pretrained model

# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference
results = model("path/to/image.jpg")

الخلاصة

لقد اكتسب كل من YOLOX و DAMO-YOLO مكانتهما في تاريخ رؤية الكمبيوتر. لقد نجح YOLOX في نشر نموذج خالٍ من المرساة، بينما أظهر DAMO-YOLO قوة البحث عن البنية العصبية لتحسين أجهزة الكشف الصناعية. ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتطلب المرونة والدعم طويل الأجل وقدرات المهام المتعددة، يبرز Ultralytics YOLO11 باعتباره الخيار الأول. يتيح تكامله في نظام بيئي قوي، جنبًا إلى جنب مع الأداء المتطور والحد الأدنى من الذاكرة، للمطورين إنشاء حلول ذكاء اصطناعي قابلة للتطوير وفعالة بسهولة.

استكشف نماذج أخرى

للحصول على منظور أوسع حول كيفية مقارنة هذه النماذج بالهياكل الأخرى الحديثة، استكشف صفحات المقارنة التفصيلية الخاصة بنا:


تعليقات