DAMO-YOLO مقابل YOLOX: مقارنة فنية
في المشهد سريع التطور في مجال الرؤية الحاسوبية، يعد اختيار النموذج الصحيح لاكتشاف الأجسام أمرًا بالغ الأهمية لنجاح أي مشروع ذكاء اصطناعي. تقدم هذه المقالة مقارنة متعمقة بين بنيتين مؤثرتين: نموذج YOLO الذي طورته مجموعة علي بابا، ونموذج YOLOX، الذي ابتكرته شركة Megvii. وقد قدم كلا النموذجين إسهامات كبيرة في هذا المجال، حيث تجاوزا حدود السرعة والدقة. سنستكشف بنيتهما الفريدة ومقاييس الأداء وحالات الاستخدام المثالية لمساعدتك على اتخاذ قرار مستنير.
YOLO: مُحسَّن للاستدلال عالي السرعة
يُمثّل YOLO قفزة إلى الأمام في مجال اكتشاف الأجسام في الوقت الحقيقي، حيث يعطي الأولوية لوقت الاستجابة المنخفض على أجهزة GPU دون المساس بالدقة. تم تطويره من قبل باحثين في Alibaba، وهو يدمج مبادئ تصميم الشبكات العصبية المتطورة لتحقيق مفاضلة رائعة بين السرعة والدقة.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
- المستنداتhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
الهندسة المعمارية والابتكارات
بُنيت بنية YOLO على العديد من التقنيات المبتكرة المصممة لتحقيق أقصى قدر من الكفاءة:
- بحث البنية العصبية (NAS): يستخدم النموذج MAE-NAS للبحث تلقائيًا عن بنية العمود الفقري الأكثر كفاءة، مما ينتج عنه مستخرج ميزات يُعرف باسم GiraffeNet. يضمن هذا النهج تحسين عمق الشبكة وعرضها بما يتناسب مع قيود أجهزة معينة.
- الشبكة الهرمية المعممة للسمات (RepGFPPN): للتعامل مع دمج السمات متعدد المقاييس، يستخدم YOLO شبكة هرمية معممة للسمات (GFPN) معززة بإعادة المعلمات. يسمح ذلك بتدفق معلومات ثرية عبر مقاييس مختلفة مع الحفاظ على سرعات استنتاج عالية.
- ZeroHead: رأس كشف خفيف الوزن يفصل بين مهام التصنيف والانحدار ولكنه يقلل بشكل كبير من العبء الحسابي مقارنةً بالرؤوس التقليدية المنفصلة.
- AlignedOTA: استراتيجية جديدة لتعيين التسميات تعمل على حل حالات عدم التوافق بين أهداف التصنيف والانحدار، مما يضمن أن يتعلم النموذج من العينات الأكثر صلة أثناء التدريب.
نقاط القوة وحالات الاستخدام المثالية
يتفوق YOLO في السيناريوهات التي يكون فيها الأداء في الوقت الحقيقي غير قابل للتفاوض. تجعلها تحسيناتها المعمارية من أفضل المنافسين للتطبيقات الصناعية التي تتطلب إنتاجية عالية.
- الأتمتة الصناعية: مثالية للكشف عن العيوب عالية السرعة في خطوط التصنيع حيث يتم حساب أجزاء من الثانية.
- المراقبة الذكية للمدينة: قادرة على معالجة تدفقات فيديو متعددة في وقت واحد لإدارة حركة المرور ومراقبة السلامة.
- الروبوتات: تُمكِّن الروبوتات المستقلة من التنقل في البيئات المعقدة من خلال معالجة البيانات المرئية بشكل فوري.
يولوكس: الرائد الخالي من المرساة
شكّل YOLOX لحظة محورية في سلسلة YOLO من خلال الابتعاد عن الآليات القائمة على المرساة. تم تطويره من قبل شركة Megvii، حيث قدم تصميمًا خاليًا من المرساة أدى إلى تبسيط خط أنابيب الكشف وتحسين التعميم، ووضع معيارًا جديدًا للأداء في عام 2021.
تفاصيل فنية:
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمةميجفي
- التاريخ: 2021-07-18
- اركسيف:https://arxiv.org/abs/2107.08430
- جيثبhttps://github.com/Megvii-BaseDetection/YOLOX
- المستنداتhttps://yolox.readthedocs.io/en/latest/
الميزات المعمارية الرئيسية
تتميز YOLOX بفلسفة تصميم قوية تعالج المشكلات الشائعة في إصدارات YOLO السابقة:
- آلية خالية من المرساة: من خلال التخلص من مربعات الارتكاز المحددة مسبقًا، يتجنب YOLOX تعقيد ضبط الارتكاز ويقلل من عدد المعلمات الفائقة الاستدلالية. يؤدي ذلك إلى أداء أفضل على مجموعات البيانات المتنوعة.
- الرأس المنفصل: يقسم النموذج مهمتي التصنيف والتوطين إلى فرعين منفصلين. يعمل هذا الفصل على تحسين سرعة التقارب والدقة من خلال السماح لكل مهمة بتعلم ميزاتها المثلى بشكل مستقل.
- تعيين التسمية SimOTA: استراتيجية متقدمة تتعامل مع تعيين التسمية كمشكلة نقل مثالية. تقوم SimOTA بتعيين العينات الإيجابية ديناميكيًا إلى الحقائق الأرضية، مما يحسن قدرة النموذج على التعامل مع المشاهد المزدحمة والانسدادات.
- تعزيزات قوية للبيانات: تستفيد YOLOX من تقنيات مثل Mosaic و MixUp لتعزيز المتانة ومنع الإفراط في التكييف أثناء التدريب.
نقاط القوة وحالات الاستخدام المثالية
تشتهر YOLOX بدقتها العالية وثباتها، مما يجعلها خيارًا موثوقًا للتطبيقات التي تكون فيها الدقة أمرًا بالغ الأهمية.
- القيادة الذاتية: يوفر الكشف عالي الدقة عن الأجسام اللازمة لأنظمة إدراك المركبات لتحديد المشاة والعوائق بأمان.
- تحليلات البيع بالتجزئة: الكشف الدقيق لمراقبة الرفوف وإدارة المخزون في بيئات البيع بالتجزئة المعقدة.
- خطوط الأساس البحثية: نظرًا لتنفيذه النظيف الخالي من الارتكاز، فهو بمثابة خط أساس ممتاز للبحث الأكاديمي في منهجيات الكشف الجديدة.
تحليل الأداء
يعرض الجدول التالي مقارنة مباشرةً بين YOLO و YOLOX عبر أحجام نماذج مختلفة. تسلط المقاييس الضوء على المفاضلة بين تعقيد النموذج (المعلمات وفلوب) وسرعة الاستدلال ودقة الكشفmAP) على مجموعة بيانات COCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
النقاط الرئيسية
- ميزة الكمون: تتفوق YOLO باستمرار على YOLOX من حيث سرعة الاستدلال GPU لمستويات دقة مماثلة. على سبيل المثال، يحقق DAMO-YOLOs سرعة 46.0 mAP في 3.45 مللي ثانية، في حين يتطلب YOLOXm 5.43 مللي ثانية للوصول إلى 46.9 mAP مع عمليات FLOP أعلى بكثير.
- الكفاءة: يوفر العمود الفقري المحسّن لـ YOLO نسبة كفاءة أفضل للمعلمات.
- دقة الذروة: لا يزال YOLOX-x منافسًا قويًا على الدقة القصوى (51.1 mAP)، على الرغم من أنه يأتي بتكلفة حسابية عالية (281.9 مليار فلوب).
- خيارات خفيفة الوزن: YOLOX-Nano خفيف الوزن للغاية (0.91 مليون بارامتر)، مما يجعله مناسبًا لوحدات التحكم الدقيقة ذات الموارد المحدودة للغاية، على الرغم من انخفاض الدقة بشكل كبير.
تحسين GPU
إن استخدام YOLO المكثف لإعادة المعادلات وبنية العنق الفعالة يجعله مناسبًا بشكل خاص ل TensorRT على وحدات معالجة الرسومات NVIDIA حيث يمكنها الاستفادة بشكل كامل من قدرات الحوسبة المتوازية.
ميزة Ultralytics
على الرغم من أن طرازيYOLO و YOLOX يوفران قدرات قوية، فإن طرازيUltralytics YOLO - وتحديدًاYOLO11-توفر حلاً شاملاً ومتفوقًا لتطوير الرؤية الحاسوبية الحديثة. لقد طوّرت Ultralytics نظامًا بيئيًا لا يعالج الأداء الخام فحسب، بل دورة الحياة الكاملة لعمليات التعلم الآلي.
لماذا تختار Ultralytics
يتجه المطورون والباحثون بشكل متزايد إلى نماذج Ultralytics لعدة أسباب مقنعة:
- سهولة استخدام لا مثيل لها: صُممتواجهة برمجة تطبيقات Ultralytics Python للبساطة. لا يتطلب تحميل أحدث النماذج وبدء التدريب سوى بضعة أسطر من التعليمات البرمجية، مما يقلل بشكل كبير من عائق الدخول مقارنةً بملفات التكوين المعقدة التي تتطلبها المستودعات الأكاديمية في كثير من الأحيان.
- نظام بيئي جيد الصيانة: على عكس العديد من المشاريع البحثية التي تصبح راكدة، فإن نماذج Ultralytics مدعومة من قبل مجتمع مزدهر وتطوير نشط. تضمن التحديثات المنتظمة التوافق مع أحدث PyTorch وتنسيقات التصدير ومسرعات الأجهزة.
- تعدد الاستخدامات: لا تقتصر نماذج Ultralytics على المربعات المحدودة. فهي تدعم في الأصل مجموعة واسعة من المهام بما في ذلك تجزئة المثيلات، وتقدير الوضعية، وتصنيف الصور، والكشف عن الكائنات الموجهة (OBB)، وكل ذلك في إطار عمل واحد.
- توازن الأداء: صُممت نماذج Ultralytics YOLO لتصل إلى "النقطة المثالية" بين السرعة والدقة. وغالبًا ما تحقق أعلى mAP أعلى من المنافسين مع الحفاظ على أوقات استنتاج أسرع على كل من وحدات المعالجة المركزية ووحدات معالجة الرسومات.
- كفاءة التدريب: بفضل أدوات تحميل البيانات المحسّنة والمعلمات الفائقة المضبوطة مسبقًا، فإن تدريب نموذج Ultralytics يتسم بكفاءة عالية. يمكن للمستخدمين الاستفادة من الأوزان المدربة مسبقًا على COCO لتحقيق التقارب بشكل أسرع، مما يوفر وقت الحوسبة والطاقة القيّمة.
- كفاءة الذاكرة: تُظهِر نماذج Ultralytics عادةً استخداماً أقل للذاكرة أثناء التدريب والاستدلال مقارنةً بالبنى القائمة على المحولات الثقيلة أو الشبكات الشبكية ذات المحولات الأقدم، مما يجعلها متاحة على نطاق أوسع من الأجهزة، بما في ذلك الأجهزة المتطورة.
مثال على سير العمل السلس
اختبر بساطة سير عمل Ultralytics مع مثال Python هذا:
from ultralytics import YOLO
# Load the YOLO11 model (pre-trained on COCO)
model = YOLO("yolo11n.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
الخلاصة
لقد رسّخ كل من YOLO و YOLOX مكانتهما في تاريخ اكتشاف الأجسام. يُعد YOLO خيارًا ممتازًا لتطبيقات GPU عالية الإنتاجية المتخصصة حيث يكون كل جزء من الثانية من زمن الاستجابة مهمًا. لا يزال YOLOX كاشفًا قويًا ودقيقًا وخاليًا من الارتكاز ومفهومًا جيدًا في مجتمع البحث.
ومع ذلك، بالنسبة للغالبية العظمى من التطبيقات الواقعية, Ultralytics YOLO11 الخيار الأول. فهو يجمع بين الأداء المتطور، وتعدد المهام، والنظام الإيكولوجي سهل الاستخدام والصيانة الجيدة، مما يمكّن المطورين من بناء حلول قوية بشكل أسرع وأكثر كفاءة. سواء أكنت تقوم بالنشر على السحابة أو على الحافة، فإن Ultralytics يوفر الأدوات اللازمة للنجاح في مشهد الذكاء الاصطناعي التنافسي اليوم.
استكشف مقارنات أخرى
لفهم مشهد اكتشاف الأجسام بشكل أكبر، استكشف كيفية مقارنة هذه النماذج بأحدث البنى الأخرى: