YOLOX مقابل YOLO: نظرة متعمقة في تطور اكتشاف الأجسام
يشهد مجال اكتشاف الأجسام تطوراً مستمراً، حيث يدفع الباحثون باستمرار حدود الدقة وسرعة الاستدلال والكفاءة المعمارية. هناك مساهمتان بارزتان في هذا المجال هما YOLOX YOLO. لقد أعاد YOLOX تنشيط عائلة YOLO من خلال تقديم آلية خالية من الارتكاز، بينما استفاد YOLO من البحث المعماري العصبي (NAS) لتحسين الأداء خصيصًا للتطبيقات الصناعية.
يوفر هذا الدليل مقارنة تقنية شاملة لمساعدة المطورين والباحثين على فهم الفروق الدقيقة لكل نموذج، وحالات الاستخدام المثالية، وكيفية تكديسها مقابل الحلول الحديثة مثل Ultralytics YOLO11.
يولوكس: الرائد الخالي من المرساة
مثّل YOLOX، الذي طورته شركة Megvii، تحولًا كبيرًا في سلالة YOLO عندما تم إصداره في عام 2021. من خلال التحول إلى تصميم خالٍ من المرساة، فقد سهّل عملية التدريب وألغى الحاجة إلى حسابات صندوق الارتكاز المعقدة، والتي كانت عنصرًا أساسيًا في الإصدارات السابقة مثل YOLOv4 و YOLOv5.
تفاصيل فنية:
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمةميجفي
- التاريخ: 2021-07-18
- اركسيف:https://arxiv.org/abs/2107.08430
- جيثبhttps://github.com/Megvii-BaseDetection/YOLOX
- المستنداتhttps://yolox.readthedocs.io/en/latest/
الميزات المعمارية الرئيسية
تدمج YOLOX العديد من التقنيات المتقدمة لتحقيق أدائها:
- آلية خالية من المرساة: من خلال التنبؤ بمراكز الكائنات مباشرةً، يقلل YOLOX من عدد معلمات التصميم وخطوات الضبط الإرشادي المرتبطة بالطرق القائمة على المرساة.
- الرأس المنفصل: على عكس الرؤوس المقترنة التي تتعامل مع التصنيف والانحدار معًا، يفصل YOLOX بين هاتين المهمتين. يعمل هذا الفصل على تحسين سرعة التقارب والدقة الإجمالية.
- SimOTA: استراتيجية متقدمة لتعيين التسمية تُسمى تعيين النقل الأمثل المبسط (SimOTA) تقوم بتعيين عينات إيجابية ديناميكيًا إلى الحقائق الأرضية، مما يؤدي إلى تحسين هدف التدريب بشكل أكثر فعالية من المطابقة الثابتة.
لماذا خالية من المرساة؟
تعمل أجهزة الكشف الخالية من المرساة على تبسيط تصميم النموذج عن طريق إزالة الحاجة إلى ضبط المعلمات الفائقة لصندوق الارتكاز يدويًا (مثل الحجم ونسبة العرض إلى الارتفاع) لمجموعات بيانات محددة. يؤدي هذا غالبًا إلى تعميم أفضل عبر أشكال الأجسام المتنوعة.
YOLO: بحث مُحسَّن في البنية العصبية
تم إصداره من قبل مجموعة علي بابا في أواخر عام 2022، ويركز YOLO على سد الفجوة بين الأداء العالي والكمون المنخفض. وهي تستخدم تقنيات التعلم الآلي الآلي لاكتشاف هياكل الشبكة الفعالة، مما يجعلها منافساً قوياً للتطبيقات الصناعية التي تتطلب معالجة في الوقت الفعلي.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
- المستنداتhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
الميزات المعمارية الرئيسية
تُقدِّم YOLO العديد من "التقنيات الجديدة" إلى نظام YOLO البيئي:
- العمود الفقري MAE-NAS: يستخدم النموذج عمودًا فقريًا تم إنشاؤه من خلال البحث في البنية العصبية (NAS) استنادًا إلى مقياس متوسط الخطأ المطلق (MAE). يضمن ذلك أن مستخرج الميزة مصمم بشكل مثالي لمهمة الكشف.
- RepGFPPN: تصميم ثقيل العنق يعتمد على شبكة هرم السمات المعممة (GFPN) التي تستخدم إعادة المعلمات لزيادة كفاءة دمج السمات إلى أقصى حد مع الحفاظ على زمن انتقال الاستدلال منخفضًا.
- ZeroHead: رأس كشف مبسط يقلل من النفقات الحسابية الزائدة دون التضحية بدقة التنبؤات.
- AlignedOTA: تطور في تعيين التسميات يوائم بشكل أفضل بين درجات التصنيف ودقة الانحدار، مما يضمن إعطاء الأولوية للتنبؤات عالية الجودة.
تحليل الأداء
عند المقارنة بين هذين النموذجين، من المهم النظر إلى المفاضلة بين الدقةmAP) وسرعة الاستدلال (زمن الوصول). يسلط الجدول أدناه الضوء على أنه على الرغم من أن YOLOX لا يزال قادرًا على المنافسة، إلا أن بنية YOLO الأحدث توفر بشكل عام سرعة فائقة على أجهزة GPU لمستويات دقة مماثلة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
نقاط المقارنة الحرجة
- السرعة مقابل الدقة: يحقق برنامج YOLO(DAMO-YOLOt) mAP أعلى (42.0) من YOLOX-Small (40.5) مع تشغيله بشكل أسرع (2.32 مللي ثانية مقابل 2.56 مللي ثانية) واستخدام عدد أقل من وحدات FLOP. وهذا يوضح فعالية العمود الفقري المحسّن لـ NAS.
- كفاءة المعلمات: يعتبر YOLOX-Nano خفيف الوزن للغاية (0.91 مليون بارامتر)، مما يجعله خيارًا قابلاً للتطبيق للأجهزة الطرفية المحدودة الموارد للغاية حيث يكون كل بايت مهمًا، على الرغم من أن YOLO لا يقدم منافسًا مباشرًا على هذا النطاق المحدد.
- الأداء المتطور: على الرغم من أن YOLOX-X يدفع الدقة إلى 51.1 mAP إلا أنه يفعل ذلك بعدد هائل من المعلمات (99.1M). يصل جهاز YOLO إلى 50.8 mAP مماثلة مع أقل من نصف عدد المعلمات (42.1 مليون)، مما يسلط الضوء على تصميم أكثر حداثة وكفاءة.
حالات الاستخدام والتطبيقات
غالباً ما يعتمد الاختيار بين YOLOX و YOLO على بيئة النشر المحددة.
- يعد YOLOX مناسبًا تمامًا لبيئات البحث والسيناريوهات التي تتطلب تنفيذًا مباشرًا وخاليًا من المراسي. يعني نضجها وجود العديد من الموارد المجتمعية والبرامج التعليمية المتاحة. إنه مرشح قوي لمهام الكشف عن الكائنات للأغراض العامة حيث يلزم التوافق مع الإرث.
- تتفوق YOLO في الأتمتة الصناعية وتطبيقات المدن الذكية حيث يكون زمن الوصول المنخفض على أجهزة GPU أمرًا بالغ الأهمية. تجعله بنيته المحسّنة مثاليًا لتحليلات الفيديو عالية الإنتاجية واكتشاف العيوب في الوقت الفعلي في التصنيع.
Ultralytics YOLO11: البديل المتفوق
في حين أن YOLOX و YOLO يوفران قدرات كشف قوية، إلا أنهما يقتصران إلى حد كبير على هذه المهمة الواحدة ويفتقران إلى نظام بيئي موحد وداعم. للمطورين الذين يبحثون عن حل شامل, Ultralytics YOLO11 يمثل أحدث ما توصل إليه الذكاء الاصطناعي للرؤية.
لم يتم تصميم نماذج Ultralytics ليس فقط كمجرد هياكل، ولكن كأدوات كاملة للمطورين.
لماذا تختار Ultralytics YOLO11؟
- تعدد الاستخدامات عبر المهام: على عكس YOLOX و YOLO اللذان يركزان بشكل أساسي على اكتشاف الصندوق المحدود، يدعم YOLO11 أصلاً مجموعة واسعة من مهام الرؤية الحاسوبية. ويشمل ذلك تجزئة النماذج، وتقدير الوضع، واكتشاف الأجسام الموجهة (OBB)، وتصنيف الصور.
- سهولة استخدام لا مثيل لها: تسمح لك واجهة برمجة تطبيقات Ultralytics Python بتدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر من التعليمات البرمجية. ليست هناك حاجة لاستنساخ مستودعات معقدة أو تكوين مسارات البيئة يدويًا.
- نظام بيئي جيد الصيانة: يوفر Ultralytics تحديثات متكررة، مما يضمن التوافق مع أحدث إصدارات PyTorch, ONNXو TensorRT. يعني المجتمع النشط والتوثيق الشامل أنك لن تتعثر أبدًا بدون دعم.
- كفاءة التدريب والذاكرة: تم تصميم YOLO11 لتحقيق الكفاءة. وعادةً ما يتطلب ذاكرة أقل GPU أثناء التدريب مقارنةً بالبنى القديمة أو النماذج القائمة على المحولات الثقيلة، مما يسمح بتكرار أسرع وتقليل تكاليف الحوسبة السحابية.
- توازن الأداء: يعتمد YOLO11 على إرث إصدارات YOLO السابقة لتقديم توازن مثالي بين السرعة والدقة، مما يجعله مناسبًا للنشر على كل شيء بدءًا من أجهزة NVIDIA Jetson المتطورة إلى الخوادم السحابية على مستوى المؤسسات.
سهولة الاستخدام مع Ultralytics
إن تدريب نموذج YOLO11 بسيط للغاية مقارنةً بالأطر التقليدية.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt") # load a pretrained model
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
الخلاصة
اكتسب كل من YOLOX YOLO مكانتهما في تاريخ الرؤية الحاسوبية. فقد نجح YOLOX في تعميم النموذج الخالي من الارتكاز، بينما أظهر YOLO قوة البحث عن البنية العصبية لتحسين أجهزة الكشف الصناعية. ومع ذلك، بالنسبة للتطبيقات الحديثة التي تتطلب مرونة ودعمًا طويل الأمد وقدرات متعددة المهام, Ultralytics YOLO11 يبرز كخيار أول. حيث إن تكامله في نظام بيئي قوي، بالإضافة إلى الأداء المتطور والحد الأدنى من بصمة الذاكرة، يمكّن المطورين من بناء حلول ذكاء اصطناعي قابلة للتطوير وفعالة بسهولة.
استكشف نماذج أخرى
للاطلاع على منظور أوسع حول كيفية مقارنة هذه النماذج بأحدث البنى الأخرى، استكشف صفحات المقارنة التفصيلية الخاصة بنا:
- YOLO11 ضد DAMO-YOLO
- YOLOv8 ضد YOLOX
- RT-DETR مقابل DAMO-YOLO
- YOLOv10 مقابل YOLOX
- EfficientDet ضد YOLOX
- PP-YOLOE ضد DAMO-YOLO