تخطي إلى المحتوى

YOLOX مقابلYOLO: مقارنة بين أجهزة الكشف عن الأجسام الخالية من المراسي والمزودة بنظام NAS

شهد تطور الكشف عن الكائنات في الوقت الفعلي العديد من التحولات النموذجية، من البنى القائمة على المراسي إلى البنى الخالية من المراسي، ومن البنى الأساسية المصممة يدويًا إلى البحث الآلي في البنية العصبية (NAS). في هذه المقارنة التقنية الشاملة، سنحلل معلمتين هامتين في هذه الرحلة: YOLOX و YOLO. سنستكشف ابتكاراتهما المعمارية ومنهجيات التدريب والتنازلات في الأداء، مع تسليط الضوء على كيفية توفير Ultralytics الحديث بديلاً لا مثيل له للمطورين المعاصرين.

YOLOX: رائدة في نموذج بدون مرساة

صدر YOLOX في 18 يوليو 2021 عن Zheng Ge و Songtao Liu و Feng Wang و Zeming Li و Jian Sun في Megvii، وشكل نقطة تحول حاسمة من خلال نجاحه في دمج تصميم خالٍ من المراسي في YOLO . ووفقًا للتقرير الفني المفصل الذي نشره الفريق على ArXiv، يهدف YOLOX إلى سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي.

الابتكارات المعمارية الرئيسية

أدخلت YOLOX عدة تغييرات هيكلية أساسية أدت إلى تحسينات جذرية مقارنة بسابقاتها:

  • آلية بدون مرساة: من خلال التنبؤ بمركز الكائن وأبعاد مربع الحدود الخاص به مباشرةً، قلل YOLOX عدد القواعد التصميمية وتبسيط عمليات تجميع المراسي المعقدة. وهذا يجعله قابلاً للتكيف بدرجة عالية مع سيناريوهات الرؤية الحاسوبية المتنوعة.
  • رأس منفصل: استخدمت YOLO التقليدية رأسًا واحدًا مقترنًا للتصنيف والانحدار. نفذت YOLOX رأسًا منفصلاً، حيث عالجت التصنيف والتحديد المكاني بشكل منفصل، مما أدى إلى تقارب أسرع بكثير وتحسين الدقة.
  • تعيين علامة SimOTA: تم استخدام نسخة مبسطة من تعيين النقل الأمثل (OTA) لتعيين العينات الإيجابية ديناميكيًا، مما أدى إلى تقليل أوقات التدريب والتغلب على الغموض في تعيينات النقاط المركزية.

إرث YOLOX

أثر تصميم الرأس المنفصل من YOLOX تأثيرًا كبيرًا على الأجيال اللاحقة من أجهزة الكشف عن الأجسام، وأصبح ميزة قياسية في العديد من الطرز الحديثة.

تعرف على المزيد حول YOLOX

YOLO: البحث الآلي عن الهندسة المعمارية على نطاق واسع

تم تطويرYOLO بواسطة Xianzhe Xu وفريق من الباحثين في مجموعة Alibaba Group،YOLO طرحه في 23 نوفمبر 2022. كما هو مفصل في منشورهم على ArXiv، استخدم النموذج بشكل مكثف البحث في البنية العصبية (NAS) لدفع حدود باريتو للسرعة والدقة.

الابتكارات المعمارية الرئيسية

استندت استراتيجيةYOLO على أتمتة تصميم الهياكل الفعالة:

  • البنى الأساسية MAE-NAS: باستخدام خوارزمية تطورية متعددة الأهداف،YOLO بنى أساسية عالية الكفاءة ومخصصة لميزانيات زمن انتقال محددة، خاصة عند تصديرها إلى أطر عمل مثل TensorRT.
  • RepGFPN الفعال: تصميم ثقيل الرقبة يعزز بشكل كبير دمج الميزات عبر درجات دقة مكانية مختلفة، وهو أمر مفيد للغاية لتحليل الصور الجوية وكشف الأجسام بمقاييس متفاوتة.
  • ZeroHead: رأس تنبؤ مبسط يقلل من التكرار الحسابي دون التضحية بمتوسط الدقة الإجمالي للنموذج (mAP).
  • AlignedOTA و Distillation: يدمج تعيين العلامات المتقدم وتقطير المعرفة بين المعلم والطالب للحصول على أقصى أداء من نماذج الطلاب الأصغر حجماً.

تعرف على المزيد حول DAMO-YOLO

مقارنة الأداء والمقاييس

عند مقارنة هذين النموذجين، يجب أن ننظر إلى عدد المعلمات، وعمليات FLOP المطلوبة، وملفات تعريف زمن الاستجابة. فيما يلي بيانات المقارنة بين YOLOX وYOLO عدة مقاييس.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

على الرغم من أن كلا النموذجين يحققان نتائج مبهرة، إلا أنهما ينطويان على بعض المحاذير. يتطلب YOLOX ضبطًا دقيقًا لرأسه المنفصل، بينما يعتمدYOLO بشكل كبير على التقطير، مما يجعل إعادة التدريب على مجموعات البيانات المخصصة عملية تستهلك موارد كثيرة وتتطلب كميات هائلة من GPU .

حالات الاستخدام والتوصيات

YOLO الاختيار بين YOLOX وYOLO على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOX

YOLOX هو خيار قوي لـ:

  • أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
  • أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
  • دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.

متى تختار DAMO-YOLO

YOLO في الحالات التالية:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

Ultralytics : تقديم YOLO26

في حينYOLO YOLOX وYOLO معالم تاريخية مهمة، فإن المطورين المعاصرين يحتاجون إلى حل يجمع بين الدقة المتطورة وسهولة الاستخدام التي لا مثيل لها. وهنا يأتي دور Ultralytics لتغيير المشهد. تم إصدار YOLO26 في يناير 2026، وهو يعتمد على إرث النماذجNMS لتوفير التوازن المثالي بين السرعة والدقة وتجربة المطور.

لماذا تختار YOLO26؟

يتفوق Ultralytics المتكامل Ultralytics على المستودعات الأكاديمية المجزأة من خلال تقديم:

  • تصميم NMS من البداية إلى النهاية: يزيل YOLO26 بشكل أساسي تقنية Non-Maximum Suppression (NMS) أثناء الاستدلال. وينتج عن ذلك زمن انتقال سريع للغاية ويمكن التنبؤ به، وهو أمر بالغ الأهمية لنشرات الحافة والمركبات ذاتية القيادة.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يبسط YOLO26 عمليات التصدير إلى الأجهزة الطرفية، مما يقلل بشكل كبير من متطلبات الذاكرة للتطبيقات خفيفة الوزن.
  • مُحسّن MuSGD: يستعير YOLO26 ابتكارات تدريب LLM مع مُحسّن SGD Muon الهجين، مما يضمن استقرارًا قويًا في التدريب وتقاربًا فائق السرعة.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : بفضل التحسينات الهيكلية العميقة، يعمل YOLO26 بسرعة فائقة على وحدات المعالجة المركزية دون الحاجة إلى GPU باهظة الثمن.
  • وظائف الخسارة المتقدمة: يوفر دمج ProgLoss + STAL تحسينات هائلة في التعرف على الأجسام الصغيرة، مما يجعله مثاليًا لمهام مثل عمليات التفتيش بواسطة الطائرات بدون طيار ومراقبة إنترنت الأشياء.
  • تعدد الاستخدامات: على عكسYOLO الذي يعد مجرد كاشف، يدعم YOLO26 بشكل أساسي مهام تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومربع الحدود الموجه (OBB) في إطار عمل واحد موحد.

ابدأ البناء على الفور

مع Python Ultralytics Python ، لن تحتاج إلى تكوين خطوط أنابيب تقطير معقدة يدويًا أو كتابة مئات الأسطر من كود C++ لنشر نموذجك.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run ultra-fast, NMS-free inference
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX or OpenVINO with a single command
model.export(format="openvino")

تعرف على المزيد حول YOLO26

نماذج أخرى يجب أخذها في الاعتبار

نظام الرؤية الحاسوبية واسع النطاق. اعتمادًا على القيود الخاصة بك، قد ترغب أيضًا في استكشاف بنى أخرى مدعومة بالكامل من قبل Ultralytics :

  • YOLO11: السلف عالي الأداء لـ YOLO26، المعروف بمتانته في تحليلات البيع بالتجزئة ومراقبة جودة التصنيع.
  • YOLOv8: نموذج أسطوري عالي الاستقرار وخالٍ من المراسي، ساهم في انتشار استخدام تقنية النشر المتطور على نطاق واسع.
  • RT-DETR: محول الكشف في الوقت الحقيقي الذي طورته شركة Baidu، ويقدم بديلاً ممتازاً للمهام التي تستفيد بشكل كبير من آليات الانتباه الشامل، وإن كان ذلك على حساب متطلبات ذاكرة تدريب أعلى.

الخلاصة

YOLO كل من YOLOX وYOLO بمفاهيم حيوية في تطور التعلم العميق — حيث أثبت YOLOX صحة النهج المنفصل والخالي من المراسي،YOLO قوة البحث الآلي في البنية. ومع ذلك، بالنسبة للإنتاج في العالم الحقيقي، يمكن أن تؤدي تعقيدات قواعد البرمجة الأصلية لأبحاثهما إلى إبطاء عمل الفرق المرنة.

من خلال الاستفادة من Ultralytics الشاملة، يمكن للمطورين تجاوز هذه العقبات. بفضل تصميم YOLO26 الشامل، CPU الفائقة، والوثائق الشاملة، أصبح تحقيق أحدث تقنيات الذكاء الاصطناعي في مجال الرؤية أكثر سهولة من أي وقت مضى. سواء كنت تعمل على بناء بنية تحتية للمدن الذكية، أو تشخيصات الرعاية الصحية، أو الروبوتات المتقدمة، Ultralytics المسار الأكثر كفاءة من البيانات الأولية إلى النشر القوي في العالم الحقيقي.


تعليقات