تخطي إلى المحتوى

YOLOX مقابلYOLO: تحليل بنى الجيل التالي من أنظمة الكشف عن الأجسام

في مجال الرؤية الحاسوبية سريع التطور، شكل الانتقال من أجهزة الكشف القائمة على المراسي إلى أجهزة الكشف الخالية من المراسي علامة فارقة مهمة. وهناك نموذجان بارزان ساهما في تشكيل هذا التحول، وهما YOLOX و YOLO. تستكشف هذه المقارنة ابتكاراتهما المعمارية ومقاييس الأداء ومنهجيات التدريب لمساعدة الباحثين والمهندسين على اختيار الأداة المناسبة لاحتياجاتهم المحددة في مجال الكشف عن الأجسام.

معايير الأداء

يعرض الجدول التالي مقارنة مباشرة بين مقاييس الأداء الرئيسية بينYOLO YOLOX وYOLO .

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

YOLOX: سد الفجوة بين البحث والصناعة

ظهر YOLOX كتحديث محوري YOLO حيث تحول إلى آلية خالية من المراسي وأدخل تقنيات كشف متقدمة ساهمت في تبسيط المسار بين البحث الأكاديمي والتطبيق الصناعي.

المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
المنظمة:Megvii
التاريخ: 2021-07-18
Arxiv:YOLOX: تجاوز YOLO في عام 2021
GitHub:Megvii-BaseDetection/YOLOX

الهيكلة والابتكار

يتميز YOLOX بإزالة مربعات الربط الموجودة في الإصدارات السابقة مثل YOLOv4 و YOLOv5. تعمل بنية "Decoupled Head" على فصل مهام التصنيف والتحديد المكاني، مما يحسن بشكل كبير من سرعة ودقة التقارب.

علاوة على ذلك، يستخدم YOLOX SimOTA، وهي استراتيجية ديناميكية لتعيين العلامات تعتبر عملية التدريب مشكلة نقل مثالية. وهذا يسمح للنموذج بتعيين العينات الإيجابية تلقائيًا إلى الحقائق الأساسية استنادًا إلى استراتيجية تحسين شاملة، مما يقلل من الحاجة إلى ضبط المعلمات الفائقة الاستدلالية.

تعرف على المزيد حول YOLOX

DAMO-YOLO: كفاءة البحث عن البنية العصبية

YOLO حدود التوازن بين زمن الاستجابة والدقة من خلال الاستفادة من البحث في البنية العصبية (NAS) وإعادة المعادلة الكثيفة.

المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة:مجموعة Alibaba
التاريخ: 2022-11-23
Arxiv:YOLO: تقرير عن تصميم الكشف عن الأجسام في الوقت الفعلي
GitHub:YOLO

التقنيات الرئيسية

YOLO شبكة MAE-NAS الأساسية، التي تم إنشاؤها باستخدام بحث تطوري متعدد الأهداف للعثور على بنية الشبكة المثلى في ظل قيود زمنية محددة. كما يستخدم RepGFPN (شبكة هرمية عامة معاد تقييمها بكفاءة) لدمج الميزات بفعالية عبر المقاييس.

ومن الميزات البارزة ميزة ZeroHead، التي تبسط رأس الكشف إلى أقصى حد من التعقيد، بالاعتماد على العمود الفقري والرقبة الثقيلين للقيام بالأعمال الشاقة. ويتم تعزيز التدريب بواسطة AlignedOTA لتعيين التسميات ومرحلة التقطير حيث يوجه نموذج المعلم الأكبر حجماً الطالب، مما يضمن أداءً عالياً حتى بالنسبة لمتغيرات النماذج الأصغر حجماً.

تعرف على المزيد حول DAMO-YOLO

ميزة Ultralytics

بينماYOLO YOLOX وYOLO حلولاً قوية لسيناريوهات محددة، يوفر Ultralytics البديل شاملاً وسهل الاستخدام وعالي الأداء يعالج تعقيدات تطوير الذكاء الاصطناعي الحديث.

سهولة الاستخدام والبيئة المتكاملة

أحد نقاط الاحتكاك الرئيسية مع نماذج مثلYOLO تعقيد وصفات التدريب الخاصة بها، والتي غالبًا ما تتضمن تقطيرًا متعدد المراحل أو مساحات بحث NAS متخصصة. في المقابل، تم تصميم Ultralytics لتكون متاحة على الفور. سواء كنت تستخدم YOLO11 أو YOLO26 المتطورة، يتم التعامل مع سير العمل بالكامل — من تحميل مجموعة البيانات إلى تصدير النموذج — عبر واجهة برمجة تطبيقات موحدة.

يمكن للمطورين الاستفادة من Ultralytics لإدارة مجموعات البيانات وتصور التجارب ونشر النماذج بسلاسة. يزيل هذا النهج المتكامل حاجز الدخول، مما يسمح للفرق بالتركيز على حل مشكلات الأعمال بدلاً من تصحيح أخطاء البرامج النصية للتدريب.

توازن الأداء مع YOLO26

بالنسبة لأولئك الذين يبحثون عن أقصى درجات السرعة والدقة، يمثل YOLO26 أحدث ما توصلت إليه التكنولوجيا. وهو يعتمد على الدروس المستفادة من نماذج مثل YOLOX (تصميم بدون مرساة) و YOLOv10 (استدلالNMS) لتقديم أداء استثنائي.

ابتكار YOLO26: نظام إدارة شبكات شامل NMS

YOLO26 هو نظام شامل أصلاً، مما يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يبسط بشكل كبير عمليات النشر، خاصة على الأجهزة الطرفية حيث يمكن أن تشكل NMS عائقاً في زمن الاستجابة.

تشمل الميزات الرئيسية لـ YOLO26 ما يلي:

  • إزالة DFL: تعمل إزالة فقدان بؤرة التوزيع على تبسيط الرسم البياني للنموذج لتسهيل تصديره إلى تنسيقات مثل ONNX و TensorRT.
  • MuSGD Optimizer: مزيج من SGD Muon (مستوحى من تدريب LLM) يضمن تقاربًا مستقرًا.
  • CPU : تم تحسينها من الناحية المعمارية لتناسب الحوسبة الطرفية، مما يوفر استنتاجات أسرع بنسبة تصل إلى 43٪ على وحدات المعالجة المركزية.
  • ProgLoss + STAL: وظائف خسارة متقدمة تعمل على تحسين اكتشاف الأجسام الصغيرة بشكل كبير، وهو مطلب أساسي لصور الطائرات بدون طيار والروبوتات.

تعدد الاستخدامات عبر المهام

على عكس YOLOX وYOLO اللذين يركزان بشكل أساسي على اكتشاف الكائنات، فإن Ultralytics متعددة الوسائط بطبيعتها. تدعم مكتبة واحدة ما يلي:

تتيح هذه المرونة للمطورين التعامل مع مشاريع معقدة — مثل تحليل آليات اللاعبين في الرياضة باستخدام تقدير الوضع — دون الحاجة إلى تغيير الأطر.

كفاءة التدريب والذاكرة

تم تصميم Ultralytics لتكون موفرة للموارد. وعادةً ما تتطلب GPU أقل أثناء التدريب مقارنةً بالنماذج الثقيلة القائمة على المحولات مثل RT-DETR. هذه الكفاءة تجعل الذكاء الاصطناعي متاحًا للجميع، مما يسمح بتدريب النماذج القوية على أجهزة المستهلكين القياسية.

إليك مدى سهولة تدريب نموذج YOLO26 المتطور باستخدام Ultralytics Python :

from ultralytics import YOLO

# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")

# Train on the standard COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

تعرف على المزيد حول YOLO26

تطبيقات عملية في أرض الواقع

غالبًا ما يعتمد اختيار النموذج المناسب على القيود المحددة لبيئة النشر.

مراقبة الجودة الصناعية

بالنسبة لخطوط الإنتاج عالية السرعة، يعتبر YOLO منافسًا قويًا نظرًا لزمن الاستجابة المنخفض على GPU ، مما يجعله مناسبًا للكشف عن العيوب على الناقلات سريعة الحركة. ومع ذلك، يزداد تفضيل YOLO26 هنا لأن تصميمهNMS يضمن أوقات استدلال حتمية، مما يمنع الاهتزاز الذي يمكن أن يؤدي إلى عدم تزامن المشغلات الروبوتية.

الذكاء الاصطناعي الحافة والهاتف المحمول

لطالما كان YOLOX-Nano المفضل للتطبيقات المحمولة نظرًا لعدد معلماته الصغير. اليوم، يقدم YOLO26n (Nano) بديلاً متفوقًا، حيث يوفر دقة أعلى في أحجام نماذج مماثلة مع الاستفادة من CPU أسرع بنسبة 43٪. وهذا يجعله مثاليًا للأجهزة التي تعمل بالبطارية مثل الكاميرات الذكية أو أجهزة الاستشعار الزراعية.

الأنظمة المستقلة

في مجال الروبوتات والقيادة الذاتية، تعد القدرة على التعامل مع أحجام مختلفة من الأجسام أمراً بالغ الأهمية. في حين أن الرأس المنفصل في YOLOX يساعد في ذلك، فإن تطبيق ProgLoss + STAL في YOLO26 يوفر تعزيزاً ملموساً في التعرف على الأجسام البعيدة أو الصغيرة، مثل إشارات المرور أو المشاة، مما يحسن السلامة العامة للنظام.

ملخص

YOLO كل من YOLOX وYOLO بشكل كبير في تطوير تقنية الكشف عن الأشياء.YOLO YOLOX في تعميم نموذج بدون مرساة، بينماYOLO قوة البحث في البنية العصبية.

ومع ذلك، فإن Ultralytics يبرز كحل حديث ومستقبلي يوازن بين الأداء وسهولة الاستخدام ومرونة النشر. إن دمجه في Ultralytics الأوسع نطاقًا، ودعمه للمهام المتعددة، وعمليات التصدير المبسطة تجعله الخيار الموصى به لكل من الأبحاث الأكاديمية والتطبيقات على مستوى المؤسسات.

اكتشف الإمكانات الكاملة لهذه النماذج من خلال زيارة Ultralytics وبدء رحلتك التدريبية اليوم.


تعليقات