YOLOX مقابل YOLOv9: تطور الكشف عن الأجسام عالي الأداء

في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار نموذج الكشف عن الأجسام المناسب أمرًا بالغ الأهمية لتحقيق التوازن بين الدقة والسرعة وتعقيد النشر. تستكشف هذه المقارنة معلمين هامين في YOLO : YOLOX، وهو كاشف قوي خالٍ من المراسي تم إصداره في عام 2021، و YOLOv9، وهي بنية 2024 تقدم معلومات التدرج القابلة للبرمجة (PGI) للحفاظ على الميزات الفائقة.

YOLOX: الرائد الخالي من الـ Anchor

شكل YOLOX تحولًا كبيرًا في YOLO من خلال الابتعاد عن الآليات القائمة على المراسي إلى تصميم خالٍ من المراسي. أدى هذا التبسيط إلى التخلص من الحاجة إلى ضبط صندوق المراسي يدويًا، مما جعل النموذج أكثر قابلية للتكيف مع مجموعات البيانات ونسب العرض إلى الارتفاع المتنوعة. من خلال دمج رأس منفصل واستراتيجية تعيين العلامات SimOTA المتقدمة، حقق YOLOX نتائج متطورة عند إصداره، مما سد الفجوة بين البحث الأكاديمي والتطبيق الصناعي.

المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
المؤسسة:Megvii
التاريخ: 2021-07-18
Arxiv:YOLOX: Exceeding YOLO Series in 2021
GitHub:Megvii-BaseDetection/YOLOX

تعرف على المزيد حول YOLOX

الميزات المعمارية الرئيسية

آلية بدون مرساة: تزيل تعقيد تجميع صناديق المرساة، مما يقلل من عدد معلمات التصميم ويحسن التعميم.
رأس منفصل: يفصل مهام التصنيف والانحدار إلى فروع مختلفة، مما يحل التضارب بين هذين الهدفين ويحسن سرعة التقارب.
تعيين علامة SimOTA: استراتيجية تعيين علامات ديناميكية تعتبر عملية التدريب مشكلة نقل مثالية، وتعيّن الحقائق الأساسية للتنبؤات بشكل أكثر فعالية من IoU الثابتة.

YOLOv9: تدرجات قابلة للبرمجة للتعلم العميق

YOLOv9 يعالج المشكلة الأساسية المتمثلة في فقدان المعلومات في الشبكات العصبية العميقة. مع زيادة عمق الشبكات، يمكن أن تختفي المعلومات الأساسية أثناء الانتشار الأمامي. YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN) للحفاظ على البيانات الهامة عبر طبقات الشبكة. ينتج عن ذلك تحسينات كبيرة في دقة الكشف، خاصة بالنسبة للنماذج خفيفة الوزن، مع الحفاظ على كفاءة عالية.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة: معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2024-02-21
Arxiv:YOLOv9: Learning What You Want to Learn Using Programmable Gradient Information
GitHub:WongKinYiu/yolov9
الوثائق:وثائق Ultralytics YOLOv9

تعرف على المزيد حول YOLOv9

الميزات المعمارية الرئيسية

GELAN Architecture: يجمع بين مبادئ تصميم CSPNet و ELAN لتعظيم كفاءة المعلمات وسرعة الحساب، مما يسمح للنموذج بالعمل بفعالية على أجهزة مختلفة.
معلومات التدرج القابلة للبرمجة (PGI): إطار عمل إضافي للإشراف يولد تدرجات موثوقة لتحديث أوزان الشبكة، مما يضمن أن الفرع الرئيسي يتعلم الميزات الكاملة حتى في البنى العميقة جدًا.
وظائف قابلة للعكس: تخفف من مشكلة اختناق المعلومات من خلال ضمان إمكانية إعادة بناء البيانات بشكل فعال، مع الحفاظ على المعلومات الدلالية عبر الطبقات.

مقارنة الأداء

عند تقييم هذه النماذج، YOLOv9 بشكل عام على YOLOX من حيث نسبة الدقة إلى المعلمات. في حين يحقق YOLOX-x نسبة mAP محترمة تبلغ 51.1٪، يتفوق عليه YOLOv9c الأحدث بنسبة mAP تبلغ 53.0٪ مع استخدام معلمات أقل بكثير (25.3 مليون مقابل 99.1 مليون) وقوة حسابية أقل. هذه الكفاءة تجعل YOLOv9 أقوى للتطبيقات في الوقت الفعلي حيث تكون موارد الأجهزة محدودة ولكن الدقة العالية مطلوبة.

ومع ذلك، لا يزال YOLOX وثيق الصلة بالأجهزة الطرفية القديمة. ففي بعض الأحيان، قد يكون تصميمه البسيط الخالي من المراسي أسهل في التحسين بالنسبة لشرائح الهواتف المحمولة أو بنى NPU المحددة التي قد لا تدعم بشكل كامل التجميعات المعقدة للطبقات الموجودة في الموديلات الأحدث مثل GELAN.

مقاييس تفصيلية

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOXnano	416	25.8	-	-	0.91	1.08
YOLOXtiny	416	32.8	-	-	5.06	6.45
YOLOXs	640	40.5	-	2.56	9.0	26.8
YOLOXm	640	46.9	-	5.43	25.3	73.8
YOLOXl	640	49.7	-	9.04	54.2	155.6
YOLOXx	640	51.1	-	16.1	99.1	281.9

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

أبرز ميزات الكفاءة

لاحظ أن YOLOv9c يحقق دقة أعلى (53.0٪ mAP) من أكبر YOLOX-x (51.1٪ mAP) مع استخدام معلمات أقل بنسبة 75٪ تقريبًا. وهذا يدل على التقدم السريع في كفاءة الهندسة المعمارية على مدار الثلاث سنوات بين هذين الإصدارين.

التدريب وسهولة الاستخدام مع Ultralytics

أحد العوامل المهمة التي تميز المطورين هو النظام البيئي المحيط بالنموذج. YOLOv9 مُدمج بالكامل في Ultralytics مما يوفر ميزة كبيرة في سهولة الاستخدام.

ميزة Ultralytics

يتيح لك استخدامPython Ultralytics Python الوصول إلى أحدث النماذج باستخدام صيغة موحدة. لا تحتاج إلى استنساخ مستودعات معقدة أو تجميع مشغلات C++ يدويًا، وهو ما يمثل عائقًا في كثير من الأحيان في تطبيقات الأبحاث الأصلية مثل YOLOX.

from ultralytics import YOLO

# Load a model (YOLOv9c or the new YOLO26s)
model = YOLO("yolov9c.pt")

# Train on custom data in one line
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate performance
metrics = model.val()

يوفر هذا التكامل ما يلي:

سير عمل مبسط: التبديل بسلاسة بين مهام الكشف والتجزئة وتقدير الوضع.
كفاءة الذاكرة: تم تحسين خطوط أنابيب Ultralytics لتناسب الأجهزة الاستهلاكية، وغالبًا ما تتطلب GPU أقل من البدائل القائمة على المحولات أو قواعد البيانات البحثية غير المحسّنة.
الاستعداد للنشر: تتيح لك وظائف التصدير المدمجة تحويل النماذج المدربة إلى ONNXو TensorRTو CoreML و TFLite واحد.

تطبيقات عملية في أرض الواقع

يعتمد الاختيار بين هذه النماذج على قيود النشر الخاصة بك.

تحليلات التجزئة عالية السرعة

بالنسبة لبيئات البيع بالتجزئة التي تتطلب التعرف على المنتجات في الوقت الفعلي على الأجهزة الطرفية، YOLOv9 غالبًا ما يكون الخيار الأفضل. تتيح بنية GELAN الخاصة به إنتاجية عالية على أجهزة مثل NVIDIA Orin Nano، مما يتيح ميزات مثل الدفع الآلي أو تحليل مخزون الرفوف دون تأخير كبير.

نشر الأجهزة المحمولة القديمة

في السيناريوهات التي تتضمن أجهزة محمولة قديمة أو بنى NPU محددة تفضل أنماط التحويل البسيطة، قد يظل YOLOX-Nano أو YOLOX-Tiny هو الخيار المفضل. فالتصميم الخالي من المراسي دون كتل تجميع معقدة قد يكون في بعض الأحيان أسهل في التكمية والنشر على وحدات التحكم الدقيقة المقيدة للغاية أو Android القديمة.

الروبوتات المستقلة

بالنسبة لتطبيقات الروبوتات التي تتطلب أقصى درجات الدقة لتجنب الاصطدامات، توفر ميزة الاحتفاظ بالميزات الفائقة في YOLOv9e هامش أمان لا يمكن أن تضاهيه النماذج القديمة. يضمن إطار عمل PGI عدم فقدان العوائق الصغيرة في عملية استخراج الميزات، وهو أمر بالغ الأهمية للملاحة في البيئات المزدحمة.

المستقبل: أدخل YOLO26

بينما YOLOv9 أداءً استثنائيًا، فإن مجال الذكاء الاصطناعي لا يقف مكتوف الأيدي أبدًا. يعتمد YOLO26 الذي تم إصداره مؤخرًا على هذه الأسس ليقدم التوازن المثالي بين السرعة والدقة.

يقدم YOLO26 تصميمًا أصليًا شاملاً NMS، مما يلغي تمامًا الحاجة إلى Non-Maximum Suppression أثناء الاستدلال. وينتج عن ذلك خطوط أنابيب نشر أبسط بكثير وسرعات تنفيذ أسرع. علاوة على ذلك، من خلال إزالة Distribution Focal Loss (DFL) واستخدام مُحسِّن MuSGD الجديد (مزيج من SGD Muon)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنةً بالأجيال السابقة، مما يجعله الخيار المثالي للحوسبة الحديثة.

بالنسبة للمطورين الذين يبحثون عن الأفضل على الإطلاق في فئته، نوصي بتقييم YOLO26 لمشروعك القادم للاستفادة من هذه التطورات المتطورة في مجال الرؤية الحاسوبية.

نماذج مشابهة للاستكشاف

YOLO11: سلف قوي لـ YOLO26، يوفر تنوعًا ممتازًا في مختلف مهام الرؤية.
RT-DETR: كاشف قائم على المحولات يزيل أيضًا NMS وهو مثالي للسيناريوهات التي تعطي الأولوية للدقة العالية على سرعة الاستدلال البحتة.
YOLOv10: أول YOLO يقدم نموذج التدريب NMS والذي يعمل كجسر إلى بنية YOLO26 الحديثة.

YOLOX مقابل YOLOv9: تطور الكشف عن الأجسام عالي الأداء

YOLOX: الرائد الخالي من الـ Anchor

الميزات المعمارية الرئيسية

YOLOv9: تدرجات قابلة للبرمجة للتعلم العميق

الميزات المعمارية الرئيسية

مقارنة الأداء

مقاييس تفصيلية

التدريب وسهولة الاستخدام مع Ultralytics

ميزة Ultralytics

تطبيقات عملية في أرض الواقع

تحليلات التجزئة عالية السرعة

نشر الأجهزة المحمولة القديمة

الروبوتات المستقلة

المستقبل: أدخل YOLO26

نماذج مشابهة للاستكشاف

تعليقات