YOLOv9 YOLOv6.0: الابتكار المعماري وتحليل الأداء

يتغير مشهد الكشف عن الأجسام في الوقت الفعلي بسرعة، حيث يعمل الباحثون باستمرار على توسيع حدود الدقة والكفاءة. ومن المعالم الهامة في هذا التطور ما يلي YOLOv9، الذي قدمته أكاديمية سينيكا في أوائل عام 2024، و YOLOv6.YOLOv6، وهو إصدار قوي من Meituan في عام 2023. في حين أن كلا النموذجين يهدفان إلى حل التحديات الصناعية، إلا أنهما يتخذان نهجين معماريين مختلفين جذريًا لتحقيق أداء عالٍ.

فلسفات معمارية

يكمن الاختلاف الأساسي بين هذين النموذجين في كيفية إدارتهما لتدفق المعلومات واستخراج الميزات عبر الشبكة العصبية.

YOLOv9: استعادة المعلومات المفقودة

YOLOv9 يعالج مشكلة أساسية في التعلم العميق: فقدان المعلومات أثناء انتشار البيانات عبر الطبقات العميقة. قدم المؤلفان، Chien-Yao Wang و Hong-Yuan Mark Liao، معلومات التدرج القابلة للبرمجة (PGI). توفر PGI فرعًا إرشاديًا إضافيًا يضمن الحفاظ على المعلومات الدلالية الهامة، مما يسمح للنموذج بتعلم ميزات أكثر قوة دون إضافة تكلفة استدلالية.

بالإضافة إلى ذلك، YOLOv9 بنية GELAN (شبكة تجميع الطبقات الفعالة المعممة). تعمل GELAN على تحسين استخدام المعلمات، حيث تجمع بين مزايا CSPNet و ELAN لتحقيق دقة فائقة باستخدام عدد أقل من FLOPs مقارنة بالأجيال السابقة.

تعرف على المزيد حول YOLOv9

YOLOv6-3.0: التحسين الصناعي

يركز YOLOv6.YOLOv6، الذي طوره فريق Meituan Vision، بشكل كبير على التطبيق الصناعي العملي. أطلق على هذه النسخة اسم "إعادة تحميل كاملة"، وقد أدخلت ميزة Anchor-Aided Training (AAT)، التي تجمع بين مزايا أجهزة الكشف القائمة على المراسي وأجهزة الكشف الخالية من المراسي لتثبيت التدريب. كما تتميز بتصميم عنق مجدد باستخدام Bi-directional Concatenation (BiC) لتحسين دمج الميزات.

YOLOv6 باستخدامها المكثف لإعادة المعلمات على غرار RepVGG، مما يسمح بإنشاء هياكل تدريب معقدة تنهار إلى كتل استدلال أبسط وأسرع.

تعرف على المزيد حول YOLOv6

مقارنة الأداء

عند مقارنة الأداء، يُظهر YOLOv9 متوسط دقة أعلى (mAP) بتكاليف حسابية مماثلة أو أقل. تسمح بنية GELAN YOLOv9 الصور بكفاءة عالية، مما يجعله خيارًا رائعًا للمهام التي تتطلب دقة عالية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

بينما يُظهر YOLOv6. YOLOv6 TensorRT تنافسية - ويرجع ذلك إلى حد كبير إلى تصميمه الأساسي المتوافق مع الأجهزة -YOLOv9 يحققYOLOv9 دقة أعلى لكل معلمة. على سبيل المثال، يتفوق YOLOv9m على YOLOv6.YOLOv6 في الدقة (51.4٪ مقابل 50.0٪) مع استخدام معلمات أقل بكثير (20.0 مليون مقابل 34.9 مليون).

النظام البيئي وسهولة الاستخدام

أحد العوامل الأكثر أهمية للمطورين هو النظام البيئي المحيط بالنموذج. وهنا توفر Ultralytics ومكتبتها ميزة واضحة.

ميزة Ultralytics

YOLOv9 دمج YOLOv9 بالكامل في Ultralytics مما يوفر واجهة برمجة تطبيقات موحدة تعمل على تبسيط دورة حياة عمليات التعلم الآلي (MLOps) بالكامل.

تدريب بسيط: يمكنك تدريب YOLOv9 على بيانات مخصصة باستخدام بضع أسطر فقط من Python.
كفاءة الذاكرة: تم تحسين Ultralytics لتقليل استخدام GPU أثناء التدريب، مما يمنع حدوث أخطاء نفاد الذاكرة (OOM) الشائعة في المستودعات الأخرى.
تعدد الاستخدامات: يدعم النظام البيئي التصدير السهل إلى تنسيقات مثل ONNXو OpenVINOو TensorRT.

سير عمل مبسط

Ultralytics استخدام Ultralytics وقتًا كبيرًا في الهندسة مقارنةً بتكوين مستودعات بحثية مستقلة.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train on a custom dataset with default augmentations
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("path/to/image.jpg")

في المقابل، YOLOv6 يتطلب استخدام YOLOv6 استنساخ مستودع Meituan المحدد، وإعداد بيئة مخصصة، وإدارة ملفات التكوين وخطوط أنابيب زيادة البيانات يدويًا.

تطبيقات عملية في أرض الواقع

غالبًا ما يعتمد الاختيار بين هذه النماذج على القيود المحددة لبيئة النشر لديك.

سيناريوهات عالية الدقة (YOLOv9)

قدرة YOLOv9 على الاحتفاظ بالمعلومات الدلالية تجعلها مثالية لمهام الكشف الصعبة التي تهم فيها التفاصيل الصغيرة.

التصوير الطبي: في مهام مثل الكشف عن الأورام، تساعد بنية PGI في الحفاظ على السمات الخافتة التي قد تضيع في طبقات الشبكة العميقة.
المراقبة الجوية: لاكتشاف الأجسام الصغيرة مثل المركبات أو الأشخاص من صور الطائرات بدون طيار، تعمل ميزة الاحتفاظ المحسّنة YOLOv9 على تحسين معدلات الاسترجاع.

الأتمتة الصناعية (YOLOv6.0)

YOLOv6 تصميم YOLOv6 خصيصًا للتطبيقات الصناعية التي تكون فيها الأجهزة ثابتة والإنتاجية هي العامل الأهم.

خطوط التصنيع: في البيئات الخاضعة للرقابة مثل تصنيع البطاريات، حيث تقوم الكاميرات بفحص الأجزاء على حزام ناقل، YOLOv6 تكون TensorRT لـ YOLOv6 فعالة للغاية.

نظرة إلى المستقبل: قوة YOLO26

على الرغم من أن YOLOv9 YOLOv6. YOLOv6 هما نموذجان ممتازان، إلا أن هذا المجال استمر في التقدم. أحدث YOLO26 تمثل أحدث ما توصلت إليه التكنولوجيا للمطورين الذين يسعون إلى تحقيق التوازن المثالي بين السرعة والدقة وسهولة الاستخدام.

يقدم YOLO26 العديد من الميزات الرائدة:

NMS من البداية إلى النهاية: من خلال إزالة Non-Maximum Suppression (NMS)، تعمل YOLO26 على تبسيط خطوط أنابيب النشر وتقليل تقلب زمن الاستجابة.
MuSGD Optimizer: مزيج من SGD و Muon ، يوفر هذا المحسن تحسينات في الاستقرار مستوحاة من تدريب نموذج اللغة الكبيرة (LLM).
كفاءة محسّنة: بفضل إزالة فقدان بؤرة التوزيع (DFL) والتحسينات الأخرى، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله مثاليًا للأجهزة الطرفية مثل Raspberry Pi.
تنوع المهام: بالإضافة إلى الكشف، يوفر YOLO26 تحسينات متخصصة لتقدير الوضع (باستخدام تقدير الاحتمالية المتبقية) والتجزئة.

تعرف على المزيد حول YOLO26

الخلاصة

كلاهما YOLOv9 و YOLOv6.YOLOv6 يقدمان إمكانات مذهلة. يظل YOLOv6.0 منافسًا قويًا في سير العمل الصناعي المحدد TensorRT. ومع ذلك، بالنسبة لمعظم الباحثين والمطورين، فإن YOLOv9 كفاءة ودقة معلمات فائقة. علاوة على ذلك، فإن كونه جزءًا من نظام Ultralytics يضمن الدعم طويل الأمد، وسهولة الوصول إلى الأوزان المدربة مسبقًا، ومسار ترقية سلس إلى بنى أحدث مثل YOLO26.

المراجع

YOLOv9: Wang, C.-Y., & Liao, H.-Y. M. (2024). "YOLOv9: تعلم ما تريد تعلمه باستخدام معلومات التدرج القابلة للبرمجة." arXiv:2402.13616.
YOLOv6 .0: Li, C., et al. (2023). "YOLOv6 .0: A Full-Scale Reloading." arXiv:2301.05586.
Ultralytics :ultralytics