YOLOv6.0 مقابل YOLOv9: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات

يستمر تطور مجال الكشف عن الأجسام في الوقت الفعلي، مدفوعًا بمتطلبات الدقة العالية والكمون المنخفض والاستخدام الأفضل للأجهزة. تبحث هذه المقارنة الشاملة بين اثنين من المعالم الهامة في هذا المجال: YOLOv6.YOLOv6، الذي تم تطويره من أجل الإنتاجية الصناعية، و YOLOv9، الذي أدخل هياكل جديدة للتغلب على اختناقات معلومات التعلم العميق.

في حين أن كلا النموذجين يقدمان ابتكارات معمارية فريدة، فإن المطورين الذين يبحثون عن التوازن المثالي بين الأداء وسهولة النشر غالبًا ما ينتقلون إلى الأنظمة البيئية الحديثة. بالنسبة لأولئك الذين يبدؤون مشاريع جديدة، فإن Ultralytics الأصلي الشامل هو المعيار الموصى به، حيث يوفر دقة متطورة مع تجربة مطور أكثر بساطة بشكل ملحوظ.

YOLOv6.0: تحسين الإنتاجية الصناعية

تم تطوير YOLOv6.YOLOv6 بواسطة قسم Vision AI في Meituan، وقد تم تصميمه بعناية فائقة لتحقيق أقصى قدر من الإنتاجية في التطبيقات الصناعية، لا سيما على GPU .

المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
المؤسسة:Meituan
التاريخ: 13 يناير 2023
أرخايف:2301.05586
GitHub:meituan/YOLOv6

الابتكارات المعمارية

أدخلت YOLOv6 عدة تعديلات أساسية لتحسين دمج الميزات وكفاءة الأجهزة. تتضمن البنية وحدة تسلسل ثنائي الاتجاه (BiC) في عنقها، مما يوفر إشارات تحديد الموقع الأكثر دقة. كما تستخدم استراتيجية التدريب بمساعدة المراسي (AAT). يجمع هذا النهج بين التوجيه الغني للتدريب القائم على المراسي وسرعة الاستدلال لنموذج خالٍ من المراسي، مما ينتج عنه أداء أفضل دون إبطاء عملية النشر.

يعتمد العمود الفقري على تصميم EfficientRep، الذي تم تحسينه بدقة ليكون متوافقًا مع الأجهزة من أجل GPU . وهذا يجعله عالي الكفاءة في سيناريوهات التصنيع الصناعي حيث تعتبر المعالجة المكثفة للدفعات أمرًا معتادًا.

نقاط القوة والضعف

تكمن القوة الأساسية لـ YOLOv6 في معدل الإطارات العالي على وحدات معالجة الرسومات (GPU) مثل NVIDIA مما يجعلها مناسبة لفهم تدفقات الفيديو عالية الكثافة. ومع ذلك، فإن اعتمادها الكبير على تحسينات الأجهزة المحددة يمكن أن يؤدي إلى زمن انتقال أقل من الأمثل على الأجهزة الطرفية CPU. علاوة على ذلك، قد يكون إعداد خط أنابيب التدريب الخاص بها معقدًا مقارنة بالأطر الأكثر توحيدًا.

تعرف على المزيد حول YOLOv6

YOLOv9: معلومات التدرج القابلة للبرمجة

صدر بعد عام واحد، YOLOv9 على حل مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة، مما يدفع الحدود النظرية لهياكل CNN.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 21 فبراير 2024
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9

الابتكارات المعمارية

تتمثل المساهمة الرئيسية YOLOv9 في معلومات التدرج القابلة للبرمجة (PGI)، والتي تضمن الاحتفاظ بالبيانات المهمة أثناء مرورها عبر طبقات الشبكة المتعددة، مما يتيح تحديثات أكثر موثوقية للوزن. إلى جانب PGI، يتميز النموذج بشبكة تجميع الطبقات الفعالة المعممة (GELAN). تعمل GELAN على تعظيم كفاءة المعلمات، مما يمكّن YOLOv9 تحقيق دقة فائقة باستخدام عدد أقل من عمليات FLOP الحسابية مقارنة بالعديد من النماذج السابقة.

نقاط القوة والضعف

YOLOv9 متوسط دقة متوسط (mAP) متميزًا في مجموعات البيانات المعيارية مثل COCO مما يجعله المفضل للباحثين الذين يعطون الأولوية للدقة الأولية. ومع ذلك، مثل YOLOv6 لا يزال يعتمد على تقنية Non-Maximum Suppression (NMS) التقليدية للمعالجة اللاحقة. وهذا يضيف زمن انتقال ويعقد مسار نشر النموذج، خاصة عند النقل إلى أجهزة الحافة باستخدام تنسيقات مثل ONNX TensorRT.

تعرف على المزيد حول YOLOv9

مقارنة الأداء

عند مقارنة هذه النماذج، من الضروري النظر إلى التوازن بين الدقة وعدد المعلمات وسرعة الاستدلال.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

Ultralytics : تقديم YOLO26

بينما YOLOv9 YOLOv6. YOLOv6 و YOLOv9 بنى قوية، تتطلب بيئات الإنتاج نظامًا بيئيًا جيد الصيانة ومتطلبات ذاكرة منخفضة وسهولة استثنائية في الاستخدام. وهنا يأتي دور Ultralytics ونماذج مثل YOLO11 و YOLO26 المتطورة.

تم إصدار YOLO26 في أوائل عام 2026، وهو يعيد تعريف كفاءة النشر بشكل جذري من خلال القضاء على الاختناقات القديمة.

تصميم أصلي شامل

يتميز YOLO26 بتصميم شامل NMS، مما يلغي تمامًا الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression. وهذا يقلل بشكل كبير من تباين زمن الاستدلال ويبسط منطق النشر على الحافة.

ابتكارات YOLO26 الرئيسية

مُحسِّن MuSGD: مستوحى من تدريب نماذج اللغة الكبيرة (LLM) (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 هجينًا من SGD و Muon. وهذا يجلب استقرارًا تدريبيًا لا مثيل له وتقاربًا أسرع لمهام الرؤية الحاسوبية.
استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): على عكس تركيز YOLOv6 الثقيل على وحدات GPU، تم تحسين YOLO26 بشكل كبير للأجهزة الطرفية. تعمل إزالة Distribution Focal Loss (DFL) على تبسيط الرأس، مما يجعله متوافقًا للغاية مع وحدات CPU منخفضة الطاقة وأجهزة الحوسبة الطرفية.
ProgLoss + STAL: دوال خسارة متقدمة تحسن بشكل كبير detect الأجسام الصغيرة، وهو أمر بالغ الأهمية للصور الجوية والروبوتات.
تعدد استخدامات لا مثيل له: بينما YOLOv6 هو محرك detection بحت، يتعامل YOLO26 مع تجزئة الكائنات (instance segmentation)، والتصنيف، وتقدير الوضعيات، وdetection الصناديق المحيطة الموجهة (OBB) بسلاسة.

تعرف على المزيد حول YOLO26

تدريب سلس مع Ultralytics

لا ينبغي أن يتطلب تدريب النماذج المتطورة استخدام bash معقدة. توفرPython Ultralytics Python تجربة مبسطة مع تحميل تلقائي للبيانات، واستخدام ضئيل CUDA وتتبع مدمج.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset using the robust MuSGD optimizer natively
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX with a single command
model.export(format="onnx")

حالات الاستخدام المثالية

يعتمد اختيار البنية الصحيحة كليًا على بيئة النشر المستهدفة لديك:

استخدم YOLOv6-3.0 لـ: أتمتة المصانع واكتشاف العيوب حيث تتوفر وحدات معالجة الرسومات (GPUs) من فئة الخوادم (مثل A100s) بكثرة، وتعمل المعالجة الدفعية على زيادة الإنتاجية إلى أقصى حد.
استخدم YOLOv9 لـ: البحث الأكاديمي أو المسابقات حيث يكون الهدف الأساسي هو تحقيق أعلى mAP على الإطلاق على مجموعات البيانات الموحدة مثل COCO.
استخدم YOLO26 لـ: جميع التطبيقات التجارية الحديثة تقريبًا. إن بنيتها الخالية من NMS، وبصمتها الذاكرية المنخفضة، واستدلالها عالي السرعة على CPU يجعلها مثالية لـ أنظمة إنذار الأمان، والبيع بالتجزئة الذكي، وتتبع الكائنات في الوقت الفعلي على الأجهزة المدمجة.

بالاستفادة من النظام البيئي الشامل لـ Ultralytics، يمكن للمطورين تجربة YOLOv8 وYOLO11 وYOLO26 بسهولة للعثور على التوازن المثالي في الأداء لتحدياتهم الواقعية المحددة.

YOLOv6.0 مقابل YOLOv9: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات

YOLOv6.0: تحسين الإنتاجية الصناعية

الابتكارات المعمارية

نقاط القوة والضعف

YOLOv9: معلومات التدرج القابلة للبرمجة

الابتكارات المعمارية

نقاط القوة والضعف

مقارنة الأداء

Ultralytics : تقديم YOLO26

ابتكارات YOLO26 الرئيسية

تدريب سلس مع Ultralytics

حالات الاستخدام المثالية

تعليقات