YOLOv5 YOLOv9: مقارنة تقنية متعمقة

شهد مجال الرؤية الحاسوبية واكتشاف الأجسام في الوقت الفعلي تطورات ملحوظة خلال السنوات القليلة الماضية. ويعد الاختيار بين النماذج الراسخة والمجربة في الواقع العملي وبين البنى البحثية الأحدث تحديًا شائعًا لمهندسي التعلم الآلي. يقدم هذا الدليل مقارنة تقنية شاملة بين نموذجين مؤثرين للغاية في YOLO : YOLOv5 و YOLOv9.

سواء كنت تقوم بالنشر على أجهزة طرفية محدودة، أو تبحث في استخراج الميزات عالية الدقة، أو تبني خطوط أنابيب معقدة للكشف عن الكائنات ، فإن فهم الفروق الدقيقة في البنية ومقاييس الأداء والاختلافات في النظام البيئي لهذه النماذج أمر بالغ الأهمية.

نظرات عامة على النموذج

قبل الخوض في المقارنات المعمارية، من المفيد فهم أصول وأهداف كل نموذج الرئيسية.

Ultralytics YOLOv5

تم تطويره بواسطة Glenn Jocher ونشره Ultralytics في 26 يونيو 2020، YOLOv5 تحولًا جذريًا في طريقة تفاعل المطورين مع نماذج الرؤية. من خلال اعتماده الكامل على PyTorch ، YOLOv5 خطوات التجميع المعقدة للنماذج السابقة القائمة على Darknet بتجربة مستخدم بديهية Python.

المؤلف: جلين جوتشر
المؤسسة:Ultralytics
التاريخ: 2020-06-26
GitHub:مستودع YOLOv5
الوثائق:نظرة عامة على منصة YOLOv5

YOLOv5 بسهولة استخدامها وأدائها المستقر عبر بيئات الأجهزة المتنوعة. وهي لا تدعم الكشف فحسب، بل تدعم أيضًا تصنيف الصور وتقسيم الحالات.

تعرف على المزيد حول YOLOv5

YOLOv9

قدمه Chien-Yao Wang و Hong-Yuan Mark Liao من معهد علوم المعلومات في أكاديمية سينكا، تايوان، YOLOv9 بشكل كبير على النظرية المعمارية للتخفيف من مشاكل اختناق المعلومات في الشبكات العصبية العميقة.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2024-02-21
Arxiv:2402.13616
GitHub:مستودع YOLOv9
الوثائق:وثائق YOLOv9

YOLOv9 جوهر YOLOv9 على اثنين من الابتكارات النظرية الرئيسية: معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تساعد هذه المفاهيم النموذج على الاحتفاظ بالسمات المكانية الهامة من خلال طبقات الشبكة العميقة.

تعرف على المزيد حول YOLOv9

تأمين عمليات النشر الخاصة بك للمستقبل

في حين أن YOLOv5 YOLOv9 YOLO26 الذي تم إصداره حديثًا يمثل التوازن المثالي بين السرعة والدقة. يتميز YOLO26 بتصميم شامل NMS CPU أسرع بنسبة تصل إلى 43٪، وهو موصى به بشدة للاستخدامات الحديثة في الحوسبة المتطورة ونشر الإنتاج.

الاختلافات المعمارية والتقنية

إن فهم العوامل التي تدعم نماذج الرؤية هذه أمر بالغ الأهمية لتحسين استراتيجيات نشر النماذج.

استخراج الميزات والاحتفاظ بالمعلومات

YOLOv5 شبكة أساسية من نوع Cross Stage Partial Network (CSPNet)، والتي تقلل بشكل فعال من عبء الحساب مع الحفاظ على تدفق التدرج الدقيق أثناء التراجع. تم تحسين هذا التصميم بشكل كبير GPU التقليدية ويضمن متطلبات ذاكرة أقل أثناء التدريب مقارنة بالبدائل الثقيلة للمحولات.

YOLOv9 GELAN، وهي بنية عامة توسع مبادئ CSPNet. إلى جانب PGI — وهو فرع عكسي إضافي —YOLOv9 عدم فقدان الطبقات العميقة للبيانات الدلالية اللازمة لوظائف الأهداف الدقيقة. وهذا يسمح YOLOv9 دقة عالية، خاصة على الأجسام الصغيرة، على الرغم من أن التفرع الإضافي المعقد قد يعقد أحيانًا عمليات التصدير إلى الأجهزة الطرفية المقيدة بشدة.

متطلبات الذاكرة وكفاءة التدريب

عندما يتعلق الأمر بكفاءة التدريب، YOLOv5 قويًا للغاية. يضمن Ultralytics الذي يتم صيانته جيدًا أن تستهلك YOLOv5 CUDA أقل بكثير، مما يسمح للباحثين بتعظيم أحجام الدُفعات على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين. في حين أن YOLOv9 كفاءة ممتازة في المعلمات (دقة عالية بالنسبة لحجمه)، فإن عملية التدريب الخاصة به يمكن أن تكون أكثر استهلاكًا للموارد إذا لم يتم استخدام أطر عمل محسّنة. لحسن الحظ، فإن دمج YOLOv9 Ultralytics يجعله أقرب إلى التكافؤ مع إدارة الموارد المبسطة YOLOv5.

الأداء والمقاييس

لتقييم هذه البنى بشكل موضوعي، نقارن أداءها على مجموعات بيانات قياسية مثل COCO. فيما يلي تحليل مفصل للمقاييس مثل mAP متوسط الدقة المتوسط) وسرعة الاستدلال وعدد المعلمات.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

كما يوضح الجدول، يحقق YOLOv9 دقة خام أعلى في المستويات المكافئة، مما يعكس بنيته الأحدث. ومع ذلك، يحافظ YOLOv5n على زمن انتقال منخفض للغاية لـ TensorRT يبلغ 1.12 مللي ثانية، مما يسلط الضوء على قوته الدائمة لتطبيقات الحوسبة الطرفية عالية السرعة والمحلية.

منهجيات التدريب وسهولة الاستخدام

تكمن الميزة الحقيقية للاستفادة من الرؤية الحاسوبية اليوم في سهولة الوصول إلى سلسلة الأدوات.

ميزة Ultralytics

على الرغم من أن مستودعات الأبحاث الأصلية لنماذج مثل YOLOv9 أساسية، إلا أنها غالبًا ما تأتي مع مصفوفات تبعية معقدة ونصوص برمجية نمطية. تعمل Python Ultralytics Python على تجريد هذه التعقيدات تمامًا. باستخدام Ultralytics يمكنك تدريب وتقييم وتصدير كل YOLOv5 YOLOv9 صيغة موحدة ومتطابقة.

from ultralytics import YOLO

# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")

# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")

# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export the trained model to ONNX
model_v9.export(format="onnx")

يوفر نهج واجهة برمجة التطبيقات الفردية هذا تنوعًا هائلاً، حيث يدعم ليس فقط الكشف، ولكن أيضًا تقدير الوضع ومربعات الحدود الموجهة (OBB) اعتمادًا على النموذج المختار. علاوة على ذلك، يوفر تكاملًا قويًا مع أدوات مثل Comet و Weights & Biases مضمنة مباشرة في حلقة التدريب.

حالات الاستخدام المثالية والتطبيقات الواقعية

يعتمد الاختيار بين هذه المعماريات بشكل كبير على قيود أجهزتك والدقة المطلوبة من قبل مجال تطبيقك.

متى تختار YOLOv5

YOLOv5 برنامج مخضرم ومتمرس يبرع في عمليات النشر التي تعطي الأولوية للاستقرار، واستهلاك الذاكرة المنخفض، والتوافق التام مع التصدير.

عمليات النشر على الأجهزة المحمولة: يعد تصدير YOLOv5 إلى TFLite أو CoreML للاستدلال على الجهاز على الهواتف الذكية القديمة سلسًا للغاية.
الأجهزة الطرفية القديمة: للأجهزة مثل Raspberry Pi أو أجهزة NVIDIA Jetson Nanos من الجيل المبكر، تضمن الالتفافات المباشرة لـ YOLOv5 معدلات إطارات متسقة لتطبيقات مثل إدارة مواقف السيارات الذكية.
النماذج الأولية السريعة: التوفر الواسع للدروس التعليمية المجتمعية، والأوزان المدربة مسبقًا المخصصة، والتوافق مع مجموعات البيانات الضخمة يجعلها أسرع طريقة للتحقق من إثبات المفهوم.

متى تختار YOLOv9

YOLOv9 مثاليًا للسيناريوهات التي يكون فيها التقاط التفاصيل المعقدة وتقليل النتائج السلبية الخاطئة أمرًا بالغ الأهمية، حتى لو تطلب ذلك مزيدًا من الحوسبة.

الصور الجوية والفضائية: يُعد إطار عمل PGI بارعًا للغاية في الحفاظ على دقة الأجسام الصغيرة، مما يجعل YOLOv9 ممتازًا لـالمراقبة الزراعية القائمة على الطائرات بدون طيار.
تشخيصات التصوير الطبي: عند detect الشذوذات الدقيقة أو الآفات في الفحوصات عالية الدقة، يوفر تدفق التدرج الدقيق لـ GELAN ميزة ضرورية في الاستدعاء.
تحليلات التجزئة عالية المستوى: يستفيد تتبع المنتجات المتداخلة على الرفوف المكتظة بشكل كبير من قدرات YOLOv9 الفائقة في الاحتفاظ بالميزات.

توسيع آفاقك

في حين أن مقارنة YOLOv5 YOLOv9 رؤية واضحة لكيفية تطور البنى الهندسية من عام 2020 إلى عام 2024، فإن مجال الذكاء الاصطناعي يتطور بسرعة أكبر من أي وقت مضى. بالنسبة للمطورين الذين يبحثون عن الحد الأقصى للأداء، ننصحهم بشدة باستكشاف أحدث نماذج YOLO26. من خلال استبدال تقنية Non-Maximum Suppression التقليدية بتصميم End-to-End NMS الأصلي واستخدام أداة MuSGD Optimizer المتقدمة، يربط YOLO26 الفجوة بين الدقة على مستوى البحث والسرعة على مستوى الإنتاج. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين التوافق مع الأجهزة المتطورة/منخفضة الطاقة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله مثاليًا للحوسبة المتطورة. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.

قد تكون مهتمًا أيضًا بمقارنة هذه البنى مع نماذج أخرى متطورة مثل RT-DETR أو النموذج عالي الأداء YOLO11. يضمن استخدام Ultralytics الموحد أن خط أنابيب التطوير الخاص بك يظل نظيفًا وفعالًا وجاهزًا للتوسع، بغض النظر عن النموذج الذي تختاره.