YOLOv5 YOLOv9: مقارنة تقنية متعمقة
شهد مجال الرؤية الحاسوبية واكتشاف الأجسام في الوقت الفعلي تطورات ملحوظة خلال السنوات القليلة الماضية. ويعد الاختيار بين النماذج الراسخة والمجربة في الواقع العملي وبين البنى البحثية الأحدث تحديًا شائعًا لمهندسي التعلم الآلي. يقدم هذا الدليل مقارنة تقنية شاملة بين نموذجين مؤثرين للغاية في YOLO : YOLOv5 و YOLOv9.
سواء كنت تقوم بالنشر على أجهزة طرفية محدودة، أو تبحث في استخراج الميزات عالية الدقة، أو تبني خطوط أنابيب معقدة للكشف عن الكائنات ، فإن فهم الفروق الدقيقة في البنية ومقاييس الأداء والاختلافات في النظام البيئي لهذه النماذج أمر بالغ الأهمية.
نظرات عامة على النموذج
قبل الخوض في المقارنات المعمارية، من المفيد فهم أصول كل نموذج وأهدافه الأساسية.
Ultralytics YOLOv5
تم تطويره بواسطة Glenn Jocher ونشره Ultralytics في 26 يونيو 2020، YOLOv5 تحولًا جذريًا في طريقة تفاعل المطورين مع نماذج الرؤية. من خلال اعتماده الكامل على PyTorch ، YOLOv5 خطوات التجميع المعقدة للنماذج السابقة القائمة على Darknet بتجربة مستخدم بديهية Python.
- المؤلف: جلين جوتشر
- المؤسسة:Ultralytics
- التاريخ: 2020-06-26
- GitHub:مستودع YOLOv5
- المستندات:نظرة عامة علىYOLOv5
YOLOv5 بسهولة استخدامها وأدائها المستقر عبر بيئات الأجهزة المتنوعة. وهي لا تدعم الكشف فحسب، بل تدعم أيضًا تصنيف الصور وتقسيم الحالات.
YOLOv9
قدمه Chien-Yao Wang و Hong-Yuan Mark Liao من معهد علوم المعلومات في أكاديمية سينكا، تايوان، YOLOv9 بشكل كبير على النظرية المعمارية للتخفيف من مشاكل اختناق المعلومات في الشبكات العصبية العميقة.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2024-02-21
- Arxiv:2402.13616
- GitHub:مستودع YOLOv9
- الوثائق:وثائق YOLOv9
YOLOv9 جوهر YOLOv9 على اثنين من الابتكارات النظرية الرئيسية: معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تساعد هذه المفاهيم النموذج على الاحتفاظ بالسمات المكانية الهامة من خلال طبقات الشبكة العميقة.
تأمين عمليات النشر الخاصة بك للمستقبل
في حين أن YOLOv5 YOLOv9 YOLO26 الذي تم إصداره حديثًا يمثل التوازن المثالي بين السرعة والدقة. يتميز YOLO26 بتصميم شامل NMS CPU أسرع بنسبة تصل إلى 43٪، وهو موصى به بشدة للاستخدامات الحديثة في الحوسبة المتطورة ونشر الإنتاج.
الاختلافات المعمارية والتقنية
إن فهم العوامل التي تدعم نماذج الرؤية هذه أمر بالغ الأهمية لتحسين استراتيجيات نشر النماذج.
استخراج الميزات والاحتفاظ بالمعلومات
YOLOv5 شبكة أساسية من نوع Cross Stage Partial Network (CSPNet)، والتي تقلل بشكل فعال من عبء الحساب مع الحفاظ على تدفق التدرج الدقيق أثناء التراجع. تم تحسين هذا التصميم بشكل كبير GPU التقليدية ويضمن متطلبات ذاكرة أقل أثناء التدريب مقارنة بالبدائل الثقيلة للمحولات.
YOLOv9 GELAN، وهي بنية عامة توسع مبادئ CSPNet. إلى جانب PGI — وهو فرع عكسي إضافي —YOLOv9 عدم فقدان الطبقات العميقة للبيانات الدلالية اللازمة لوظائف الأهداف الدقيقة. وهذا يسمح YOLOv9 دقة عالية، خاصة على الأجسام الصغيرة، على الرغم من أن التفرع الإضافي المعقد قد يعقد أحيانًا عمليات التصدير إلى الأجهزة الطرفية المقيدة بشدة.
متطلبات الذاكرة وكفاءة التدريب
عندما يتعلق الأمر بكفاءة التدريب، YOLOv5 قويًا للغاية. يضمن Ultralytics الذي يتم صيانته جيدًا أن تستهلك YOLOv5 CUDA أقل بكثير، مما يسمح للباحثين بتعظيم أحجام الدُفعات على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين. في حين أن YOLOv9 كفاءة ممتازة في المعلمات (دقة عالية بالنسبة لحجمه)، فإن عملية التدريب الخاصة به يمكن أن تكون أكثر استهلاكًا للموارد إذا لم يتم استخدام أطر عمل محسّنة. لحسن الحظ، فإن دمج YOLOv9 Ultralytics يجعله أقرب إلى التكافؤ مع إدارة الموارد المبسطة YOLOv5.
الأداء والمقاييس
لتقييم هذه البنى بشكل موضوعي، نقارن أداءها على مجموعات بيانات قياسية مثل COCO. فيما يلي تحليل مفصل للمقاييس مثل mAP متوسط الدقة المتوسط) وسرعة الاستدلال وعدد المعلمات.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv5n | 640 | 28.0 | 73.6 | 1.12 | 2.6 | 7.7 |
| YOLOv5s | 640 | 37.4 | 120.7 | 1.92 | 9.1 | 24.0 |
| YOLOv5m | 640 | 45.4 | 233.9 | 4.03 | 25.1 | 64.2 |
| YOLOv5l | 640 | 49.0 | 408.4 | 6.61 | 53.2 | 135.0 |
| YOLOv5x | 640 | 50.7 | 763.2 | 11.89 | 97.2 | 246.4 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
كما يوضح الجدول، YOLOv9 دقة أولية أعلى في المستويات المكافئة، مما يعكس بنيته الأحدث. ومع ذلك، يحافظ YOLOv5n على TensorRT منخفض للغاية يبلغ 1.12 مللي ثانية، مما يسلط الضوء على قوته الدائمة في تطبيقات الحوسبة الطرفية المحلية عالية السرعة.
منهجيات التدريب وسهولة الاستخدام
تكمن الميزة الحقيقية للاستفادة من الرؤية الحاسوبية اليوم في سهولة الوصول إلى سلسلة الأدوات.
ميزة Ultralytics
على الرغم من أن مستودعات الأبحاث الأصلية لنماذج مثل YOLOv9 أساسية، إلا أنها غالبًا ما تأتي مع مصفوفات تبعية معقدة ونصوص برمجية نمطية. تعمل Python Ultralytics Python على تجريد هذه التعقيدات تمامًا. باستخدام Ultralytics يمكنك تدريب وتقييم وتصدير كل YOLOv5 YOLOv9 صيغة موحدة ومتطابقة.
from ultralytics import YOLO
# Load a pre-trained YOLOv5 model for fast deployment
model_v5 = YOLO("yolov5s.pt")
# Or leverage a YOLOv9 model for high-fidelity accuracy
model_v9 = YOLO("yolov9c.pt")
# Train seamlessly on custom data with automatic MLflow logging
results = model_v9.train(data="coco8.yaml", epochs=50, imgsz=640)
# Export the trained model to ONNX
model_v9.export(format="onnx")
يوفر نهج واجهة برمجة التطبيقات الفردية هذا تنوعًا هائلاً، حيث يدعم ليس فقط الكشف، ولكن أيضًا تقدير الوضع ومربعات الحدود الموجهة (OBB) اعتمادًا على النموذج المختار. علاوة على ذلك، يوفر تكاملًا قويًا مع أدوات مثل Comet و Weights & Biases مضمنة مباشرة في حلقة التدريب.
حالات الاستخدام المثالية والتطبيقات الواقعية
يعتمد الاختيار بين هذه البنى بشكل كبير على قيود الأجهزة الخاصة بك والدقة المطلوبة من قبل مجال التطبيق الخاص بك.
متى تختار YOLOv5
YOLOv5 برنامج مخضرم ومتمرس يبرع في عمليات النشر التي تعطي الأولوية للاستقرار، واستهلاك الذاكرة المنخفض، والتوافق التام مع التصدير.
- عمليات النشر على الأجهزة المحمولة: تصدير YOLOv5 TFLite أو CoreML الأجهزة في الهواتف الذكية القديمة أمر سلس للغاية.
- أجهزة Legacy Edge: بالنسبة للأجهزة مثل Raspberry Pi أو الجيل الأول NVIDIA Nanos، YOLOv5 التلافيف البسيطة لـ YOLOv5 معدلات إطارات ثابتة لتطبيقات مثل إدارة مواقف السيارات الذكية.
- النماذج الأولية السريعة: إن التوافر الواسع النطاق للبرامج التعليمية المجتمعية، والأوزان المخصصة المدربة مسبقًا، والتوافق الهائل مع مجموعات البيانات يجعلها أسرع طريقة للتحقق من صحة إثبات المفهوم.
متى تختار YOLOv9
YOLOv9 مثاليًا للسيناريوهات التي يكون فيها التقاط التفاصيل المعقدة وتقليل النتائج السلبية الخاطئة أمرًا بالغ الأهمية، حتى لو تطلب ذلك مزيدًا من الحوسبة.
- الصور الجوية والأقمار الصناعية: إطار عمل PGI بارع للغاية في الحفاظ على دقة الأجسام الصغيرة، مما يجعل YOLOv9 للمراقبة الزراعية باستخدام الطائرات بدون طيار.
- التشخيص الطبي بالصور: عند الكشف عن حالات شاذة أو آفات دقيقة في الفحوصات عالية الدقة، يوفر التدفق التدرجي الدقيق لـ GELAN ميزة ضرورية في الاسترجاع.
- تحليلات البيع بالتجزئة المتطورة: يستفيد تتبع المنتجات المتداخلة على الرفوف المكتظة بشكل كبير من قدرات YOLOv9 الفائقة في الاحتفاظ بالميزات.
توسيع آفاقك
في حين أن مقارنة YOLOv5 YOLOv9 رؤية واضحة لكيفية تطور البنى الهندسية من عام 2020 إلى عام 2024، فإن مجال الذكاء الاصطناعي يتطور بسرعة أكبر من أي وقت مضى. بالنسبة للمطورين الذين يبحثون عن الحد الأقصى للأداء، ننصحهم بشدة باستكشاف أحدث نماذج YOLO26. من خلال استبدال تقنية Non-Maximum Suppression التقليدية بتصميم End-to-End NMS الأصلي واستخدام أداة MuSGD Optimizer المتقدمة، يربط YOLO26 الفجوة بين الدقة على مستوى البحث والسرعة على مستوى الإنتاج. مع إزالة DFL (إزالة Distribution Focal Loss لتبسيط التصدير وتحسين التوافق مع الأجهزة المتطورة/منخفضة الطاقة)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله مثاليًا للحوسبة المتطورة. بالإضافة إلى ذلك، يوفر ProgLoss + STAL وظائف خسارة محسنة مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لإنترنت الأشياء والروبوتات والصور الجوية.
قد تكون مهتمًا أيضًا بمقارنة هذه البنى مع نماذج أخرى متطورة مثل RT-DETR أو النموذج عالي الأداء YOLO11. يضمن استخدام Ultralytics الموحد أن خط أنابيب التطوير الخاص بك يظل نظيفًا وفعالًا وجاهزًا للتوسع، بغض النظر عن النموذج الذي تختاره.