YOLOv9 مقابل YOLO: مقارنة تقنية شاملة
في المشهد سريع التطور في مجال الرؤية الحاسوبية، يعد اختيار البنية المثلى لاكتشاف الأجسام أمرًا محوريًا لنجاح المشروع. يقدم هذا التحليل مقارنة تقنية مفصلة بين نموذجين هائلين: YOLOv9المشهور بابتكاراته المعمارية في معلومات التدرج، ونموذج YOLO وهو نموذج من مجموعة علي بابا مصمم للاستدلال عالي السرعة. ندرس بنيتهما الفريدة ومقاييس أدائهما وسيناريوهات النشر المثالية لتوجيه المطورين والباحثين في اتخاذ قرارات مستنيرة.
YOLOv9: معلومات التدرج القابلة للبرمجة للحصول على دقة فائقة
يمثل YOLOv9 تطورًا كبيرًا في سلسلة You Only Look Only OneYOLO)، مع التركيز على حل مشكلة عنق الزجاجة المعلوماتية المتأصلة في الشبكات العصبية العميقة. من خلال ضمان الحفاظ على بيانات المدخلات المهمة في جميع طبقات الشبكة، يحقق YOLOv9 دقة فائقة.
المؤلفون: تشين-ياو وانغ وهونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية للعلوم بتايوان
التاريخ: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
المستندات:وثائقUltralytics YOLOv9
الهندسة المعمارية والابتكارات الأساسية
بُنيت بنية YOLOv9 على مفهومين رائدين مصممين لتحسين كفاءة التعلم العميق:
- معلومات التدرج القابلة للبرمجة (PGI): معلومات التدرج القابلة للبرمجة (PGI) هي إطار عمل إشرافي مساعد يعالج مشكلة فقدان المعلومات أثناء انتشار البيانات عبر الطبقات العميقة. ويضمن حصول دالة الخسارة على تدرجات موثوقة، مما يسمح للنموذج بتعلم ميزات أكثر فعالية دون إضافة تكلفة استدلالية.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): تجمع هذه البنية الجديدة بين نقاط القوة في شبكة تجميع الطبقات المعممة ذات الكفاءة العالية وشبكة تجميع الطبقات المعممة (ELAN). تم تصميم GELAN لزيادة استخدام المعلمات والكفاءة الحسابية إلى أقصى حد، مما يوفر عمودًا فقريًا خفيف الوزن ولكنه قوي يدعم مختلف الكتل الحسابية.
نقاط القوة والنظام البيئي
- دقة من الدرجة الأولى: يحقق YOLOv9 دقة استثنائية mAP استثنائية على مجموعة بياناتCOCO مما يضع معايير قياسية لأجهزة الكشف عن الأجسام في الوقت الحقيقي.
- كفاءة المعلمات: بفضل GELAN، يوفر النموذج أداءً عاليًا بمعلمات أقل مقارنةً بالعديد من النماذج السابقة.
- تكاملUltralytics : يعني كونك جزءًا من نظام Ultralytics البيئي أن YOLOv9 يستفيد من واجهة برمجة تطبيقاتPython الموحدة وخيارات تصدير النماذج السلسةONNX TensorRT CoreML) والوثائق القوية.
- استقرار التدريب: يعمل إطار عمل PGI على تحسين سرعة التقارب والاستقرار بشكل كبير أثناء تدريب النموذج.
نقاط الضعف
- كثافة الموارد: على الرغم من كفاءة المتغيرات الأكبر (مثل YOLOv9) بالنسبة لفئة دقتها، إلا أن المتغيرات الأكبر (مثل YOLOv9) تتطلب قدراً كبيراً من GPU كبيرة للتدريب.
- تركيز المهمة: يستهدف البحث الأساسي في المقام الأول اكتشاف الأجسام، في حين أن نماذج Ultralytics الأخرى مثل YOLO11 تدعم أصلاً مجموعة واسعة من المهام بما في ذلك تقدير الوضعية و OBB خارج الصندوق.
YOLO: بحث البنية العصبية عن السرعة
يُعد YOLO بمثابة شهادة على قوة تصميم البنية الآلية. تم تطويره من قبل شركة Alibaba، وهو يستفيد من نظام البحث عن البنية العصبية (NAS) لإيجاد التوازن الأمثل بين زمن الاستجابة للاستدلال وأداء الكشف، ويستهدف التطبيقات الصناعية على وجه التحديد.
المؤلفون: شيانزهي شو، وييكي جيانغ، وويهوا تشن، ووي هوا تشن، ويلون هوانغ، ويوان تشانغ، وشيويو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
اركسيف:2211.15444
جيثب:YOLO
البنية والميزات الرئيسية
تتميز YOLO من خلال العديد من التطورات التكنولوجية التي تهدف إلى زيادة الإنتاجية إلى أقصى حد:
- العمود الفقري MAE-NAS: وهي تستخدم بنية العمود الفقري المستمدة من طريقة البحث عن البنية العصبية الفعالة الواعية بالمنهجية، وتحسين طوبولوجيا الشبكة لقيود أجهزة محددة.
- شبكة هرم السمات المعممة المعممة الفعالة: يستخدم النموذج شبكة هرمية معممة للميزات معادة التعميم في عنقه، مما يعزز دمج الميزات مع الحفاظ على زمن انتقال منخفض.
- ZeroHead: تصميم رأس كشف خفيف الوزن يقلل من النفقات الحسابية الزائدة المرتبطة عادةً بطبقات التنبؤ النهائية.
- AlignedOTA: استراتيجية محسّنة لتعيين التسميات تحل مشكلة عدم التوافق بين مهام التصنيف والانحدار أثناء التدريب.
نقاط القوة
- كمون منخفض: صُمم YOLO من أجل السرعة، مما يجعله فعالاً للغاية في الاستدلال في الوقت الحقيقي على الأجهزة المتطورة ووحدات معالجة الرسومات.
- التصميم الآلي: يضمن استخدام نظام التصميم الآلي أن يتم ضبط البنية رياضيًا لتحقيق الكفاءة بدلاً من الاعتماد فقط على الاستدلال اليدوي.
- خالي من المرتكزات: يعتمد نهجًا خاليًا من المرتكزات، مما يبسّط عملية ضبط المعلمة الفائقة المتعلقة بمربعات الارتكاز.
نقاط الضعف
- نظام بيئي محدود: مقارنةً بالأدوات الموسعة المتاحة لنماذج Ultralytics فإن YOLO لديها مجتمع أصغر وأدوات تكامل جاهزة أقل لنماذج MLOPS.
- تعدد الاستخدامات: إنه متخصص في المقام الأول في الكشف، ويفتقر إلى القدرات الأصلية متعددة المهام (التجزئة والتصنيف) الموجودة في الأطر الأكثر شمولاً.
تحليل الأداء: السرعة مقابل الدقة
عند مقارنة مقاييس الأداء، تتضح المفاضلة بين البنيتين. يُعطي YOLOv9 الأولوية للحفاظ على المعلومات لتحقيق دقة فائقة، وغالبًا ما يتفوق على YOLO في درجات mAP عبر أحجام النماذج المماثلة. وعلى العكس من ذلك، يركز YOLO على الإنتاجية الخام.
ومع ذلك، فإن كفاءة بنية YOLOv9 GELAN الخاصة بـ YOLOv9 تسمح له بالحفاظ على سرعته التنافسية العالية مع تقديم جودة كشف أفضل. على سبيل المثال، يحقق YOLOv9 نسبة mAP أعلى بكثير (53.0%) مقارنةً بـ YOLO (50.8%) مع استخدام عدد أقل من المعلمات (25.3 مليون مقابل 42.1 مليون). وهذا يسلط الضوء على قدرة YOLOv9 على تقديم "المزيد مقابل القليل" من حيث تعقيد النموذج.
تفسير الأداء
عند تقييم النماذج، ضع في اعتبارك عدد عمليات النقطة العائمة ( FLOPs ) إلى جانب عدد المعلمات. يشير عدد FLOPs الأقل بشكل عام إلى نموذج أخف من الناحية الحسابية ويحتمل أن يكون أسرع على الأجهزة المحمولة أو أجهزة الذكاء الاصطناعي المتطورة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
حالات الاستخدام المثالية
تحدد الاختلافات المعمارية سيناريوهات النشر المثالية لكل نموذج.
تطبيقات YOLOv9
YOLOv9 هو الخيار المفضل للتطبيقات التي تكون فيها الدقة غير قابلة للتفاوض.
- التصوير الطبي: الكشف عن الحالات الشاذة الدقيقة في تحليل الصور الطبية حيث يمكن أن يكون فقدان الكشف أمرًا بالغ الأهمية.
- الملاحة الذاتية: أنظمة الإدراك المتقدمة للسيارات ذاتية القيادة التي تتطلب ثقة عالية في اكتشاف الأجسام.
- المراقبة التفصيلية: الأنظمة الأمنية التي تحتاج إلى تحديد الأجسام الصغيرة أو التي تعمل في بيئات معقدة ذات فوضى عالية.
تطبيقات YOLO
تتفوق YOLO في البيئات المقيدة بميزانيات كمون صارمة.
- التصنيع عالي السرعة: الخطوط الصناعية حيث يجب أن تواكب أنظمة الرؤية بالكمبيوتر سيور النقل السريعة.
- تحليلات الفيديو: معالجة أحجام هائلة من تدفقات الفيديو حيث تكون تكلفة الإنتاجية مصدر قلق رئيسي.
ميزة Ultralytics
على الرغم من أن كلا النموذجين مثيران للإعجاب من الناحية التقنية، فإن اختيار نموذج ضمن منظومةUltralytics - مثل YOLOv9 أو YOLOv9 المتطور YOLO11-يوفر مزايا مميزة للمطورين والشركات.
سير العمل السلس وسهولة الاستخدام
تعطي Ultralytics الأولوية لسهولة الاستخدام. يمكن الوصول إلى النماذج من خلال واجهة موحدة تلخص التعليمات البرمجية النمطية المعقدة. وسواء كنت تتدرب على بيانات مخصصة أو تقوم بالاستدلال، فإن العملية متسقة وبديهية.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
نظام بيئي جيد الصيانة
يتم دعم نماذج Ultralytics من خلال مجتمع نشط وتحديثات متكررة. ميزات مثل Ultralytics HUB لإدارة مجموعة البيانات والتدريب على شبكة الإنترنت، بينما تعمل عمليات التكامل الشاملة مع أدوات مثل TensorBoard و MLflow على تبسيط دورة حياة MLOps. في المقابل، غالباً ما تفتقر النماذج البحثية مثل YOLO إلى هذا المستوى من الدعم المستمر وتكامل الأدوات.
تعدد الاستخدامات والكفاءة
تم تصميم نماذج Ultralytics لتكون متعددة الاستخدامات. في حين أن نموذج YOLO خاص بالكشف، فإن نماذج Ultralytics مثل YOLO11 توسع من قدراتها لتشمل تجزئة النماذج وتقدير الوضعيات واكتشاف الصندوق المحيط الموجه (OBB). علاوةً على ذلك، تم تحسينها لتحقيق كفاءة الذاكرة، وغالبًا ما تتطلب ذاكرة CUDA أقل أثناء التدريب مقارنةً بالبنى الأخرى، مما يوفر تكاليف الأجهزة.
الخلاصة
في المقارنة بينYOLOv9 و YOLO يُظهر كلا النموذجين التقدم السريع في الذكاء الاصطناعي. يقدم YOLO بنية مقنعة لتحسين السرعة البحتة. ومع ذلك YOLOv9 هو الحل الأكثر قوة لمعظم التطبيقات العملية. فهو يوفر دقة فائقة لكل متغير، ويستخدم بنية متقدمة لمنع فقدان المعلومات، ويوجد داخل نظام Ultralytics البيئي المزدهر. بالنسبة للمطورين الذين يبحثون عن أفضل توازن بين الأداء وسهولة الاستخدام والدعم طويل الأجل، تظل نماذج Ultralytics الخيار الموصى به.
استكشف نماذج أخرى
اكتشف كيف تقارن النماذج الحديثة الأخرى في وثائقنا: