تخطي إلى المحتوى

YOLOv9 YOLO: مقارنة تقنية بين نماذج الكشف عن الكائنات

أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور مجموعة من البنى القوية المصممة خصيصًا لتلبية متطلبات الدقة وقيود النشر المختلفة. ومن أبرز المشاريع في هذا المجال YOLOv9، المشهورة بقدرتها القوية على التعامل مع اختناقات المعلومات، و YOLO التي تركز بشكل كبير على البحث عن البنية العصبية (NAS) والأهرامات الفعالة للميزات.

يقدم هذا الدليل مقارنة تقنية متعمقة بين YOLOv9 YOLO مع تسليط الضوء على الاختلافات في هندستهما ومنهجيات التدريب وسيناريوهات النشر المثالية. سنستكشف أيضًا كيف يوفر Ultralytics مسارًا سلسًا من التطوير إلى الإنتاج، ولماذا أصبحت النماذج الحديثة مثل YOLO26 هي المعيار الموصى به للمشاريع الجديدة.

نظرة معمارية متعمقة

إن فهم الآليات الأساسية التي تحرك كل نموذج يكشف عن سبب اختلاف أدائها عبر مختلف المقاييس.

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9 تصميم YOLOv9 لمعالجة فقدان المعلومات الذي يحدث أثناء تدفق البيانات عبر الشبكات العصبية العميقة.

المؤلفون: Chien-Yao Wang، Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينكا، تايوان
التاريخ: 21 فبراير 2024
الروابط:Arxiv، GitHub، Docs

تعرف على المزيد حول YOLOv9

YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تضمن PGI الاحتفاظ بالمعلومات المكانية والدلالية الحيوية أثناء عملية التغذية الأمامية، مما يمنع تدهور التدرجات المستخدمة لتحديثات الوزن. تكمل شبكة GELAN ذلك من خلال تعظيم كفاءة المعلمات، مما يسمح للنموذج بتحقيق متوسط دقة متوسط (mAP) متطور باستخدام عدد أقل من عمليات FLOP مقارنة بالعديد من شبكات CNN التقليدية.

DAMO-YOLO: كفاءة مدفوعة بـ NAS

تم تطويرYOLO بواسطة Alibaba Group،YOLO نهجًا مختلفًا، حيث يستفيد من البحث المعماري الآلي لإيجاد التوازن الأمثل بين السرعة والدقة.

المؤلفون: Xianzhe Xu، Yiqi Jiang، Weihua Chen، Yilun Huang، Yuan Zhang، و Xiuyu Sun
المنظمة: Alibaba Group
التاريخ: 23 نوفمبر 2022
الروابط:Arxiv، GitHub

تعرف على المزيد حول DAMO-YOLO

YOLO على هيكل MAE-NAS (مشفر تلقائي مقنع للبحث عن البنية العصبية) لتوليد هياكل شبكات فعالة تلقائيًا. ويستخدم RepGFPN (شبكة هرمية عامة معاد تقييمها) لدمج الميزات القوية وتصميم "ZeroHead" لتقليل العبء الحسابي لرأس الكشف. بالإضافة إلى ذلك، يدمج AlignedOTA لتعيين التسميات وتقطير المعرفة لتعزيز أداء متغيراته الأصغر.

دور NAS في الرؤية الحاسوبية

يؤدي البحث في البنية العصبية (NAS) إلى أتمتة تصميم الشبكات العصبية الاصطناعية. وعلى الرغم من أنه يمكن أن ينتج نماذج عالية الكفاءة مثلYOLO إلا أنه غالبًا ما يتطلب موارد حاسوبية ضخمة للبحث في مساحة البنية، على عكس فلسفة التصميم الأكثر حتمية لنماذج مثل YOLOv9.

مقارنة الأداء والمقاييس

عند اختيار نموذج الكشف عن الكائنات، من الضروري تحقيق التوازن بين الدقة والسرعة والآثار الحسابية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3

تحليل

  • الدقة مقابل المعلمات: يُظهر YOLOv9 نسبة معلمات إلى دقة فائقة. على سبيل المثال، يحقق YOLOv9c 53.0٪ mAP 25.3 مليون معلمة، بينما يحقق DAMO-YOLOl 50.8٪ mAP يتطلب عددًا أكبر بكثير من المعلمات (42.1 مليون).
  • سرعة الاستدلال: توفر بنيةYOLO سرعات TensorRT تنافسية على وحدات معالجة الرسومات T4، متفوقة قليلاً على YOLOv9 المستويات المتوسطة. ومع ذلك، فإن كفاءة YOLOv9 في FLOPs وعدد المعلمات تترجم إلى كفاءة استثنائية GPU .
  • متطلبات الذاكرة: عادةً ما تتميزYOLO بما في ذلك YOLOv9 باستخدام أقل للذاكرة أثناء التدريب والاستدلال مقارنةً بالنماذج المعقدة التي تم إنشاؤها بواسطة NAS أو بنى المحولات الثقيلة، مما يجعلها سهلة الاستخدام للغاية للنشر على أجهزة الحافة المحدودة.

ميزة النظام البيئي لـ Ultralytics

على الرغم من أهمية المقاييس النظرية، إلا أن التنفيذ العملي هو الذي يحدد نجاح المشروع بشكل كبير. وهنا تتفوق Ultralytics ونظامها البيئي الشامل للبرمجيات على المستودعات المستقلة مثلYOLO.

سهولة الاستخدام وكفاءة التدريب

يتطلب تدريب YOLOv9 المخصص الحد الأدنى من النصوص النمطية. تعمل Python Ultralytics Python على تجريد العمليات المعقدة مثل زيادة البيانات والتدريب الموزع وتحسين الأجهزة.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

على العكس من ذلك،YOLO يتطلب استخدامYOLO التنقل بين ملفات التكوين الصارمة وسلاسل التبعية المعقدة الخاصة بخط أنابيب التدريب الفريد الخاص به، مما يؤدي إلى منحنى تعلم أكثر حدة.

تعدد الاستخدامات عبر المهام

من السمات المميزة Ultralytics تنوعها المتأصل. بالإضافة إلى الكشف القياسي عن المربعات المحيطة، يدعم Ultralytics بسلاسة مهام مثل تقسيم الحالات وتقدير الوضع وتصنيف الصور والكشف عن المربعات المحيطة الموجهة (OBB).YOLO تحسينYOLO بشكل صارم للكشف عن الكائنات ثنائية الأبعاد، مما يتطلب إعادة هندسة كبيرة للتكيف مع النماذج البصرية الأخرى.

التصدير إلى الأجهزة الطرفية

Ultralytics عملية النشر من خلال توفير إمكانية تصدير النماذج بنقرة واحدة إلى تنسيقات مثل TensorRTو OpenVINOو CoreML ، مما يضمن أقصى أداء بغض النظر عن الأجهزة المستهدفة.

حالات الاستخدام والتوصيات

YOLO الاختيار بين YOLOv9 YOLO على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv9

YOLOv9 خيار قوي لـ:

  • أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.

متى تختار DAMO-YOLO

YOLO في الحالات التالية:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

المستقبل: الانتقال إلى YOLO26

في حينYOLO YOLOv9 YOLO معالم تاريخية قوية، فقد تحولت الرؤية الحاسوبية الحديثة نحو البنى الأصلية الشاملة. بالنسبة لأي تطور جديد، YOLO26 هو المعيار الموصى به.

صدر YOLO26 في عام 2026، وهو يعتمد على نجاحات سابقيه، ويقدم قفزة نوعية في الدقة وسهولة النشر.

ابتكارات YOLO26 الرئيسية

  • تصميم شامل NMS: يزيل YOLO26 معالجة ما بعد Non-Maximum Suppression (NMS) بالكامل. وهذا يخلق خط أنابيب نشر مبسطًا وشاملًا بشكل أساسي، وهو إنجاز رائد تم تحقيقه لأول مرة في YOLOv10.
  • إزالة DFL: تمت إزالة فقدان بؤرة التوزيع لتبسيط التصدير وتحسين التوافق مع الأجهزة ذات الحواف/الطاقة المنخفضة.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة المعالجة اللاحقة المعقدة وتحسين التلافيف الأساسية، يعد YOLO26 مناسبًا بشكل فريد لسيناريوهات الحوسبة المتطورة التي تفتقر إلى وحدات معالجة رسومات مخصصة.
  • MuSGD Optimizer: مستوحى من ابتكارات تدريب LLM، يستخدم YOLO26 مزيجًا من SGD Muon (MuSGD) لضمان عمليات تدريب أكثر استقرارًا وأوقات تقارب أسرع بشكل ملحوظ.
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يجعل YOLO26 مثاليًا للصور الجوية عالية الارتفاع وأجهزة إنترنت الأشياء.

إذا كنت تبحث حاليًا عن YOLO11 أو YOLOv8 لمشروعك القادم، فإن الترقية إلى YOLO26 تضمن لك استخدام إطار عمل الذكاء الاصطناعي للرؤية الأكثر تحسينًا وتطورًا المتاح حاليًا.

ملخص

يعتمد اختيار النموذج المناسب على القيود التشغيلية الخاصة بك:

  • يقدم YOLO نظرة رائعة على التحسين المدعوم بـ NAS، حيث يوفر سرعات تنافسية لملفات تعريف الأجهزة المحددة للغاية التي تبرز فيها بنية RepGFPN.
  • YOLOv9 هو خيار ممتاز للباحثين الذين يركزون على الاحتفاظ بالتفاصيل البصرية الدقيقة، حيث يستفيد من بنية PGI لمنع فقدان المعلومات في الشبكات العميقة.
  • يعد Ultralytics الخيار الأمثل للتطبيقات الحديثة في مجال الأعمال والبحوث. فسهولة استخدامه التي لا مثيل لها، وبنيته NMS، وتحسينات التدريب MuSGD المتطورة تجعله النموذج الأكثر موثوقية ودقة وسهولة في النشر في مجال الرؤية الحاسوبية.

تعليقات