تخطي إلى المحتوى

YOLOv10 YOLOv9: تطوير الكشف عن الكائنات في الوقت الفعلي

شهد عام 2024 فترة من الابتكار السريع في مجال اكتشاف الأجسام ، مع إطلاق بنية أساسية مهمة: YOLOv10 و YOLOv9. في حين أن كلا النموذجين يهدفان إلى تخطي حدود السرعة والدقة، إلا أنهما يحققان ذلك من خلال فلسفات معمارية مختلفة جذريًا.

YOLOv10 على القضاء على زمن الاستدلال الناجم عن المعالجة اللاحقة من خلال تصميم NMS، بينما YOLOv9 الاحتفاظ بالمعلومات في الشبكات العميقة باستخدام معلومات التدرج القابلة للبرمجة (PGI).

مقارنة الأداء

يقدم الجدول التالي نظرة مفصلة على مقارنة هذه النماذج عبر المعايير القياسية. تسلط البيانات الضوء على المفاضلات بين كفاءة المعلمات وسرعة الاستدلال ودقة الكشف (mAP).

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

YOLOv10: الرائد الشامل

YOLOv10، الذي طوره باحثون في جامعة تسينغهوا، يمثل تحولًا نحو المعالجة الشاملة. تم إصداره في 23 مايو 2024 من قبل آو وانغ وهوي تشين وزملاؤهم، وهو يعالج مشكلة الاختناق في نظام Non-Maximum Suppression (NMS).

تعرف على المزيد حول YOLOv10

الميزات المعمارية الرئيسية

  • تدريبNMS: من خلال استخدام مهام مزدوجة متسقة، YOLOv10 الحاجة إلى NMS الاستدلال. وهذا يقلل من زمن الاستجابة ويبسط خطوط الإنتاج، خاصة بالنسبة لتطبيقات الحوسبة الطرفية.
  • تصميم كفاءة شامل: تعمل البنية على تحسين مختلف المكونات لتقليل الحمل الحسابي (FLOPs) مع الحفاظ على قدرة عالية.
  • تحسين زمن الاستجابة: كما هو موضح في الجدول، توفر YOLOv10 عمومًا أوقات استدلال أقل مقارنة YOLOv9 لنفس مستويات الدقة.

للحصول على التفاصيل الفنية، يمكنك الرجوع إلى ورقةYOLOv10 .

YOLOv9: إتقان تدفق المعلومات

YOLOv9، الذي تم إصداره في 21 فبراير 2024 من قبل Chien-Yao Wang و Hong-Yuan Mark Liao من Academia Sinica، يركز على القضية النظرية المتعلقة بفقدان المعلومات في الشبكات العصبية العميقة.

تعرف على المزيد حول YOLOv9

الميزات المعمارية الرئيسية

  • GELAN Architecture: تجمع شبكة التجميع الطبقي الفعالة المعممة بين نقاط قوة CSPNet و ELAN لتعظيم الاستفادة من المعلمات.
  • معلومات التدرج القابلة للبرمجة (PGI): تضمن آلية الإشراف الإضافية هذه احتفاظ الطبقات العميقة بالمعلومات الهامة من أجل الكشف الدقيق، مما يجعل النموذج فعالاً للغاية في المهام التي تتطلب دقة عالية.
  • دقة عالية: يحقق نموذج YOLOv9e معدلmAPval مثير للإعجاب يبلغ 55.6٪، متفوقًا على العديد من النماذج المعاصرة في دقة الكشف الخالصة.

لمزيد من التعمق، اقرأ ورقةYOLOv9 .

التدريب وسهولة الاستخدام

كلا النموذجين مدمجان بالكامل في Ultralytics مما يوفر تجربة موحدة وسلسة للمطورين. سواء كنت تستخدم YOLOv10 YOLOv9 فإن Ultralytics Python يبسط تعقيدات خطوط التدريب وزيادة البيانات والتسجيل.

مثال على التعليمات البرمجية

تدريب نموذج على مجموعة بيانات مخصصة أو معيار قياسي مثل COCO8 بسيط. يتعامل الإطار تلقائيًا مع الاختلافات في البنية.

from ultralytics import YOLO

# Load a model (Choose YOLOv10 or YOLOv9)
model = YOLO("yolov10n.pt")  # or "yolov9c.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

كفاءة الذاكرة

تم تصميمYOLO Ultralytics YOLO للاستخدام الأمثل GPU . مقارنة بالبنى القائمة على المحولات أو نماذج الكشف القديمة، تسمح هذه النماذج بأحجام دفعات أكبر على الأجهزة الاستهلاكية، مما يجعل أحدث تقنيات الذكاء الاصطناعي في متناول جمهور أوسع.

حالات الاستخدام المثالية

YOLOv9 يعتمد الاختيار بين YOLOv10 YOLOv9 على القيود المحددة لبيئة النشر الخاصة بك.

متى تختار YOLOv10

  • قيود زمن الاستجابة المنخفض: إذا كان تطبيقك يعمل على أجهزة محمولة أو أنظمة مدمجة حيث كل مللي ثانية مهمة، فإن تصميم YOLOv10 NMS YOLOv10 ميزة كبيرة.
  • نشر بسيط: إزالة خطوات المعالجة اللاحقة يبسط التصدير إلى تنسيقات مثل ONNX أو TensorRT، مما يقلل من مخاطر عدم توافق المشغل.
  • فيديو في الوقت الحقيقي: مثالي لإدارة حركة المرور أو خطوط الإنتاج عالية السرعة حيث الإنتاجية أمر بالغ الأهمية.

متى تختار YOLOv9

  • أقصى دقة: بالنسبة للتطبيقات البحثية أو السيناريوهات التي تتطلب دقة فائقة (مثل تحليل الصور الطبية)، توفر بنية YOLOv9e المحسّنة بواسطة PGI نتائج فائقة الجودة.
  • كشف الأجسام الصغيرة: إن الحفاظ على الميزات الغنية لـ GELAN يجعل YOLOv9 قويًا YOLOv9 في كشف الأجسام الصغيرة أو المحجوبة في الصور الجوية.
  • المشاهد المعقدة: في البيئات التي تتسم بفوضى بصرية عالية، تساعد معلومات التدرج القابلة للبرمجة النموذج على تمييز الميزات ذات الصلة بشكل أكثر فعالية.

المستقبل هنا: YOLO26

على الرغم من أن YOLOv9 YOLOv10 أدوات قوية YOLOv10 مجال الرؤية الحاسوبية يتطور بسرعة. أطلقت Ultralytics YOLO26، وهو نموذج يجمع بين أفضل ميزات الأجيال السابقة مع إدخال تحسينات رائدة.

تعرف على المزيد حول YOLO26

يُعد YOLO26 الخيار الموصى به للمشاريع الجديدة، حيث يوفر توازنًا فائقًا بين السرعة والدقة والتنوع.

لماذا الترقية إلى YOLO26؟

  • NMS من البداية إلى النهاية: مثل YOLOv10، YOLO26 هي خالية من NMS من البداية إلى النهاية. فهي تلغي الحاجة إلى NMS ، مما يضمن استنتاجًا أسرع وخطوط إنتاج مبسطة.
  • MuSGD Optimizer: مستوحى من الابتكارات في تدريب نموذج اللغة الكبيرة (LLM) (على وجه التحديد Moonshot AI's Kimi K2)، يستخدم YOLO26 مزيجًا من SGD سن Muon. وينتج عن ذلك تدريب أكثر استقرارًا وتقاربًا أسرع.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يعمل YOLO26 على تبسيط بنية النموذج، مما يجعله أكثر سهولة للتصدير ومتوافقًا مع مجموعة واسعة من الأجهزة المتطورة/منخفضة الطاقة.
  • قفزة في الأداء: تحسينات تستهدف بشكل خاص CPU توفر سرعات أعلى بنسبة تصل إلى 43% مقارنة بالأجيال السابقة، مما يجعلها قوة دافعة للذكاء الاصطناعي المتطور.
  • تنوع المهام: على عكس الإصدارات v9 و v10 التي تركز على الكشف، يتضمن YOLO26 تحسينات متخصصة لجميع المهام:
    • التجزئة: خسارة التجزئة الدلالية الجديدة وبروتو متعدد المقاييس.
    • الوضع: تقدير احتمالية السجل المتبقي (RLE) لنقاط مرجعية عالية الدقة.
    • OBB: زاوية فقدان متخصصة للتعامل مع مشكلات الحدود في مهام Oriented Bounding Box.

سير عمل مبسط مع Ultralytics

يمكن للمطورين الاستفادة من Ultralytics (المعروفة سابقًا باسم HUB) لإدارة دورة حياة نماذج YOLO26 بالكامل. بدءًا من تعليق مجموعات البيانات وحتى التدريب على السحابة ونشرها على الأجهزة الطرفية، توفر المنصة واجهة موحدة تعمل على تسريع وقت طرح المنتج في السوق.

الخلاصة

كلاهما YOLOv10 و YOLOv9 يمثلان معلمتين هامتين في تاريخ اكتشاف الأجسام. YOLOv10 أن البنى NMS يمكنها تحقيق أداء متطور، بينما YOLOv9 أهمية تدفق معلومات التدرج في الشبكات العميقة.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن الحل الأكثر قوة وتنوعًا وملاءمة للمستقبل، فإن YOLO26 يبرز كخيار متميز. من خلال الجمع بين تصميم NMS ومحسّن MuSGD الثوري ودعم المهام الشامل، يوفر YOLO26 أفضل توازن في الأداء لتطبيقات الرؤية الحاسوبية الحديثة.

  • YOLO11 - السلف القوي لـ YOLO26، المعروف باستقراره.
  • YOLOv8 - كلاسيكي متعدد الاستخدامات يستخدم على نطاق واسع في الصناعة.
  • RT-DETR - كاشف في الوقت الحقيقي يعتمد على محول.

تعليقات