تخطي إلى المحتوى

YOLOv9 YOLOv7: استكشاف تطور أحدث تقنيات الكشف عن الأجسام

في مجال الرؤية الحاسوبية سريع التطور، من الضروري البقاء على اطلاع بأحدث البنى الهندسية من أجل بناء تطبيقات فعالة ودقيقة. تتعمق هذه المقارنة في اثنين من المعالم الهامة في سلسلة YOLO You Only Look Once): YOLOv9، الذي تم طرحه في أوائل عام 2024 مع تقنيات جديدة لتحسين التدرج، و YOLOv7، الذي كان معيارًا للكشف في الوقت الفعلي في عام 2022. وقد شكّل كلا النموذجين مشهد الكشف عن الأشياء، حيث يقدمان مزايا فريدة للباحثين والمطورين على حد سواء.

معيار الأداء

يوضح الجدول التالي مقاييس أداء YOLOv9 YOLOv7 COCO . في حين أن YOLOv7 معايير عالية للسرعة والدقة في عام 2022، YOLOv9 تحسينات معمارية تدفع هذه الحدود إلى أبعد من ذلك، لا سيما في كفاءة المعلمات.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9 تحولًا في كيفية إدارة بنى التعلم العميق لتدفق المعلومات. تم إصداره في فبراير 2024 بواسطة Chien-Yao Wang و Hong-Yuan Mark Liao، وهو يعالج مشكلة "اختناق المعلومات" حيث يتم فقدان البيانات أثناء مرورها عبر الطبقات العميقة.

الابتكارات المعمارية الرئيسية

الابتكار الأساسي في YOLOv9 PGI (معلومات التدرج القابلة للبرمجة). يوفر PGI إطار عمل إشرافي إضافي يضمن احتفاظ الفرع الرئيسي بمعلومات الميزات الهامة طوال عملية التدريب. ويكمل ذلك بنية GELAN (شبكة تجميع الطبقات الفعالة المعممة) ، التي تعمل على تحسين استخدام المعلمات بما يتجاوز الطرق السابقة مثل CSPNet.

تعرف على المزيد حول YOLOv9

YOLOv7: مجموعة التحسينات القابلة للتدريب

YOLOv7 تصميم YOLOv7 ليكون أسرع وأدق كاشف للأجسام في الوقت الفعلي عند إصداره في يوليو 2022. وقد أدخل عدة طرق تحسين "bag-of-freebies" التي تعمل على تحسين الدقة دون زيادة تكلفة الاستدلال.

الابتكارات المعمارية الرئيسية

YOLOv7 على E-ELAN (شبكة تجميع الطبقات الفعالة الموسعة)، والتي تسمح للشبكة بتعلم ميزات أكثر تنوعًا من خلال التحكم في أقصر وأطول مسارات التدرج. كما كان رائدًا في تقنيات قياس النماذج التي تضبط العمق والعرض في وقت واحد، مما يجعلها قابلة للتكيف بدرجة عالية مع قيود الأجهزة المختلفة.

تعرف على المزيد حول YOLOv7

تحليل مقارن: البنية وحالات الاستخدام

الدقة والحفاظ على الميزات

يتفوق YOLOv9 على YOLOv7 السيناريوهات التي تتطلب اكتشاف كائنات صغيرة أو محجوبة. يضمن إطار عمل PGI عدم تخفيف التدرجات، وهو أمر مفيد بشكل خاص لتحليل الصور الطبية حيث يمكن أن يكون فقدان أي شذوذ صغير أمرًا بالغ الأهمية. YOLOv7 خيارًا قويًا للاكتشاف العام، ولكنه قد يواجه صعوبة أكبر قليلاً في حالات الازدحام الشديد للمعلومات في الشبكات العميقة جدًا.

سرعة الاستدلال وكفاءته

في حين أن كلا النموذجين مصممان للتطبيقات في الوقت الفعلي، YOLOv9 توازنًا أفضل بين المعلمات والدقة. على سبيل المثال، يحقق YOLOv9c دقة مماثلة لـ YOLOv7x ولكن بمعلمات أقل بكثير (25.3 مليون مقابل 71.3 مليون) وعمليات FLOPs. وهذا يجعل YOLOv9 ملاءمة للنشر على الأجهزة التي يكون فيها عرض النطاق الترددي للذاكرة مقيدًا، مثل كاميرات AI المتطورة.

مرونة النشر

تشتهر Ultralytics بقابليتها للنقل. YOLOv7 تصدير كل من YOLOv9 YOLOv7 بسهولة إلى تنسيقات مثل ONNX و TensorRT باستخدامPython Ultralytics Python مما يسهل الانتقال من مرحلة البحث إلى مرحلة الإنتاج.

كفاءة التدريب

تتمثل إحدى المزايا الرئيسية Ultralytics في تحسين استخدام الذاكرة أثناء التدريب. يستفيد YOLOv9 المدمج أصلاً في Ultralytics من محملات البيانات الفعالة وإدارة الذاكرة. وهذا يتيح للمطورين تدريب نماذج تنافسية على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين (مثل RTX 3060 أو 4070) دون التعرض لأخطاء نفاد الذاكرة (OOM) الشائعة في البنى الثقيلة المحولات أو المستودعات غير المُحسّنة.

تطبيقات عملية في أرض الواقع

غالبًا ما يعتمد الاختيار بين هذه النماذج على بيئة النشر المحددة.

  • المركبات ذاتية القيادة:YOLOv7 تم اختبارها بشكل مكثف في سيناريوهات القيادة الذاتية ، مما أثبت موثوقيتها في اكتشاف المشاة وإشارات المرور بمعدلات إطارات عالية.
  • التصوير الطبي:YOLOv9 يتميز في التصوير الطبي، مثل الكشف عن الأورام أو الكسور، حيث يكون الحفاظ على التفاصيل الدقيقة من خلال الطبقات العميقة أمرًا بالغ الأهمية.
  • تحليلات البيع بالتجزئة: لإدارة المخزون،YOLOv9 بدقة عالية في عد العناصر المكدسة بكثافة على الرفوف، مستفيدًا من قدراته الفائقة في دمج الميزات.
  • المدن الذكية: أنظمة مراقبة حركة المرور تستفيد من YOLOv7المثبتة من حيث الاستقرار والسرعة، وهي عوامل أساسية لإدارة حركة المرور في الوقت الفعلي.

ميزة Ultralytics

يوفر استخدام أي من النموذجين ضمن Ultralytics مزايا واضحة مقارنة بالتطبيقات المستقلة:

  1. سهولة الاستخدام: تتيح لك واجهة برمجة التطبيقات الموحدة التبديل بين YOLOv7 و YOLOv9 والنماذج الأحدث بسطر واحد من التعليمات البرمجية.
  2. نظام بيئي جيد الصيانة: يضمن الدعم النشط من المجتمع والتحديثات المتكررة التوافق مع أحدث إصدارات PyTorchCUDA .
  3. تعدد الاستخدامات: بالإضافة إلى الكشف، يدعم Ultralytics مهام تقسيم الحالات وتقدير الوضع ومهام الصندوق المحدد الموجه (OBB) ، مما يتيح لك توسيع نطاق مشروعك دون الحاجة إلى تعلم أدوات جديدة.

مثال على الكود: التدريب باستخدام Ultralytics

تدريب أي من النموذجين يتم بسلاسة. فيما يلي كيفية تدريب YOLOv9 على مجموعة بيانات مخصصة:

from ultralytics import YOLO

# Load a model (YOLOv9c or YOLOv7)
model = YOLO("yolov9c.pt")  # or "yolov7.pt"

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model
model.val()

الاستعداد للمستقبل مع YOLO26

في حين أن YOLOv9 YOLOv7 أدوات قوية، فإن هذا المجال يتطور بسرعة. يمثل أحدث إصدار YOLO26، الذي تم طرحه في يناير 2026، أحدث ما توصلت إليه تقنية الرؤية الحاسوبية.

يتميز YOLO26 بتصميم أصلي شامل NMS مما يزيل زمن انتقال المعالجة اللاحقة لتنفيذ أبسط. ويزيل Distribution Focal Loss (DFL) لتحسين التوافق مع الحواف ويقدم مُحسّن MuSGD— وهو مزيج من SGD Muon مستوحى من تدريب LLM — لتحقيق استقرار غير مسبوق. بفضل وظائف الخسارة المتخصصة مثل ProgLoss + STAL، يحسن YOLO26 بشكل كبير التعرف على الأجسام الصغيرة، مما يجعله الخيار الموصى به للتطبيقات الجديدة عالية الأداء.

تعرف على المزيد حول YOLO26

بالنسبة لأولئك الذين يستكشفون خيارات أخرى، فإن طرز مثل YOLO11 و RT-DETR مزايا فريدة لحالات استخدام محددة ضمن Ultralytics .


تعليقات