تخطي إلى المحتوى

YOLOv9 مقابل YOLOv7: نظرة متعمقة في تطور اكتشاف الأجسام

يتسم مشهد الرؤية الحاسوبية بالابتكار السريع، حيث تعيد الاختراقات المعمارية باستمرار تحديد حدود السرعة والدقة. ومن المعالم البارزة في هذه الرحلة نموذجا YOLOv9 و YOLOv7 وكلا النموذجين نابعان من أبحاث تشين-ياو وانغ وزملائه، ويمثلان جيلين مختلفين من عائلة "أنت تنظر مرة واحدة فقط".

بينما YOLOv7 معيارًا لاكتشاف الأجسام في الوقت الحقيقي عند إصداره في عام 2022, YOLOv9 في عام 2024 بآليات جديدة لمعالجة فقدان المعلومات في الشبكات العميقة. تستكشف هذه المقارنة المواصفات الفنية والاختلافات المعمارية والتطبيقات العملية لمساعدة المطورين على اختيار النموذج الأمثل لاحتياجاتهم.

مقاييس الأداء والكفاءة

يتجلى التطور من YOLOv7 إلى YOLOv9 بشكل أكبر في المفاضلة بين التكلفة الحسابية وأداء الكشف. يقدّم YOLOv9 مكاسب كبيرة في الكفاءة، مما يسمح له بتحقيق متوسط دقة أعلى بمتوسط دقة (mAP) بمعلمات أقل مقارنةً بسابقه.

على سبيل المثال، يحقق نموذج YOLOv9m نفس نسبة 51.4% mAPmAPval التي يحققها نموذج YOLOv7l، ولكنه يستخدم ما يقرب من نصف المعلمات (20.0 مليون مقابل 36.9 مليون) وعدد أقل بكثير من وحدات FLOP. هذه الكفاءة تجعل YOLOv9 جذابًا بشكل خاص لتطبيقات الذكاء الاصطناعي المتطورة حيث تكون موارد الأجهزة مقيدة.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9

YOLOv9: معلومات التدرج القابلة للبرمجة

يمثل YOLOv9 نقلة نوعية في كيفية تعامل الشبكات العصبية العميقة مع نقل البيانات عبر الطبقات. تم إصداره في أوائل عام 2024، وهو يستهدف على وجه التحديد مشكلة "عنق الزجاجة المعلوماتية"، حيث تُفقد البيانات أثناء مرورها عبر طبقات متعاقبة من الشبكة العميقة.

المؤلفون: تشين ياو وانغ، هونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية
التاريخ: 2024-02-21
Arxiv:2402.13616
GitHub:WongKinYiu/yolov9
المستندات:Ultralytics YOLOv9

الابتكار المعماري

الابتكار الأساسي في YOLOv9 هو إدخال معلومات التدرج القابلة للبرمجة (PGI). يوفر PGI إطار إشراف إضافي يضمن إعادة نشر التدرجات بشكل موثوق إلى الطبقات الأولية، مع الحفاظ على معلومات الإدخال الأساسية التي قد تُفقد أثناء استخراج الميزة.

تُعد شبكة تجميع الطبقات الفعالة المعممة (GELAN) مكملة لـ PGI. تسمح هذه البنية للمطوّرين بتكديس كتل حسابية مختلفة (مثل CSP أو ResBlocks) بمرونة، وتحسين أوزان النموذج لقيود أجهزة معينة دون التضحية بالدقة.

نقاط القوة والضعف

  • نقاط القوة:
    • دقة فائقة: يحقق أحدث النتائج على مجموعة بياناتCOCO حيث وصل نموذج YOLOv9 إلى mAP فائقة تصل إلى 55.6%.
    • كفاءة المعلمات: توفر أداءً مماثلاً للنماذج القديمة باستخدام عدد أقل بكثير من المعلمات، مما يقلل من متطلبات الذاكرة أثناء الاستدلال.
    • الحفاظ على المعلومات: تؤدي التحسينات النظرية في تدفق التدرج إلى تقارب أفضل وتمثيل أفضل للميزات.
  • نقاط الضعف:
    • تعقيد التدريب: يمكن للفروع الإضافية المستخدمة أثناء التدريب (والتي تمت إزالتها للاستدلال) أن تزيد من استخدام ذاكرةGPU أثناء مرحلة التدريب مقارنةً بالبنى الأبسط.

اعرف المزيد عن YOLOv9

YOLOv7: معيار حقيبة الهدايا المجانية

قبل YOLOv9YOLOv7 كان بطل عائلة YOLO . فقد أدخلت تحسينات معمارية ركزت على تحسين عملية التدريب دون زيادة تكاليف الاستدلال، وهو مفهوم يُعرف باسم "حقيبة الرغبات المجانية".

المؤلفون: تشين ياو وانغ، أليكسي بوشكوفسكي، هونغ يوان مارك لياو
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2022-07-06
Arxiv:2207.02696
GitHub:WongKinYiu/yolov7
Docs:Ultralytics YOLOv7

نظرة عامة على التصميم المعماري

قدم YOLOv7 شبكة تجميع الطبقات الموسعة الفعالة E-ELAN، والتي تتحكم في أقصر وأطول مسارات التدرج لتحسين قدرة الشبكة على التعلم. كما استخدمت أيضًا تقنيات توسيع النموذج التي تعدّل عمق الشبكة وعرضها في آنٍ واحد، مما يضمن بنية مثالية للأجهزة المستهدفة المختلفة.

نقاط القوة والضعف

  • نقاط القوة:
    • موثوقية مثبتة: استخدام المجتمع الواسع النطاق والتحقق من صلاحيته على مدار عدة سنوات يجعله خياراً مستقراً للأنظمة القديمة.
    • سرعة عالية: مُحسَّن خصيصًا للاستدلال في الوقت الحقيقي على أجهزة GPU القياسية.
  • نقاط الضعف:
    • كفاءة أقل: يتطلب المزيد من المعلمات وفلوبس أكثر لمطابقة مستويات الدقة التي توفرها النماذج الأحدث مثل YOLOv9 أو YOLO11 يمكن أن تحققها مع البنى الأخف وزنًا.
    • الأدوات القديمة: تفتقر إلى بعض عمليات التكامل الأصلية وميزات سهولة الاستخدام الموجودة في نظام Ultralytics البيئي الحديث.

اعرف المزيد عن YOLOv7

حالات الاستخدام والتطبيقات المثالية

يعتمد الاختيار بين هذين النموذجين غالبًا على القيود المحددة لبيئة النشر والدقة المطلوبة للمهمة.

متى تختار YOLOv9

YOLOv9 ممتاز للسيناريوهات التي تتطلب أعلى نسبة دقة إلى كفاءة.

  • الملاحة الذاتية القيادة: في السيارات ذاتية القيادة، يعد اكتشاف الأجسام الصغيرة على مسافات بعيدة أمراً بالغ الأهمية. تساعد قدرة YOLOv9 على حفظ المعلومات في التعرف على المخاطر البعيدة.
  • التصوير الطبي: بالنسبة لمهام مثل الكشف عن الأورام، حيث يكون فقدان الاكتشاف الإيجابي أمرًا بالغ الأهمية، فإن الاسترجاع والدقة العالية التي يتمتع بها YOLOv9 مفيدة.
  • الأجهزة المتطورة: في yolov9t يوفر المتغير حلًا قويًا لـ أجهزة إنترنت الأشياء مثل Raspberry Pis، مما يوفر دقة جيدة مع الحد الأدنى من النفقات الحسابية.

متى تختار YOLOv7

يظل YOLOv7 ملائمًا لخطوط الأنابيب الحالية التي تم تحسينها بالفعل لتناسب بنيتها.

  • الأنظمة القديمة: قد تفضل خطوط التصنيع الصناعية التي تحققت من صحة YOLOv7 لمراقبة الجودة الحفاظ على الاتساق بدلاً من الترقية الفورية.
  • خطوط الأساس البحثية: وهي بمثابة معيار ممتاز لمقارنة استراتيجيات الكشف الجديدة بالمعايير المعمول بها في البحث الأكاديمي.

توازن الأداء مع Ultralytics

على الرغم من قوة YOLOv9 و YOLOv7 يجب على المطورين الذين يبحثون عن التوازن المثالي بين السرعة والدقة وتجربة المطور أن يأخذوا في الاعتبار Ultralytics YOLO11. يدمج YOLO11 أفضل ميزات الأجيال السابقة مع واجهة برمجة تطبيقات مبسّطة، ويدعم الاكتشاف والتجزئة وتقدير الوضعية والتصنيف في إطار عمل واحد.

ميزة Ultralytics

يوفر استخدام هذه النماذج داخل نظامUltralytics مزايا واضحة مقارنةً باستخدام مستودعات البحث الخام. تلخص واجهة برمجة تطبيقات Ultralytics Python API التعليمات البرمجية النمطية المعقدة، مما يسمح للباحثين والمهندسين بالتركيز على البيانات والنتائج.

  1. سهولة الاستخدام: تسمح لك الواجهة الموحّدة بالتبديل بين YOLOv8 و YOLOv9 و YOLO11 بسطر واحد من التعليمات البرمجية.
  2. كفاءة التدريب: تم تحسين نماذج Ultralytics لتحقيق تقارب أسرع، وغالبًا ما تتطلب بيانات تدريب أقل للوصول إلى دقة عالية.
  3. متطلبات الذاكرة: صُمم إطار العمل لتقليل استخدام ذاكرةCUDA إلى الحد الأدنى، مما يتيح تدريب أحجام دفعات أكبر على أجهزة من فئة المستهلكين مقارنةً بنماذج المحولات ذات الذاكرة الثقيلة.
  4. تعدد الاستخدامات: بالإضافة إلى الصناديق المحدودة البسيطة، يدعم النظام البيئي تجزئة النماذج، وتقدير الوضع، ومهام الصندوق المحدود الموجه (OBB) ، مما يجعله أداة شاملة لتحديات الذكاء الاصطناعي المتنوعة.

مثال على التنفيذ

يعد تشغيل هذه النماذج أمرًا بسيطًا ومباشرًا باستخدام مكتبة Ultralytics . يوضح المقتطف البرمجي التالي كيفية تحميل نموذج مُدرَّب مسبقًا وتشغيل الاستدلال على صورة.

from ultralytics import YOLO

# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")

# Run inference on a local image
results = model.predict("path/to/image.jpg", save=True, conf=0.5)

# Process results
for result in results:
    result.show()  # Display predictions

أما بالنسبة للمهتمين بالتدريب على مجموعات البيانات المخصصة، فإن العملية بسيطة بنفس القدر، وذلك باستخدام استراتيجيات الضبط القوي للمعامل الفائق واستراتيجيات زيادة البيانات المضمنة في إطار العمل.

# Train the model on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640)

الخلاصة

يمثل كل من YOLOv9 و YOLOv7 إنجازات مهمة في مجال الرؤية الحاسوبية. YOLOv9 هو الوريث التقني الواضح، حيث يقدم كفاءة ودقة فائقة في المعلمات من خلال بنيتي PGI وGELAN المبتكرتين. إنه الخيار الموصى به للمستخدمين الذين يبحثون عن أداء عالٍ من سلالة أبحاث وانغ وآخرين المحددة.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن تجربة تطوير الذكاء الاصطناعي الأكثر شمولية, Ultralytics YOLO11 يظل أفضل ما يوصى به. يضمن لك YOLO11 بفضل صيانته النشطة ووثائقه الشاملة ودعمه الواسع للمهام متعددة الوسائط، أن تكون مشاريعك جاهزة للإنتاج في المستقبل.

استكشف نماذج أخرى

لتوسيع نطاق فهمك لمشهد اكتشاف الأجسام، فكّر في استكشاف هذه النماذج والمقارنات ذات الصلة:

  • YOLO11 مقابل YOLOv9 - قارن بين أحدث طراز Ultralytics و YOLOv9.
  • YOLOv8 مقابل YOLOv7 - شاهد كيف يتراكم الجيل السابق.
  • RT-DETR مقابل YOLOv9 - نظرة على الاكتشاف القائم على المحولات مقابل CNNs.
  • YOLOv10 - استكشف نموذج الكشف عن الكائنات في الوقت الفعلي من البداية إلى النهاية.
  • Ultralytics HUB - أسهل طريقة لتدريب نماذجك ونشرها.

تعليقات