YOLOv9 YOLO: مقارنة تقنية بين نماذج الكشف عن الكائنات

أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور مجموعة من البنى القوية المصممة خصيصًا لتلبية متطلبات الدقة وقيود النشر المختلفة. ومن أبرز المشاريع في هذا المجال YOLOv9، المشهورة بقدرتها القوية على التعامل مع اختناقات المعلومات، و YOLO التي تركز بشكل كبير على البحث عن البنية العصبية (NAS) والأهرامات الفعالة للميزات.

يقدم هذا الدليل مقارنة تقنية متعمقة بين YOLOv9 YOLO مع تسليط الضوء على الاختلافات في هندستهما ومنهجيات التدريب وسيناريوهات النشر المثالية. سنستكشف أيضًا كيف يوفر Ultralytics مسارًا سلسًا من التطوير إلى الإنتاج، ولماذا أصبحت النماذج الحديثة مثل YOLO26 هي المعيار الموصى به للمشاريع الجديدة.

نظرة معمارية متعمقة

إن فهم الآليات الأساسية التي تحرك كل نموذج يكشف عن سبب اختلاف أدائها عبر مختلف المقاييس.

YOLOv9: معلومات التدرج القابلة للبرمجة

YOLOv9 تصميم YOLOv9 لمعالجة فقدان المعلومات الذي يحدث أثناء تدفق البيانات عبر الشبكات العصبية العميقة.

المؤلفون: Chien-Yao Wang, Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 21 فبراير 2024
الروابط:Arxiv, GitHub, الوثائق

تعرف على المزيد حول YOLOv9

YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تضمن PGI الاحتفاظ بالمعلومات المكانية والدلالية الحيوية أثناء عملية التغذية الأمامية، مما يمنع تدهور التدرجات المستخدمة لتحديثات الوزن. تكمل شبكة GELAN ذلك من خلال تعظيم كفاءة المعلمات، مما يسمح للنموذج بتحقيق متوسط دقة متوسط (mAP) متطور باستخدام عدد أقل من عمليات FLOP مقارنة بالعديد من شبكات CNN التقليدية.

DAMO-YOLO: كفاءة مدفوعة بـ NAS

تم تطوير DAMO-YOLO بواسطة مجموعة Alibaba، ويتبع نهجًا مختلفًا، مستفيدًا من البحث المعماري الآلي لإيجاد التوازن الأمثل بين السرعة والدقة.

المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
المنظمة: مجموعة علي بابا
التاريخ: 23 نوفمبر 2022
الروابط:Arxiv, GitHub

تعرف على المزيد حول DAMO-YOLO

يعتمد DAMO-YOLO على عمود فقري MAE-NAS (المشفرات التلقائية المقنعة للبحث عن البنية العصبية) لتوليد هياكل شبكة فعالة تلقائيًا. ويستخدم RepGFPN (شبكة هرمية للميزات المعممة المعاد توسيطها) لدمج ميزات قوي وتصميم "ZeroHead" لتقليل العبء الحسابي لرأس الكشف. بالإضافة إلى ذلك، فإنه يدمج AlignedOTA لتخصيص التسميات وتقطير المعرفة لتعزيز أداء متغيراته الأصغر.

دور NAS في الرؤية الحاسوبية

يؤدي البحث في البنية العصبية (NAS) إلى أتمتة تصميم الشبكات العصبية الاصطناعية. وعلى الرغم من أنه يمكن أن ينتج نماذج عالية الكفاءة مثلYOLO إلا أنه غالبًا ما يتطلب موارد حاسوبية ضخمة للبحث في مساحة البنية، على عكس فلسفة التصميم الأكثر حتمية لنماذج مثل YOLOv9.

مقارنة الأداء والمقاييس

عند اختيار نموذج الكشف عن الكائنات، من الضروري تحقيق التوازن بين الدقة والسرعة والآثار الحسابية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

تحليل

الدقة مقابل المعلمات: يُظهر YOLOv9 عمومًا نسبة معلمات إلى دقة متفوقة. على سبيل المثال، يحقق YOLOv9c دقة mAP بنسبة 53.0% مع 25.3 مليون معلمة، بينما يحقق DAMO-YOLOl دقة mAP بنسبة 50.8% ولكنه يتطلب عددًا أكبر بكثير من المعلمات (42.1 مليون).
سرعة الاستدلال: توفر بنية DAMO-YOLO سرعات استدلال تنافسية باستخدام TensorRT على وحدات معالجة الرسوميات T4، متفوقة قليلاً على YOLOv9 في الفئات المتوسطة. ومع ذلك، فإن كفاءة YOLOv9 في عمليات FLOPs وعدد المعلمات تترجم إلى كفاءة استثنائية في ذاكرة GPU.
متطلبات الذاكرة: تُظهر نماذج Ultralytics YOLO، بما في ذلك YOLOv9، عادةً استهلاكًا أقل للذاكرة أثناء التدريب والاستدلال مقارنة بالنماذج المعقدة المولدة بواسطة NAS أو البنى المعمارية الثقيلة القائمة على المحولات (transformers)، مما يجعلها سهلة الوصول للغاية للنشر على أجهزة الحافة (edge hardware) ذات الموارد المحدودة.

ميزة النظام البيئي لـ Ultralytics

على الرغم من أهمية المقاييس النظرية، إلا أن التنفيذ العملي هو الذي يحدد نجاح المشروع بشكل كبير. وهنا تتفوق Ultralytics ونظامها البيئي الشامل للبرمجيات على المستودعات المستقلة مثلYOLO.

سهولة الاستخدام وكفاءة التدريب

يتطلب تدريب YOLOv9 المخصص الحد الأدنى من النصوص النمطية. تعمل Python Ultralytics Python على تجريد العمليات المعقدة مثل زيادة البيانات والتدريب الموزع وتحسين الأجهزة.

from ultralytics import YOLO

# Load a pretrained YOLOv9 model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate model performance
metrics = model.val()

# Export for production deployment
model.export(format="onnx")

على النقيض، غالبًا ما يتطلب استخدام DAMO-YOLO التعامل مع ملفات تكوين صارمة وسلاسل تبعية معقدة خاصة بخط أنابيب التدريب الفريد الخاص به، مما يؤدي إلى منحنى تعلم أكثر حدة.

تعدد الاستخدامات عبر المهام

من السمات المميزة لنماذج Ultralytics هو تنوعها المتأصل. بالإضافة إلى اكتشاف مربعات الإحاطة القياسية، يدعم إطار عمل Ultralytics بسلاسة مهام مثل تجزئة الكائنات، وتقدير الوضعيات، وتصنيف الصور، واكتشاف مربعات الإحاطة الموجهة (OBB). تم تحسين DAMO-YOLO بدقة لاكتشاف الكائنات ثنائية الأبعاد، مما يتطلب إعادة هندسة كبيرة للتكيف مع النماذج المرئية الأخرى.

التصدير إلى الأجهزة الطرفية

Ultralytics عملية النشر من خلال توفير إمكانية تصدير النماذج بنقرة واحدة إلى تنسيقات مثل TensorRTو OpenVINOو CoreML ، مما يضمن أقصى أداء بغض النظر عن الأجهزة المستهدفة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv9 و DAMO-YOLO على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv9

YOLOv9 خيار قوي لـ:

أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.

متى تختار DAMO-YOLO

يوصى بـ DAMO-YOLO لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

المستقبل: الانتقال إلى YOLO26

في حينYOLO YOLOv9 YOLO معالم تاريخية قوية، فقد تحولت الرؤية الحاسوبية الحديثة نحو البنى الأصلية الشاملة. بالنسبة لأي تطور جديد، YOLO26 هو المعيار الموصى به.

صدر YOLO26 في عام 2026، وهو يعتمد على نجاحات سابقيه، ويقدم قفزة نوعية في الدقة وسهولة النشر.

ابتكارات YOLO26 الرئيسية

تصميم شامل خالٍ من NMS: يلغي YOLO26 المعالجة اللاحقة لقمع غير الأقصى (NMS) بالكامل. وهذا يخلق مسار نشر مبسطاً وشاملاً بطبيعته، وهو إنجاز تم تقديمه لأول مرة في YOLOv10.
إزالة DFL: تمت إزالة خسارة التركيز التوزيعي لتصدير مبسط وتوافق أفضل مع الأجهزة الطرفية/منخفضة الطاقة.
سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%: عن طريق إزالة المعالجة اللاحقة المعقدة وتحسين الالتفافات الأساسية، يعد YOLO26 مناسبًا بشكل فريد لسيناريوهات الحوسبة الطرفية التي تفتقر إلى GPUs مخصصة.
مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة (LLM)، يستخدم YOLO26 هجينًا من SGD و Muon (MuSGD) لضمان تشغيل تدريب أكثر استقرارًا وأوقات تقارب أسرع بشكل ملحوظ.
ProgLoss + STAL: توفر دوال الخسارة المتقدمة هذه تحسينات رائعة في التعرف على الكائنات الصغيرة، مما يجعل YOLO26 مثاليًا للصور الجوية عالية الارتفاع وأجهزة إنترنت الأشياء.

إذا كنت تبحث حاليًا عن YOLO11 أو YOLOv8 لمشروعك القادم، فإن الترقية إلى YOLO26 تضمن لك استخدام إطار عمل الذكاء الاصطناعي للرؤية الأكثر تحسينًا وتطورًا المتاح حاليًا.

ملخص

يعتمد اختيار النموذج الصحيح على قيودك التشغيلية المحددة:

DAMO-YOLO يقدم لمحة رائعة عن التحسين المدفوع بـ NAS، موفراً سرعات تنافسية لملفات تعريف أجهزة محددة للغاية حيث تتألق بنيته المعمارية RepGFPN.
YOLOv9 هو خيار ممتاز للباحثين الذين يركزون على الاحتفاظ بالتفاصيل البصرية الدقيقة، مستفيدين من بنيته القائمة على PGI لمنع فقدان المعلومات في الشبكات العميقة.
Ultralytics YOLO26 تعتبر الخيار الأمثل لتطبيقات المؤسسات والأبحاث الحديثة. سهولة استخدامها التي لا مثيل لها، وبنيتها الخالية من NMS، وتحسينات تدريب MuSGD المتطورة تجعلها النموذج الأكثر موثوقية ودقة وسهولة في النشر في مجال رؤية الكمبيوتر.