YOLOv9 YOLOv10: دراسة تقنية متعمقة لتطور اكتشاف الكائنات في الوقت الفعلي

شهد مجال الرؤية الحاسوبية في الوقت الفعلي تطورات هائلة، مدفوعة إلى حد كبير بالباحثين الذين يواصلون دفع حدود الأداء والكفاءة. عند تحليل تطور نماذج الرؤية الحديثة، YOLOv9 و YOLOv10 يمثلان معلمتين هامتين. تم إصدار كلا النموذجين في أوائل عام 2024، وقد أدخل كل منهما تصميمات معمارية غيرت النموذج السائد لمعالجة التحديات طويلة الأمد في الشبكات العصبية العميقة، من اختناقات المعلومات إلى زمن الاستجابة بعد المعالجة.

تستكشف هذه المقارنة التقنية الشاملة هياكلها ومقاييس أدائها وسيناريوهات النشر المثالية، مما يساعدك على التعامل مع تعقيدات أنظمة الكشف عن الكائنات الحديثة.

أصول النموذج والإنجازات المعمارية

إن فهم نسب هذه النماذج وأسسها النظرية أمر بالغ الأهمية لاختيار البنية المناسبة لمشروع الرؤية الحاسوبية الخاص بك.

YOLOv9: إتقان تدفق المعلومات

تم طرح YOLOv9 في 21 فبراير 2024، YOLOv9 المشكلة النظرية المتمثلة في فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
المرجع:ورقة YOLOv9 arXiv البحثية
المستودع:YOLOv9 GitHub

YOLOv9 شبكة التجميع العاملة بكفاءة (GELAN)، والتي تعمل على تعظيم استخدام المعلمات من خلال الجمع بين نقاط القوة في CSPNet و ELAN. علاوة على ذلك، فإنه يستخدم معلومات التدرج القابلة للبرمجة (PGI)، وهي آلية إشراف مساعدة تضمن احتفاظ الطبقات العميقة بالمعلومات المكانية الهامة. وهذا يجعل YOLOv9 قويًا YOLOv9 في المهام التي تتطلب دقة عالية في الميزات، مثل تحليل الصور الطبية أو المراقبة عن بعد.

تعرف على المزيد حول YOLOv9

YOLOv10: كفاءة شاملة في الوقت الفعلي

تم إصدار YOLOv10 بعد ذلك بوقت قصير في 23 مايو 2024، YOLOv10 خط أنابيب النشر من خلال القضاء على أحد أكثر معوقات الكمون شهرة في اكتشاف الكائنات: Non-Maximum Suppression (NMS).

المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
المؤسسة:جامعة تسينغ - هوا
المرجع:ورقة YOLOv10 arXiv البحثية
المستودع:YOLOv10

YOLOv10 مهام مزدوجة متسقة أثناء التدريب، مما يسمح بتصميمNMS بشكل أصلي. وهذا يزيل عبء المعالجة اللاحقة أثناء الاستدلال، مما يقلل بشكل كبير من زمن الاستجابة. بالاقتران مع تصميم نموذج شامل مدفوع بالكفاءة والدقة، YOLOv10 توازنًا رائعًا، حيث يقلل من عبء الحوسبة (FLOPs) مع الحفاظ على دقة تنافسية، مما يجعله جذابًا للغاية لتطبيقات الحوسبة المتطورة.

تعرف على المزيد حول YOLOv10

مقارنة الأداء والمقاييس

عند مقارنة هذين المحركين القويين على COCO MS COCO القياسية، تظهر مفاضلات واضحة بين الدقة الخالصة وزمن الاستدلال.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

YOLOv10n	640	39.5	-	1.56	2.3	6.7
YOLOv10s	640	46.7	-	2.66	7.2	21.6
YOLOv10m	640	51.3	-	5.48	15.4	59.1
YOLOv10b	640	52.7	-	6.54	24.4	92.0
YOLOv10l	640	53.3	-	8.33	29.5	120.3
YOLOv10x	640	54.4	-	12.2	56.9	160.4

تحليل البيانات

زمن الاستجابة مقابل الدقة: تقدم نماذج YOLOv10 عمومًا سرعات استدلال فائقة. على سبيل المثال، يحقق YOLOv10s نسبة mAP تبلغ 46.7% في 2.66 مللي ثانية فقط على TensorRT، مقارنةً بـ YOLOv9s الذي يتطلب 3.54 مللي ثانية لتحقيق نسبة mAP متطابقة تقريبًا تبلغ 46.8%.
دقة من الدرجة الأولى: لسيناريوهات البحث التي تتطلب أقصى دقة في detect، يظل YOLOv9e خيارًا هائلاً، حيث يصل إلى 55.6% mAP مثير للإعجاب. تضمن بنيته PGI استخلاص الميزات الدقيقة بشكل موثوق.
الكفاءة: يتفوق YOLOv10 في كفاءة FLOPs. يترجم هذا مباشرة إلى استهلاك أقل للطاقة، وهو مقياس حاسم للأجهزة التي تعمل بالبطارية وتشغل نماذج الذكاء الاصطناعي للرؤية.

نصيحة حول النشر

إذا كنت تقوم بالنشر على وحدات المعالجة المركزية أو أجهزة حافة محدودة الموارد مثل Raspberry Pi، فإن بنية YOLOv10 NMS ستوفر عادةً خط أنابيب أكثر سلاسة من خلال القضاء على خطوات المعالجة اللاحقة غير الحتمية.

Ultralytics : التدريب والنظام البيئي

في حين أن الاختلافات المعمارية مهمة للغاية، فإن النظام البيئي للبرمجيات المحيطة يؤثر بشكل كبير على نجاح المشروع. YOLOv10 دمج كل من YOLOv9 YOLOv10 بشكل كامل في Ultralytics مما يوفر تجربة مطورين لا مثيل لها.

سهولة الاستخدام وكفاءة الذاكرة

على عكس البنى المعقدة القائمة على المحولات التي تعاني من تضخم هائل في الذاكرة، تم تصميمYOLO Ultralytics YOLO للاستخدام الأمثل GPU . وهذا يتيح للباحثين استخدام أحجام دفعات أكبر على الأجهزة الاستهلاكية، مما يجعل أحدث تقنيات الذكاء الاصطناعي في متناول الجميع.

تقوم Python الموحدة بتجريد تعقيدات زيادة البيانات وضبط المعلمات الفائقة. يمكنك التبديل بسلاسة بين البنى ببساطة عن طريق تغيير سلسلة ملف الوزن.

from ultralytics import YOLO

# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)

# Validate the model's performance
metrics = model.val()

# Export the trained model to ONNX format for deployment
model.export(format="onnx")

سواء كنت بحاجة إلى تسجيل المقاييس في MLflow أو تصديرها إلى TensorRT من أجل نشر الأجهزة عالية السرعة، فإن Ultralytics تتعامل مع ذلك بشكل أصلي.

حالات الاستخدام المثالية

يعتمد الاختيار بين هذه النماذج على قيود النشر الخاصة بك:

اختر YOLOv9 إذا: كنت تعمل على مهام detect الكائنات الصغيرة، مثل صور الطائرات بدون طيار الجوية أو detect الأورام الصغيرة، حيث يوفر احتفاظ معمارية GELAN بالميزات أعلى دقة.
اختر YOLOv10 إذا: كان هدفك الأساسي هو الاستدلال في الوقت الفعلي على الأجهزة الطرفية. التصميم الخالي من NMS يجعله مثاليًا للروبوتات المستقلة، ومراقبة حركة المرور في الوقت الفعلي، والمراقبة الذكية.

الاستعداد للمستقبل: التحول إلى YOLO26

على الرغم من أن YOLOv8 و YOLOv9 و YOLOv10 نماذج ممتازة، إلا أن المطورين الذين يسعون إلى بناء حلول حديثة للذكاء الاصطناعي يجب أن يأخذوا في الاعتبار Ultralytics ، الذي تم إصداره في يناير 2026.

يمثل YOLO26 التوليفة النهائية للأجيال السابقة، حيث يجمع بين أفضل جوانب دقة YOLOv9 وكفاءة YOLOv10.

ابتكارات YOLO26 الرئيسية

تصميم خالٍ من NMS وشامل: استنادًا إلى الأسس التي وضعها YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل طبيعي لنشر أبسط.
مُحسِّن MuSGD: هجين من SGD و Muon، يجلب ابتكارات تدريب نماذج اللغة الكبيرة (LLM) المتقدمة إلى الرؤية الحاسوبية لتقارب مستقر وسريع بشكل لا يصدق.
استدلال أسرع على CPU بنسبة تصل إلى 43%: مُحسّن خصيصًا للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات GPU مخصصة.
إزالة DFL: تمت إزالة خسارة التركيز التوزيعي لتبسيط تصدير النموذج وتعزيز توافق الأجهزة منخفضة الطاقة.
ProgLoss + STAL: تحقق دوال الخسارة المحسّنة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، مما يضاهي أو يتجاوز قدرات YOLOv9.

للباحثين الذين يقومون بتقييم البنى القديمة، RT-DETR و YOLO11 أيضًا بدائل موثقة جيدًا ضمن Ultralytics . ومع ذلك، للحصول على أقصى قدر من التنوع في جميع مهام الرؤية، يضمن الانتقال إلى YOLO26 على Ultralytics الاستفادة من قمة الذكاء الاصطناعي المفتوح المصدر للرؤية.