YOLOv9 YOLOv10: دراسة تقنية متعمقة لتطور اكتشاف الكائنات في الوقت الفعلي
شهد مجال الرؤية الحاسوبية في الوقت الفعلي تطورات هائلة، مدفوعة إلى حد كبير بالباحثين الذين يواصلون دفع حدود الأداء والكفاءة. عند تحليل تطور نماذج الرؤية الحديثة، YOLOv9 و YOLOv10 يمثلان معلمتين هامتين. تم إصدار كلا النموذجين في أوائل عام 2024، وقد أدخل كل منهما تصميمات معمارية غيرت النموذج السائد لمعالجة التحديات طويلة الأمد في الشبكات العصبية العميقة، من اختناقات المعلومات إلى زمن الاستجابة بعد المعالجة.
تستكشف هذه المقارنة التقنية الشاملة هياكلها ومقاييس أدائها وسيناريوهات النشر المثالية، مما يساعدك على التعامل مع تعقيدات أنظمة الكشف عن الكائنات الحديثة.
أصول النموذج والإنجازات المعمارية
إن فهم نسب هذه النماذج وأسسها النظرية أمر بالغ الأهمية لاختيار البنية المناسبة لمشروع الرؤية الحاسوبية الخاص بك.
YOLOv9: إتقان تدفق المعلومات
تم طرح YOLOv9 في 21 فبراير 2024، YOLOv9 المشكلة النظرية المتمثلة في فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- المرجع:ورقةYOLOv9
- المستودع:YOLOv9
YOLOv9 شبكة التجميع العاملة بكفاءة (GELAN)، والتي تعمل على تعظيم استخدام المعلمات من خلال الجمع بين نقاط القوة في CSPNet و ELAN. علاوة على ذلك، فإنه يستخدم معلومات التدرج القابلة للبرمجة (PGI)، وهي آلية إشراف مساعدة تضمن احتفاظ الطبقات العميقة بالمعلومات المكانية الهامة. وهذا يجعل YOLOv9 قويًا YOLOv9 في المهام التي تتطلب دقة عالية في الميزات، مثل تحليل الصور الطبية أو المراقبة عن بعد.
YOLOv10: كفاءة شاملة في الوقت الفعلي
تم إصدار YOLOv10 بعد ذلك بوقت قصير في 23 مايو 2024، YOLOv10 خط أنابيب النشر من خلال القضاء على أحد أكثر معوقات الكمون شهرة في اكتشاف الكائنات: Non-Maximum Suppression (NMS).
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المؤسسة:جامعة تسينغ - هوا
- المرجع:ورقةYOLOv10
- المستودع:YOLOv10
YOLOv10 مهام مزدوجة متسقة أثناء التدريب، مما يسمح بتصميمNMS بشكل أصلي. وهذا يزيل عبء المعالجة اللاحقة أثناء الاستدلال، مما يقلل بشكل كبير من زمن الاستجابة. بالاقتران مع تصميم نموذج شامل مدفوع بالكفاءة والدقة، YOLOv10 توازنًا رائعًا، حيث يقلل من عبء الحوسبة (FLOPs) مع الحفاظ على دقة تنافسية، مما يجعله جذابًا للغاية لتطبيقات الحوسبة المتطورة.
مقارنة الأداء والمقاييس
عند مقارنة هذين المحركين القويين على COCO MS COCO القياسية، تظهر مفاضلات واضحة بين الدقة الخالصة وزمن الاستدلال.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
تحليل البيانات
- الكمون مقابل الدقة: توفر YOLOv10 عمومًا سرعات استدلال فائقة. على سبيل المثال، تحقق YOLOv10s 46.7% mAP 2.66 مللي ثانية فقط على TensorRT مقارنةً بـ YOLOv9s التي تتطلب 3.54 مللي ثانية لتحقيق 46.8% mAP تقريبًا.
- دقة عالية المستوى: بالنسبة لسيناريوهات البحث التي تتطلب أقصى دقة في الكشف، يظل YOLOv9e خيارًا رائعًا، حيث يصل إلى معدل mAP مثير للإعجاب يبلغ 55.6٪. تضمن بنية PGI الخاصة به استخراج الميزات الدقيقة بشكل موثوق.
- الكفاءة: YOLOv10 في كفاءة FLOPs. وهذا يترجم مباشرة إلى انخفاض استهلاك الطاقة، وهو مقياس مهم للأجهزة التي تعمل بالبطاريات وتشغل نماذج الذكاء الاصطناعي للرؤية.
نصيحة حول النشر
إذا كنت تقوم بالنشر على وحدات المعالجة المركزية أو أجهزة حافة محدودة الموارد مثل Raspberry Pi، فإن بنية YOLOv10 NMS ستوفر عادةً خط أنابيب أكثر سلاسة من خلال القضاء على خطوات المعالجة اللاحقة غير الحتمية.
Ultralytics : التدريب والنظام البيئي
في حين أن الاختلافات المعمارية مهمة للغاية، فإن النظام البيئي للبرمجيات المحيطة يؤثر بشكل كبير على نجاح المشروع. YOLOv10 دمج كل من YOLOv9 YOLOv10 بشكل كامل في Ultralytics مما يوفر تجربة مطورين لا مثيل لها.
سهولة الاستخدام وكفاءة الذاكرة
على عكس البنى المعقدة القائمة على المحولات التي تعاني من تضخم هائل في الذاكرة، تم تصميمYOLO Ultralytics YOLO للاستخدام الأمثل GPU . وهذا يتيح للباحثين استخدام أحجام دفعات أكبر على الأجهزة الاستهلاكية، مما يجعل أحدث تقنيات الذكاء الاصطناعي في متناول الجميع.
تقوم Python الموحدة بتجريد تعقيدات زيادة البيانات وضبط المعلمات الفائقة. يمكنك التبديل بسلاسة بين البنى ببساطة عن طريق تغيير سلسلة ملف الوزن.
from ultralytics import YOLO
# Load a YOLOv10 model (Easily swap to "yolov9c.pt" for YOLOv9)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device=0)
# Validate the model's performance
metrics = model.val()
# Export the trained model to ONNX format for deployment
model.export(format="onnx")
سواء كنت بحاجة إلى تسجيل المقاييس في MLflow أو تصديرها إلى TensorRT من أجل نشر الأجهزة عالية السرعة، فإن Ultralytics تتعامل مع ذلك بشكل أصلي.
حالات الاستخدام المثالية
يعتمد الاختيار بين هذه النماذج على قيود النشر لديك:
- اختر YOLOv9 : كنت تعمل على مهام الكشف عن الأجسام الصغيرة، مثل الصور الجوية الملتقطة بواسطة طائرات بدون طيار أو الكشف عن الأورام الصغيرة، حيث توفر ميزة الاحتفاظ بالخصائص في بنية GELAN أعلى دقة.
- اختر YOLOv10 : كان هدفك الأساسي هو الاستدلال في الوقت الفعلي على الأجهزة الطرفية. التصميم NMS يجعله مثاليًا للروبوتات المستقلة ومراقبة حركة المرور في الوقت الفعلي والمراقبة الذكية.
الاستعداد للمستقبل: التحول إلى YOLO26
على الرغم من أن YOLOv8 و YOLOv9 و YOLOv10 نماذج ممتازة، إلا أن المطورين الذين يسعون إلى بناء حلول حديثة للذكاء الاصطناعي يجب أن يأخذوا في الاعتبار Ultralytics ، الذي تم إصداره في يناير 2026.
يمثل YOLO26 التوليفة النهائية للأجيال السابقة، حيث يجمع بين أفضل جوانب دقة YOLOv9 وكفاءة YOLOv10.
ابتكارات YOLO26 الرئيسية
- تصميم NMS من البداية إلى النهاية: بناءً على الأسس التي أرساها YOLOv10، يلغي YOLO26 بشكل أساسي NMS من أجل نشر أبسط.
- MuSGD Optimizer: مزيج من SGD Muon، يجلب ابتكارات متقدمة في تدريب LLM إلى الرؤية الحاسوبية من أجل تقارب مستقر وسريع بشكل لا يصدق.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن خصيصًا للحوسبة الطرفية والأجهزة التي لا تحتوي على وحدات معالجة رسومات مخصصة.
- إزالة DFL: تمت إزالة Distribution Focal Loss لتبسيط تصدير النموذج وتعزيز توافق الأجهزة منخفضة الطاقة.
- ProgLoss + STAL: توفر وظائف الخسارة المحسّنة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، حيث تضاهي أو تتفوق على قدرات YOLOv9.
للباحثين الذين يقومون بتقييم البنى القديمة، RT-DETR و YOLO11 أيضًا بدائل موثقة جيدًا ضمن Ultralytics . ومع ذلك، للحصول على أقصى قدر من التنوع في جميع مهام الرؤية، يضمن الانتقال إلى YOLO26 على Ultralytics الاستفادة من قمة الذكاء الاصطناعي المفتوح المصدر للرؤية.