YOLOv9 YOLO26: تطور الكشف عن الكائنات في الوقت الفعلي
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار بنية النموذج المناسب أمرًا بالغ الأهمية لتحقيق التوازن بين الأداء والكفاءة وسهولة النشر. تستكشف هذه المقارنة الاختلافات التقنية بين YOLOv9، وهو نموذج قوي تم طرحه في أوائل عام 2024، و YOLO26، وهو أحدث إصدار متطور من Ultralytics في يناير 2026. في حين أن كلا النموذجين يمثلان معالم بارزة في YOLO إلا أنهما يلبيان احتياجات مختلفة فيما يتعلق بالسرعة واستقرار التدريب وتعقيد النشر.
نظرة عامة على النموذج ومؤلفه
فهم نسب هذه البنى يوفر سياقًا لفلسفات تصميمها.
YOLOv9: معلومات التدرج القابلة للبرمجة
المؤلفون: Chien-Yao Wang، Hong-Yuan Mark Liao
المنظمة:معهد علوم المعلومات، أكاديمية سينكا
التاريخ: 2024-02-21
الروابط:ورقة Arxiv | مستودع GitHub
YOLOv9 مفهوم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). عالجت هذه الابتكارات مشكلة "اختناق المعلومات" في الشبكات العصبية العميقة، حيث تضيع البيانات أثناء مرورها عبر الطبقات المتتالية. يضمن PGI الحفاظ على معلومات الميزات الهامة في جميع أنحاء الشبكة العميقة، مما يسمح بإجراء عمليات كشف عالية الدقة، لا سيما في المشاهد المعقدة.
YOLO26: المتخصص في الحافة من طرف إلى طرف
المؤلفون: جلين جوشر، جينغ تشيو
المنظمة:Ultralytics
التاريخ: 2026-01-14
الروابط:الوثائق الرسمية | مستودع GitHub
بناءً على إرث YOLOv8 و YOLO11، يمثل YOLO26 تحولًا نحو النشر المبسط عالي السرعة. وهو NMS من البداية إلى النهاية، مما يلغي الحاجة إلى المعالجة اللاحقة لـ Non-Maximum Suppression. هذا الاختيار التصميمي، إلى جانب إزالة Distribution Focal Loss (DFL)، يجعل YOLO26 سريعًا بشكل استثنائي على CPU الحافة. كما أنه رائد في استخدام مُحسِّن MuSGD، وهو مزيج من SGD Muon (مستوحى من تدريب LLM)، لضمان تقارب مستقر.
مقارنة الأداء والمقاييس
يُقارن الجدول التالي أداء النماذج القياسية على مجموعة بيانات COCO . لاحظ الميزة الكبيرة لـ YOLO26 من حيث السرعة على CPU وهي نتيجة لتحسين هندستها المعمارية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تحليل الأداء
يُظهر YOLO26 ميزة واضحة في زمن الاستجابة وكفاءة الحوسبة. على سبيل المثال، يحقق YOLO26n معدل mAP أعلى mAP 40.9٪) من YOLOv9t (38.3٪) مع استخدام عدد أقل بكثير من FLOPs (5.4 مليار مقابل 7.7 مليار). هذه الكفاءة مهمة للغاية للتطبيقات التي تعمل على أجهزة حافة الشبكة التي تعمل بالبطارية.
نظرة معمارية متعمقة
بنية YOLOv9
YOLOv9 على الاحتفاظ بتدفق المعلومات. يجمع العمود الفقري GELAN بين نقاط القوة في CSPNet (تخطيط مسار التدرج) و ELAN (سرعة الاستدلال) لإنشاء مستخرج ميزات خفيف الوزن ولكنه قوي. يوفر الفرع المساعد PGI معلومات تدرج موثوقة أثناء التدريب للطبقات الأعمق، والتي يتم إزالتها بعد ذلك أثناء الاستدلال للحفاظ على خفة وزن النموذج.
- المزايا: دقة استثنائية في المعايير الصعبة؛ احتفاظ ممتاز بالمعلومات للمشاهد المعقدة.
- العيوب: يتطلب NMS ؛ قد يكون تعديل البنية معقدًا للمهام غير القياسية؛ حمل حسابي أثقل للحصول على إنتاجية مكافئة مقارنة بالأجيال الأحدث.
هندسة YOLO26 المعمارية
يولي YOLO26 الأولوية لسرعة الاستدلال وبساطة النشر.
- تصميمNMS: من خلال تدريب النموذج على التنبؤ بالمطابقات الفردية بشكل أصلي، يزيل YOLO26 NMS الاستدلالية. وهذا يقلل من تقلب زمن الاستجابة ويبسط TensorRT حيث لم تعد NMS الفعالة تعتمد على ذلك.
- MuSGD Optimizer: مستوحى من Kimi K2 من Moonshot AI، يجمع هذا المحسن SGD زخم SGD والخصائص التكيفية لمحسن Muon. وهذا يوفر استقرارًا في تدريب نماذج اللغة الكبيرة (LLM) للرؤية الحاسوبية.
- ProgLoss + STAL: أدى إدخال Progressive Loss و Soft-Target Assignment Loss (STAL) إلى تعزيز اكتشاف الأجسام الصغيرة بشكل كبير، وهو أحد نقاط الضعف الشائعة في أجهزة الكشف الخالية من المراسي.
التدريب والنظام البيئي
تختلف تجربة المطورين بشكل كبير بين النموذجين، ويرجع ذلك إلى حد كبير إلى النظم البيئية للبرمجيات التي يستخدمونها.
سهولة الاستخدام مع Ultralytics
بينما YOLOv9 دمج YOLOv9 في Ultralytics فإن YOLO26 هو جزء أصيل منه. وهذا يضمن الدعم من اليوم الأول لجميع الميزات، بما في ذلك:
- واجهة برمجة تطبيقات موحدة: التبديل بين المهام مثل تقدير الوضع أو مربعات الإحاطة الموجهة (OBB) ببساطة عن طريق تغيير ملف وزن النموذج (على سبيل المثال،
yolo26n-pose.pt). - Ultralytics : قم بتحميل مجموعات البيانات بسلاسة، وأضف تعليقات باستخدام مساعدات الذكاء الاصطناعي، وقم بالتدريب في السحابة باستخدام Ultralytics .
- مرونة التصدير: دعم أصلي للتصدير بنقرة واحدة إلى تنسيقات مثل CoreML لنظام iOS و TFLite Android و OpenVINO Intel .
from ultralytics import YOLO
# Load the latest YOLO26 model
model = YOLO("yolo26n.pt")
# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export to ONNX for simplified deployment (no NMS plugin needed)
path = model.export(format="onnx")
كفاءة الذاكرة والموارد
عادةً ما يتطلب YOLO26 GPU أقل أثناء التدريب مقارنةً بهيكل YOLOv9 ثنائي الفروع (PGI). وهذا يتيح للباحثين استخدام أحجام دفعات أكبر على أجهزة المستهلكين مثل NVIDIA 3060 أو 4090، مما يسرع دورة التجارب.
حالات الاستخدام في العالم الحقيقي
متى تختار YOLOv9
YOLOv9 منافسًا قويًا في السيناريوهات التي تكون فيها الدقة القصوى في المعايير الثابتة هي الأولوية الوحيدة، والموارد الحاسوبية وفيرة.
- البحث الأكاديمي: دراسة نظرية اختناق المعلومات وتدفق التدرج في الشبكات العصبية العميقة.
- المعالجة من جانب الخادم: GPU عالية الطاقة تحلل لقطات الفيديو المؤرشفة حيث يكون التأخير في الوقت الفعلي أقل أهمية.
متى تختار YOLO26
YOLO26 هو الخيار الموصى به لبيئات الإنتاج والحوسبة المتطورة.
- الأنظمة المدمجة: إن CPU الأسرع بنسبة تصل إلى 43٪ يجعلها مثالية لنشر Raspberry Pi أو NVIDIA في مجال الروبوتات.
- التحليلات في الوقت الفعلي: يضمن التصميم NMS زمن انتقال حتمي، وهو أمر بالغ الأهمية لأنظمة القيادة الذاتية والسلامة.
- تطبيقات متعددة الوسائط: بفضل الدعم الأصلي لتقسيم الحالات والوضعيات، فإنه يعمل كعمود فقري متعدد الاستخدامات لعمليات معقدة مثل تحليل السلوك البشري في مجال البيع بالتجزئة أو الرياضة.
الخلاصة
بينما YOLOv9 مفاهيم نظرية رائدة مع PGI، فإن YOLO26 يعمل على صقل هذه الدروس في حزمة عملية وعالية الأداء. إن بنيته الشاملة، وإزالة معوقات المعالجة اللاحقة، وتكامله مع Ultralytics القوي يجعله الخيار الأفضل للمطورين الذين يعملون على بناء الجيل التالي من تطبيقات الذكاء الاصطناعي.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف خيارات أخرى، ففكر في الاطلاع على YOLO11، سلف YOLO26، أو YOLOv10، الذي كان رائدًا في نهج NMS.