YOLO26 مقابل YOLOv9: إطلاق الجيل القادم من الذكاء الاصطناعي للرؤية في الوقت الفعلي
مع تسارع وتيرة تطور مجال رؤية الكمبيوتر، يبحث المطورون والباحثون باستمرار عن نماذج توفر التوازن المثالي بين السرعة والدقة وسهولة النشر. يقارن هذا التحليل الفني YOLO26، أحدث عائلة نماذج موحدة من Ultralytics، مقابل YOLOv9، وهو نموذج مدفوع بالمجتمع يركز على معلومات التدرج القابلة للبرمجة. من خلال فحص بنيتها المعمارية ومقاييس الأداء وحالات الاستخدام المثالية، نهدف إلى توجيهك نحو أفضل حل لمشاريع التعلم الآلي الخاصة بك.
ملخص تنفيذي
بينما يدفع كلا النموذجين حدود اكتشاف الكائنات، يمثل YOLO26 قفزة كبيرة نحو جاهزية الإنتاج وتكامل النظام البيئي. فهو يقدم بنية معمارية شاملة (خالية من NMS) تبسط مسارات النشر بشكل كبير، ومُحسّن خصيصًا للأجهزة الطرفية مع استدلال أسرع بنسبة تصل إلى 43% على CPU. أما YOLOv9، الذي صدر في أوائل عام 2024، فقد قدم مفاهيم جديدة مثل معلومات التدرج القابلة للبرمجة (PGI) لتحسين استقرار التدريب ولكنه لا يزال كاشفًا تقليديًا يعتمد على المراسي ويتطلب NMS.
تحليل مفصل للنماذج
Ultralytics YOLO26
المؤلفون: Glenn Jocher و Jing Qiu
المنظمة:Ultralytics
التاريخ: 2026-01-14
الروابط:GitHub | Docs
تم تصميم YOLO26 ليس فقط كنموذج، بل كحل متكامل للنظام البيئي. فهو يتخلى عن المراسي التقليدية وقمع غير الأقصى (NMS) لصالح بنية معمارية مبسطة وشاملة. يزيل هذا الاختيار التصميمي زمن الاستجابة الذي غالبًا ما يكون مخفيًا في خطوات المعالجة اللاحقة، مما يجعله مثاليًا للتطبيقات في الوقت الفعلي مثل المركبات ذاتية القيادة والروبوتات.
تشمل الابتكارات المعمارية الرئيسية إزالة Distribution Focal Loss (DFL)، مما يبسط التصدير إلى تنسيقات مثل TensorRT و CoreML. يتم تعزيز استقرار التدريب بواسطة مُحسِّن MuSGD، وهو مزيج من SGD و Muon (مستوحى من Kimi K2 من Moonshot AI)، مما يجلب ابتكارات تدريب نماذج اللغة الكبيرة إلى مجال الرؤية. علاوة على ذلك، يؤدي إدخال ProgLoss و STAL (Soft-Target Anchor Loss) إلى تحسينات كبيرة في اكتشاف الكائنات الصغيرة، وهي قدرة حاسمة للتصوير الجوي وأجهزة إنترنت الأشياء.
YOLOv9
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: Institute of Information Science, Academia Sinica, Taiwan
التاريخ: 2024-02-21
الروابط:Arxiv | GitHub | Docs
يركز YOLOv9 على نظرية التعلم العميق، وبالتحديد يعالج مشكلة "عنق الزجاجة المعلوماتي" في الشبكات العميقة. مساهمته الأساسية هي معلومات التدرج القابلة للبرمجة (PGI)، والتي تساعد في الحفاظ على معلومات بيانات الإدخال أثناء مرورها عبر الطبقات العميقة، وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تتيح هذه الميزات لـ YOLOv9 تحقيق كفاءة مذهلة في المعلمات. ومع ذلك، كنموذج تقليدي يعتمد على المراسي، فإنه لا يزال يعتمد على NMS للتنبؤات النهائية، مما قد يعقد النشر على الأجهزة ذات الموارد المحدودة مقارنة بالحلول الشاملة.
مقارنة مقاييس الأداء
يسلط الجدول التالي الضوء على اختلافات الأداء على مجموعة بيانات التحقق COCO. يظهر YOLO26 كفاءة فائقة، خاصة في سرعة CPU، مع الحفاظ على دقة تنافسية أو متفوقة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
الاختلافات التقنية الرئيسية
1. البنية المعمارية وتدفق الاستدلال
تصميم YOLO26 الخالي من NMS يمثل نقلة نوعية. من خلال تدريب النموذج لإنتاج تنبؤات فردية بشكل أصلي، يصبح مسار الاستدلال تمريرًا أماميًا بسيطًا. يزيل هذا خطوة NMS الاستدلالية، والتي غالبًا ما يكون من الصعب تحسينها على أجهزة الذكاء الاصطناعي الطرفية مثل FPGAs أو NPUs. على النقيض، يعتمد YOLOv9 على منهجية التنبؤ ثم القمع التقليدية، والتي تتطلب ضبطًا دقيقًا لعتبات IoU وتضيف عبئًا حسابيًا أثناء الاستدلال.
2. استقرار التدريب والتقارب
يمثل مُحسِّن MuSGD في YOLO26 نهجًا حديثًا لديناميكيات التدريب. من خلال تهجين SGD مع Muon، يحقق YOLO26 تقاربًا مستقرًا أسرع من الأجيال السابقة. وهذا مفيد بشكل خاص عند التدريب على مجموعات بيانات مخصصة حيث يمكن أن يكون ضبط المعلمات الفائقة مكثفًا للموارد. يستخدم YOLOv9 PGI للمساعدة في الإشراف، وهو قوي نظريًا ولكنه يمكن أن يضيف تعقيدًا إلى الرسم البياني للتدريب واستخدام الذاكرة أثناء مرحلة الانتشار العكسي.
3. تحسين الحوسبة الطرفية ووحدة المعالجة المركزية (CPU)
إحدى الميزات البارزة في YOLO26 هي سرعة الاستدلال على CPU أسرع بنسبة تصل إلى 43%. تم تحقيق ذلك من خلال تحسين البنية المعمارية خصيصًا للأجهزة التي لا تحتوي على وحدات معالجة رسوميات (GPUs) قوية، مثل Raspberry Pis أو مثيلات السحابة الأساسية. يقلل إزالة DFL (Distribution Focal Loss) كذلك من العمليات الرياضية المطلوبة لكل رأس اكتشاف. YOLOv9، على الرغم من كفاءته في المعلمات عبر GELAN، لا يتميز بهذه التحسينات المحددة التي تركز على CPU، مما يجعل YOLO26 الفائز الواضح للنشر على الأجهزة الطرفية.
تصدير مبسط مع Ultralytics
يمكن تصدير نماذج YOLO26 إلى تنسيقات مثل ONNX و TensorRT و OpenVINO بأمر واحد، مع معالجة تلقائية للبنية الخالية من NMS لتحقيق تكامل سلس.
from ultralytics import YOLO
model = YOLO("yolo26n.pt")
model.export(format="onnx") # Exports directly without NMS plugins
النظام البيئي وسهولة الاستخدام
في نظام Ultralytics البيئي يمثل ميزة تنافسية هامة. يتكامل YOLO26 بالكامل في ultralytics حزمة python، مما يوفر واجهة برمجة تطبيقات (API) موحدة للتدريب والتحقق والنشر.
- البساطة: يمكن للمطورين التبديل بين مهام مثل تقدير الوضعية أو اكتشاف الكائنات الموجهة (obb) ببساطة عن طريق تغيير ملف وزن النموذج (على سبيل المثال،
yolo26n-pose.ptأوyolo26n-obb.pt). يُعد YOLOv9 في الأساس نموذجًا لاكتشاف الكائنات، مع دعم أصلي أقل لهذه المهام المتخصصة. - الدعم: توفر Ultralytics وثائق شاملة، ومنتدى مجتمعًا مزدهرًا، وخيارات دعم للمؤسسات. وهذا يضمن عدم توقف المطورين بسبب تفاصيل التنفيذ.
- التنوع: بالإضافة إلى اكتشاف الكائنات، يقدم YOLO26 تحسينات خاصة بالمهام مثل تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) للوضعية (Pose) وخسارة الزاوية المتخصصة لـ obb، مما يضمن دقة عالية عبر التطبيقات المتنوعة.
توصيات حالات الاستخدام
اختر YOLO26 إذا:
- أنت بحاجة إلى استدلال CPU الأسرع في فئته أو تقوم بالنشر على الأجهزة الطرفية (Raspberry Pi، Jetson Nano، الأجهزة المحمولة).
- يستفيد مسار عملك من الناتج الخالي من NMS، مما يبسط منطق المعالجة اللاحقة.
- أنت بحاجة إلى دعم لـ segmentation، أو تقدير الوضعية (pose estimation)، أو التصنيف ضمن إطار عمل موحد واحد.
- أنت تعطي الأولوية لبيئة عمل نشطة وموثقة جيدًا مع أدوات مثل Ultralytics Explorer لتحليل مجموعات البيانات.
- أنت تعمل على اكتشاف الكائنات الصغيرة، حيث يوفر ProgLoss + STAL ميزة قابلة للقياس.
اختر YOLOv9 إذا:
- أنت تجري بحثًا أكاديميًا تحديدًا في معلومات التدرج القابلة للبرمجة (Programmable Gradient Information) أو تقنيات الإشراف المساعدة.
- بنيتك التحتية القديمة مرتبطة ارتباطًا وثيقًا بمسارات عمل المعالجة اللاحقة القائمة على المراسي (anchors) والتي يصعب ترحيلها.
الخلاصة
بينما قدم YOLOv9 تطورات نظرية مهمة في عام 2024، فإن YOLO26 يصقل هذه المفاهيم ليقدم أداة قوية وجاهزة للإنتاج لعام 2026 وما بعده. بفضل تصميمه الشامل (end-to-end)، وتسريعات CPU الكبيرة، ودعمه القوي لمهام الرؤية المتعددة، يقدم YOLO26 حلاً أكثر تنوعًا ومقاومة للمستقبل لتطبيقات الذكاء الاصطناعي في العالم الحقيقي. سواء كنت تقوم ببناء بنية تحتية للمدن الذكية، أو أنظمة مراقبة زراعية، أو روبوتات متقدمة، يوفر YOLO26 الأداء والموثوقية اللازمين للنجاح.
للمهتمين باستكشاف النماذج السابقة الرائدة، توفر وثائق YOLO11 وYOLOv8 سياقًا إضافيًا حول تطور عائلة YOLO.