YOLO26 مقابل YOLOv9: التطور القادم في اكتشاف الكائنات في الوقت الفعلي
يتقدم مشهد الرؤية الحاسوبية بسرعة، مع معماريات جديدة تدفع باستمرار حدود السرعة والدقة. في هذه المقارنة التقنية، ندرس الاختلافات بين YOLO26 وYOLOv9، وهما نموذجان مؤثران للغاية في مجال اكتشاف الكائنات في الوقت الفعلي. بينما يقدم كلا النموذجين ابتكارات معمارية متميزة، فإن فهم مقايضات الأداء الخاصة بهما، وقدرات النشر، ومتطلبات الأجهزة أمر بالغ الأهمية لاختيار الأداة المناسبة لمشروع الرؤية التالي الخاص بك.
YOLO26: القوة المحسنة للحافة (Edge)
أُصدر Ultralytics YOLO26 في أوائل عام 2026، ويمثل قفزة جيلية في كفاءة النشر واستقرار تدريب النماذج. صُمم ليكون إطار عمل أصلي متكامل (end-to-end)، وهو يعالج مباشرة اختناقات النشر التي لطالما عانت منها تطبيقات الذكاء الاصطناعي على الحافة (Edge AI).
تفاصيل النموذج:
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمة: Ultralytics
- التاريخ: 2026-01-14
- GitHub: مستودع Ultralytics
- التوثيق: توثيق YOLO26
الهيكلية والابتكارات
يعيد YOLO26 تصميم خط معالجة البيانات اللاحقة بشكل جذري من خلال تقديم تصميم متكامل (End-to-End) لا يحتاج إلى NMS. من خلال القضاء على الحاجة إلى NMS (قمع غير الحد الأقصى)، يحقق النموذج تباينًا أقل بكثير في زمن الاستجابة (Latency). هذا يجعل النشر على منصات الهاتف المحمول والحافة أسهل بكثير، خاصة عند التصدير إلى أطر عمل مثل ONNX وApple CoreML.
بالإضافة إلى ذلك، فإن إزالة DFL (توزيع خسارة التركيز) يبسط عملية التصدير ويعزز التوافق مع وحدات التحكم الدقيقة منخفضة الطاقة. لتحسين استقرار التدريب، يدمج YOLO26 محسن MuSGD Optimizer الجديد، وهو هجين من SGD (النزول المتدرج العشوائي) وMuon (مستوحى من ابتكارات في تدريب نماذج اللغات الكبيرة). يؤدي هذا إلى تقارب أسرع واستخراج ميزات أكثر قوة عبر مجموعات البيانات الصعبة.
بفضل التبسيطات المعمارية وإزالة DFL، يحقق YOLO26 سرعة استدلال على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43%، مما يجعله الخيار المثالي لأجهزة الحافة ذات الموارد المحدودة مثل Raspberry Pi أو NVIDIA Jetson Nano.
لاكتشاف العناصر الصعبة للغاية في مشاهد مثل صور الطائرات بدون طيار الجوية، يستخدم YOLO26 وظائف الخسارة المحدثة ProgLoss + STAL. توفر هذه تحسينات ملحوظة في استرجاع التعرف على الكائنات الصغيرة. علاوة على ذلك، فهو يتميز بتحسينات خاصة بالمهام، بما في ذلك multi-scale proto لـ تجزئة الكائنات، وRLE (تقدير احتمالية السجل المتبقي) لـ تقدير الوضع، وخسارة الزاوية المتخصصة لاكتشاف صناديق التحديد الموجهة (OBB).
YOLOv9: معلومات التدرج القابلة للبرمجة
تم تقديمه في أوائل عام 2024، وجلب YOLOv9 تطورات نظرية للطريقة التي تتعامل بها الشبكات العصبية مع تدفق التدرج خلال مرحلة التدريب، مع التركيز على كفاءة المعلمات والاحتفاظ بالميزات العميقة.
تفاصيل النموذج:
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2024-02-21
- Arxiv: ورقة بحث YOLOv9
- GitHub: مستودع YOLOv9
- التوثيق: توثيق YOLOv9
الهيكلية ونقاط القوة
بُني YOLOv9 حول مفهوم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تعالج هذه المفاهيم مشكلة عنق زجاجة المعلومات التي غالبًا ما تُلاحظ في الشبكات العصبية العميقة. من خلال الحفاظ على المعلومات الأساسية خلال عملية التغذية الأمامية، تضمن GELAN أن تدرجات الوزن المستخدمة تظل موثوقة. توفر هذه المعمارية دقة عالية وتجعل YOLOv9 مرشحًا قويًا للبحث الأكاديمي في نظرية الشبكة العصبية وتحسين مسار التدرج باستخدام إطار عمل PyTorch.
القيود
على الرغم من كفاءة المعلمات الممتازة، يعتمد YOLOv9 بشكل كبير على NMS التقليدي لمعالجة صناديق التحديد اللاحقة، مما قد يخلق اختناقات حسابية أثناء الاستدلال على أجهزة الحافة. علاوة على ذلك، يركز المستودع الرسمي بشكل كبير على اكتشاف الكائنات، مما يتطلب هندسة مخصصة كبيرة لتكييفه مع مهام متخصصة مثل التتبع أو تقدير الوضع.
مقارنة الأداء
عند تقييم هذه النماذج للنشر في العالم الحقيقي، فإن موازنة الدقة (mAP)، وسرعة الاستدلال، واستهلاك الذاكرة أمر بالغ الأهمية. تشتهر نماذج Ultralytics بمتطلبات الذاكرة المنخفضة أثناء التدريب والاستدلال، وتتطلب ذاكرة CUDA أقل بكثير من البدائل القائمة على المحولات مثل RT-DETR.
فيما يلي مقارنة مباشرة لأداء YOLO26 و YOLOv9 على مجموعة بيانات COCO. يتم تمييز أفضل القيم في كل عمود بـ الخط العريض.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
ملاحظة: تم حذف سرعات وحدة المعالجة المركزية لـ YOLOv9 لأنها تختلف بشكل كبير بناءً على إعدادات NMS وهي عمومًا أبطأ من تنفيذ YOLO26 الأصلي الخالي من NMS.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLO26 و YOLOv9 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLO26
يعتبر YOLO26 خياراً قوياً لـ:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
متى تختار YOLOv9
يُوصى بـ YOLOv9 لـ:
- أبحاث عنق زجاجة المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- قياس أداء الاكتشاف عالي الدقة: السيناريوهات التي تحتاج فيها إلى أداء قياس COCO القوي لـ YOLOv9 كنقطة مرجعية للمقارنات المعمارية.
ميزة Ultralytics
يتضمن اختيار النموذج أكثر من مجرد قراءة مقياس الدقة؛ النظام البيئي للبرمجيات المحيط يحدد مدى السرعة التي يمكنك الانتقال بها من جمع البيانات إلى الإنتاج.
سهولة الاستخدام والنظام البيئي
يوفر Ultralytics Python API تجربة سلسة "من الصفر إلى الاحتراف". بدلاً من استنساخ مستودعات معقدة أو تكوين نصوص تدريب موزعة يدويًا، يمكن للمطورين تثبيت الحزمة عبر pip والبدء في التدريب على الفور. يضمن نظام Ultralytics البيئي المدار بنشاط تحديثات متكررة، وتكاملات آلية مع منصات تعلم الآلة مثل Weights & Biases، وتوثيقًا شاملًا.
تعدد الاستخدامات عبر مهام الرؤية
بينما يعد YOLOv9 محرك اكتشاف في المقام الأول، فإن YOLO26 هو أداة رؤية للأغراض العامة. باستخدام بناء جملة موحد واحد، يمكنك بسهولة الانتقال من اكتشاف الكائنات إلى تجزئة الصور بدقة البكسل أو تصنيف الصورة الكاملة. يقلل هذا التنوع من الديون التقنية لصيانة قواعد بيانات برمجية متعددة ومنفصلة لميزات رؤية حاسوبية مختلفة.
كفاءة التدريب والنشر
كفاءة التدريب هي حجر الزاوية في فلسفة Ultralytics. يستخدم YOLO26 أوزانًا مدربة مسبقًا متاحة بسهولة ويفتخر باستهلاك أقل بكثير للذاكرة مقارنة بمحولات الرؤية الضخمة. بمجرد التدريب، تسمح خطوط أنابيب التصدير المدمجة بتحويلات بنقرة واحدة إلى تنسيقات محسنة مثل TensorRT أو TensorFlow Lite، مما يمهد الطريق للإنتاج.
مثال كود: البدء مع YOLO26
تنفيذ YOLO26 مباشر للغاية. يوضح مقتطف Python التالي كيفية تحميل نموذج مدرب مسبقًا، وتدريبه على بيانات مخصصة، وتشغيل الاستدلال باستخدام Ultralytics API.
from ultralytics import YOLO
# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
data="coco8.yaml",
epochs=100,
imgsz=640,
device=0, # Uses GPU 0, or use 'cpu' for CPU training
)
# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Display the bounding boxes and confidences
predictions[0].show()من خلال الاستفادة من السرعة، والمعمارية المبسطة، والنظام البيئي القوي لـ YOLO26، يمكن للفرق طرح تطبيقات رؤية ذكاء اصطناعي متقدمة في السوق بشكل أسرع ومع عقبات تقنية أقل من أي وقت مضى.