YOLOv9 YOLO26: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
شهد مجال الكشف عن الأجسام في الوقت الفعلي تطوراً كبيراً خلال السنوات القليلة الماضية. ونظراً لأن ممارسي التعلم الآلي يسعون إلى نشر النماذج عبر مجموعة متنوعة من الأجهزة، فإن اختيار البنية المناسبة أمر بالغ الأهمية. في هذا الدليل التقني الشامل، نقارن بين معلمتين رئيسيتين في مجال الرؤية الحاسوبية: YOLOv9، الذي تم طرحه في أوائل عام 2024 مع التركيز على تحسينات مسار التدرج، و Ultralytics ، أحدث إطار عمل متطور تم إصداره في أوائل عام 2026 والذي يعيد تعريف الاستدلال الحافة واستقرار التدريب بشكل كامل.
ملخص تنفيذي: نسب النموذج ومؤلفه
إن فهم أصول نماذج التعلم العميق هذه يوفر سياقًا قيمًا فيما يتعلق بخيارات تصميمها المعماري والجمهور المستهدف.
YOLOv9
من تأليف تشين-ياو وانغ وهونغ-يوان مارك لياو من معهد علوم المعلومات في أكاديميا سينيكا بتايوان، تم إصدار YOLOv9 في 21 فبراير 2024. يركز النموذج بشكل كبير على المفاهيم النظرية للتعلم العميق، وبالتحديد يعالج مشكلة عنق الزجاجة المعلوماتي في الشبكات العصبية التلافيفية العميقة (CNNs).
Ultralytics YOLO26
من تأليف غلين جوشر وجينغ تشيو في Ultralytics، تم إصدار YOLO26 في 14 يناير 2026. استنادًا إلى النجاح الهائل لأسلاف مثل YOLO11 وYOLOv8، تم تصميم YOLO26 من الألف إلى الياء لإعطاء الأولوية لجاهزية الإنتاج، والنشر على الحافة، والكفاءة الأصلية الشاملة.
جرب YOLO26 اليوم
هل أنت مستعد لترقية خط أنابيب الرؤية الحاسوبية لديك؟ يمكنك بسهولة تدريب ونشر نماذج YOLO26 في السحابة دون كتابة أي كود باستخدام Ultralytics .
الابتكارات المعمارية
يقدم كلا النموذجين تغييرات رائدة في كيفية معالجة الشبكات العصبية للبيانات المرئية، لكنهما يتعاملان مع المشكلة من زوايا مختلفة.
معلومات التدرج القابلة للبرمجة في YOLOv9
تتمثل المساهمة الرئيسية YOLOv9 في هذا المجال في إدخال معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). مع ازدياد عمق الشبكات العصبية، غالبًا ما تعاني من فقدان المعلومات أثناء عملية التغذية الأمامية. تضمن PGI أن تظل التدرجات المستخدمة لتحديث الأوزان أثناء الانتشار العكسي دقيقة وموثوقة، مما يسمح لهيكل GELAN بتحقيق دقة عالية باستخدام معلمات أقل.
ومع ذلك، YOLOv9 بشكل كبير على تقنية Non-Maximum Suppression (NMS) التقليدية للمعالجة اللاحقة، والتي يمكن أن تصبح عنق زجاجة في زمن الاستجابة أثناء الاستدلال في العالم الواقعي.
البنية المتميزة لـ YOLO26
يتبع YOLO26 نهجًا مختلفًا تمامًا من خلال تحسين كامل مسار العمل من التدريب إلى النشر في الوقت الفعلي. وهو يعتمد على التصميم الشامل NMS الذي تم ابتكاره لأول مرة في YOLOv10، مما يلغي تمامًا الحاجة إلى NMS . وينتج عن ذلك زمن انتقال منخفض للغاية، مما يجعله مُحسّنًا بشكل كبير للأجهزة الطرفية مثل Raspberry Pi أو NVIDIA .
علاوة على ذلك، يزيل YOLO26 تمامًا فقدان التركيز التوزيعي (DFL). هذا التغيير الهيكلي يبسط تصدير النموذج إلى ONNX ويوفر توافقًا أفضل بكثير مع وحدات التحكم الدقيقة منخفضة الطاقة.
بالنسبة لمرحلة التدريب، يدمج YOLO26 محسّن MuSGD الجديد، وهو مزيج من Stochastic Gradient Descent و Muon (مستوحى من منهجيات تدريب LLM الخاصة بـ Moonshot AI's Kimi K2). وهذا يسد الفجوة بين ابتكارات تدريب نموذج اللغة الكبيرة (LLM) والرؤية الحاسوبية، مما يوفر تدريبًا أكثر استقرارًا وأوقات تقارب أسرع بشكل كبير.
مقارنة الأداء والمقاييس
عند إجراء مقارنة مع COCO المستخدمة على نطاق واسع، أظهر كلا النموذجين قدرات استثنائية، لكن Ultralytics يتفوق في سرعات الاستدلال العملية وكفاءة المعلمات.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تحليل النتائج
- السرعة والكفاءة: نظرًا لأن YOLO26 يستخدم بنية خالية من NMS ووظائف خسارة مبسطة، فإنه يتميز باستدلال CPU أسرع بنسبة تصل إلى 43% مقارنة بالبنى القديمة. يعمل نموذج YOLO26n بسرعة فائقة تبلغ 1.7 مللي ثانية على وحدة معالجة رسومات NVIDIA T4 باستخدام TensorRT، مما يجعله الخيار الأمثل لتدفقات الفيديو في الوقت الفعلي.
- الدقة: يحقق نموذج YOLO26x 57.5 mAP لا مثيل لها، متفوقًا على أكبر نموذج YOLOv9e مع الحفاظ على زمن استجابة أقل.
- متطلبات الذاكرة: تُعرف نماذج Ultralytics بكفاءتها. يتطلب YOLO26 ذاكرة CUDA أقل بكثير أثناء تدريب النموذج والاستدلال مقارنة بنموذج الرؤية المعقدة القائمة على المحولات، مما يسمح للمطورين باستخدام أحجام دفعات أكبر على الأجهزة الاستهلاكية.
النظام البيئي وسهولة الاستخدام والتنوع
تكمن القوة الحقيقية Ultralytics في تجربة المستخدم. في حين أن الباحثين الذين يستخدمونقاعدة كود YOLOv9 GitHub يجب أن يتعاملوا مع إعدادات بيئة معقدة وبرمجة يدوية، فإن YOLO26 مدمج بالكامل فيPython Ultralytics Python البديهية.
مثال على واجهة برمجة تطبيقات مبسطة
يتطلب تدريب نموذج YOLO26 المتطور بضع أسطر فقط من Python :
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")
تنوع مهام لا مثيل له
على عكس YOLOv9 الذي تم تصميمه بشكل أساسي للكشف عن الكائنات القياسية، يدعم YOLO26 بشكل أساسي مجموعة واسعة من مهام الرؤية الحاسوبية الجاهزة للاستخدام. تتضمن البنية تحسينات محددة لتطبيقات متنوعة:
- تجزئة الكائنات (Instance Segmentation): تتميز بخسارة تجزئة دلالية متخصصة ونموذج أولي متعدد المقاييس لأقنعة مثالية على مستوى البكسل.
- تقدير الوضعيات: يدمج تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتتبع النقاط الرئيسية الهيكلية بدقة متناهية.
- صناديق الإحاطة الموجهة (OBB): تتضمن دالة خسارة زاوية متخصصة مصممة خصيصًا لحل مشكلات الحدود في detect الكائنات الدوارة للصور الجوية.
- تصنيف الصور: تصنيف قوي للصور بأكملها استنادًا إلى معايير ImageNet.
النظام البيئي المتكامل
تستفيد جميع نماذج YOLO26 من التكامل السلس مع منصة Ultralytics، مما يوفر تسمية مدمجة لمجموعات البيانات، والتعلم النشط، ومسارات النشر الفوري.
تطبيقات عملية في أرض الواقع
يتوقف الاختيار بين هذه النماذج غالبًا على البيئة التي سيتم نشرها فيها.
إنترنت الأشياء والروبوتات المتطورة
بالنسبة للروبوتات والطائرات بدون طيار ذاتية القيادة وأجهزة إنترنت الأشياء المنزلية الذكية، فإن YOLO26 هو البطل بلا منازع. يجلب دمج ProgLoss + STAL تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لمراقبة الزراعة من الطائرات بدون طيار التي تحلق على ارتفاعات عالية. إلى جانب CPU الأسرع بنسبة 43٪ وتصميمه NMS، يمكن لـ YOLO26 العمل بسلاسة على الأجهزة دون الحاجة إلى وحدات معالجة رسومات مخصصة.
البحث الأكاديمي وتحليل التدرج
YOLOv9 يظل نموذجًا يحظى باحترام كبير في الأوساط الأكاديمية. سيجد الباحثون الذين يدرسون الحدود النظرية لتدفق التدرج، أو أولئك الذين يسعون لبناء طبقات PyTorch مخصصة بناءً على مفهوم PGI، أن قاعدة كود YOLOv9 تمثل أساسًا ممتازًا لاستكشاف نظرية التعلم العميق.
خطوط إنتاج عالية السرعة
في البيئات الصناعية مثل الكشف الآلي عن العيوب على سيور النقل عالية السرعة، تضمن TensorRT الفائقة لنماذج YOLO26 عدم فقدان أي إطارات، مما يزيد من إنتاجية أنظمة ضمان الجودة إلى أقصى حد.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv9 و YOLO26 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.
متى تختار YOLO26
يوصى باستخدام YOLO26 في الحالات التالية:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
الخلاصة
يمثل كلا النموذجين قفزات هائلة إلى الأمام لمجتمع المصادر المفتوحة. قدم YOLOv9 تحسينات نظرية حيوية لتدفق التدرج ستلهم البنى المعمارية لسنوات قادمة. ومع ذلك، بالنسبة للمطورين المعاصرين، والشركات الناشئة، وفرق المؤسسات التي تبحث عن توازن لا تشوبه شائبة بين السرعة والدقة وسهولة النشر، فإن Ultralytics YOLO26 هو التوصية الواضحة.
من خلال إلغاء NMS، وتقديم مُحسِّن MuSGD القوي، وتوفير مجموعة أدوات لا مثيل لها عبر مهام detect وsegment وpose، تضمن YOLO26 أن مشاريع رؤية الكمبيوتر الخاصة بك مبنية على الإطار الأكثر موثوقية ومقاومة للمستقبل المتاح اليوم.