YOLOv9 YOLO26: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
شهد مجال الكشف عن الأجسام في الوقت الفعلي تطوراً كبيراً خلال السنوات القليلة الماضية. ونظراً لأن ممارسي التعلم الآلي يسعون إلى نشر النماذج عبر مجموعة متنوعة من الأجهزة، فإن اختيار البنية المناسبة أمر بالغ الأهمية. في هذا الدليل التقني الشامل، نقارن بين معلمتين رئيسيتين في مجال الرؤية الحاسوبية: YOLOv9، الذي تم طرحه في أوائل عام 2024 مع التركيز على تحسينات مسار التدرج، و Ultralytics ، أحدث إطار عمل متطور تم إصداره في أوائل عام 2026 والذي يعيد تعريف الاستدلال الحافة واستقرار التدريب بشكل كامل.
ملخص تنفيذي: نسب النموذج ومؤلفه
إن فهم أصول نماذج التعلم العميق هذه يوفر سياقًا قيمًا فيما يتعلق بخيارات تصميمها المعماري والجمهور المستهدف.
YOLOv9
YOLOv9 إصدار YOLOv9 في 21 فبراير 2024، وهو من تأليف Chien-Yao Wang و Hong-Yuan Mark Liao من معهد علوم المعلومات في أكاديمية سينيكا في تايوان. يركز النموذج بشكل كبير على مفاهيم التعلم العميق النظري، ويتناول على وجه التحديد مشكلة اختناق المعلومات في الشبكات العصبية التلافيفية العميقة (CNNs).
Ultralytics YOLO26
كتبه جلين جوشر وجينغ تشيو في Ultralytics، تم إصدار YOLO26 في 14 يناير 2026. بناءً على النجاح الهائل الذي حققته سابقاتها مثل YOLO11 و YOLOv8، تم تصميم YOLO26 من الألف إلى الياء لإعطاء الأولوية للاستعداد للإنتاج، والنشر المتطور، والكفاءة الأصلية الشاملة.
جرب YOLO26 اليوم
هل أنت مستعد لترقية خط أنابيب الرؤية الحاسوبية لديك؟ يمكنك بسهولة تدريب ونشر نماذج YOLO26 في السحابة دون كتابة أي كود باستخدام Ultralytics .
الابتكارات المعمارية
يقدم كلا النموذجين تغييرات جذرية في كيفية معالجة الشبكات العصبية للبيانات المرئية، لكنهما يتعاملان مع المشكلة من زوايا مختلفة.
معلومات التدرج القابلة للبرمجة في YOLOv9
تتمثل المساهمة الرئيسية YOLOv9 في هذا المجال في إدخال معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). مع ازدياد عمق الشبكات العصبية، غالبًا ما تعاني من فقدان المعلومات أثناء عملية التغذية الأمامية. تضمن PGI أن تظل التدرجات المستخدمة لتحديث الأوزان أثناء الانتشار العكسي دقيقة وموثوقة، مما يسمح لهيكل GELAN بتحقيق دقة عالية باستخدام معلمات أقل.
ومع ذلك، YOLOv9 بشكل كبير على تقنية Non-Maximum Suppression (NMS) التقليدية للمعالجة اللاحقة، والتي يمكن أن تصبح عنق زجاجة في زمن الاستجابة أثناء الاستدلال في العالم الواقعي.
البنية المتميزة لـ YOLO26
يتبع YOLO26 نهجًا مختلفًا تمامًا من خلال تحسين كامل مسار العمل من التدريب إلى النشر في الوقت الفعلي. وهو يعتمد على التصميم الشامل NMS الذي تم ابتكاره لأول مرة في YOLOv10، مما يلغي تمامًا الحاجة إلى NMS . وينتج عن ذلك زمن انتقال منخفض للغاية، مما يجعله مُحسّنًا بشكل كبير للأجهزة الطرفية مثل Raspberry Pi أو NVIDIA .
علاوة على ذلك، يزيل YOLO26 تمامًا فقدان التركيز التوزيعي (DFL). هذا التغيير الهيكلي يبسط تصدير النموذج إلى ONNX ويوفر توافقًا أفضل بكثير مع وحدات التحكم الدقيقة منخفضة الطاقة.
بالنسبة لمرحلة التدريب، يدمج YOLO26 محسّن MuSGD الجديد، وهو مزيج من Stochastic Gradient Descent و Muon (مستوحى من منهجيات تدريب LLM الخاصة بـ Moonshot AI's Kimi K2). وهذا يسد الفجوة بين ابتكارات تدريب نموذج اللغة الكبيرة (LLM) والرؤية الحاسوبية، مما يوفر تدريبًا أكثر استقرارًا وأوقات تقارب أسرع بشكل كبير.
مقارنة الأداء والمقاييس
عند إجراء مقارنة مع COCO المستخدمة على نطاق واسع، أظهر كلا النموذجين قدرات استثنائية، لكن Ultralytics يتفوق في سرعات الاستدلال العملية وكفاءة المعلمات.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO26n | 640 | 40.9 | 38.9 | 1.7 | 2.4 | 5.4 |
| YOLO26s | 640 | 48.6 | 87.2 | 2.5 | 9.5 | 20.7 |
| YOLO26m | 640 | 53.1 | 220.0 | 4.7 | 20.4 | 68.2 |
| YOLO26l | 640 | 55.0 | 286.2 | 6.2 | 24.8 | 86.4 |
| YOLO26x | 640 | 57.5 | 525.8 | 11.8 | 55.7 | 193.9 |
تحليل النتائج
- السرعة والكفاءة: نظرًا لأن YOLO26 يستخدم بنية NMS ووظائف خسارة مبسطة، فإنه يتميز CPU أسرع بنسبة تصل إلى 43٪ مقارنة بالبنى القديمة. يعمل نموذج YOLO26n بسرعة فائقة تبلغ 1.7 مللي ثانية على GPU NVIDIA GPU TensorRT، مما يجعله الخيار الأمثل لبث الفيديو في الوقت الفعلي.
- الدقة: يحقق نموذج YOLO26x دقة غير مسبوقة تبلغ 57.5 mAP متفوقًا على أكبر نموذج YOLOv9e مع الحفاظ على زمن انتقال أقل.
- متطلبات الذاكرة: تشتهر Ultralytics بكفاءتها. يتطلب YOLO26 CUDA أقل بكثير أثناء تدريب النموذج والاستدلال مقارنةً بنماذج الرؤية المعقدة القائمة على المحولات، مما يتيح للمطورين استخدام أحجام دفعات أكبر على الأجهزة الاستهلاكية.
النظام البيئي وسهولة الاستخدام والتنوع
تكمن القوة الحقيقية Ultralytics في تجربة المستخدم. في حين أن الباحثين الذين يستخدمونقاعدة كود YOLOv9 GitHub يجب أن يتعاملوا مع إعدادات بيئة معقدة وبرمجة يدوية، فإن YOLO26 مدمج بالكامل فيPython Ultralytics Python البديهية.
مثال على واجهة برمجة تطبيقات مبسطة
يتطلب تدريب نموذج YOLO26 المتطور بضع أسطر فقط من Python :
from ultralytics import YOLO
# Load the latest native end-to-end YOLO26 model
model = YOLO("yolo26s.pt")
# Train the model effortlessly with the default MuSGD optimizer
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export natively to ONNX format in a single command
model.export(format="onnx")
تنوع مهام لا مثيل له
على عكس YOLOv9 الذي تم تصميمه بشكل أساسي للكشف عن الكائنات القياسية، يدعم YOLO26 بشكل أساسي مجموعة واسعة من مهام الرؤية الحاسوبية الجاهزة للاستخدام. تتضمن البنية تحسينات محددة لتطبيقات متنوعة:
- تجزئة المثيلات: تتميز بفقدان التجزئة الدلالية المتخصصة وبروتو متعدد المقاييس للحصول على أقنعة خالية من العيوب على مستوى البكسل.
- تقدير الوضع: يدمج تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) track النقاط الرئيسية track بدقة فائقة.
- مربعات الحدود الموجهة (OBB): تتضمن وظيفة فقدان الزاوية المتخصصة المصممة خصيصًا لحل مشكلات الحدود في اكتشاف الأجسام المدورة في الصور الجوية.
- تصنيف الصور: تصنيف قوي للصور بأكملها استنادًا إلى ImageNet .
النظام البيئي المتكامل
تستفيد جميع طرازات YOLO26 من التكامل السلس مع Ultralytics التي توفر تسمية مجموعات البيانات المدمجة والتعلم النشط وخطوط النشر الفوري.
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه النماذج على البيئة التي سيتم نشرها فيها.
إنترنت الأشياء والروبوتات المتطورة
بالنسبة للروبوتات والطائرات بدون طيار ذاتية القيادة وأجهزة إنترنت الأشياء المنزلية الذكية، فإن YOLO26 هو البطل بلا منازع. يجلب دمج ProgLoss + STAL تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية لمراقبة الزراعة من الطائرات بدون طيار التي تحلق على ارتفاعات عالية. إلى جانب CPU الأسرع بنسبة 43٪ وتصميمه NMS، يمكن لـ YOLO26 العمل بسلاسة على الأجهزة دون الحاجة إلى وحدات معالجة رسومات مخصصة.
البحوث الأكاديمية وتحليل التدرج
YOLOv9 لا يزال نموذجًا يحظى باحترام كبير في الأوساط الأكاديمية. الباحثون الذين يدرسون الحدود النظرية لتدفق التدرج، أو أولئك الذين يسعون إلى بناء PyTorch مخصصة بناءً على مفهوم PGI، سيجدون أن قاعدة كود YOLOv9 تشكل أساسًا ممتازًا لاستكشاف نظرية التعلم العميق.
خطوط إنتاج عالية السرعة
في البيئات الصناعية مثل الكشف الآلي عن العيوب على سيور النقل عالية السرعة، تضمن TensorRT الفائقة لنماذج YOLO26 عدم فقدان أي إطارات، مما يزيد من إنتاجية أنظمة ضمان الجودة إلى أقصى حد.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv9 YOLO26 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.
متى تختار YOLO26
يوصى باستخدام YOLO26 في الحالات التالية:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
الخلاصة
يمثل كلا النموذجين قفزة هائلة إلى الأمام لمجتمع البرمجيات مفتوحة المصدر. YOLOv9 تحسينات نظرية حيوية لتدفق التدرج ستلهم هندسة البرمجيات لسنوات قادمة. ومع ذلك، بالنسبة للمطورين المعاصرين والشركات الناشئة وفرق المؤسسات التي تبحث عن توازن مثالي بين السرعة والدقة وسهولة النشر، فإن Ultralytics هو الخيار الموصى به بوضوح.
من خلال التخلص NMS وإدخال مُحسّن MuSGD القوي، وتوفير مجموعة لا مثيل لها من الأدوات عبر مهام الكشف والتجزئة والوضع، يضمن YOLO26 أن مشاريع الرؤية الحاسوبية الخاصة بك مبنية على الإطار الأكثر موثوقية ومستقبلية المتاح اليوم.