YOLO26 مقابل YOLO11: قفزة جيلية في الذكاء الاصطناعي البصري

عند بناء أنظمة رؤية حاسوبية متطورة، يعد اختيار النموذج المناسب أمراً بالغ الأهمية للموازنة بين الدقة، وزمن الوصول، وكفاءة الموارد. في المشهد المتطور بسرعة للذكاء الاصطناعي، تواصل Ultralytics دفع حدود ما هو ممكن. تستكشف هذه المقارنة الفنية التفصيلية الانتقال من YOLO11 الناجح للغاية إلى YOLO26 الثوري الجديد، مما يوفر لمهندسي وباحثي الذكاء الاصطناعي الأفكار اللازمة لاتخاذ قرارات معمارية مستنيرة.

سلالة النموذج والبيانات الوصفية

تم تطوير كلا النموذجين بواسطة Ultralytics، لكنهما يمثلان نماذج فكرية مختلفة في الجدول الزمني لكشف الأجسام ونماذج الرؤية متعددة المهام.

تفاصيل YOLO26:

اعرف المزيد عن YOLO26

تفاصيل YOLO11:

اعرف المزيد عن YOLO11

بنيات أخرى

بينما يعد YOLO26 نموذجنا الأكثر تقدماً في الوقت الفعلي، قد يرغب المستخدمون الذين يتعاملون مع أجهزة متخصصة للغاية أو سعات ذاكرة ضخمة في استكشاف البنيات القائمة على Transformer مثل RT-DETR أو الرائد المبتكر الخالي من NMS، YOLOv10.

الاختلافات المعمارية والابتكارات

تتضمن القفزة من YOLO11 إلى YOLO26 تحولات أساسية في كل من بنية النموذج ونظام التدريب الأساسي. في حين أسس YOLO11 خط أساس قوي لـ كشف الأجسام والتعلم متعدد المهام، يقوم YOLO26 بإصلاح خط أنابيب النشر للحوسبة الطرفية بالكامل.

تصميم شامل وخالٍ من NMS

تعد البنية الشاملة (end-to-end) أصلاً واحدة من أهم الترقيات في YOLO26. على عكس YOLO11، الذي يعتمد على معالجة Non-Maximum Suppression (NMS) اللاحقة لتصفية مربعات الإحاطة المتداخلة، يلغي YOLO26 هذه الخطوة تماماً. هذا المفهوم، الذي تم ترويجه لأول مرة في YOLOv10، يقلل بشكل كبير من تباين زمن الوصول ويبسط منطق النشر عبر أجهزة طرفية متنوعة.

إزالة DFL لكفاءة الحافة

يستخدم YOLO11 تقنية Distribution Focal Loss (DFL) لتحسين تقديرات مربعات الإحاطة. ومع ذلك، يعتمد DFL على عمليات softmax معقدة غالباً ما تكون مدعومة بشكل ضعيف بواسطة مسرعات الحافة منخفضة الطاقة. نجح YOLO26 في إزالة DFL دون التضحية بالدقة. يؤدي هذا التبسيط المعماري إلى تحسين التوافق بشكل كبير مع الأنظمة المدمجة ويسمح لـ YOLO26 بتحقيق استدلال أسرع على CPU بنسبة تصل إلى 43% مقارنة بسابقه.

مُحسِّن MuSGD

استقرار وسرعة التدريب أمران في غاية الأهمية. يقدم YOLO26 مُحسِّن MuSGD، وهو مزيج من Stochastic Gradient Descent (SGD) و Muon، مستوحى بشكل كبير من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM) من Kimi K2 التابع لشركة Moonshot AI. يجلب هذا المُحسِّن استقرار تدريب النماذج اللغوية إلى الرؤية الحاسوبية، مما يضمن تقارباً أسرع ويقلل من بصمة الذاكرة أثناء التدريب مقارنة ببدائل Transformer الثقيلة.

ProgLoss و STAL

بالنسبة للباحثين الذين يعملون مع الصور الجوية أو تطبيقات الطائرات بدون طيار، يعد اكتشاف الميزات الصغيرة تحدياً تاريخياً. يقدم YOLO26 تقنية ProgLoss مدمجة مع STAL (خسارة الانتباه المستهدف حسب النطاق)، مما يحقق تحسينات ملحوظة في التعرف على الأجسام الصغيرة مقارنة بـ YOLO11.

مقارنة الأداء والمقاييس

عند مقارنة النماذج وجهاً لوجه، يُظهر YOLO26 تفوقاً واضحاً في الدقة وكفاءة أجهزة الحافة، مع الحفاظ على متطلبات الذاكرة المنخفضة للغاية المميزة لنظام Ultralytics البيئي.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLO11n64039.556.11.52.66.5
YOLO11s64047.090.02.59.421.5
YOLO11m64051.5183.24.720.168.0
YOLO11l64053.4238.66.225.386.9
YOLO11x64054.7462.811.356.9194.9

ملاحظة: يُظهر نموذج YOLO26 nano (YOLO26n) تحسناً بنسبة ~31% في سرعة CPU مقارنة بـ YOLO11n (38.9ms مقابل 56.1ms)، مما يسلط الضوء على فلسفة التصميم التي تعطي الأولوية للحافة.

تعدد الاستخدامات عبر مهام الرؤية الحاسوبية

يستفيد كلا النموذجين من نظام Ultralytics البيئي المدار بشكل جيد، مما يوفر سهولة استخدام لا مثيل لها من خلال واجهة برمجة تطبيقات Python موحدة. إنها ليست مجرد أدوات لكشف الأجسام؛ إنها قوى عاملة متعددة المهام. ومع ذلك، يدمج YOLO26 العديد من التطورات الخاصة بالمهمة:

  • تجزئة الحالة (Instance Segmentation): يستخدم YOLO26 خسارة تجزئة دلالية محسنة ونمذجة أولية متعددة المقاييس، مما يولد حدود قناع أكثر وضوحاً من YOLO11. تعرف على المزيد حول سير عمل التجزئة.
  • تقدير الوضع (Pose Estimation): من خلال دمج Residual Log-Likelihood Estimation (RLE)، يحسن YOLO26 دقة النقاط الرئيسية في أوضاع الجسم البشرية المعقدة بشكل كبير. اكتشف قدرات تقدير الوضع.
  • مربعات الإحاطة الموجهة (OBB): تعمل دالة خسارة زاوية متخصصة على حل مشكلات عدم استمرارية الحدود التاريخية، مما يجعل YOLO26 موثوقاً بشكل استثنائي للكشف عن الأجسام الدوارة في تغذيات الأقمار الصناعية. اقرأ عن مهام OBB.
  • تصنيف الصور: يتعامل كلا النموذجين مع التصنيف عالي السرعة بكفاءة، مع تقديم YOLO26 تحسينات هامشية في دقة top-1 على ImageNet.

مثال على كود التدريب والاستدلال

تشتهر Ultralytics بتجربة المطورين. تدريب نموذج متطور أو تشغيل نص استدلال يتطلب بضعة أسطر فقط من الكود، مما يقلل من الكود المكرر ويزيد الإنتاجية. علاوة على ذلك، يتطلب تدريب نماذج YOLO ذاكرة CUDA أقل بكثير من شبكات Transformer الكبيرة.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset efficiently
# The MuSGD optimizer is automatically enabled for YOLO26
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device="0",  # Utilize GPU for accelerated training
)

# Perform NMS-free inference directly on an image
results = model("https://ultralytics.com/images/bus.jpg")

# Display the clean, instant predictions
results[0].show()

حالات الاستخدام المثالية واستراتيجيات النشر

يعتمد الاختيار بين YOLO26 و YOLO11 كلياً على قيود بيئة الإنتاج الخاصة بك.

متى يجب نشر YOLO26

يعد YOLO26 الخيار النهائي للمشاريع الحديثة والجديدة كلياً. تم بناؤه خصيصاً لـ:

  • الحوسبة الطرفية وإنترنت الأشياء: أداؤه المذهل على CPU وإزالة DFL يجعله ملك الأجهزة مثل Raspberry Pi و Coral NPUs ومعالجات الأجهزة المحمولة.
  • تحليلات الطائرات بدون طيار والتحليلات الجوية: دمج ProgLoss + STAL يجعله قادراً بشكل فريد على تتبع الأجسام الصغيرة سريعة الحركة عبر المناظر الطبيعية الواسعة.
  • التطبيقات الحساسة لزمن الوصول: في الروبوتات المستقلة أو مراقبة جودة التصنيع، يضمن التصميم الخالي من NMS زمن وصول حتمياً دون ارتفاعات غير متوقعة في المعالجة اللاحقة.

متى يجب الاحتفاظ بـ YOLO11

بينما يعد YOLO26 متفوقاً، يظل YOLO11 نموذجاً قادراً بشكل لا يصدق. قد تلتزم بـ YOLO11 إذا:

  • خطوط الأنابيب القديمة: بنيتك التحتية الحالية للنشر بلغة C++ مرتبطة بإحكام بمخرجات معينة قائمة على المرتكزات (anchor-based) ومنطق NMS للبنيات الأقدم.
  • خطوط الأساس الأكاديمية: أنت تنشر بحثاً وتحتاج إلى معيار عام 2024 معترف به للغاية لمقارنة خوارزمياتك الجديدة به.

قوة نظام Ultralytics البيئي

بغض النظر عما إذا كنت ستنشر YOLO11 أو YOLO26، فإن استخدام نماذج Ultralytics يعني الاستفادة من نظام بيئي مُدار جيداً مع تحديثات متكررة ودعم مجتمعي واسع.

بالنسبة لفرق المؤسسات، توفر منصة Ultralytics حلاً شاملاً لـ تعليق البيانات، وتدريب النماذج، والنشر السحابي السلس. من تصدير أوزانك المدربة إلى CoreML أو TensorRT، إلى تكوين ضبط المعاملات الفائقة المتقدم، تضمن الأدوات المقدمة أن تكون دورة حياة الذكاء الاصطناعي الخاصة بك مبسطة قدر الإمكان.

التعليقات