تخطي إلى المحتوى

YOLO26 مقابل YOLOv9: التطور التالي في الكشف عن الكائنات في الوقت الفعلي

تشهد مجال الرؤية الحاسوبية تطورات سريعة، حيث تعمل البنى الجديدة باستمرار على تخطي حدود السرعة والدقة. في هذه المقارنة التقنية، ندرس الاختلافات بين YOLO26 و YOLOv9، وهما نموذجان مؤثران للغاية في مجال الكشف عن الكائنات في الوقت الفعلي. في حين أن كلا النموذجين يقدمان ابتكارات معمارية متميزة، فإن فهم المفاضلات في الأداء وقدرات النشر ومتطلبات الأجهزة أمر بالغ الأهمية لاختيار الأداة المناسبة لمشروع الرؤية التالي.

YOLO26: القوة المحسّنة للحافة

تم إصدار Ultralytics في أوائل عام 2026، وهو يمثل قفزة جيلية في كفاءة النشر واستقرار تدريب النماذج. تم تصميمه ليكون إطار عمل شامل أصليًا، وهو يعالج بشكل مباشر معوقات النشر التي عانت منها تطبيقات الذكاء الاصطناعي الطرفية على مر التاريخ.

تفاصيل النموذج:

الهندسة المعمارية والابتكارات

يعيد YOLO26 تصميم خط أنابيب المعالجة اللاحقة بشكل جذري من خلال إدخال تصميم شامل NMS. من خلال التخلص من الحاجة إلى Non-Maximum Suppression (NMS)، يحقق النموذج تقلبًا أقل بشكل كبير في زمن الاستجابة. وهذا يجعل النشر على المنصات المحمولة والحافة أسهل بكثير، خاصة عند التصدير إلى أطر عمل مثل ONNX و Apple CoreML.

بالإضافة إلى ذلك، تبسط إزالة Distribution Focal Loss (DFL) عملية التصدير وتعزز التوافق مع وحدات التحكم الدقيقة منخفضة الطاقة. لتحسين استقرار التدريب، يدمج YOLO26 مُحسِّن MuSGD الجديد، وهو مزيج من Stochastic Gradient Descent (SGD) و Muon (مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة). وينتج عن ذلك تقارب أسرع واستخلاص ميزات أكثر قوة عبر مجموعات البيانات الصعبة.

استدلال الأجهزة الطرفية

بفضل التبسيط المعماري وإزالة DFL، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU ، مما يجعله الخيار المثالي للأجهزة الطرفية المحدودة الموارد مثل Raspberry Pi أو NVIDIA Nano.

للكشف عن العناصر الصعبة للغاية في مشاهد مثل الصور الجوية الملتقطة بواسطة الطائرات بدون طيار، يستخدم YOLO26 وظائف الخسارة المحدثة ProgLoss + STAL. توفر هذه الوظائف تحسينات ملحوظة في استرجاع التعرف على الأجسام الصغيرة. علاوة على ذلك، يتميز بتحسينات خاصة بالمهام، بما في ذلك البروتو متعدد المقاييس لتقسيم المثال، وتقدير احتمالية السجل المتبقي (RLE) لتقدير الوضع، وخسارة الزاوية المتخصصة للكشف عن الصناديق المحددة الاتجاه (OBB).

تعرف على المزيد حول YOLO26

YOLOv9: معلومات التدرج القابلة للبرمجة

تم طرح YOLOv9 في أوائل عام 2024، YOLOv9 تطورات نظرية في الطريقة التي تتعامل بها الشبكات العصبية مع تدفق التدرج خلال مرحلة التدريب، مع التركيز على كفاءة المعلمات والاحتفاظ بالميزات العميقة.

تفاصيل النموذج:

  • المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
  • المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
  • التاريخ: 2024-02-21
  • Arxiv:YOLOv9
  • GitHub:مستودع YOLOv9
  • الوثائق:وثائق YOLOv9

الهيكلة ونقاط القوة

YOLOv9 تصميم YOLOv9 بناءً على مفهوم معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). تعالج هذه المفاهيم مشكلة اختناق المعلومات التي غالبًا ما تلاحظ في الشبكات العصبية العميقة. من خلال الحفاظ على المعلومات الأساسية من خلال عملية التغذية الأمامية، تضمن GELAN أن تظل التدرجات المستخدمة لتحديثات الأوزان موثوقة. توفر هذه البنية دقة عالية وتجعل YOLOv9 قويًا للبحث الأكاديمي في نظرية الشبكات العصبية وتحسين مسار التدرج باستخدام PyTorch .

القيود

على الرغم من كفاءتها الممتازة في المعلمات، تعتمد YOLOv9 بشكل كبير على NMS التقليدية لمعالجة مربعات الإحاطة بعد المعالجة، مما قد يخلق اختناقات حسابية أثناء الاستدلال على الأجهزة الطرفية. علاوة على ذلك، يركز المستودع الرسمي بشكل كبير على object detect، مما يتطلب هندسة مخصصة كبيرة لتكييفها لمهام متخصصة مثل track أو تقدير الوضعيات.

تعرف على المزيد حول YOLOv9

مقارنة الأداء

عند تقييم هذه النماذج من أجل نشرها في العالم الواقعي، من الضروري تحقيق التوازن بين الدقة (mAP) وسرعة الاستدلال واستخدام الذاكرة. تشتهر Ultralytics بمتطلباتها المنخفضة من الذاكرة أثناء التدريب والاستدلال، حيث تتطلب CUDA أقل بكثير من البدائل القائمة على المحولات مثل RT-DETR.

فيما يلي مقارنة مباشرة لأداء YOLO26 و YOLOv9 على مجموعة بيانات COCO. يتم تمييز أفضل القيم في كل عمود بـ الخط العريض.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

ملاحظة: YOLOv9 حذف CPU لـ YOLOv9 لأنها تختلف بشكل كبير بناءً على NMS ، وهي عادةً أبطأ من تنفيذ YOLO26 الأصلي NMS.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLO26 و YOLOv9 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLO26

YOLO26 هو خيار قوي لـ:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

متى تختار YOLOv9

YOLOv9 في الحالات التالية:

  • أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.

ميزة Ultralytics

يتضمن اختيار النموذج أكثر من مجرد قراءة معيار دقة؛ فالنظام البيئي للبرمجيات المحيط به يحدد مدى سرعة الانتقال من جمع البيانات إلى الإنتاج.

سهولة الاستخدام والنظام البيئي

في Python Ultralytics تقدم تجربة سلسة "من الصفر إلى القمة". بدلاً من استنساخ مستودعات معقدة أو تكوين نصوص تدريب موزعة يدويًا، يمكن للمطورين تثبيت الحزمة عبر pip وبدء التدريب فورًا. الـ نظام Ultralytics البيئي يضمن تحديثات متكررة، وعمليات تكامل آلية مع منصات ML مثل Weights & Biases، ووثائق شاملة.

Ultralytics الأخرى

إذا كنت مهتمًا باستكشاف نماذج أخرى ضمن نظام Ultralytics ، فقد ترغب أيضًا في مقارنة YOLO11 أو النموذج الكلاسيكي YOLOv8الكلاسيكي، وكلاهما يوفر مرونة استثنائية للتطبيقات المخصصة.

تعدد الاستخدامات في مهام الرؤية

في حين أن YOLOv9 في الأساس محرك للكشف، فإن YOLO26 هو أداة رؤية عامة الغرض. باستخدام صيغة موحدة واحدة، يمكنك الانتقال بسهولة من الكشف عن الكائنات إلى تقسيم الصور بدقة البكسل أو تصنيف الصورة بأكملها. تقلل هذه المرونة من العبء التقني المتمثل في الحفاظ على قواعد بيانات متعددة غير مترابطة لميزات الرؤية الحاسوبية المختلفة.

التدريب والتوظيف الفعالان

كفاءة التدريب هي حجر الزاوية في Ultralytics . يستخدم YOLO26 أوزانًا مسبقة التدريب متاحة بسهولة ويتميز باستخدام ذاكرة أقل بكثير مقارنة بمحولات الرؤية الضخمة. بمجرد الانتهاء من التدريب، تسمح خطوط التصدير المدمجة بالتحويل بنقرة واحدة إلى تنسيقات محسّنة مثل TensorRT أو TensorFlow مما يسهل عملية الإنتاج.

مثال على الكود: البدء مع YOLO26

تنفيذ YOLO26 سهل للغاية. يوضح Python التالي Python كيفية تحميل نموذج مدرب مسبقًا، وتدريبه على بيانات مخصصة، وتشغيل الاستدلال باستخدام Ultralytics .

from ultralytics import YOLO

# Load the latest state-of-the-art YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on the COCO8 dataset utilizing the MuSGD optimizer
results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Uses GPU 0, or use 'cpu' for CPU training
)

# Run an NMS-free inference on a sample image
predictions = model("https://ultralytics.com/images/bus.jpg")

# Display the bounding boxes and confidences
predictions[0].show()

بالاستفادة من سرعة YOLO26 وبنيتها المبسطة ونظامها البيئي القوي، يمكن للفرق طرح تطبيقات الذكاء الاصطناعي البصري المتقدمة في السوق بشكل أسرع وبعدد أقل من العقبات التقنية من أي وقت مضى.


تعليقات