تخطي إلى المحتوى

YOLOv10 YOLOv9: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام

تطور الرؤية الحاسوبية في الوقت الحقيقي تميز بإنجازات متواصلة في السرعة والدقة وكفاءة البنية. عند تقييم الحلول الحديثة لنشرها في المرة القادمة، قارن بين YOLOv10 و YOLOv9 تقدم نظرة مثيرة للاهتمام على نهجين متميزين لحل مشاكل التعلم العميق. بينما YOLOv9 على تعظيم تدفق معلومات التدرج أثناء التدريب، فإن YOLOv10 تصميم أصلي شامل يزيل تمامًا عقبات المعالجة اللاحقة التقليدية.

يحلل هذا الدليل الشامل ابتكاراتها المعمارية ومقاييس الأداء وحالات الاستخدام المثالية لمساعدة المطورين والباحثين على اختيار النموذج الأمثل لمهام الرؤية الحاسوبية الخاصة بهم.

YOLOv10: رائد تقنية NMS End-to-End

تم تطوير YOLOv10 لمعالجة اختناقات زمن الوصول في أجهزة الكشف عن الأجسام التقليدية، YOLOv10 بنية ثورية شاملة تزيل بشكل أساسي الحاجة إلى تقنية Non-Maximum Suppression (NMS).

التفاصيل الفنية والسلالة:

تعرف على المزيد حول YOLOv10

الهيكلة ونقاط القوة

أهم مساهمة YOLOv10 في هذا المجال هي استراتيجيتها الثابتة للتعيين المزدوج للتدريب NMS. من خلال التخلص NMS يقلل النموذج بشكل كبير من زمن الاستدلال، خاصة على الأجهزة الطرفية حيث يمكن أن تؤدي المعالجة اللاحقة إلى إعاقة العملية بأكملها. وهو يعمل على تحسين مختلف المكونات من منظور الكفاءة والدقة، مما ينتج عنه نموذج يتميز بتوازن رائع بين السرعة والمعلمات. على سبيل المثال، يتميز نموذج YOLOv10 بسرعته الاستثنائية، مما يجعله مناسبًا للغاية لتحليلات الفيديو عالية السرعة والملاحة الروبوتية في الوقت الفعلي.

نقاط الضعف

في حين أن التصميم NMS يعد رائدًا في مجال الكشف عن الصناديق المحددة، YOLOv10 مُحسّن بشكل أساسي ككاشف كائنات خالص. وهو يفتقر إلى التنوع الجاهز للاستخدام الذي تتمتع به الأنظمة البيئية الأحدث التي تدعم بشكل أصلي تجزئة المثيل أو تقدير الوضع. علاوة على ذلك، تطلبت عمليات التنفيذ المبكرة معالجة دقيقة للتصدير لضمان عمليات مثل cv2 تم تحسينها بالكامل من الرسم البياني الاستدلالي.

تصدير YOLOv10

عند إعداد YOLOv10 تأكد دائمًا من تصدير النموذج إلى تنسيقات محسّنة مثل TensorRT أو ONNX. قد يؤدي تشغيل PyTorch الخام في النشر إلى استنتاج أبطأ من المتوقع بسبب عمليات الرسم البياني غير المُحسّنة.

YOLOv9: معلومات التدرج القابلة للبرمجة

قبل YOLOv10 YOLOv9 مفاهيم معمارية جديدة لحل مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة، مما سمح باستخدام المعلمات بكفاءة عالية.

التفاصيل الفنية والسلالة:

  • المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
  • المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
  • التاريخ: 21 فبراير 2024
  • روابط:منشور Arxiv، مستودع GitHub، Ultralytics

تعرف على المزيد حول YOLOv9

الهيكلة ونقاط القوة

YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) إلى جانب شبكة تجميع الطبقات الفعالة المعممة (GELAN). تضمن PGI عدم فقدان المعلومات الهامة عن الهدف أثناء مرور البيانات عبر الطبقات العميقة للشبكة، مما يولد تدرجات موثوقة لتحديثات الأوزان. تعمل GELAN على زيادة كفاءة معلمات الشبكة إلى أقصى حد. تتيح هذه الابتكارات مجتمعة YOLOv9 متوسط دقة مرتفع للغاية (mAP) على COCO MS COCO ، وغالبًا ما يتفوق على النماذج الأثقل باستخدام عدد أقل من FLOPs. إنه نموذج استثنائي للباحثين الذين يركزون على تعظيم مقاييس الدقة النظرية.

نقاط الضعف

على الرغم من دقتها العالية، YOLOv9 تعتمد على NMS القياسية NMS . وهذا يعني أنه على الرغم من سرعة عمليات الشبكة العصبية، فإن التصفية النهائية للمربع المحيط يمكن أن تؤدي إلى تأخير متغير اعتمادًا على كثافة الكائنات في المشهد. بالإضافة إلى ذلك، يمكن أن تكون عملية التدريب الخاصة بها كثيفة الاستخدام للذاكرة مقارنة بالنماذج الأحدث، مما يتطلب GPU أكثر قوة لضبط مجموعة البيانات المخصصة.

مقارنة الأداء

يوضح الجدول أدناه المقاييس الأساسية لكلا النموذجين. لاحظ كيف يحقق YOLOv10 زمن انتقال أقل عبر TensorRT بينما YOLOv9 الحدود العليا للدقة في أكبر تكويناته.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

الجيل القادم: لماذا YOLO26 هو الخيار الأمثل

في حين أن YOLOv9 YOLOv10 إنجازين مهمين، إلا أن مجال التعلم الآلي يتطور بسرعة. بالنسبة لبيئات الإنتاج الحديثة، يعتمد المطورون بشكل متزايد على النظام البيئي المتكامل والمحافظ عليه جيدًا Ultralytics . اعتبارًا من عام 2026، فإن التوصية الواضحة لكل من الأبحاث والمؤسسات هي استخدام YOLO26 الذي تم إصداره مؤخرًا.

يأخذ YOLO26 المفاهيم الأساسية لسابقيه ويطورها من خلال تجربة مستخدم مبسطة وواجهة برمجة تطبيقات بسيطة ومتطلبات ذاكرة أقل بشكل استثنائي أثناء التدريب مقارنة بالبنى الضخمة القائمة على المحولات.

الابتكارات الرئيسية في YOLO26

  • تصميم شامل NMS: بناءً على الإنجازات الرائدة لـ YOLOv10، يتميز YOLO26 بتصميمه الشامل، مما يلغي تمامًا الحاجة إلى NMS من أجل نشر أبسط وملفات تعريف زمن انتقال عالية التحديد.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : مُحسّن للاستخدام الفوري مع الذكاء الاصطناعي المتطور ، مما يجعله الخيار الأمثل للأنظمة المدمجة التي تفتقر إلى وحدات معالجة رسومات مخصصة.
  • MuSGD Optimizer: مزيج مبتكر من SGD Muon (مستوحى من تحسينات نماذج اللغة الكبيرة)، يضمن عمليات تدريب عالية الاستقرار وأوقات تقارب سريعة للغاية.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss، يبسط YOLO26 عملية تصدير النموذج، مما يعزز بشكل كبير التوافق مع الأجهزة منخفضة الطاقة ومختلف أطر النشر المتطورة.
  • تحسينات خاصة بالمهام: على عكس أجهزة الكشف المتخصصة في مهمة واحدة، فإن YOLO26 هو جهاز متعدد الاستخدامات. فهو يستخدم فقدان التجزئة الدلالية للحصول على دقة محسنة على مستوى البكسل، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع بشكل لا تشوبه شائبة، وفقدان الزاوية المتخصص لحل مشكلات حدود OBB (مربع الحدود الموجه).

ميزة النظام البيئي لـ Ultralytics

اختيار Ultralytics مثل YOLO11 أو YOLO26 يوفر سهولة استخدام لا مثيل لها. يمكنك الوصول إلى تطوير نشط ومجتمع مزدهر وتحديثات متكررة تضمن بقاء نماذجك متوافقة مع أحدث محركات الاستدلال مثل OpenVINO و CoreML.

تنفيذ عملي

يعد تدريب ونشر هذه النماذج أمرًا سهلاً باستخدام Python . يوضح المثال التالي كيفية الاستفادة من عمليات التدريب عالية الكفاءة في Ultralytics الذي يتعامل تلقائيًا مع جدولة المعلمات الفائقة وتخصيص الذاكرة الأمثل.

from ultralytics import YOLO

# Load the recommended state-of-the-art model
model = YOLO("yolo26n.pt")  # Also compatible with 'yolov10n.pt' or 'yolov9c.pt'

# Train the model efficiently on a custom dataset
train_results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0, batch=16)

# Run ultra-fast inference
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for simplified edge deployment
model.export(format="onnx")

حالات الاستخدام والتوصيات

YOLOv9 الاختيار بين YOLOv10 YOLOv9 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv10

YOLOv10 خيار قوي لـ:

  • الكشف في الوقت الفعليNMS: تطبيقات تستفيد من الكشف الشامل بدون قمع غير أقصى، مما يقلل من تعقيد النشر.
  • التوازن بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر نماذج مختلفة.
  • تطبيقات ذات زمن انتقال ثابت: سيناريوهات النشر التي يكون فيها زمن الاستدلال المتوقع أمرًا بالغ الأهمية، مثل الروبوتات أو الأنظمة المستقلة.

متى تختار YOLOv9

YOLOv9 في الحالات التالية:

  • أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

الخلاصة

YOLOv10 كل من YOLOv9 YOLOv10 مزايا فريدة. YOLOv9 قدرته على تعظيم كفاءة معلمات الشبكة وتدفق التدرج النظري، مما ينتج عنه دقة من الدرجة الأولى. في الوقت نفسه، YOLOv10 رائدًا أكاديميًا في مجال الكشف الشامل عن المربعات المحددة دون تأثير زمن الاستجابة في NMS.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن التوازن المثالي بين الأداء والتنوع وسهولة الاستخدام، فإن الترقية إلى أحدث الموديلات أمر بالغ الأهمية. بفضل مُحسّن MuSGD المتقدم، ووظيفة ProgLoss + STAL للكشف الفائق عن الأجسام الصغيرة، والدعم الشامل للمهام المتعددة، يمثل YOLO26 الحل النهائي المتطور لأي تحدٍ في مجال الرؤية الحاسوبية في العالم الواقعي.


تعليقات