تخطي إلى المحتوى

YOLO YOLOv9: مقارنة تقنية شاملة بين هياكل الكشف عن الأجسام الحديثة

يستمر مجال الكشف عن الأجسام في الوقت الفعلي في التطور بوتيرة سريعة للغاية. في الوقت الذي تسعى فيه فرق الهندسة والباحثون إلى تحقيق التوازن المثالي بين الدقة وسرعة الاستدلال والكفاءة الحسابية، ظهرت بنيةان بارزتان من مجتمع الباحثين: YOLO و YOLOv9. يقدم كلا النموذجين ابتكارات معمارية مهمة تهدف إلى توسيع حدود الإمكانيات في مجال الرؤية الحاسوبية.

يقدم هذا الدليل الفني التفصيلي تحليلاً متعمقاً لهذين النموذجين، ويقارن بين نهجيهما المعماريين الفريدين ومنهجيات التدريب وقدرات النشر في العالم الواقعي. سنستكشف أيضاً كيف يلعب النظام البيئي الأوسع للبرمجيات دوراً حاسماً في تطوير الذكاء الاصطناعي الحديث، مع تسليط الضوء على مزايا المنصات المتكاملة مثل Ultralytics والجيل الأحدث من النماذج مثل YOLO26.

ملخص تنفيذي: اختيار البنية المناسبة

في حين أن كلا النموذجين يمثلان معالم بارزة في أبحاث التعلم العميق، إلا أنهما يلبيان فلسفات نشر مختلفة قليلاً.

YOLO في البيئات التي يمكن فيها استخدام البحث الشبكي العصبي (NAS) المكثف لاستخراج ملفات تعريف أداء محددة، مما يجعله دراسة مثيرة للاهتمام لنشر الحافة المخصصة. على العكس من ذلك، YOLOv9 بشكل كبير على حل اختناقات معلومات التعلم العميق، مما يوفر كفاءة عالية للغاية في المعلمات.

ومع ذلك، بالنسبة لعمليات النشر الجاهزة للإنتاج، توصي فرق الهندسة باستمرار بالاستفادة من Ultralytics الموحد Ultralytics . بالنسبة للمشاريع الجديدة، فإن أحدث إصدار من نموذج YOLO26 أفضل ما في العالمين: دقة متطورة مقترنة بتصميم أصلي شامل يلغي الحاجة إلى المعالجة اللاحقة المعقدة.

تأمين مستقبل خط أنابيب الرؤية الحاسوبية الخاص بك

على الرغم من أنYOLO YOLOv9 نموذجان أكاديميان قويان، إلا أن نشرهما في الإنتاج غالبًا ما يتطلب هندسة مخصصة كبيرة. يوفر استخدام Ultralytics إمكانية الوصول إلى أداء متطور مع واجهة برمجة تطبيقات مبسطة وقابلة للصيانة.

المواصفات الفنية والمؤلف

إن فهم أصول هذه النماذج وتوجهاتها التنموية يوفر سياقًا أساسيًا لفهم نقاط قوتها.

DAMO-YOLO

تم تطويرYOLO من قبل باحثين في مجموعة Alibaba،YOLO بشكل كبير على إنشاء بنية آلية ودمج الميزات بكفاءة.

  • المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
  • المؤسسة:مجموعة علي بابا
  • تاريخ الإصدار: 23 نوفمبر 2022
  • ورقة أرشيفية:ورقةYOLO
  • GitHub الرسمي:YOLO
  • الوثائق:YOLO

تعرف على المزيد حول DAMO-YOLO

YOLOv9

تم تقديم YOLOv9 كحل لمشكلة فقدان المعلومات في الشبكات التلافيفية العميقة، YOLOv9 الحدود النظرية للحفاظ على التدرج أثناء التدريب.

تعرف على المزيد حول YOLOv9

الابتكارات المعمارية

YOLO بمكوناته المخصصة بشكل كبير والمنتجة آليًا. يتم إنشاء هيكله الأساسي باستخدام البحث عن البنية العصبية (NAS)، والذي يستهدف بشكل خاص الاستدلال منخفض الكمون على أجهزة مختلفة.

تتميز الهندسة المعمارية بشبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) فعالة لدمج الميزات، مما يعزز الكشف عن الكائنات متعددة المقاييس دون زيادة الحمل الحسابي بشكل مفرط. علاوة على ذلك، تستخدم تصميم ZeroHead لتبسيط رأس الكشف وتستخدم AlignedOTA لتعيين التسميات، مقترنة بعملية تحسين التقطير المتطورة أثناء التدريب. في حين أن هذه التقنيات تنتج استنتاجات سريعة، فإن عملية التقطير متعددة المراحل تتطلب غالبًا ذاكرة VRAM كبيرة ووقت تدريب طويل.

YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي

YOLOv9 لمشكلة أساسية في الشبكات العميقة: الفقدان التدريجي لمعلومات البيانات المدخلة أثناء مرورها عبر الطبقات المتتالية.

لمكافحة هذا الأمر، قدم المؤلفون معلومات التدرج القابلة للبرمجة (PGI)، وهي إطار عمل إشرافي إضافي مصمم للاحتفاظ بالتفاصيل المهمة للطبقات العميقة، مما يولد تدرجات موثوقة للغاية لتحديثات الأوزان. يرافق PGI بنية GELAN (شبكة تجميع الطبقات الفعالة المعممة). تعمل GELAN على تحسين كفاءة المعلمات من خلال الجمع بين نقاط قوة CSPNet و ELAN، مما يزيد من تدفق المعلومات إلى أقصى حد مع تقليل عمليات النقاط العائمة (FLOPs) إلى أدنى حد.

تحليل الأداء والمقاييس

عند تقييم الأداء، يُظهر كلا النموذجين متوسط دقة قوي (mAP) في المعايير القياسية مثل COCO. YOLOv9 دقة مطلقة أعلى عبر أحجام نماذج متكافئة، مستفيدًا من بنية PGI للحفاظ على دقة عالية في مجموعات البيانات الصعبة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0

كما هو موضح أعلاه، يحقق YOLOv9 أعلى دقة، بينما تحافظ YOLOv9 الأصغرYOLO YOLOv9 على سرعات استدلال تنافسية للغاية عبر TensorRT .

منهجيات التدريب والنظام البيئي

في حين أن الهندسة المعمارية الأولية مهمة، فإن قابلية الاستخدام وكفاءة التدريب التي تمليها بيئة النموذج تعتبران أمرين بالغين الأهمية للتطبيق في العالم الواقعي.

اعتمادYOLO على تقطير المعرفة غالبًا ما يتطلب تدريب نموذج "مدرس" معقد قبل نقل المعرفة إلى نموذج "الطالب" المستهدف. هذا النهج البحثي التقليدي يزيد بشكل كبير من متطلبات الذاكرة وأوقات دورات التدريب. وبالمثل، يتطلب YOLOv9 الأصلي التنقل بين ملفات التكوين المعقدة التي يمكن أن تبطئ عملية التطوير السريع.

على النقيض من ذلك، فإن دمج النماذج في Ultralytics يغير تجربة المطورين تمامًا. تعملPython Ultralytics Python على استخلاص الكود النمطي، مما يتيح للفرق التعامل مع زيادة البيانات وضبط المعلمات الفائقة وتصدير النماذج دون عناء.

التطبيقات الواقعية وحالات الاستخدام

تتفوق البنى المختلفة بشكل طبيعي في صناعات محددة بناءً على متطلبات الموارد وملفات الدقة الخاصة بها.

  • YOLO Edge AI: نظرًا لعموده الفقري المُحسّن لـ NAS،YOLO استكشافYOLO بشكل متكرر في الأنظمة المدمجة حيث يُعد تخصيص المعلمات الخاصة بالأجهزة ضرورة ملحة، مثل نشر ASIC المخصص في مراقبة جودة التصنيع الأساسية.
  • YOLOv9 التحليلات الدقيقة: بفضل كفاءة معلماته العالية واحتفاظه بالتدرج المدفوع بـ PGI، YOLOv9 ممتازًا لسيناريوهات الكشف عن الأجسام الكثيفة، مثل تحليل الصور الجوية أو تتبع الأجسام الصغيرة في بيئات البيع بالتجزئة المزدحمة.

حالات الاستخدام والتوصيات

YOLOv9 الاختيار بينYOLO YOLOv9 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

YOLO خيار قوي لـ:

  • تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات في الثانية علىGPU NVIDIA GPU الثابتة حيث يكون إنتاجية الدفعة 1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعي: سيناريوهات ذات قيود صارمة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث الآلي عن البنية (MAE-NAS) والبنى الأساسية المعاد معايرتها بكفاءة على أداء الكشف.

متى تختار YOLOv9

YOLOv9 في الحالات التالية:

  • أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

Ultralytics : التقدم إلى YOLO26

بالنسبة للمستخدمين الذين يقارنون بين البنى القديمة، فإن الانتقال إلى Ultralytics الحديث Ultralytics — ولا سيما أحدث نماذج YOLO26— يوفر ميزة لا مثيل لها.

يغير YOLO26 بشكل جذري مشهد النشر من خلال تصميمه الشامل NMS. من خلال التخلص تمامًا من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يوفر بنى نشر أسرع وأبسط بشكل كبير. إلى جانب إزالة Distribution Focal Loss (DFL)، يوفر YOLO26 توافقًا فائقًا للأجهزة المتطورة والأجهزة منخفضة الطاقة.

علاوة على ذلك، يدمج YOLO26 محرك MuSGD Optimizer الثوري، وهو مزيج من تحسينات Stochastic Gradient Descent و Muon المستوحاة من ابتكارات تدريب LLM. ينتج عن ذلك تقارب تدريب عالي الاستقرار مع الحفاظ على استخدام منخفض للغاية للذاكرة مقارنة بالبدائل التي تعتمد بشكل كبير على المحولات.

تدريب مبسط مع YOLO26

بفضل Ultralytics البديهية، يمكنك تدريب نموذج YOLO26 المتطور مع تتبع التجارب المدمج في بضع أسطر من Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

سواء كنت بحاجة إلى تقسيم متقدم للمثيلات، أو تقدير دقيق للغاية للوضع، أو كشف قياسي للمربع المحيط، فإن تعدد استخدامات Ultralytics يضمن أن فريقك يقضي وقتًا أقل في تكوين بيئات التعلم العميق ووقتًا أطول في نشر حلول الذكاء الاصطناعي القوية. بفضل التحسينات المتخصصة في المهام مثل ProgLoss + STAL لتحسين التعرف على الأجسام الصغيرة، يُعد YOLO26 الخيار الأول للجيل التالي من تطبيقات الرؤية.


تعليقات