DAMO-YOLO مقابل YOLOv9: مقارنة تقنية شاملة لمعماريات الكشف عن الكائنات الحديثة

يستمر مجال الكشف عن الأجسام في الوقت الفعلي في التطور بوتيرة سريعة للغاية. في الوقت الذي تسعى فيه فرق الهندسة والباحثون إلى تحقيق التوازن المثالي بين الدقة وسرعة الاستدلال والكفاءة الحسابية، ظهرت بنيةان بارزتان من مجتمع الباحثين: YOLO و YOLOv9. يقدم كلا النموذجين ابتكارات معمارية مهمة تهدف إلى توسيع حدود الإمكانيات في مجال الرؤية الحاسوبية.

يقدم هذا الدليل الفني التفصيلي تحليلاً متعمقاً لهذين النموذجين، ويقارن بين نهجيهما المعماريين الفريدين ومنهجيات التدريب وقدرات النشر في العالم الواقعي. سنستكشف أيضاً كيف يلعب النظام البيئي الأوسع للبرمجيات دوراً حاسماً في تطوير الذكاء الاصطناعي الحديث، مع تسليط الضوء على مزايا المنصات المتكاملة مثل Ultralytics والجيل الأحدث من النماذج مثل YOLO26.

ملخص تنفيذي: اختيار البنية المناسبة

في حين أن كلا النموذجين يمثلان معالم بارزة في أبحاث التعلم العميق، إلا أنهما يلبيان فلسفات نشر مختلفة قليلاً.

يتفوق DAMO-YOLO في البيئات التي يمكن فيها استخدام البحث عن البنية العصبية (NAS) بشكل مكثف لاستخلاص ملفات تعريف أداء محددة، مما يجعله دراسة مثيرة للاهتمام للنشر المخصص على الأجهزة الطرفية. على العكس من ذلك، يركز YOLOv9 بشكل كبير على حل اختناقات معلومات التعلم العميق، مقدمًا كفاءة عالية جدًا في المعلمات.

ومع ذلك، بالنسبة لعمليات النشر الجاهزة للإنتاج، توصي فرق الهندسة باستمرار بالاستفادة من Ultralytics الموحد Ultralytics . بالنسبة للمشاريع الجديدة، فإن أحدث إصدار من نموذج YOLO26 أفضل ما في العالمين: دقة متطورة مقترنة بتصميم أصلي شامل يلغي الحاجة إلى المعالجة اللاحقة المعقدة.

تأمين مستقبل خط أنابيب الرؤية الحاسوبية الخاص بك

على الرغم من أنYOLO YOLOv9 نموذجان أكاديميان قويان، إلا أن نشرهما في الإنتاج غالبًا ما يتطلب هندسة مخصصة كبيرة. يوفر استخدام Ultralytics إمكانية الوصول إلى أداء متطور مع واجهة برمجة تطبيقات مبسطة وقابلة للصيانة.

المواصفات الفنية والمؤلف

إن فهم أصول هذه النماذج وتوجهاتها التنموية يوفر سياقًا أساسيًا لفهم نقاط قوتها.

DAMO-YOLO

تم تطويرYOLO من قبل باحثين في مجموعة Alibaba،YOLO بشكل كبير على إنشاء بنية آلية ودمج الميزات بكفاءة.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
تاريخ الإصدار: 23 نوفمبر 2022
ورقة بحثية على Arxiv:ورقة بحثية DAMO-YOLO
GitHub الرسمي:مستودع tinyvision/DAMO-YOLO
الوثائق:ملف README الخاص بـ DAMO-YOLO

تعرف على المزيد حول DAMO-YOLO

YOLOv9

تم تقديم YOLOv9 كحل لمشكلة فقدان المعلومات في الشبكات التلافيفية العميقة، YOLOv9 الحدود النظرية للحفاظ على التدرج أثناء التدريب.

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
تاريخ الإصدار: 21 فبراير 2024
ورقة بحثية على Arxiv:ورقة بحثية YOLOv9
GitHub الرسمي:مستودع WongKinYiu/yolov9
التوثيق:وثائق YOLOv9 Ultralytics

تعرف على المزيد حول YOLOv9

الابتكارات المعمارية

DAMO-YOLO: مدفوع بالبحث عن البنية العصبية

يتميز DAMO-YOLO بمكوناته المخصصة للغاية والمولدة آليًا. يتم إنشاء عموده الفقري باستخدام البحث عن البنية العصبية (NAS)، مستهدفًا بشكل خاص الاستدلال بزمن استجابة منخفض على الأجهزة المختلفة.

تتميز الهندسة المعمارية بشبكة RepGFPN (شبكة هرمية عامة معاد تقييمها) فعالة لدمج الميزات، مما يعزز الكشف عن الكائنات متعددة المقاييس دون زيادة الحمل الحسابي بشكل مفرط. علاوة على ذلك، تستخدم تصميم ZeroHead لتبسيط رأس الكشف وتستخدم AlignedOTA لتعيين التسميات، مقترنة بعملية تحسين التقطير المتطورة أثناء التدريب. في حين أن هذه التقنيات تنتج استنتاجات سريعة، فإن عملية التقطير متعددة المراحل تتطلب غالبًا ذاكرة VRAM كبيرة ووقت تدريب طويل.

YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي

YOLOv9 لمشكلة أساسية في الشبكات العميقة: الفقدان التدريجي لمعلومات البيانات المدخلة أثناء مرورها عبر الطبقات المتتالية.

لمكافحة هذا الأمر، قدم المؤلفون معلومات التدرج القابلة للبرمجة (PGI)، وهي إطار عمل إشرافي إضافي مصمم للاحتفاظ بالتفاصيل المهمة للطبقات العميقة، مما يولد تدرجات موثوقة للغاية لتحديثات الأوزان. يرافق PGI بنية GELAN (شبكة تجميع الطبقات الفعالة المعممة). تعمل GELAN على تحسين كفاءة المعلمات من خلال الجمع بين نقاط قوة CSPNet و ELAN، مما يزيد من تدفق المعلومات إلى أقصى حد مع تقليل عمليات النقاط العائمة (FLOPs) إلى أدنى حد.

تحليل الأداء والمقاييس

عند تقييم الأداء، يُظهر كلا النموذجين متوسط دقة قوي (mAP) في المعايير القياسية مثل COCO. YOLOv9 دقة مطلقة أعلى عبر أحجام نماذج متكافئة، مستفيدًا من بنية PGI للحفاظ على دقة عالية في مجموعات البيانات الصعبة.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv9t	640	38.3	-	2.3	2.0	7.7
YOLOv9s	640	46.8	-	3.54	7.1	26.4
YOLOv9m	640	51.4	-	6.43	20.0	76.3
YOLOv9c	640	53.0	-	7.16	25.3	102.1
YOLOv9e	640	55.6	-	16.77	57.3	189.0

كما هو موضح أعلاه، يحقق YOLOv9-E أعلى دقة، بينما تحافظ متغيرات DAMO-YOLO و YOLOv9 الأصغر على سرعات استدلال تنافسية للغاية عبر تحسينات TensorRT.

منهجيات التدريب والنظام البيئي

في حين أن الهندسة المعمارية الأولية مهمة، فإن قابلية الاستخدام وكفاءة التدريب التي تمليها بيئة النموذج تعتبران أمرين بالغين الأهمية للتطبيق في العالم الواقعي.

غالبًا ما يتطلب اعتماد DAMO-YOLO على تقطير المعرفة تدريب نموذج "معلم" مرهق قبل نقل المعرفة إلى نموذج "الطالب" المستهدف. يزيد هذا النهج البحثي التقليدي بشكل كبير من متطلبات الذاكرة وأوقات دورة التدريب. وبالمثل، يتطلب مستودع YOLOv9 الأصلي التنقل في ملفات التكوين المعقدة التي يمكن أن تبطئ التطوير الرشيق.

في المقابل، يغير دمج النماذج في منصة Ultralytics تجربة المطورين بالكامل. تعمل حزمة Ultralytics Python على تجريد التعليمات البرمجية المتكررة، مما يسمح للفرق بالتعامل مع زيادة البيانات وضبط المعلمات الفائقة وتصدير النماذج بسهولة.

التطبيقات الواقعية وحالات الاستخدام

تتفوق البنى المختلفة بشكل طبيعي في صناعات محددة بناءً على متطلبات الموارد وملفات الدقة الخاصة بها.

DAMO-YOLO في الذكاء الاصطناعي الحافي (Edge AI): نظرًا لأعمدته الفقرية المحسّنة بواسطة NAS، يتم استكشاف DAMO-YOLO بشكل متكرر في الأنظمة المدمجة حيث تكون إعادة التعيين الخاصة بالأجهزة (rep-parameterization) ضرورة قصوى، مثل نشر ASIC المخصص في مراقبة جودة التصنيع الأساسية.
YOLOv9 في التحليلات الدقيقة: بفضل كفاءته العالية في المعلمات واحتفاظه بالتدرج المدفوع بـ PGI، يُعد YOLOv9 ممتازًا لسيناريوهات detect الكائنات الكثيفة، مثل تحليل الصور الجوية أو track الكائنات الصغيرة في بيئات البيع بالتجزئة المزدحمة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين DAMO-YOLO وYOLOv9 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

DAMO-YOLO خيار قوي لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار YOLOv9

YOLOv9 في الحالات التالية:

أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

Ultralytics : التقدم إلى YOLO26

بالنسبة للمستخدمين الذين يقارنون بين البنى القديمة، فإن الانتقال إلى Ultralytics الحديث Ultralytics — ولا سيما أحدث نماذج YOLO26— يوفر ميزة لا مثيل لها.

يغير YOLO26 بشكل جذري مشهد النشر من خلال تصميمه الشامل NMS. من خلال التخلص تمامًا من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يوفر بنى نشر أسرع وأبسط بشكل كبير. إلى جانب إزالة Distribution Focal Loss (DFL)، يوفر YOLO26 توافقًا فائقًا للأجهزة المتطورة والأجهزة منخفضة الطاقة.

علاوة على ذلك، يدمج YOLO26 محرك MuSGD Optimizer الثوري، وهو مزيج من تحسينات Stochastic Gradient Descent و Muon المستوحاة من ابتكارات تدريب LLM. ينتج عن ذلك تقارب تدريب عالي الاستقرار مع الحفاظ على استخدام منخفض للغاية للذاكرة مقارنة بالبدائل التي تعتمد بشكل كبير على المحولات.

تدريب مبسط مع YOLO26

بفضل Ultralytics البديهية، يمكنك تدريب نموذج YOLO26 المتطور مع تتبع التجارب المدمج في بضع أسطر من Python.

from ultralytics import YOLO

# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")

# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export the trained model to ONNX format
model.export(format="onnx")

سواء كنت بحاجة إلى تقسيم متقدم للمثيلات، أو تقدير دقيق للغاية للوضع، أو كشف قياسي للمربع المحيط، فإن تعدد استخدامات Ultralytics يضمن أن فريقك يقضي وقتًا أقل في تكوين بيئات التعلم العميق ووقتًا أطول في نشر حلول الذكاء الاصطناعي القوية. بفضل التحسينات المتخصصة في المهام مثل ProgLoss + STAL لتحسين التعرف على الأجسام الصغيرة، يُعد YOLO26 الخيار الأول للجيل التالي من تطبيقات الرؤية.