DAMO-YOLO في مواجهة YOLOv9: مقارنة تقنية شاملة لهياكل كشف الأشياء الحديثة
يستمر مشهد كشف الأشياء في الوقت الفعلي في التطور بوتيرة سريعة للغاية. وبينما يسعى المهندسون والباحثون لتحقيق التوازن المثالي بين الدقة وسرعة الاستنتاج والكفاءة الحسابية، ظهر هيكلان بارزان من مجتمع البحث وهما: DAMO-YOLO و YOLOv9. يقدم كلا النموذجين ابتكارات هيكلية كبيرة تهدف إلى دفع حدود الممكن في مجال الرؤية الحاسوبية.
يوفر هذا الدليل التقني المفصل تحليلاً معمقاً لهذين النموذجين، مع مقارنة نهجهما الهيكلي الفريد ومنهجيات التدريب وقدرات النشر في العالم الحقيقي. سنستكشف أيضاً كيف يلعب النظام البرمجي الأوسع دوراً محورياً في تطوير الذكاء الاصطناعي الحديث، مع تسليط الضوء على مزايا المنصات المتكاملة مثل منصة Ultralytics والجيل الأحدث من النماذج مثل YOLO26.
ملخص تنفيذي: اختيار الهيكل المناسب
على الرغم من أن كلا النموذجين يمثلان معالم بارزة في أبحاث التعلم العميق، إلا أنهما يلبيان فلسفات نشر مختلفة قليلاً.
يتفوق DAMO-YOLO في البيئات التي يمكن فيها استخدام البحث عن الهيكل العصبي (NAS) المكثف لاستخراج ملامح أداء محددة، مما يجعله دراسة مثيرة للاهتمام لنشر النماذج على الحافة بشكل مخصص. وعلى العكس من ذلك، يركز YOLOv9 بشكل كبير على حل اختناقات معلومات التعلم العميق، مما يوفر كفاءة استثنائية في استخدام المعلمات.
ومع ذلك، بالنسبة للنشر الجاهز للإنتاج، يوصي فرق الهندسة باستمرار بالاستفادة من نظام Ultralytics البيئي الموحد. بالنسبة للمشاريع الجديدة، يوفر أحدث نموذج YOLO26 أفضل ما في العالمين: دقة متطورة مقترنة بتصميم أصلي من البداية إلى النهاية يلغي الحاجة إلى معالجة لاحقة معقدة.
بينما يُعد DAMO-YOLO و YOLOv9 نماذج أكاديمية قوية، فإن نشرهما في الإنتاج يتطلب غالباً هندسة مخصصة كبيرة. يوفر استخدام Ultralytics YOLO26 الوصول إلى أداء متطور من خلال API مبسط وقابل للصيانة.
المواصفات التقنية والمؤلفون
يوفر فهم أصول هذه النماذج وتركيز تطويرها سياقاً أساسياً لنقاط قوتها الخاصة.
DAMO-YOLO
تم تطوير DAMO-YOLO بواسطة باحثين في مجموعة Alibaba، ويركز بشكل كبير على توليد الهيكل الآلي ودمج الميزات بكفاءة.
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- المنظمة: Alibaba Group
- تاريخ الإصدار: 23 نوفمبر 2022
- ورقة Arxiv البحثية: ورقة بحث DAMO-YOLO
- GitHub الرسمي: مستودع tinyvision/DAMO-YOLO
- التوثيق: ملف README لـ DAMO-YOLO
YOLOv9
تم تقديم YOLOv9 كحل لفقدان المعلومات في الشبكات التلافيفية العميقة، وهو يدفع الحدود النظرية للحفاظ على التدرج أثناء التدريب.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديمية سينيكا، تايوان
- تاريخ الإصدار: 21 فبراير 2024
- ورقة Arxiv البحثية: ورقة بحث YOLOv9
- GitHub الرسمي: مستودع WongKinYiu/yolov9
- التوثيق: توثيق YOLOv9 من Ultralytics
الابتكارات المعمارية
DAMO-YOLO: مدفوع بالبحث عن الهيكل العصبي (NAS)
يتميز DAMO-YOLO بمكوناته المخصصة للغاية والمولدة آلياً. يتم إنشاء هيكله الأساسي (Backbone) باستخدام البحث عن الهيكل العصبي (NAS)، مستهدفاً بشكل خاص الاستنتاج منخفض التأخير على الأجهزة المختلفة.
يتميز الهيكل بوجود RepGFPN (شبكة هرمية للميزات عامة معاد صياغتها) فعالة لدمج الميزات، مما يعزز كشف الأشياء متعدد المقاييس دون زيادة العبء الحسابي بشكل مفرط. علاوة على ذلك، يستخدم تصميماً ZeroHead لتبسيط رأس الكشف ويستخدم AlignedOTA لتعيين التسميات، مقترناً بعملية تحسين تقطير متطورة أثناء التدريب. على الرغم من أن هذه التقنيات تحقق استنتاجاً سريعاً، إلا أن عملية التقطير متعددة المراحل تتطلب غالباً ذاكرة فيديو (VRAM) كبيرة وأوقات تدريب طويلة.
YOLOv9: حل اختناق المعلومات
يعالج YOLOv9 قضية أساسية في الشبكات العميقة: الفقدان التدريجي لمعلومات بيانات الإدخال أثناء مرورها عبر الطبقات المتعاقبة.
لمواجهة ذلك، قدم المؤلفون معلومات التدرج القابلة للبرمجة (PGI)، وهي إطار إشراف مساعد مصمم للاحتفاظ بالتفاصيل الحاسمة للطبقات العميقة، مما يولد تدرجات موثوقة للغاية لتحديثات الأوزان. يرافق PGI هيكل GELAN (شبكة تجميع الطبقات الفعالة العامة). يعمل GELAN على تحسين كفاءة المعلمات من خلال الجمع بين نقاط قوة CSPNet و ELAN، مما يزيد من تدفق المعلومات إلى الحد الأقصى مع تقليل العمليات الحسابية للنقطة العائمة (FLOPs) بدقة.
تحليل الأداء والمقاييس
عند تقييم الأداء، يُظهر كلا النموذجين متوسط دقة متوسط (mAP) قوياً على المعايير القياسية مثل COCO. يحقق YOLOv9 دقة مطلقة أعلى عبر أحجام النماذج المكافئة، مستفيداً من هيكل PGI للحفاظ على دقة عالية في مجموعات البيانات الصعبة.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
كما هو موضح أعلاه، يحقق YOLOv9-E أعلى دقة، بينما تحافظ متغيرات DAMO-YOLO و YOLOv9 الأصغر على سرعات استنتاج تنافسية للغاية عبر تحسينات TensorRT.
منهجيات التدريب والنظام البيئي
بينما يعد الهيكل الخام مهماً، فإن سهولة الاستخدام وكفاءة التدريب التي يمليها النظام البيئي للنموذج أمر بالغ الأهمية للتطبيق في العالم الحقيقي.
يتطلب اعتماد DAMO-YOLO على تقطير المعرفة غالباً تدريب نموذج "معلم" مرهق قبل نقل المعرفة إلى نموذج "طالب" مستهدف. يزيد هذا النهج البحثي التقليدي بشكل كبير من متطلبات الذاكرة وأوقات دورة التدريب. وبالمثل، يتطلب مستودع YOLOv9 الأصلي التنقل في ملفات تكوين معقدة يمكن أن تبطئ التطوير الرشيق.
في المقابل، فإن دمج النماذج في منصة Ultralytics يغير تماماً تجربة المطور. تقوم حزمة Ultralytics Python بتجريد التعليمات البرمجية المتكررة، مما يسمح للفرق بمعالجة زيادة البيانات وضبط المعلمات الفائقة وتصدير النموذج دون عناء.
التطبيقات وحالات الاستخدام في العالم الحقيقي
تتفوق الهياكل المختلفة بشكل طبيعي في صناعات محددة بناءً على متطلبات الموارد وملفات تعريف الدقة الخاصة بها.
- DAMO-YOLO في ذكاء الحافة الاصطناعي: نظراً لهياكله الأساسية المحسنة بواسطة NAS، يتم استكشاف DAMO-YOLO بشكل متكرر في الأنظمة المدمجة حيث تعد إعادة الصياغة الخاصة بالأجهزة ضرورة صارمة، مثل نشر ASIC المخصص في مراقبة جودة التصنيع الأساسية.
- YOLOv9 في التحليلات الدقيقة: بفضل كفاءة المعلمات العالية والاحتفاظ بالتدرج المدفوع بـ PGI، يعد YOLOv9 ممتازاً لسيناريوهات كشف الأشياء الكثيفة، مثل تحليل الصور الجوية أو تتبع الأشياء الصغيرة في بيئات البيع بالتجزئة المزدحمة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO و YOLOv9 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
يعد DAMO-YOLO خياراً قوياً لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
متى تختار YOLOv9
يُوصى بـ YOLOv9 لـ:
- أبحاث عنق زجاجة المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- قياس أداء الاكتشاف عالي الدقة: السيناريوهات التي تحتاج فيها إلى أداء قياس COCO القوي لـ YOLOv9 كنقطة مرجعية للمقارنات المعمارية.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
ميزة Ultralytics: التقدم نحو YOLO26
بالنسبة للمستخدمين الذين يقارنون الهياكل القديمة، فإن الانتقال إلى نظام Ultralytics البيئي الحديث—وتحديداً أحدث نماذج YOLO26—يوفر ميزة لا تضاهى.
يغير YOLO26 مشهد النشر بشكل أساسي من خلال تصميمه من البداية إلى النهاية بدون NMS. من خلال القضاء تماماً على المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يوفر هياكل نشر أسرع وأبسط بشكل كبير. إلى جانب إزالة توزيع خسارة البؤرة (DFL)، يوفر YOLO26 توافقاً فائقاً لأجهزة الحافة والأجهزة منخفضة الطاقة.
علاوة على ذلك، يدمج YOLO26 مُحسِّن MuSGD الثوري، وهو مزيج من Stochastic Gradient Descent وتحسينات Muon المستوحاة من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM). يؤدي هذا إلى تقارب تدريب مستقر للغاية مع الحفاظ على استخدام ذاكرة منخفض بشكل ملحوظ مقارنة بالبدائل المعتمدة على الـ Transformer.
بفضل واجهة برمجة تطبيقات Ultralytics البديهية، يمكنك تدريب نموذج YOLO26 متطور مع تتبع تجارب مدمج في بضعة أسطر فقط من Python.
from ultralytics import YOLO
# Load the latest NMS-free YOLO26 model
model = YOLO("yolo26n.pt")
# Train on your custom dataset efficiently
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to ONNX format
model.export(format="onnx")سواء كنت تحتاج إلى تجزئة المثيلات المتقدمة، أو تقدير الوضعية عالي الدقة، أو الكشف القياسي عن الصناديق المحيطة، فإن تنوع إطار عمل Ultralytics يضمن أن يقضي فريقك وقتاً أقل في تكوين بيئات التعلم العميق والمزيد من الوقت في نشر حلول الذكاء الاصطناعي القوية. مع تحسينات المهام المتخصصة مثل ProgLoss + STAL لتعزيز التعرف على الأشياء الصغيرة، يقف YOLO26 كخيار أول للجيل القادم من تطبيقات الرؤية.