DAMO-YOLO مقابل YOLO11: مقارنة تقنية شاملة
عند اختيار بنية الكشف عن الكائنات في الوقت الفعلي لمشروع الرؤية الحاسوبية التالي، من الضروري فهم الفروق الدقيقة بين النماذج الرائدة. يقدم هذا الدليل الشامل تحليلاً تقنياً متعمقاً يقارنYOLO Ultralytics YOLO11 ويستكشف بنياتهما ومقاييس أدائهما ومنهجيات التدريب وسيناريوهات النشر المثالية في العالم الواقعي.
تفاصيل DAMO-YOLO:
المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, and Xiuyu Sun
المنظمة: مجموعة Alibaba
التاريخ: 2022-11-23
Arxiv: 2211.15444v2
GitHub: tinyvision/DAMO-YOLO
الوثائق: وثائق DAMO-YOLO
تفاصيل YOLO11:
المؤلفون: Glenn Jocher و Jing Qiu
المنظمة: Ultralytics
التاريخ: 2024-09-27
GitHub: ultralytics/ultralytics
الوثائق: توثيق YOLO11
فلسفة التصميم المعماري
تحدد البنية الأساسية لنموذج الكشف عن الكائنات سرعة الاستدلال ودقته وقدرته على التكيف مع مختلف بيئات الأجهزة.
DAMO-YOLO يقدم العديد من الابتكارات الأكاديمية، معتمدًا بشكل كبير على البحث عن البنية العصبية (NAS) لتصميم عموده الفقري تلقائيًا. يستخدم شبكة RepGFPN (شبكة هرمية للميزات المعممة المعاد تحديد معاملاتها) فعالة لتعزيز دمج الميزات وتصميم ZeroHead الذي يقلل بشكل كبير من رأس التنبؤ الثقيل الذي غالبًا ما يوجد في البنى السابقة. بينما يسمح هذا النهج المدفوع بـ NAS لـ DAMO-YOLO بتحقيق كفاءات محددة على وحدات GPU المختارة، فإن البنى الناتجة قد تفتقر أحيانًا إلى المرونة اللازمة للتعميم بسلاسة عبر أجهزة الحافة المتنوعة.
في المقابل، YOLO11 على سنوات من الأبحاث الأساسية لتقديم بنية مصممة يدويًا ومُحسّنة للغاية. وهي تركز على هيكل أساسي مبسط ورقبة عالية الكفاءة تقلل من الحسابات الزائدة. YOLO11 إحدى المزايا الرئيسية لـ YOLO11 كفاءة معلماتها المحسّنة؛ فهي تحقق تمثيلًا عاليًا للميزات دون متطلبات VRAM الثقيلة التي تتميز بها النماذج القائمة على المحولات مثل RT-DETR. وهذا يجعل YOLO11 متعدد الاستخدامات YOLO11 وقادرًا على العمل بسلاسة على وحدات معالجة الرسومات (GPU) الاستهلاكية والأجهزة المحمولة ومسرعات الحافة المتخصصة.
الأداء والمقاييس
يتطلب تقييم الأداء النظر إلى ما هو أبعد من دقة الخطوط العليا للنظر في التوازن بين السرعة وحجم النموذج والحمل الحسابي (FLOPs).
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
كما يوضح الجدول، يحقق YOLO11 توازنًا مثاليًا في الأداء. الـ YOLO11s المتغير، على سبيل المثال، يتفوق على DAMO-YOLOs في الدقة مع الحفاظ على حجم معلمات أصغر بكثير. هذا التخفيض في متطلبات الذاكرة يترجم مباشرة إلى انخفاض تكاليف النشر وأداء أكثر مرونة على الأجهزة الطرفية.
منهجيات التدريب وسهولة الاستخدام
يُقضي المطورون معظم وقتهم في مسار التدريب، مما يجعل كفاءة التدريب مسألة بالغة الأهمية.
يستخدم DAMO-YOLO عملية تدريب متعددة المراحل تعتمد بشكل كبير على تقطير المعرفة. يستخدم AlignedOTA (تعيين النقل الأمثل) لتعيين التسميات وغالبًا ما يتطلب تدريب نموذج "معلم" أكبر لتقطير المعرفة في نماذج "الطلاب" الأصغر. تزيد هذه المنهجية بشكل كبير من استهلاك ذاكرة CUDA ووقت الحساب الإجمالي المطلوب لتحقيق التقارب الأمثل.
على العكس من ذلك، يقوم النظام البيئي لـ Ultralytics بتجريد تعقيدات تدريب النماذج. تم تصميم YOLO11 لسهولة الاستخدام الاستثنائية، حيث يتميز بواجهة برمجة تطبيقات Python مبسطة وواجهات CLI شاملة تسمح للمهندسين ببدء التدريب على مجموعات بيانات مخصصة بأمر واحد. خط أنابيب التدريب فعال بطبيعته من حيث الموارد، مما يقلل من ارتفاعات الذاكرة بحيث يمكن تدريب النماذج الأكبر حجمًا حتى على الأجهزة القياسية.
تدريب مبسط مع Ultralytics
لا يتطلب تدريب Ultralytics أي كود نمطي. تم تحسين خطوط الأنابيب المدمجة لتحميل البيانات وزيادتها وحساب الخسائر بشكل كامل.
فيما يلي مثال سريع يوضح مدى سهولة تدريب ونشر Ultralytics :
from ultralytics import YOLO
# Load a pretrained YOLO11 small model
model = YOLO("yolo11s.pt")
# Train the model effortlessly on a custom dataset
model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)
# Export the trained model to ONNX for seamless deployment
model.export(format="onnx")
التطبيقات الواقعية والتنوع
غالبًا ما يعتمد الاختيار بين هذه البنى على نطاق المهام المطلوبة في بيئة النشر الخاصة بك.
أينYOLO
DAMO-YOLO هو إطار عمل مخصص حصريًا للكشف عن الكائنات. يتفوق في بيئات البحث الأكاديمي حيث تستكشف الفرق إعادة التوسيط أو تعيد إنتاج تجارب محددة للبحث عن البنية العصبية. يمكن أيضًا نشره في بيئات صناعية مقيدة بشدة حيث يتطابق مسرّع GPU محدد تمامًا مع العمود الفقري الناتج عن NAS.
ميزة Ultralytics
تتألق Ultralytics ، بما في ذلك YOLO11، في التطبيقات التجارية الواقعية بفضل تنوعها الفريد ونظامها البيئي الذي يتم صيانته جيدًا. على عكسYOLO يدعم Ultralytics المهام متعددة الوسائط بشكل أصلي. من تقسيم الحالات في التصوير الطبي إلى تقدير الوضع لتحليل الميكانيكا الحيوية في الرياضة، تتعامل قاعدة كود واحدة موحدة مع كل ذلك.
YOLO11 الصناعات التي تستفيد من YOLO11 ما يلي:
- الزراعة الذكية: استخدام اكتشاف الأجسام لمراقبة صحة المحاصيل وأتمتة آلات الحصاد.
- تحليلات التجزئة: تطبيق المراقبة الذكية لتحليل حركة العملاء وأتمتة إدارة المخزون.
- اللوجستيات وسلسلة التوريد: اكتشاف الباركود والطرود عالية السرعة باستخدام الصناديق المحيطة الموجهة (OBB) على سيور النقل سريعة الحركة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO وYOLO11 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
DAMO-YOLO خيار قوي لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.
متى تختار YOLO11
YOLO11 في الحالات التالية:
- النشر الإنتاجي على الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
- تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف (detect)، والـsegmentation، وتقدير الوضعية (pose estimation)، وOBB ضمن إطار عمل موحد واحد.
- النماذج الأولية والنشر السريع: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام واجهة برمجة تطبيقات Ultralytics Python المبسطة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
الجيل القادم: تقديم YOLO26
بينما YOLO11 خيارًا قويًا وموثوقًا، YOLO11 مجال الرؤية الحاسوبية يتطور بسرعة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة، فإن أحدث إصدار من YOLO26 يمثل أحدث ما توصلت إليه التكنولوجيا.
صدر YOLO26 في يناير 2026، ويقدم العديد من التطورات الرائدة:
- تصميم خالٍ من NMS وشامل: من خلال إلغاء معالجة قمع غير الحد الأقصى اللاحقة، يضمن YOLO26 أوقات استدلال أسرع ومحددة ويبسط مسارات النشر بشكل كبير.
- استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU): من خلال إزالة Distribution Focal Loss (DFL)، يعد النموذج مناسبًا بشكل استثنائي للأجهزة الطرفية ومنخفضة الطاقة التي تفتقر إلى وحدات GPU مخصصة.
- مُحسِّن MuSGD: بدمج ابتكارات تدريب نماذج LLM (المستوحاة من Moonshot AI)، يضمن هذا المُحسِّن الهجين تقاربًا مستقرًا وسريعًا أثناء التدريب.
- دوال الخسارة المتقدمة: باستخدام ProgLoss + STAL، يُظهر YOLO26 تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهو أمر بالغ الأهمية للتصوير الجوي والروبوتات.
الخلاصة
لقد ساهم كل من DAMO-YOLO و YOLO11 بشكل كبير في تقدم الرؤية الحاسوبية السريعة والدقيقة. بينما يقدم DAMO-YOLO رؤى أكاديمية مثيرة للاهتمام في البحث عن البنية والتقطير، يوفر Ultralytics YOLO11 (و YOLO26 الرائد) تجربة مطور متفوقة.
بفضل متطلبات الذاكرة المنخفضة، والوثائق الشاملة، وقدرات المهام المتعددة، والتكامل مع Ultralytics القوية، تظل Ultralytics هي التوصية الأولى للباحثين ومهندسي المؤسسات الذين يسعون إلى بناء حلول ذكاء اصطناعي قوية وقابلة للتطوير. بالنسبة لأولئك الذين يستكشفون بنى متقدمة أخرى، فإن مقارنة YOLO26 مع RT-DETR توفر رؤى إضافية حول البدائل القائمة على المحولات.