DAMO-YOLO في مواجهة YOLOv10: تطور كشف الكائنات الفعال في الوقت الفعلي
شهد مجال الرؤية الحاسوبية تطوراً سريعاً في بنيات كشف الكائنات في الوقت الفعلي. عند المقارنة بين DAMO-YOLO و YOLOv10، نلاحظ فلسفتين متميزتين في تصميم النماذج: البحث الآلي عن البنية مقابل التحسين الشامل الخالي من NMS. وبينما يدفع كلاهما حدود الدقة والسرعة، فإن هياكلهما الأساسية وحالات الاستخدام المثالية تختلف بشكل كبير.
DAMO-YOLO: البحث عن البنية العصبية على نطاق واسع
تم تطوير DAMO-YOLO من قبل مجموعة علي بابا، وقد ظهر ككاشف قوي يركز على الاستفادة من الاكتشاف الآلي لتحقيق الكفاءة الهيكلية.
- المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
- التاريخ: 23 نوفمبر 2022
- Arxiv: 2211.15444v2
- GitHub: tinyvision/DAMO-YOLO
أبرز الخصائص المعمارية
يعتمد DAMO-YOLO بشكل كبير على البحث في بنية الشبكة العصبية (NAS) للموازنة بين الأداء والكمون. يستخدم عموده الفقري، المسمى MAE-NAS، بحثاً تطورياً متعدد الأهداف ضمن ميزانيات حوسبة صارمة لإيجاد العمق والعرض الأمثل للطبقات.
للتعامل مع دمج الميزات عبر المقاييس المختلفة، يستخدم النموذج شبكة RepGFPN (شبكة هرمية للميزات المعممة والمعاد برمجتها) فعالة. هذا التصميم ذو الرقبة الثقيلة بارع بشكل خاص في استخراج التسلسلات الهرمية المكانية المعقدة، مما يجعله مفيداً في سيناريوهات مثل تحليل الصور الجوية. بالإضافة إلى ذلك، يقدم DAMO-YOLO نموذج ZeroHead، وهو رأس كشف مبسط يقلل بشكل كبير من تعقيد طبقات التنبؤ النهائية، معتمداً على عملية تعزيز التقطير القوية أثناء التدريب.
غالباً ما يستخدم DAMO-YOLO عملية تقطير المعرفة متعددة المراحل. وهو يتطلب تدريب نموذج "معلم" أثقل لتوجيه نموذج "طالب" أصغر، والذي يستخرج mAP (متوسط دقة متوسط) أعلى ولكنه يزيد بشكل كبير من وقت حوسبة GPU المطلوب.
YOLOv10: ريادة اكتشاف الكائنات من الطرف إلى الطرف
بعد عام ونصف، قدم YOLOv10 تحولاً نموذجياً من خلال القضاء تماماً على الحاجة إلى كبت غير الحد الأقصى (NMS) أثناء الاستدلال.
- المؤلفون: Ao Wang، Hui Chen، Lihao Liu، وآخرون.
- المؤسسة: جامعة تسينغهاوا
- التاريخ: 23 مايو 2024
- Arxiv: 2405.14458
- المستندات: Ultralytics YOLOv10
أبرز الخصائص المعمارية
الميزة البارزة في YOLOv10 هي تخصيصاته المزدوجة المتسقة للتدريب الخالي من NMS. تتنبأ الكاشفات التقليدية بصناديق محيطة متداخلة متعددة لكائن واحد، مما يتطلب NMS لتصفية التكرارات. تخلق خطوة المعالجة اللاحقة هذه عنق زجاجة، خاصة على أجهزة الحافة. يحل YOLOv10 هذه المشكلة من خلال السماح للنموذج بالتنبؤ بشكل طبيعي بصندوق محيط واحد دقيق لكل كائن.
ركز المؤلفون أيضاً على تصميم نموذج شامل مدفوع بالكفاءة والدقة. من خلال تحليل التكرار الحسابي في البنيات الحالية بعناية، قاموا بتحسين العمود الفقري والرأس لتقليل عدد FLOPs والمعلمات. يضمن هذا التصميم خفيف الوزن أن يقدم YOLOv10 زمن وصول استثنائي للاستدلال عند تصديره إلى تنسيقات مثل TensorRT أو OpenVINO.
الأداء والمعايير
يوضح الجدول أدناه مقاييس الأداء الخام على مجموعة بيانات COCO. تم تمييز أفضل القيم الإجمالية في كل عمود بالخط العريض.
| النموذج | الحجم (بكسل) | mAPval 50-95 | السرعة CPU ONNX (ملي ثانية) | السرعة T4 TensorRT10 (ملي ثانية) | المعلمات (مليون) | FLOPs (مليار) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
بينما يحافظ DAMO-YOLO على مكانته من حيث الدقة، يوفر YOLOv10 باستمرار زمن انتقال أقل وأوزان نموذج أصغر بكثير. على سبيل المثال، يحقق YOLOv10s دقة mAP أعلى قليلاً (46.7%) من DAMO-YOLOs (46.0%) مع استخدام أقل من نصف المعلمات (7.2 مليون مقابل 16.3 مليون). تجعل متطلبات الذاكرة المنخفضة من YOLOv10 خياراً متعدد الاستخدامات بشكل استثنائي للأنظمة المدمجة.
كفاءة التدريب وسهولة الاستخدام
عند الانتقال من البحث الأكاديمي إلى الإنتاج، تعد سهولة الاستخدام أمراً بالغ الأهمية. يمكن أن تشكل عملية التقطير متعددة المراحل وتكوينات NAS المعقدة في DAMO-YOLO منحنيات تعليمية حادة لفرق الهندسة.
Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()يتيح استخدام نظام Ultralytics للمطورين الانتقال من نموذج أولي إلى نموذج ONNX مُصدر بالكامل في بضعة أسطر فقط من التعليمات البرمجية، متجاوزاً إعدادات البيئة المعقدة التي تتطلبها الأطر القديمة.
حالات الاستخدام الواقعية
- التجزئة الذكية (DAMO-YOLO): دقة DAMO-YOLO مناسبة تماماً لبيئات الخوادم عالية الكثافة التي تحلل سلوك العملاء حيث تتوفر وحدات GPU بكثرة وتكون عنق زجاجة NMS في الوقت الفعلي قابلة للإدارة.
- المركبات ذاتية القيادة (YOLOv10): تضمن البنية الخالية من NMS زمن وصول حتمي ويمكن التنبؤ به، وهو أمر بالغ الأهمية لأنظمة السلامة في القيادة الذاتية.
- الأتمتة الصناعية (YOLOv10): يتطلب اكتشاف العيوب في خطوط التجميع سريعة الحركة نماذج تزيد من سرعات الاستدلال في الوقت الفعلي دون استهلاك كميات هائلة من VRAM، مما يجعل YOLOv10 مرشحاً رئيسياً لنشر الحافة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO و YOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
يعد DAMO-YOLO خياراً قوياً لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات على بنية تحتية ثابتة لـ NVIDIA GPU حيث تعد إنتاجية الدفعة 1 المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود زمن انتقال صارمة لوحدة معالجة الرسومات على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- أبحاث البحث عن البنية العصبية: دراسة تأثيرات البحث المؤتمت عن البنية (MAE-NAS) والهياكل الأساسية المعاد معلمات ذات الكفاءة على أداء الكشف.
متى تختار YOLOv10
يُنصح بـ YOLOv10 لـ:
- اكتشاف الوقت الفعلي الخالي من NMS: التطبيقات التي تستفيد من الاكتشاف الشامل دون Non-Maximum Suppression، مما يقلل من تعقيد النشر.
- موازنة مقايضات السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الاكتشاف عبر مختلف مقاييس النماذج.
- Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.
متى تختار Ultralytics (YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:
- نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.
الجيل القادم: دخول Ultralytics YOLO26
بينما وضع YOLOv10 الأساس للكشف الخالي من NMS، تطورت التكنولوجيا بسرعة. بالنسبة للتطبيقات الحديثة، يقدم نموذج Ultralytics YOLO26 أداءً وسهولة استخدام لا مثيل لهما، حيث يأخذ الأفضل من الأجيال السابقة ويصقلها للإنتاج.
يتميز YOLO26 بتصميم نهائي أصلي تماماً، مما يلغي معالجة NMS اللاحقة لخطوط أنابيب نشر أبسط عبر أجهزة الحافة. علاوة على ذلك، أدى إزالة خسارة التوزيع البؤري (DFL) إلى تحسين التوافق بشكل كبير مع أجهزة الذكاء الاصطناعي للحافة منخفضة الطاقة.
من جانب التدريب، يقدم YOLO26 محسن MuSGD Optimizer، وهو هجين مستوحى من تقنيات تدريب النماذج اللغوية الكبيرة (LLM). يضمن هذا تدريباً أكثر استقراراً وتقارباً أسرع. بالإضافة إلى وظائف فقدان ProgLoss + STAL، يظهر YOLO26 تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهي ميزة حاسمة لـ الحفاظ على الحياة البرية وعمليات الطائرات بدون طيار.
بشكل حاسم، YOLO26 ليس مجرد كاشف كائنات. إنه يقدم تحسينات خاصة بالمهام في جميع المجالات، حيث يدعم أصلاً تجزئة المثيلات، وتقدير الوضعية باستخدام تقدير الاحتمالية اللوغاريتمية المتبقية (RLE)، وخسائر الزوايا المتخصصة لـ الصناديق المحيطة الموجهة (OBB). مع استدلال وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43% من سابقاتها، فهو الخيار النهائي للفرق الهندسية المرنة.
للإدارة المركزية والتعليق التوضيحي والتدريب السحابي لنماذج YOLO26، توفر منصة Ultralytics واجهة بديهية تبسط دورة حياة الرؤية الحاسوبية بأكملها.
يمكن للمطورين المهتمين باستكشاف التطورات الأخيرة الأخرى أيضاً تقييم Ultralytics YOLO11 أو إطار العمل RT-DETR القائم على المحولات للسيناريوهات التي تتطلب حلولاً معمارية متميزة.