DAMO-YOLO مقابل YOLOv10: تطور الكشف الفعال عن الكائنات في الوقت الفعلي
شهد مجال الرؤية الحاسوبية تطوراً سريعاً في هياكل الكشف عن الأجسام في الوقت الفعلي. عند مقارنة YOLO و YOLOv10، نلاحظ فلسفتين متميزتين في تصميم النموذج: البحث الآلي عن البنية مقابل التحسين الشامل NMS. في حين أن كلاهما يوسع حدود الدقة والسرعة، فإن هياكلهما الأساسية وحالات الاستخدام المثالية تختلف بشكل كبير.
YOLO: البحث عن بنية عصبية على نطاق واسع
تم تطويرYOLO بواسطة مجموعة Alibaba،YOLO ككاشف قوي يركز على الاستفادة من الاكتشاف الآلي لتحقيق الكفاءة الهيكلية.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- التاريخ: 23 نوفمبر 2022
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
أبرز الملامح المعمارية
يعتمد DAMO-YOLO بشكل كبير على البحث عن البنية العصبية (NAS) للموازنة بين الأداء وزمن الاستجابة. يستخدم عموده الفقري، المسمى MAE-NAS، بحثًا تطوريًا متعدد الأهداف ضمن ميزانيات حسابية صارمة للعثور على العمق والعرض الأمثل للطبقة.
للتعامل مع دمج الميزات عبر المقاييس، يستخدم النموذج شبكة RepGFPN (شبكة هرمية عامة للميزات المعاد معايرتها) فعالة. هذا التصميم الثقيل الرقبة بارع بشكل خاص في استخراج التسلسلات الهرمية المكانية المعقدة، مما يجعله مفيدًا في سيناريوهات مثل تحليل الصور الجوية. بالإضافة إلى ذلك،YOLO ZeroHead، وهو رأس كشف مبسط يقلل بشكل كبير من تعقيد طبقات التنبؤ النهائية، بالاعتماد على عملية تحسين تقطير قوية أثناء التدريب.
تدريب على التقطير
غالبًا ما يستخدم DAMO-YOLO عملية تقطير معرفة متعددة المراحل. يتطلب ذلك تدريب نموذج "معلم" أثقل لتوجيه نموذج "طالب" أصغر، مما يستخلص mAP (متوسط الدقة) أعلى ولكنه يزيد بشكل كبير من وقت حساب GPU المطلوب.
YOLOv10: رائد في مجال الكشف الشامل عن الأجسام
صدر YOLOv10 بعد عام ونصف، YOLOv10 تحولًا جذريًا من خلال التخلص تمامًا من الحاجة إلى تقنية Non-Maximum Suppression (NMS) أثناء الاستدلال.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المؤسسة:جامعة تسينغ - هوا
- التاريخ: 23 مايو 2024
- Arxiv:2405.14458
- الوثائق:Ultralytics YOLOv10
أبرز الملامح المعمارية
الميزة البارزة في YOLOv10 مهامها المزدوجة المتسقة للتدريب NMS. تتنبأ أجهزة الكشف التقليدية بوجود عدة مربعات حدودية متداخلة لكائن واحد، مما يتطلب NMS التكرارات. تخلق خطوة المعالجة اللاحقة هذه عنق زجاجة، خاصة على الأجهزة الطرفية. YOLOv10 هذه المشكلة من خلال السماح للنموذج بالتنبؤ بشكل طبيعي بمربع حدودي واحد ودقيق لكل كائن.
ركز المؤلفون أيضًا على تصميم نموذج شامل قائم على الكفاءة والدقة. من خلال تحليل دقيق للتكرار الحسابي في البنى الحالية، قاموا بتحسين العمود الفقري والرأس لتقليل عدد FLOPs والمعلمات. يضمن هذا التصميم الخفيف الوزن YOLOv10 زمن استدلال استثنائي عند تصديره إلى تنسيقات مثل TensorRT أو OpenVINO.
الأداء والمعايير
يوضح الجدول أدناه مقاييس الأداء الأولية على COCO . تم تمييز أفضل القيم الإجمالية في كل عمود بالخط العريض.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
بينماYOLO بدقته، يوفر YOLOv10 زمن انتقال أقل وأوزان نموذج أصغر بكثير. على سبيل المثال، يحقق YOLOv10s معدل mAP أعلى قليلاً mAP 46.7٪) من DAMO-YOLOs (46.0٪) مع استخدام أقل من نصف المعلمات (7.2 مليون مقابل 16.3 مليون). تجعل متطلبات الذاكرة المنخفضة من YOLOv10 متعدد الاستخدامات بشكل استثنائي للأنظمة المدمجة.
كفاءة التدريب وسهولة الاستخدام
عند الانتقال من البحث الأكاديمي إلى الإنتاج، فإن سهولة الاستخدام أمر بالغ الأهمية. يمكن أن تشكل عملية التقطير متعددة المراحل وتكوينات NAS المعقدةYOLO منحنيات تعلم حادة لفرق الهندسة.
على النقيض، يستفيد YOLOv10 بشكل كبير من كونه مدمجًا بالكامل في Ultralytics Python SDK. يتضمن تدريب نموذج مخصص الحد الأدنى من التعليمات البرمجية المتكررة. تتعامل Ultralytics مع زيادة البيانات، وضبط المعلمات الفائقة، وتتبع التجارب تلقائيًا.
from ultralytics import YOLO
# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")
# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
النماذج الأولية السريعة
يتيح استخدام Ultralytics للمطورين الانتقال من النموذج الأولي إلى ONNX مُصدَّر بالكامل في بضع أسطر من التعليمات البرمجية، متجاوزين الإعدادات المعقدة للبيئة التي تتطلبها الأطر القديمة.
حالات الاستخدام في العالم الحقيقي
- تجارة التجزئة الذكية (DAMO-YOLO): دقة DAMO-YOLO مناسبة تمامًا لبيئات الخوادم عالية الكثافة التي تحلل سلوك العملاء، حيث تتوفر وحدات GPU بكثرة ويمكن التحكم في اختناقات NMS في الوقت الفعلي.
- المركبات المستقلة (YOLOv10): تضمن البنية الخالية من NMS زمن انتقال حتمي وقابل للتنبؤ، وهو أمر بالغ الأهمية لأنظمة السلامة في القيادة الذاتية.
- الأتمتة الصناعية (YOLOv10): يتطلب اكتشاف العيوب على خطوط التجميع سريعة الحركة نماذج تزيد من سرعات الاستدلال في الوقت الفعلي دون استهلاك كميات كبيرة من ذاكرة الفيديو العشوائية (VRAM)، مما يجعل YOLOv10 مرشحًا رئيسيًا للنشر على الحافة.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين DAMO-YOLO وYOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار DAMO-YOLO
DAMO-YOLO خيار قوي لـ:
- تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
- خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
- بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.
متى تختار YOLOv10
يوصى YOLOv10 في الحالات التالية:
- detect في الوقت الفعلي خالٍ من NMS: التطبيقات التي تستفيد من detect الشامل دون التثبيط غير الأقصى، مما يقلل من تعقيد النشر.
- مقايضات متوازنة بين السرعة والدقة: المشاريع التي تتطلب توازنًا قويًا بين سرعة الاستدلال ودقة الكشف عبر مقاييس النماذج المختلفة.
- تطبيقات زمن الاستجابة المتسق: سيناريوهات النشر التي تكون فيها أوقات الاستدلال المتوقعة حاسمة، مثل الروبوتات أو الأنظمة المستقلة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
الجيل القادم: دخول Ultralytics
بينما YOLOv10 الأساس للكشف NMS تطورت هذه التقنية بسرعة. بالنسبة للتطبيقات الحديثة، يوفر نموذج Ultralytics أداءً وقابلية استخدام لا مثيل لهما، حيث يستفيد من أفضل ما في الأجيال السابقة ويحسنها من أجل الإنتاج.
يتميز YOLO26 بتصميم داخلي صارم من طرف إلى طرف، مما يلغي الحاجة إلى NMS من أجل تبسيط عمليات النشر عبر الأجهزة الطرفية. علاوة على ذلك، أدى إزالة خسارة التركيز التوزيعي (DFL) إلى تحسين التوافق بشكل كبير مع أجهزة الذكاء الاصطناعي الطرفية منخفضة الطاقة.
على صعيد التدريب، يقدم YOLO26 مُحسّن MuSGD، وهو مُحسّن هجين مستوحى من تقنيات تدريب نموذج اللغة الكبيرة (LLM). ويضمن ذلك تدريباً أكثر استقراراً وتقارباً أسرع. إلى جانب وظائف الخسارة ProgLoss + STAL، يُظهر YOLO26 تحسينات ملحوظة في التعرف على الأجسام الصغيرة، وهي ميزة مهمة لحماية الحياة البرية وعمليات الطائرات بدون طيار.
الأهم من ذلك، أن YOLO26 ليس مجرد كاشف كائنات. إنه يقدم تحسينات خاصة بالمهام على نطاق واسع، ويدعم بشكل أصلي تجزئة الكائنات (Instance Segmentation)، وتقدير الوضعيات (Pose Estimation) باستخدام تقدير الاحتمالية اللوغاريتمية المتبقية (RLE)، وخسائر الزاوية المتخصصة لـ صناديق الإحاطة الموجهة (OBB). مع استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU) مقارنة بأسلافه، فإنه الخيار الأمثل لفرق الهندسة المرنة.
للإدارة المركزية والتعليق والتدريب السحابي لنماذج YOLO26، توفر Ultralytics واجهة سهلة الاستخدام تعمل على تبسيط دورة حياة الرؤية الحاسوبية بأكملها.
يمكن للمطورين المهتمين باستكشاف التطورات الحديثة الأخرى تقييم Ultralytics YOLO11 أو RT-DETR للسيناريوهات التي تتطلب حلولًا معمارية متميزة.