Meet YOLO26: next-gen vision AI.

Link to this sectionمقارنة بين DAMO-YOLO و YOLOv10#

شهد مجال الرؤية الحاسوبية تطوراً سريعاً في بنيات اكتشاف الكائنات اللحظية. عند مقارنة DAMO-YOLO و YOLOv10، نلاحظ فلسفتين متميزتين في تصميم النماذج: البحث الآلي عن البنية مقابل التحسين الشامل الخالي من NMS. وعلى الرغم من أن كلاً منهما يدفع حدود الدقة والسرعة، إلا أن هياكلهما الأساسية وحالات الاستخدام المثالية تختلف بشكل كبير.

Link to this sectionDAMO-YOLO: البحث في البنية العصبية على نطاق واسع#

تم تطوير DAMO-YOLO بواسطة مجموعة علي بابا، وظهر ككاشف قوي يركز على الاستفادة من الاكتشاف الآلي لتحقيق الكفاءة الهيكلية.

  • المؤلفون: Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, و Xiuyu Sun
  • التاريخ: 23 نوفمبر 2022
  • Arxiv: 2211.15444v2
  • GitHub: tinyvision/DAMO-YOLO

Link to this sectionأبرز ميزات البنية#

يعتمد DAMO-YOLO بشكل كبير على البحث في بنية الشبكة العصبية (NAS) لتحقيق التوازن بين الأداء وزمن الوصول. يستخدم عموده الفقري، الذي يسمى MAE-NAS، بحثاً تطورياً متعدد الأهداف ضمن ميزانيات حوسبة صارمة للعثور على العمق والعرض الأمثل للطبقات.

للتعامل مع دمج الميزات عبر المقاييس، يستخدم النموذج شبكة RepGFPN (شبكة هرمية للميزات العامة مُعاد تحديد معالمها) فعالة. هذا التصميم ذو الرقبة الثقيلة بارع بشكل خاص في استخراج التسلسلات الهرمية المكانية المعقدة، مما يجعله مفيداً في سيناريوهات مثل تحليل صور الأقمار الصناعية. بالإضافة إلى ذلك، يقدم DAMO-YOLO نموذج ZeroHead، وهو رأس اكتشاف مبسط يقلل بشكل كبير من تعقيد طبقات التنبؤ النهائية، معتمداً على عملية تعزيز تقطير قوية أثناء التدريب.

تدريب التقطير

غالباً ما يستخدم DAMO-YOLO عملية تقطير معرفية متعددة المراحل. وهو يتطلب تدريب نموذج "معلم" أثقل لتوجيه نموذج "طالب" أصغر، مما يستخرج mAP (متوسط دقة متوسط) أعلى ولكنه يزيد بشكل كبير من وقت حوسبة GPU المطلوبة.

تعرف على المزيد حول DAMO-YOLO

Link to this sectionYOLOv10: ريادة الكشف عن الكائنات بشكل شامل#

بعد عام ونصف، أحدث YOLOv10 تحولاً نموذجياً من خلال القضاء تماماً على الحاجة إلى كبت غير الحد الأقصى (NMS) أثناء الاستدلال.

Link to this sectionأبرز ميزات البنية#

الميزة البارزة في YOLOv10 هي تخصيصاته الثنائية المتسقة للتدريب بدون NMS. تتنبأ الكاشفات التقليدية بصناديق إحاطة متداخلة متعددة لكائن واحد، مما يتطلب NMS لتصفية التكرارات. تخلق خطوة المعالجة اللاحقة هذه عنق زجاجة، خاصة على أجهزة الحافة. يحل YOLOv10 هذا من خلال السماح للنموذج بالتنبؤ بشكل طبيعي بصندوق إحاطة واحد دقيق لكل كائن.

ركز المؤلفون أيضاً على تصميم نموذج شامل يعتمد على كفاءة الدقة. من خلال التحليل الدقيق للتكرار الحسابي في البنيات الحالية، قاموا بتحسين العمود الفقري والرأس لتقليل عدد FLOPs والمعلمات. يضمن هذا التصميم خفيف الوزن أن يقدم YOLOv10 زمن استدلال استثنائياً عند تصديره إلى تنسيقات مثل TensorRT أو OpenVINO.

تعرف على المزيد حول YOLOv10

Link to this sectionالأداء والمعايير القياسية#

يوضح الجدول أدناه مقاييس الأداء الخام على مجموعة بيانات COCO. يتم تمييز أفضل القيم الإجمالية في كل عمود بـ الخط العريض.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
DAMO-YOLOt64042.0-2.328.518.1
DAMO-YOLOs64046.0-3.4516.337.8
DAMO-YOLOm64049.2-5.0928.261.8
DAMO-YOLOl64050.8-7.1842.197.3
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

بينما يحافظ DAMO-YOLO على مكانته من حيث الدقة، يوفر YOLOv10 باستمرار زمن وصول أقل وأوزان نموذج أصغر بكثير. على سبيل المثال، يحقق YOLOv10s معدل mAP أعلى قليلاً (46.7%) من DAMO-YOLOs (46.0%) بينما يستخدم أقل من نصف المعلمات (7.2 مليون مقابل 16.3 مليون). المتطلبات الأقل للذاكرة تجعل YOLOv10 خياراً متعدد الاستخدامات بشكل استثنائي للأنظمة المدمجة.

Link to this sectionكفاءة التدريب وسهولة الاستخدام#

عند الانتقال من البحث الأكاديمي إلى الإنتاج، تعتبر سهولة الاستخدام أمراً بالغ الأهمية. يمكن أن تشكل عملية التقطير متعددة المراحل وتكوينات NAS المعقدة في DAMO-YOLO منحنيات تعليمية حادة لفرق الهندسة.

Conversely, YOLOv10 benefits immensely from being fully integrated into the Ultralytics Python SDK. Training a custom model involves minimal boilerplate code. Ultralytics handles data augmentation, hyperparameter tuning, and experiment tracking automatically.

from ultralytics import YOLO

# Load a pretrained YOLOv10 nano model
model = YOLO("yolov10n.pt")

# Train on a custom dataset with built-in validation
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image seamlessly
prediction = model("path/to/image.jpg")
prediction[0].show()
النماذج الأولية السريعة

يسمح استخدام نظام Ultralytics للمطورين بالانتقال من نموذج أولي إلى نموذج ONNX مُصدر بالكامل في بضعة أسطر فقط من التعليمات البرمجية، متجاوزين إعدادات البيئة المعقدة التي تتطلبها الأطر القديمة.

Link to this sectionحالات الاستخدام في العالم الحقيقي#

  • التجزئة الذكية (DAMO-YOLO): تعد دقة DAMO-YOLO مناسبة تماماً لبيئات الخوادم عالية الكثافة التي تحلل سلوك العملاء حيث تتوفر وحدات GPU بكثرة ويمكن إدارة اختناقات NMS في الوقت الفعلي.
  • المركبات ذاتية القيادة (YOLOv10): تضمن البنية الخالية من NMS زمن وصول حتمياً وقابلاً للتنبؤ، وهو أمر بالغ الأهمية لأنظمة السلامة في القيادة الذاتية.
  • Industrial Automation (YOLOv10): Detecting defects on fast-moving assembly lines requires models that maximize real-time inference speeds without consuming vast VRAM, making YOLOv10 a prime candidate for edge deployment.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين DAMO-YOLO و YOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار DAMO-YOLO#

يعد DAMO-YOLO خياراً قوياً لما يلي:

  • تحليلات الفيديو ذات الإنتاجية العالية: معالجة تدفقات الفيديو ذات معدل الإطارات العالي على بنية تحتية ثابتة لوحدات GPU من NVIDIA حيث يكون إنتاجية الدفعة-1 هو المقياس الأساسي.
  • خطوط التصنيع الصناعية: السيناريوهات ذات قيود زمن انتقال GPU صارمة على أجهزة مخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
  • أبحاث البحث في البنية العصبية: دراسة تأثيرات البحث الآلي في البنية (MAE-NAS) والهياكل الأساسية المعاد برمجتها بكفاءة على أداء الاكتشاف.

Link to this sectionمتى تختار YOLOv10#

يوصى باستخدام YOLOv10 في الحالات التالية:

  • الكشف الفوري بدون NMS: التطبيقات التي تستفيد من الكشف الشامل (end-to-end) بدون تقنية Non-Maximum Suppression، مما يقلل من تعقيد النشر.
  • الموازنة بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر مختلف أحجام النماذج.
  • تطبيقات زمن الاستجابة المتسق: سيناريوهات النشر التي تكون فيها أوقات الاستدلال القابلة للتنبؤ أمراً بالغ الأهمية، مثل الروبوتات أو الأنظمة ذاتية القيادة.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionالجيل القادم: انطلق مع Ultralytics YOLO26#

بينما وضع YOLOv10 الأساس للاكتشاف بدون NMS، تطورت التكنولوجيا بسرعة. بالنسبة للتطبيقات الحديثة، يقدم نموذج Ultralytics YOLO26 أداءً وسهولة استخدام لا مثيل لهما، حيث يأخذ أفضل ما في الأجيال السابقة ويصقله للإنتاج.

YOLO26 features a strictly natively end-to-end design, eliminating NMS post-processing for simpler deployment pipelines across edge devices. Furthermore, the removal of Distribution Focal Loss (DFL) has dramatically improved compatibility with low-power edge AI hardware.

On the training side, YOLO26 introduces the MuSGD Optimizer, a hybrid inspired by Large Language Model (LLM) training techniques. This ensures more stable training and faster convergence. Coupled with the ProgLoss + STAL loss functions, YOLO26 exhibits remarkable improvements in small-object recognition, a critical feature for wildlife conservation and drone operations.

بشكل حاسم، YOLO26 ليس مجرد كاشف كائنات. إنه يوفر تحسينات خاصة بالمهام في جميع المجالات، ويدعم بشكل أصيل تجزئة المثيلات، وتقدير الوضع باستخدام تقدير الاحتمالية اللوغاريتمية المتبقية (RLE)، وخسائر الزاوية المتخصصة لـ صناديق الإحاطة الموجهة (OBB). مع استدلال أسرع بنسبة تصل إلى 43% على وحدة المعالجة المركزية (CPU) مقارنة بأسلافه، فهو الخيار النهائي لفرق الهندسة الرشيقة.

للإدارة المركزية، والتعليقات التوضيحية، والتدريب السحابي لنماذج YOLO26، توفر منصة Ultralytics واجهة بديهية تبسط دورة حياة الرؤية الحاسوبية بأكملها.

يمكن للمطورين المهتمين باستكشاف التطورات الأخيرة الأخرى تقييم Ultralytics YOLO11 أو إطار العمل المعتمد على المحولات RT-DETR للسيناريوهات التي تتطلب حلولاً معمارية متميزة.

التعليقات