DAMO-YOLO مقابل YOLOv6-3.0: مقارنة شاملة لكاشفات الكائنات الصناعية

أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور بنى متخصصة للغاية مصممة خصيصًا للتطبيقات الصناعية. ومن بين هذه البنى، تبرز بنتان مهمتان بفضل تركيزهما على الأداء في الوقت الفعلي وكفاءة النشر: YOLO و YOLOv6.YOLOv6. توفر هذه الصفحة مقارنة تقنية متعمقة بين بناتهما ومقاييس الأداء ومنهجيات التدريب لمساعدتك في اختيار خيارات النشر المناسبة لك.

DAMO-YOLO: بحث البنية العصبية يلتقي باكتشاف الكائنات

تم تطويرYOLO بواسطة باحثين في مجموعة Alibaba،YOLO نهجًا جديدًا YOLO من خلال دمج البحث في الهندسة العصبية (NAS) بشكل مكثف في تصميمه الأساسي.

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:2211.15444v2
GitHub:tinyvision/DAMO-YOLO

الابتكارات المعمارية

يستخدم DAMO-YOLO عمودًا فقريًا محسنًا بواسطة NAS يُدعى MAE-NAS، والذي يبحث تلقائيًا عن هياكل الشبكة المثلى ضمن قيود زمن استجابة محددة. وهذا يضمن توسع النموذج بكفاءة عبر ملفات تعريف الأجهزة المختلفة. ولتحسين دمج الميزات، تستخدم البنية RepGFPN فعالاً (شبكة هرمية للميزات المعممة المعاد توسيطها)، مما يعزز بشكل كبير التمثيل متعدد المقاييس.

علاوة على ذلك، يقدم النموذج تصميم "ZeroHead". من خلال إزالة الهياكل المعقدة متعددة الفروع في رأس الكشف، فإنه يحافظ على المعلومات المكانية بشكل أكثر فعالية مع تقليل الحمل الحسابي. تستفيد منهجية التدريب أيضًا من AlignedOTA (تخصيص النقل الأمثل المتوافق) وتقطير المعرفة القوي، مما يسمح للنماذج الطلابية الأصغر بالتعلم من شبكات المعلمين الأثقل.

تعرف على المزيد حول DAMO-YOLO

تعقيد التقطير

في حين أن تقطير المعرفة يساعدYOLO دقة عالية، إلا أنه يتطلب خط أنابيب تدريب متعدد المراحل. وهذا يزيد بشكل كبير من GPU المطلوبة GPU مقارنة بتدريب النماذج القياسية أحادية المرحلة.

YOLOv6.0: تعظيم الإنتاجية الصناعية

ابتكر قسم Meituan Vision AI YOLOv6.YOLOv6 الذي تم تصنيفه بوضوح على أنه كاشف للأجسام الصناعية، وقد تم تصميمه خصيصًا لزيادة الإنتاجية إلى أقصى حد على NVIDIA .

المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, Hongliang Jiang, Meng Cheng, Bo Zhang, Zaidan Ke, Xiaoming Xu, و Xiangxiang Chu
المؤسسة:Meituan
التاريخ: 2023-01-13
أرخايف:2301.05586
GitHub:meituan/YOLOv6

الميزات والتحسينات الرئيسية

تم تصميم YOLOv6.YOLOv6 على أساس البنية الأساسية EfficientRep الملائمة للأجهزة، مما يجعله سريعًا للغاية عند الاستفادة من التحسينات مثل TensorRT على وحدات معالجة الرسومات الحديثة. في إصداره v3.0، يدمج الشبكة وحدة تسلسل ثنائي الاتجاه (BiC) لتحسين تحديد مواقع الأحجام المتنوعة للأجسام.

ميزة بارزة أخرى هي استراتيجية التدريب المدعوم بالمرتكزات (AAT). تجمع AAT بين استقرار الكاشفات القائمة على المرتكزات أثناء التدريب وسرعة الاستدلال لتصميم خالٍ من المرتكزات. يحقق هذا النهج الهجين تقاربًا ممتازًا دون التضحية بزمن استجابة النشر، مما يجعله خيارًا قويًا لمعالجة تدفقات الفيديو الضخمة في تحليلات المدن الذكية وأنظمة الدفع الآلي.

تعرف على المزيد حول YOLOv6

مقارنة الأداء

عند تقييم هذه النماذج للاستدلال في الوقت الفعلي، من الضروري تحقيق التوازن بين المعلمات وعمليات FLOPs والدقة. فيما يلي تقييم مفصل يقارن أداءها.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv6-3.0n	640	37.5	-	1.17	4.7	11.4
YOLOv6-3.0s	640	45.0	-	2.66	18.5	45.3
YOLOv6-3.0m	640	50.0	-	5.28	34.9	85.8
YOLOv6-3.0l	640	52.8	-	8.95	59.6	150.7

بينماYOLO تفوقًا طفيفًا في المستوى الصغير (46.0 mAP 45.0 mAP)، يُظهر YOLOv6. YOLOv6 قابلية توسع فائقة، حيث يتفوق في المستويين المتوسط والكبير مع الحفاظ على أقل المعلمات المطلقة في تكوينه النانوي.

الاختيار بين الاثنين

إذا كانت بيئة الأجهزة الخاصة بك تسمح بإجراء عمليات بحث آلية مكثفة لتخصيص البنية الأساسية الخاصة بك، فإن نهج NASYOLO يكون فعالًا للغاية. ومع ذلك، إذا كنت تعتمد كليًا على GPU القياسي (مثل T4 أو A100)، فإن هياكل EfficientRep YOLOv6 غالبًا ما تترجم إلى معدل إطارات في الثانية (FPS) أعلى.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين DAMO-YOLO وYOLOv6 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار DAMO-YOLO

DAMO-YOLO خيار قوي لـ:

تحليلات الفيديو عالية الإنتاجية: معالجة تدفقات الفيديو عالية معدل الإطارات (FPS) على بنية تحتية ثابتة لوحدات معالجة الرسوميات (GPU) من NVIDIA حيث يكون معدل نقل الدفعة الواحدة هو المقياس الأساسي.
خطوط التصنيع الصناعية: سيناريوهات ذات قيود صارمة على زمن استجابة GPU على الأجهزة المخصصة، مثل فحص الجودة في الوقت الفعلي على خطوط التجميع.
بحث في بحث البنية العصبية: دراسة تأثيرات البحث التلقائي عن البنية (MAE-NAS) والهياكل الخلفية المُعاد تحديد معلماتها بكفاءة على أداء detect.

متى تختار YOLOv6

YOLOv6 في الحالات التالية:

النشر الصناعي المدرك للأجهزة: سيناريوهات حيث يوفر تصميم النموذج المدرك للأجهزة وإعادة التكوين الفعالة أداءً محسنًا على أجهزة مستهدفة محددة.
detect سريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن مكدس تقنية Meituan والبنية التحتية للنشر.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

Ultralytics : تقديم YOLO26

على الرغم من أن كل منYOLO YOLOv6. YOLOv6 يتمتعان بقدرات عالية، إلا أنهما يعانيان من أنظمة بيئية مجزأة وقيود المهام الفردية وخطوط إنتاج معقدة. بالنسبة لفرق الهندسة الحديثة، توفر Ultralytics تجربة مطور أفضل بشكل كبير، وتبلغ ذروتها في YOLO26 الرائد.

صدر YOLO26 في يناير 2026، وهو يمثل المعيار الجديد لنشر الحوسبة السحابية والطرفية، حيث يعمل على تحسين متطلبات الذاكرة وكفاءة الحوسبة بشكل كبير.

لماذا تختار YOLO26؟

تصميم شامل خالٍ من NMS: استنادًا إلى مفاهيم من YOLOv10، يلغي YOLO26 بشكل أصيل معالجة ما بعد التثبيط غير الأقصى (Non-Maximum Suppression). وهذا يبسط بشكل كبير رمز النشر ويقلل من تباين زمن انتقال الاستدلال عبر جميع الأجهزة الطرفية.
تحسين فائق: يستخدم YOLO26 مُحسِّن MuSGD، وهو مزيج من SGD و Muon (مستوحى من نماذج اللغة الكبيرة)، مما ينتج عنه عمليات تدريب مستقرة للغاية وتقارب أسرع.
تنوع الأجهزة: من خلال تطبيق إزالة DFL (Distribution Focal Loss)، يتم تبسيط رؤوس الإخراج، مما يعزز توافق الجهاز الطرفي. في الواقع، يحقق YOLO26 سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%، مما يجعله متفوقًا بشكل كبير على YOLOv6 لبيئات الأجهزة المحمولة أو أجهزة إنترنت الأشياء الطرفية.
دقة محسنة: باستخدام ProgLoss + STAL، يشهد YOLO26 تحسينات كبيرة في اكتشاف الأجسام الصغيرة، مما يجعله الخيار الأمثل للتصوير الجوي وفحص العيوب.
تعدد استخدامات لا مثيل له: على عكس النماذج الصناعية التي تقتصر على الصناديق المحيطة، تدعم عائلة YOLO26 مهام متعددة الأنماط، بما في ذلك تصنيف الصور، وتجزئة الكائنات (Instance Segmentation)، وتقدير الوضعيات، والصناديق المحيطة الموجهة (OBB).

تعرف على المزيد حول YOLO26

تجربة نظام بيئي سلس

تقوم Ultralytics بتحويل دورة حياة التعلم الآلي بالكامل. لم يعد تدريب النموذج عملية معقدة متعددة المراحل. بفضل زيادة البيانات تلقائيًا، وضبط المعلمات الفائقة الموحدة، والتصدير بنقرة واحدة إلى تنسيقات مثل ONNXو OpenVINOو CoreML، يمكنك الانتقال من مجموعة البيانات إلى الإنتاج في غضون ساعات، وليس أسابيع.

بالإضافة إلى ذلك، تشتهر نماذج Ultralytics بـ كفاءتها في استخدام الذاكرة، متجنبة اختناقات VRAM الهائلة التي تعاني منها معماريات المحولات مثل RT-DETR.

مثال على رمز البدء السريع

يعد التدريب والاستدلال باستخدام Ultralytics مثل YOLO26 أمرًا بسيطًا للغاية. يوضح Python التالي كيف يمكنك البدء فورًا في تتبع الكائنات باستخدام بضع أسطر من التعليمات البرمجية:

from ultralytics import YOLO

# Load the highly efficient, NMS-free YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on a sample image
prediction = model("https://ultralytics.com/images/bus.jpg")

# Export to TensorRT for maximum GPU throughput
model.export(format="engine", dynamic=True)

الخلاصة

يُعد كل من DAMO-YOLO و YOLOv6-3.0 إنجازات هندسية رائعة تدفع حدود الكشف عن الكائنات الصناعية. ومع ذلك، فهي أدوات متخصصة للغاية تتطلب غالبًا إعدادات معقدة وقيودًا صارمة على الأجهزة.

بالنسبة للمطورين والباحثين الذين يطلبون توازنًا مثاليًا في الأداء وقدرات متعددة المهام ونظامًا بيئيًا يتم صيانته بشكل جيد، فإن Ultralytics YOLO26 لا مثيل له. من خلال مزج المحسّنات المستوحاة من LLM مع بنية نظيفة NMS يبسط YOLO26 نشر الذكاء الاصطناعي مع توفير دقة متطورة عبر بيئات الحافة والسحابة.

إذا كنت تقوم بتقييم نماذج لمشروع جديد في مجال الرؤية الحاسوبية، فإننا نوصي بشدة باستكشاف إمكانات Ultralytics YOLO . قد تجد أيضًا أنه من المفيد مقارنة هذه النماذج مع بنى أخرى مثل EfficientDet أو مع نماذج سابقة مثل YOLO11 لفهم تطور الذكاء الاصطناعي للرؤية في الوقت الفعلي بشكل كامل.