YOLOv6-3.0 مقابل YOLOv10: استعراض بنيات كشف الكائنات في الوقت الفعلي

أصبح مشهد رؤية الحاسوب أكثر تعقيداً بشكل متزايد، مما يجعل اختيار النموذج الأمثل قراراً حاسماً للمطورين ومهندسي تعلم الآلة. عند تقييم تطور كشف الكائنات ونماذج Ultralytics YOLO، من المهم فهم المقايضات بين النهج المعمارية المختلفة. يقدم هذا الدليل مقارنة تقنية شاملة بين YOLOv6-3.0 و YOLOv10، وهما نموذجان يوفران مزايا متميزة للنشر في البيئات الصناعية وبيئات الحافة.

نظرة على YOLOv6-3.0: مصمم للإنتاجية الصناعية

صُمم YOLOv6-3.0 لزيادة الإنتاجية في التطبيقات الصناعية التي تعمل على جانب الخادم، وهو يعطي الأولوية للاستدلال السريع على مسرعات الأجهزة، وخاصة وحدات معالجة الرسومات (GPUs). من خلال استخدام هيكل أساسي (backbone) محسّن، يهدف النموذج إلى تحقيق توازن بين معالجة الفيديو عالية السرعة والدقة التنافسية.

المؤلفون: Chuyi Li, Lulu Li, Yifei Geng, وآخرون
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: 2301.05586
GitHub: meituan/YOLOv6

أبرز الملامح المعمارية

تكمن نواة YOLOv6-3.0 في تصميمه الصديق للأجهزة. فهو يدمج وحدة تسلسل ثنائية الاتجاه (Bi-directional Concatenation - BiC) ضمن بنية العنق (neck) لتعزيز دمج الميزات متعددة النطاقات. بالإضافة إلى ذلك، تستفيد الشبكة من استراتيجية التدريب بمساعدة المثبتات (Anchor-Aided Training - AAT) التي تمزج بذكاء بين استقرار أجهزة الكشف القائمة على المثبتات أثناء التدريب وسرعة الاستدلال في نموذج خالٍ من المثبتات.

مدعوماً بهيكل EfficientRep، يتألق هذا النموذج في مهام أتمتة التصنيع الشاقة حيث تكون المعالجة بالدفعات على أجهزة NVIDIA القوية (مثل وحدات معالجة الرسومات T4 أو A100) هي القاعدة. وبينما يعمل بشكل مثير للإعجاب في مجموعات الخوادم، فإن اعتماده على تحسينات أجهزة محددة يمكن أن يجعله أقل كفاءة على وحدات المعالجة المركزية (CPUs) منخفضة الطاقة في الحافة.

اعرف المزيد عن YOLOv6

نظرة على YOLOv10: الرائد الخالي من NMS

تم طرح YOLOv10 بعد أكثر من عام، وقد غير النموذج النمط السائد من خلال معالجة واحدة من أكثر الاختناقات ثباتاً في خطوط أنابيب الكشف التقليدية: معالجة ما بعد الاستدلال باستخدام كبت غير الحد الأقصى (NMS).

المؤلفون: Ao Wang, Hui Chen, Lihao Liu, وآخرون
المنظمة: Tsinghua University
التاريخ: 2024-05-23
Arxiv: 2405.14458
GitHub: THU-MIG/yolov10

أبرز الملامح المعمارية

تتمثل المساهمة الرئيسية لـ YOLOv10 في هذا المجال في تصميمه الشامل الخالي من NMS. من خلال استخدام تعيينات مزدوجة متسقة أثناء التدريب، تُجبر الشبكة على إنتاج صندوق إحاطة واحد عالي الجودة لكل كائن، مما يلغي الحاجة إلى عمليات NMS القائمة على الاستدلال التجريبي أثناء الاستدلال. يقلل هذا الابتكار بشكل كبير من زمن استجابة الاستدلال الشامل ويبسط منطق النشر على أجهزة الحافة مثل وحدات المعالجة العصبية (NPUs).

علاوة على ذلك، يتميز النموذج بتصميم كلي مدفوع بالكفاءة والدقة. فمن خلال التحسين الشامل للطبقات المختلفة، يقلل YOLOv10 بشكل كبير من التكرار الحسابي. وهذا يجعله مناسباً جداً للبيئات المحدودة الموارد، بما في ذلك المركبات ذاتية القيادة وروبوتات الحافة.

اعرف المزيد عن YOLOv10

مقارنة مفصلة للأداء

عند إجراء تقييم مقارن لهذه النماذج، يتم قياس الأداء عادةً عبر الدقة، والسرعة، وكفاءة المعلمات. يوضح الجدول أدناه كيفية أداء المقاييس المختلفة لهذه البنيات.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

التحليل

يحقق YOLOv10 باستمرار متوسط دقة متوسط (mAP) متفوقاً عبر فئات الحجم المكافئة مقارنة بـ YOLOv6-3.0. على سبيل المثال، يصل YOLOv10n إلى 39.5% mAP مع 2.3 مليون معلمة فقط، بينما يسجل YOLOv6-3.0n نسبة 37.5% باستخدام أكثر من ضعف عدد المعلمات. ومع ذلك، يتمكن YOLOv6-3.0n من تحقيق زمن استدلال TensorRT خالص أسرع قليلاً على وحدة معالجة الرسومات T4 (1.17 مللي ثانية)، مما يظهر تحسينه العميق لأجهزة المعالجة المتوازية.

اعتبارات النشر

بينما قد تفضل مقاييس زمن الاستجابة الخام على وحدة معالجة الرسومات YOLOv6 في الاختبارات القياسية الدقيقة، فإن طبيعة YOLOv10 الخالية من NMS تؤدي غالباً إلى سرعات خطوط أنابيب شاملة أسرع في العالم الحقيقي، خاصة على أجهزة الحافة حيث يمكن أن تشكل معالجة ما بعد الاستدلال عنق زجاجة لوحدة المعالجة المركزية.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv6 و YOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv6

يعتبر YOLOv6 خياراً قوياً لـ:

  • النشر المدرك للأجهزة الصناعية: السيناريوهات التي يوفر فيها التصميم المدرك للأجهزة وإعادة المعلمات الفعالة للنموذج أداءً محسناً على أجهزة مستهدفة محددة.
  • الاكتشاف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستنتاج الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
  • تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن كومة تقنيات Meituan وبنية النشر التحتية الخاصة بها.

متى تختار YOLOv10

يُنصح بـ YOLOv10 لـ:

  • اكتشاف الوقت الفعلي الخالي من NMS: التطبيقات التي تستفيد من الاكتشاف الشامل دون Non-Maximum Suppression، مما يقلل من تعقيد النشر.
  • موازنة مقايضات السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الاكتشاف عبر مختلف مقاييس النماذج.
  • Consistent-Latency Applications: Deployment scenarios where predictable inference times are critical, such as robotics or autonomous systems.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

ميزة Ultralytics: لماذا يعتبر YOLO26 الخيار المتفوق

بينما توفر YOLOv6-3.0 و YOLOv10 بنيات أساسية صلبة، تتطلب بيئات الإنتاج الحديثة نماذج تمزج بين الدقة العالية وسهولة الاستخدام القصوى. وهنا يتفوق إطار عمل Ultralytics YOLO26 بشكل أساسي على الإصدارات الأكاديمية المستقلة.

تم إصدار YOLO26 في يناير 2026، وهو يدمج أفضل الابتكارات من السنوات السابقة ويضعها في نظام بيئي تمت صيانته بدقة.

ابتكارات YOLO26 الرئيسية

  • تصميم شامل خالٍ من NMS: بالبناء على المفهوم الذي تم ريادته في YOLOv10، يلغي YOLO26 أصلاً معالجة ما بعد الاستدلال NMS، مما ينتج عنه أوقات استدلال أكثر سلاسة وقابلية للتنبؤ والتي تعتبر أسهل في النقل إلى الإنتاج بشكل كبير.
  • محسن MuSGD: مستوحى من تحسينات نماذج اللغة الكبيرة مثل Kimi K2 من Moonshot AI، يضمن هذا الهجين من SGD و Muon تدريباً مستقراً بشكل لا يصدق وتقارباً أسرع بشكل كبير.
  • سرعة استدلال على وحدة المعالجة المركزية أسرع بنسبة تصل إلى 43%: بالنسبة لأجهزة الحافة، يتميز YOLO26 بتبسيطات معمارية محددة، مما يجعله متفوقاً بشكل كبير للنشر على رقائق IoT ووحدات المعالجة المركزية الاستهلاكية.
  • إزالة DFL: تعمل إزالة خسارة التوزيع البؤري (Distribution Focal Loss) على تبسيط تصدير الرأس، مما يحسن التوافق بشكل كبير مع محركات النشر منخفضة الطاقة مثل OpenVINO أو NCNN.
  • ProgLoss + STAL: تعمل صيغ الخسارة المتقدمة على تعزيز الدقة بشكل ملحوظ في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لعمليات الطائرات بدون طيار (UAV) وتتبع الأهداف البعيدة.

علاوة على ذلك، وعلى عكس المستودعات أحادية المهمة، يتعامل نظام Ultralytics البيئي مع مجموعة هائلة من مهام الرؤية بشكل جاهز، بما في ذلك كشف صندوق الإحاطة، تجزئة المثيل، تصنيف الصور، و تقدير الوضعية.

كفاءة التدريب وتحسين الذاكرة

تتمثل الميزة الحاسمة لنماذج Ultralytics YOLO مقارنة بـ البنيات القائمة على المحولات مثل RT-DETR المعقدة في استهلاكها المنخفض للغاية لذاكرة CUDA أثناء التدريب. يمكن للمطور ضبط YOLO26 بسهولة على وحدة معالجة رسومات استهلاكية أو من خلال موارد سحابية مجانية، مما يضفي طابعاً ديمقراطياً بشكل كبير على تطوير الذكاء الاصطناعي.

مثال كود: البدء مع YOLO26

تسمح سهولة الاستخدام التي يوفرها Ultralytics Python API بتحميل النماذج وتدريبها واختبارها في بضعة أسطر فقط من التعليمات البرمجية.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 nano model
model = YOLO("yolo26n.pt")

# Train the model effortlessly on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640, device=0)

# Evaluate model performance on validation data
metrics = model.val()

# Run real-time NMS-free inference on a target image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to ONNX format for cross-platform deployment
model.export(format="onnx")

اعرف المزيد عن YOLO26

الخلاصة والخيارات البديلة

عند الاختيار بين YOLOv6-3.0 و YOLOv10، يعتمد القرار على بيئة النشر. لا يزال YOLOv6-3.0 قابلاً للتطبيق في عمليات الخادم الخلفية ذات الإنتاجية العالية والغنية بوحدات معالجة الرسومات والتي تركز على معالجة الفيديو بالدفعات. يوفر YOLOv10 بنية أكثر ذكاءً وخالية من NMS ومناسبة بشكل أفضل للدقة المتوازنة وتكامل الحافة المعقد.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أداء بدون مساومة مدعوم بوثائق شاملة، وتسجيل سحابي عبر منصة Ultralytics، وتعدد مهام، فإن YOLO26 هو التوصية النهائية.

بالنسبة لمتطلبات البنية التحتية القديمة، قد تبحث الفرق أيضاً في الجيل السابق Ultralytics YOLO11، أو استكشاف YOLO-World لقدرات كشف ذات مفردات مفتوحة فريدة.

تعليقات