تخطي إلى المحتوى

YOLOv10 مقابل YOLOv6-3.0: تطور الكشف عن الكائنات في الوقت الفعلي

يعد اختيار بنية رؤية الحاسوب المناسبة قرارًا محوريًا يؤثر على كفاءة ودقة وقابلية التوسع لمشاريع الذكاء الاصطناعي الخاصة بك. مع تسارع مجال الكشف عن الكائنات، غالبًا ما يتم تزويد المطورين بخيارات بين المعايير الصناعية الراسخة والابتكارات المتطورة. يقدم هذا الدليل مقارنة فنية شاملة بين YOLOv10 و YOLOv6-3.0، وهما نموذجان بارزان مصممان للتطبيقات عالية الأداء.

YOLOv10: طليعة الاكتشاف الخالي من NMS

يمثل YOLOv10 نقلة نوعية في سلالة YOLO، حيث يركز على إزالة الاختناقات في خط أنابيب النشر لتحقيق كفاءة شاملة في الوقت الفعلي. تم تطويره بواسطة باحثين في جامعة Tsinghua، ويقدم تغييرات معمارية تلغي الحاجة إلى تثبيط غير الأقصى (NMS)، وهي خطوة شائعة للمعالجة اللاحقة تضيف زمن انتقال بشكل تقليدي.

الهندسة المعمارية والابتكارات

يعمل YOLOv10 على تحسين زمن الوصول للاستدلال وأداء النموذج من خلال عدة آليات رئيسية:

  1. تدريب بدون NMS: باستخدام تعيينات مزدوجة متسقة، يقوم YOLOv10 بتدريب النموذج لإنتاج إشارات إشرافية غنية أثناء التدريب مع توقع عمليات كشف واحدة عالية الجودة أثناء الاستدلال. يؤدي هذا إلى إزالة الحمل الحسابي الزائد لـ NMS، مما يبسط خط أنابيب نشر النموذج.
  2. تصميم شامل للكفاءة والدقة: يتميز التصميم برأس classify خفيف الوزن وتقليل أخذ العينات المترابط مكانيًا وقنواتيًا. تقلل هذه المكونات من التكلفة الحسابية (FLOPs) مع الحفاظ على معلومات الميزات الأساسية.
  3. التفاف ذو النواة الكبيرة: يعزز الاستخدام الانتقائي للالتفافات ذات النواة الكبيرة في المراحل العميقة المجال الاستقبالي، مما يسمح للنموذج بفهم السياق العام بشكل أفضل دون عقوبة كبيرة في السرعة.

تعرف على المزيد حول YOLOv10

YOLOv6-3.0: تحسين بدرجة صناعية

تم تصميم YOLOv6-3.0 (الذي يشار إليه غالبًا ببساطة باسم YOLOv6)، الذي تم إصداره في أوائل عام 2023، بواسطة Meituan خصيصًا للتطبيقات الصناعية. إنه يعطي الأولوية للتصميمات الصديقة للأجهزة التي تزيد من الإنتاجية على وحدات معالجة الرسومات، مما يجعله مرشحًا قويًا لأتمتة المصانع ومعالجة الفيديو على نطاق واسع.

الهندسة المعمارية والابتكارات

يركز YOLOv6-3.0 على تحسين الموازنة بين السرعة والدقة من خلال الضبط الهيكلي المكثف:

  1. العمود الفقري القابل لإعادة التهيئة: يستخدم EfficientRep backbone الذي يسمح بهياكل معقدة أثناء التدريب والتي تنهار إلى كتل أبسط وأسرع أثناء الاستدلال.
  2. إستراتيجية القنوات الهجينة: يوازن هذا النهج بين تكلفة الوصول إلى الذاكرة وقوة الحوسبة، مما يؤدي إلى تحسين الشبكة للقيود المتغيرة للأجهزة.
  3. التقطير الذاتي: استراتيجية تدريب حيث تتعلم شبكة الطالب من نفسها (أو نسخة المعلم) لتحسين التقارب و الدقة النهائية دون إضافة تكلفة الاستدلال.

تعرف على المزيد حول YOLOv6

تصميم واعٍ للأجهزة

تم تصميم YOLOv6 بشكل صريح ليكون "صديقًا للأجهزة"، ويستهدف الأداء الأمثل على وحدات معالجة الرسومات NVIDIA مثل T4 و V100. وهذا يجعلها فعالة بشكل خاص في السيناريوهات التي يتوفر فيها تسريع أجهزة معين ومضبوط.

تحليل الأداء

تستخدم المقارنة التالية مقاييس من مجموعة بيانات COCO، وهي معيار قياسي لاكتشاف الكائنات. يُبرز الجدول كيف يدفع YOLOv10 المغلف من حيث كفاءة المعلمات والدقة.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

النقاط الرئيسية

  • كفاءة المعلمات: يُظهر YOLOv10 انخفاضًا ملحوظًا في حجم النموذج. على سبيل المثال، يحقق YOLOv10s دقة أعلى (46.7% mAP) من YOLOv6-3.0s (45.0% mAP) مع استخدام أقل من نصف عدد المعلمات (7.2 مليون مقابل 18.5 مليون). هذا الحجم الأصغر للذاكرة ضروري للأجهزة الطرفية ذات ذاكرة الوصول العشوائي المحدودة.
  • التكلفة الحسابية: يكون عدد FLOPs (عمليات الفاصلة العائمة) أقل بكثير بالنسبة إلى YOLOv10 عبر المستويات المماثلة، مما يترجم إلى استهلاك أقل للطاقة ودرجات حرارة تشغيل أكثر برودة على أجهزة edge AI.
  • الدقة: يسجل YOLOv10 باستمرار mAP (متوسط الدقة المتوسطة) أعلى عبر جميع المقاييس، مما يشير إلى أنه أكثر قوة في اكتشاف الأجسام في الظروف المتنوعة.
  • السرعة: في حين أن YOLOv6-3.0n يُظهر ميزة طفيفة في زمن انتقال TensorRT الخام على وحدات معالجة الرسومات T4، فإن الفائدة الحقيقية لهندسة YOLOv10 الخالية من NMS غالبًا ما تؤدي إلى إنتاجية إجمالية أسرع للنظام عن طريق إزالة عنق الزجاجة للمعالجة اللاحقة المكثفة لوحدة المعالجة المركزية.

التكامل والنظام البيئي

يكمن أحد أهم الاختلافات في النظام البيئي وسهولة الاستخدام. فبينما يعد YOLOv6 مستودعًا قويًا بذاته، يستفيد YOLOv10 من التكامل في نظام Ultralytics البيئي. يوفر هذا للمطورين سير عمل سلسًا بدءًا من شرح البيانات (data annotation) وحتى النشر.

سهولة الاستخدام مع Ultralytics

يضمن استخدام نماذج Ultralytics إمكانية الوصول إلى Python API موحد وبسيط. يمكنك التبديل بين النماذج مثل YOLOv8 و YOLOv10 بأقل تغييرات في التعليمات البرمجية، وهي مرونة غير متاحة بسهولة عند التبديل بين الأطر المتباينة.

from ultralytics import YOLO

# Load a pre-trained YOLOv10 model
model = YOLO("yolov10n.pt")

# Train the model on your custom data
model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model.predict("path/to/image.jpg")

تعدد الاستخدامات والتحضير للمستقبل

في حين أن YOLOv6-3.0 يركز بشكل أساسي على الاكتشاف، فإن إطار عمل Ultralytics يدعم نطاقًا أوسع من مهام رؤية الكمبيوتر، بما في ذلك التجزئة والتصنيف وتقدير الوضع. بالنسبة للمستخدمين الذين يحتاجون إلى إمكانات متعددة المهام، غالبًا ما يوصى بالترقية إلى YOLO11، حيث يوفر أحدث أداء عبر جميع هذه الطرائق ضمن نفس واجهة برمجة التطبيقات الموحدة.

تدريب مبسط

يتيح لك التدريب باستخدام Ultralytics الاستفادة من ميزات مثل ضبط المعلمات الفائقة تلقائيًا وتسجيل في الوقت الفعلي عبر TensorBoard أو Weights & Biases، مما يؤدي إلى تسريع دورة البحث إلى الإنتاج بشكل كبير.

حالات الاستخدام المثالية

متى تختار YOLOv10

  • النشر الطرفي: نظرًا لانخفاض عدد المعلمات والتصميم الخالي من NMS، فإن YOLOv10 مثالي للأنظمة المدمجة مثل NVIDIA Jetson أو Raspberry Pi حيث تكون موارد CPU للمعالجة اللاحقة نادرة.
  • تطبيقات في الوقت الفعلي: التطبيقات التي تتطلب استجابة فورية، مثل المركبات ذاتية القيادة أو الملاحة بالطائرات بدون طيار، تستفيد من زمن الوصول المتوقع للاستدلال الخالي من NMS.
  • مشاريع جديدة: بالنسبة لأي مشروع جديد تمامًا، فإن المفاضلة الفائقة بين دقة وكفاءة ودعم النظام البيئي الحديث تجعل YOLOv10 هو الخيار المفضل على التصميمات المعمارية القديمة.

متى تختار YOLOv6-3.0

  • الأنظمة القديمة: إذا كان خط إنتاج حالي مُحسَّنًا بالفعل بشكل كبير لهندسة YOLOv6 المحددة وكانت تكاليف إعادة الهندسة باهظة.
  • أحمال عمل GPU محددة: في السيناريوهات المقيدة تمامًا بإنتاجية TensorRT الخام على أجهزة T4 حيث قد تحتفظ التحسينات المحددة لـ YOLOv6 بميزة هامشية في عدد الإطارات في الثانية الخام، خاصةً للنموذج النانوي.

الخلاصة

في حين أن YOLOv6-3.0 كان بمثابة معيار قوي للكشف عن الكائنات الصناعية عند إصداره، فإن YOLOv10 يمثل الخطوة التالية في تطور الذكاء الاصطناعي البصري. بفضل بنيتها الخالية من NMS، وتقليل عدد المعلمات بشكل كبير، وزيادة الدقة، تقدم YOLOv10 حلاً أكثر كفاءة وقابلية للتطوير لتحديات رؤية الكمبيوتر الحديثة.

بالنسبة للمطورين الباحثين عن أحدث ما توصلت إليه التكنولوجيا في التنوع والأداء عبر الاكتشاف و segmentation و pose estimation، نوصي أيضًا باستكشاف YOLO11. كجزء من نظام Ultralytics البيئي الذي تتم صيانته بنشاط، تضمن هذه النماذج بقائك في طليعة ابتكارات الذكاء الاصطناعي من خلال دعم مجتمعي قوي وتحسينات مستمرة.

لمزيد من القراءة حول مقارنات النماذج، تحقق من تحليلنا لـ YOLOv10 مقابل YOLOv8 أو استكشف قدرات RT-DETR للكشف المستند إلى المحولات.


تعليقات