YOLOv6-3.0 ضد YOLOv7: نظرة متعمقة على السرعة والدقة الصناعية
يعد اختيار نموذج الكشف عن الكائنات الأمثل قرارًا حاسمًا يتوقف على تحقيق التوازن بين سرعة الاستدلال والدقة وكفاءة الحوسبة. تستكشف هذه المقارنة الفنية الفروق بين YOLOv6-3.0، وهو إطار عمل يركز على الصناعة، و YOLOv7، وهو نموذج مصمم لدفع حدود الدقة باستخدام "هدايا مجانية" قابلة للتدريب. من خلال تحليل بنياتها ومعاييرها وحالات الاستخدام المثالية، يمكن للمطورين تحديد الحل الذي يناسب قيود النشر المحددة الخاصة بهم.
YOLOv6-3.0: مصمم للكفاءة الصناعية
YOLOv6-3.0 يمثل تطورًا كبيرًا في سلسلة YOLO، وهو مصمم خصيصًا للتطبيقات الصناعية حيث السرعة في الوقت الفعلي وكفاءة الأجهزة أمران لا يمكن المساومة عليهما. يركز هذا الإصدار، الذي طورته Meituan، على تحسين المفاضلة بين زمن الوصول والدقة، مما يجعله خيارًا هائلاً للحوسبة الطرفية وبيئات الإنتاجية العالية.
المؤلفون: تشوي لي، لولو لي، ييفي جينغ، هونغليانغ جيانغ، مينغ تشنغ، بو تشانغ، زيدان كه، شياومينغ شو، و شيانغشيانغ تشو
المنظمة:Meituan
التاريخ: 2023-01-13
Arxiv:https://arxiv.org/abs/2301.05586
GitHub:https://github.com/meituan/YOLOv6
المستندات:https://docs.ultralytics.com/models/yolov6/
البنية والميزات الرئيسية
تعتمد بنية YOLOv6-3.0 على مفهوم التصميم المراعي للأجهزة. وهي تستخدم backbone قابل لإعادة تحديد المعلمات (EfficientRep)، والذي يسمح للنموذج باستخدام هياكل معقدة أثناء التدريب لتحسين تعلم الميزات، مع الانهيار إلى هياكل أبسط وأسرع أثناء الاستدلال. تقلل هذه التقنية بشكل كبير من تكاليف الوصول إلى الذاكرة وتحسن زمن انتقال الاستدلال.
تشمل الابتكارات المعمارية الرئيسية ما يلي:
- الوصل ثنائي الاتجاه (BiC): تعمل هذه الوحدة على تحسين دقة تحديد الموقع عن طريق تعزيز انتشار الميزات.
- التدريب بمساعدة المرتكزات (AAT): استراتيجية تجمع بين فوائد الكاشفات القائمة على المرتكزات و الكاشفات الخالية من المرتكزات لتحقيق استقرار التدريب وتعزيز الأداء.
- التقطير الذاتي: يستخدم YOLOv6-3.0 تقنيات التقطير الذاتي حيث يتعلم نموذج الطالب من تنبؤات نموذج المعلم الخاص به، مما يحسن الدقة دون الحاجة إلى نماذج كبيرة خارجية.
نقاط القوة والضعف
تكمن القوة الأساسية لـ YOLOv6-3.0 في سرعة الاستدلال الخاصة بها. كما تشير المعايير، فإن المتغيرات الأصغر (مثل YOLOv6-3.0n) سريعة بشكل استثنائي على أجهزة GPU، مما يجعلها مثالية لخطوط أنابيب تحليل الفيديو التي يجب أن تعالج معدلات إطارات عالية. بالإضافة إلى ذلك، فإن دعم النموذج لـ تحديد كمية النموذج يسهل النشر على الأجهزة ذات الموارد المحدودة.
ومع ذلك، كانت الإصدارات السابقة من YOLOv6 تقتصر في المقام الأول على object detection، وتفتقر إلى التنوع الأصلي الموجود في الأطر الأكثر شمولاً التي تدعم التقسيم أو تقدير الوضع خارج الصندوق. علاوة على ذلك، على الرغم من كفاءته العالية، فإن دعم النظام البيئي ليس واسع النطاق مثل المشاريع الأخرى التي يقودها المجتمع.
حالات الاستخدام المثالية
يتفوق YOLOv6-3.0 في سيناريوهات مثل:
- خطوط التصنيع: حيث يلزم الكشف عن العيوب بسرعة عالية على السيور الناقلة.
- تحليلات البيع بالتجزئة: لإدارة قائمة الانتظار وتتبع المخزون حيث تكون الموارد الحسابية محدودة.
- الأنظمة المدمجة: النشر على أجهزة مثل سلسلة NVIDIA Jetson.
YOLOv7: تحسين حقيبة التحسينات المجانية القابلة للتدريب
YOLOv7 يتبع نهجًا مختلفًا، ويركز بشكل كبير على الإصلاحات المعمارية لزيادة الدقة إلى أقصى حد دون زيادة تكلفة الاستدلال. قدم المؤلفون "مجموعة حقائب التدريب المجانية" - وهي طرق تحسين تعمل على تحسين أداء النموذج أثناء التدريب ولكنها لا تغير بنية الاستدلال أو سرعته.
المؤلفون: تشين-ياو وانغ، أليكسي بوتشكوفسكي، وهونغ-يوان مارك لياو
المنظمة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
المستندات:https://docs.ultralytics.com/models/yolov7/
البنية والميزات الرئيسية
يقدم YOLOv7 E-ELAN (شبكة تجميع الطبقات الفعالة الممتدة). تسمح هذه البنية للنموذج بتعلم المزيد من الميزات المتنوعة من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقارب الشبكة بشكل فعال.
تشمل الميزات البارزة:
- توسيع النموذج: على عكس الطرق السابقة التي وسعت العمق أو العرض فقط، يقترح YOLOv7 طريقة توسيع مركبة تقوم بتسلسل الطبقات بدلاً من مجرد تغيير حجمها، مما يحافظ على خصائص تحسين النموذج.
- تدريب الرأس الإضافي: يستخدم النموذج رأسًا إضافيًا أثناء التدريب للمساعدة في الرأس الرئيسي. تعمل تقنية الإشراف العميق هذه على تحسين تعلم الطبقات الوسيطة ولكن تتم إزالتها أثناء الاستدلال للحفاظ على السرعة.
- التفاف مُعاد تحديده مُخطط: تطبيق متخصص لإعادة التحديد يتجنب اتصالات الهوية في طبقات معينة لمنع تدهور الأداء.
نقاط القوة والضعف
يشتهر YOLOv7 بدقته العالية، حيث يحقق درجات متوسط دقة متوسطة (mAP) مثيرة للإعجاب على مجموعة بيانات COCO. إنه يسد الفجوة بشكل فعال بين قيود الوقت الفعلي والحاجة إلى عمليات الكشف عالية الدقة.
على الجانب السلبي، يمكن أن تجعل التعقيدات المعمارية واستخدام الرؤوس الإضافية عملية التدريب أكثر كثافة في الذاكرة مقارنة بالبنى الأبسط. في حين أنها فعالة أثناء الاستدلال، تتطلب مرحلة التدريب ذاكرة GPU كبيرة، خاصة بالنسبة للمتغيرات الأكبر "E6E".
حالات الاستخدام المثالية
YOLOv7 مناسب بشكل خاص لما يلي:
- مراقبة تفصيلية: تحديد الأشياء الصغيرة أو الإجراءات الدقيقة في لقطات أمنية معقدة.
- القيادة الذاتية: حيث الدقة أمر بالغ الأهمية للسلامة والملاحة.
- البحث العلمي: التطبيقات التي تتطلب مقاييس AP عالية، مثل التصوير الطبي أو المسوحات البيولوجية.
مقارنة الأداء: المقاييس والتحليل
يقارن الجدول التالي أداء متغيرات YOLOv6-3.0 و YOLOv7 على مجموعة بيانات COCO للتحقق. يسلط الضوء على المفاضلات بين حجم النموذج والحمل الحسابي (FLOPs) والسرعة.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
تفسير المعايير
في حين أن YOLOv7x تحقق أعلى دقة (53.1% mAP)، إلا أنها تتطلب عددًا أكبر بكثير من المعلمات (71.3 مليون) و FLOPs (189.9 مليار). في المقابل، تم تحسين YOLOv6-3.0n لتحقيق سرعة قصوى، حيث تحقق استدلال 1.17 مللي ثانية على وحدة معالجة الرسوميات T4 GPU، مما يجعلها أسرع بحوالي 10 مرات من أكبر متغير YOLOv7، وإن كان ذلك بدقة أقل.
تكشف البيانات عن تمييز واضح: يهيمن YOLOv6-3.0 في البيئات منخفضة زمن الوصول، في حين أن YOLOv7 متفوق عندما تكون جودة detect القصوى هي الأولوية وتكون موارد الأجهزة أكثر وفرة.
ميزة Ultralytics: ما وراء المقاييس الأولية
في حين أن YOLOv6 و YOLOv7 توفران قدرات قوية، إلا أن مشهد رؤية الكمبيوتر يتطور بسرعة. بالنسبة للمطورين والباحثين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام ومقاوم للمستقبل، فإن Ultralytics YOLO11 و YOLOv8 يقدمان مزايا مقنعة تتجاوز المعايير القياسية الأولية.
سهولة الاستخدام والنظام البيئي
تتمثل إحدى أهم العوائق في تبني نماذج الذكاء الاصطناعي المتقدمة في تعقيد التنفيذ. تشتهر نماذج Ultralytics بتجربة المستخدم المبسطة. فمن خلال واجهة Python API و CLI بسيطة، يمكن للمستخدمين تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر فقط من التعليمات البرمجية. يتناقض هذا مع المستودعات الموجهة نحو البحث والتي غالبًا ما تتطلب إعدادات بيئة معقدة وتعديلات في التكوين.
from ultralytics import YOLO
# Load a model (YOLO11n recommended for speed/accuracy balance)
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
تعدد الاستخدامات عبر المهام
على عكس إصدارات YOLO السابقة التي كانت مخصصة بشكل أساسي للـ detect بشكل صارم، فإن نماذج Ultralytics متعددة الوسائط أصلاً. يدعم إطار عمل واحد:
- اكتشاف الكائنات: تحديد الكائنات ومواقعها.
- تجزئة المثيل: إخفاء الكائنات على مستوى البكسل.
- تقدير الوضعية: تحديد النقاط الرئيسية الهيكلية.
- Classification: تصنيف الصور بأكملها.
- مربع الإحاطة الموجه (OBB): اكتشاف الكائنات بزاوية (على سبيل المثال، الصور الجوية).
موازنة الأداء والكفاءة
تم تصميم نماذج Ultralytics، مثل YOLO11، لتوفير التوازن الأمثل بين السرعة والدقة. غالبًا ما تحقق mAP أعلى من YOLOv7 مع الحفاظ على سرعات الاستدلال المرتبطة بالمعماريات الفعالة مثل YOLOv6. بالإضافة إلى ذلك، تم تصميم نماذج Ultralytics لتحقيق كفاءة التدريب، مما يتطلب استخدامًا أقل لذاكرة GPU مقارنةً بالنماذج القائمة على المحولات (مثل RT-DETR)، مما يسرع دورات التجريب ويقلل من تكاليف الحوسبة السحابية.
نظام بيئي مُدار جيدًا
يعني اختيار نموذج Ultralytics الاشتراك في نظام بيئي مدعوم. وهذا يشمل:
- تحديثات متكررة: تحسينات منتظمة على البنية والأوزان.
- دعم تصدير واسع: تصدير سلس إلى ONNX و TensorRT و CoreML و TFLite للنشر على أي جهاز.
- المجتمع: مجتمع ضخم من المطورين ووثائق شاملة تضمن توفر المساعدة دائمًا.
الخلاصة
قدم كل من YOLOv6-3.0 و YOLOv7 مساهمات كبيرة في مجال رؤية الكمبيوتر. يعتبر YOLOv6-3.0 هو الخيار الأمثل للتطبيقات الصناعية التي تتطلب استدلالًا فائق السرعة ودعم التكميم. يظل YOLOv7 منافسًا قويًا للسيناريوهات التي تكون فيها دقة الكشف ذات أهمية قصوى وقيود الأجهزة مرنة.
ومع ذلك، للحصول على حل شامل يجمع بين الأداء الحديث وسهولة الاستخدام وتعدد الاستخدامات ومرونة النشر التي لا مثيل لها، يبرز Ultralytics YOLO11 باعتباره الخيار الأفضل لتطوير الذكاء الاصطناعي الحديث. سواء كنت تقوم بالنشر على الحافة أو التوسع في السحابة، فإن النظام البيئي Ultralytics يوفر الأدوات اللازمة للنجاح.
لمزيد من القراءة، ضع في اعتبارك استكشاف مقارناتنا على YOLOX أو مراجعة قدرات RT-DETR للكشف المستند إلى المحولات.