YOLO YOLOv7: تقييم أجهزة الكشف عن الأجسام في الوقت الفعلي
أدى التطور السريع في مجال الرؤية الحاسوبية إلى ظهور نماذج عالية الكفاءة لاكتشاف الأجسام، مصممة لتحقيق التوازن بين الدقة والتكلفة الحسابية. ومن النماذج البارزة التي تم طرحها في عام 2022 YOLO ونموذج YOLOv7. في حين أن كلا النموذجين يهدفان إلى توسيع حدود مهام الرؤية في الوقت الفعلي، إلا أنهما يحققان نتائجهما من خلال نماذج معمارية ومنهجيات تدريب مختلفة تمامًا.
تستكشف هذه المقارنة التقنية الشاملة النهجين المتميزين لكلا النموذجين، وتفحص هياكلهما وإمكانيات نشرهما ومقاييس أدائهما لمساعدة مهندسي التعلم الآلي على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم.
أصول النموذج والبيانات الوصفية
قبل الخوض في التحليل التقني المتعمق، من الضروري وضع أصل هذين النموذجين للرؤية الحاسوبية في سياقه الصحيح.
DAMO-YOLO
تم تطويرYOLO من قبل باحثين في مجموعة Alibaba Group،YOLO تقديمه لتحسين السرعة والدقة من خلال البحث والتحليل الآلي للبنية.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 23 نوفمبر 2022
- Arxiv:2211.15444v2
- GitHub:tinyvision/DAMO-YOLO
YOLOv7
تم إصدار YOLOv7 في منتصف عام 2022 باعتباره أحدث تقنية في هذا المجال، YOLOv7 الاستدلال في الوقت الفعلي من خلال إدخال "حقيبة الهدايا" القابلة للتدريب دون زيادة تكاليف النشر.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 6 يوليو 2022
- أرشيف:2207.02696
- الوثائق:وثائق YOLOv7
النظام البيئي المدعوم
YOLOv7 دعم YOLOv7 رسميًا ضمن Ultralytics مما يتيح التدريب والتحقق والتصدير بسلاسة باستخدام واجهة برمجة تطبيقات موحدة.
الابتكارات المعمارية
YOLO: NAS والتقطير
YOLO عدة تقنيات متطورة تهدف إلى تحقيق أقصى قدر من الكفاءة:
- البنى الأساسية NAS: تستخدم البحث عن البنية العصبية (NAS) لتصميم البنى الأساسية المثلى (MAE-NAS) تلقائيًا والمصممة خصيصًا للبيئات التي تتطلب زمن انتقال منخفض.
- RepGFPN الفعال: شبكة هرمية عامة معدلة تعزز بشكل كبير كفاءة دمج الميزات عبر مستويات متعددة.
- ZeroHead & AlignedOTA: يشتمل على رأس كشف خفيف الوزن واستراتيجية تخصيص ملصقات محسّنة (AlignedOTA) لتقليل العبء الحسابي.
- تحسين التقطير: يستفيد بشكل كبير من تقطير المعرفة أثناء التدريب لتعزيز أداء المتغيرات الأصغر للنموذج دون زيادة عدد معلماته.
YOLOv7: E-ELAN و Bag-of-Freebies
YOLOv7 نهجًا هندسيًا أكثر هيكليًا، مع التركيز على تحسين مسار التدرج واستراتيجيات التدريب القوية.
- بنية E-ELAN: تسمح شبكة تجميع الطبقات الفعالة الموسعة للنموذج بتعلم ميزات أكثر تنوعًا من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقاربًا فعالًا في التعلم.
- تحجيم النموذج: يقدم طريقة تحجيم مركبة مصممة خصيصًا للنماذج القائمة على التسلسل، حيث يتم تحجيم العمق والعرض في وقت واحد من أجل المحاذاة الهيكلية.
- حقيبة الهدايا القابلة للتدريب: تستخدم تقنيات مثل التلافيف المعاد معايرتها (RepConv) بدون اتصالات هوية، واستراتيجيات تعيين العلامات الديناميكية، والتي تعزز الدقة أثناء التدريب دون التأثير على سرعة الاستدلال.
تحليل الأداء
عند تقييم متوسط الدقة (mAP) والسرعة والكفاءة، يُظهر كلا النموذجين مقاييس رائعة، على الرغم من أنهما يستهدفان قطاعات مختلفة قليلاً. YOLOv7 بشكل كبير على GPU عالي الدقة، بينما تهدف هياكلYOLO المشتقة من NAS إلى نشر CPU Edge منخفضة التأخير بشكل كبير.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
كما يتضح من المقاييس، في حينYOLO متغيرات خفيفة للغاية (مثل النموذج الصغير الذي يحتوي على 8.5 مليون معلمة فقط)، YOLOv7 دقة إجمالية أعلى، حيث يصل YOLOv7x إلى 53.1 mAP COCO .
ميزة النظام البيئي لـ Ultralytics
على الرغم من أهمية الهندسة النظرية، فإن قابلية تطبيق النموذج عمليًا تتحدد بواسطة نظامه البيئي. تستفيد النماذج التي تدعمها Ultralytics مثل YOLOv7 من نظام بيئي جيد الصيانة وسهولة استخدام لا مثيل لها.
- توازن الأداء: تحقق Ultralytics باستمرار توازنًا مثاليًا بين سرعة الاستدلال ودقة الكشف، مما يجعلها مثالية لكل من الأجهزة الطرفية ونشر النماذج المستندة إلى السحابة.
- متطلبات الذاكرة: على عكس النماذج الثقيلة القائمة على Transformer، تحافظYOLO Ultralytics YOLO على متطلبات ذاكرة منخفضة CUDA خلال التدريب. وهذا يسمح بأحجام دفعات أكبر، مما يؤدي إلى تبسيط عملية التدريب حتى على الأجهزة الاستهلاكية.
- تعدد الاستخدامات: يتجاوز Ultralytics الكشف عن الكائنات ليشمل مهام مثل تقسيم الحالات وتقدير الوضع، مما يوفر للمطورين مجموعة أدوات كاملة للرؤية الحاسوبية.
كفاءة التدريب
تتيح لك Ultralytics الانتقال بسلاسة من مجموعات البيانات إلى نموذج مدرب بالكامل في غضون دقائق معدودة، وذلك بالاستفادة من أدوات تحميل البيانات عالية التحسين والأوزان المدربة مسبقًا.
مثال على الكود: تدريب YOLOv7 Ultralytics
يمكنك دمج YOLOv7 خط أنابيب الرؤية الحاسوبية الخاص بك بسهولة فائقة باستخدامPython Ultralytics Python .
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model
model = YOLO("yolov7.pt")
# Train the model on your custom dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference and validate results
metrics = model.val()
predictions = model.predict("https://ultralytics.com/images/bus.jpg", save=True)
المعيار الجديد: تقديم YOLO26
في حين أن YOLOv7 YOLO إنجازات مهمة في عام 2022، فإن مجال الذكاء الاصطناعي للرؤية يتطور بسرعة. بالنسبة للفرق التي تبدأ مشاريع جديدة اليوم، فإن النموذج الموصى به هو Ultralytics المتطور، الذي تم إصداره في يناير 2026.
يقدم YOLO26 قفزة جيلية في الأداء وسهولة الاستخدام، حيث يدمج أحدث الابتكارات:
- تصميم شامل NMS: YOLO26 هو تصميم شامل أصلاً. من خلال التخلص من المعالجة اللاحقة لـ Non-Maximum Suppression (NMS)، فإنه يوفر منطق نشر أسرع وأبسط — وهو تحول نموذجي ابتكره في البداية YOLOv10.
- مُحسّن MuSGD: مستوحى من ابتكارات نماذج اللغة الكبيرة مثل Kimi K2 من Moonshot AI، يستخدم YOLO26 مزيجًا من SGD Muon. يضمن هذا المُحسّن ديناميكيات تدريب عالية الاستقرار ومعدلات تقارب أسرع بشكل ملحوظ.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : بفضل الإزالة المستهدفة لخسارة التركيز التوزيعي (DFL) والتحسينات الهيكلية العميقة، تم تحسين YOLO26 بشكل كبير للحوسبة المتطورة منخفضة الطاقة، متفوقةً على الأجيال السابقة علىGPU .
- ProgLoss + STAL: يتضمن وظائف خسارة جديدة متقدمة تستهدف بشكل صريح تحسين التعرف على الأجسام الصغيرة، وهي قدرة أساسية للتطبيقات في مجال الصور الجوية والروبوتات والمراقبة الأمنية.
- تحسينات خاصة بالمهام: بالإضافة إلى الكشف القياسي، يتميز YOLO26 بتحسينات مخصصة لمهام متنوعة، بما في ذلك النماذج الأولية متعددة المقاييس للتجزئة، و RLE لتقدير الوضع، وخسائر الزاوية المحددة للمربعات المحددة الاتجاه (OBB).
حالات الاستخدام المثالية
يعتمد اختيار البنية المناسبة بشكل كامل على بيئة النشر المستهدفة وقيود المشروع.
متى تختارYOLO:
- أنت تعمل في بيئات حافة شديدة التقييد ومحدودة الموارد حيث يجب الحفاظ على عدد المعلمات الأولية منخفضًا للغاية (على سبيل المثال، المتحكمات الدقيقة).
- أنت تستخدم خطوط أنابيب التعلم الآلي الآلي المدمجة بشكل خاص مع خدمات السحابة الخاصة بشركة Alibaba.
متى تختار YOLOv7:
- لديك GPU قديمة تم تحسينها بالفعل للاستدلال عالي الدقة القائم على المرجع.
- أنت تعمل في بيئات تتطلب دقة في الوقت الفعلي، مثل المركبات ذاتية القيادة عالية السرعة أو الروبوتات المتطورة.
متى تختار YOLO26 (موصى به):
- أنت تقوم ببناء تطبيق رؤية حاسوبية جديد من الصفر وتحتاج إلى أحدث ما توصلت إليه التكنولوجيا من حيث الدقة وسرعة الاستدلال CPU.
- تحتاج إلى نشر سريع وسلس (مثل التصدير إلى CoreML أو TensorRT) دون التعامل مع قيود NMS .
- تريد الاستفادة من الإمكانات الكاملة Ultralytics للتدريب على السحابة وإدارة مجموعات البيانات والنشر التلقائي.
من خلال الاستفادة من النظام البيئي القوي Ultralytics يمكن للمطورين تقليل وقت الهندسة بشكل كبير مع ضمان أداء تنبؤي من الدرجة الأولى لتطبيقاتهم في العالم الحقيقي.