YOLOv7 YOLO: مقارنة تقنية شاملة
يتطور مجال الكشف عن الأجسام في الوقت الفعلي باستمرار، حيث يسعى الباحثون والمهندسون جاهدين لإيجاد التوازن الأمثل بين السرعة والدقة. في هذه المقارنة الفنية، سنتعمق في دراسة بنيةين بارزتين من عام 2022: YOLOv7 و YOLO. قدم كلا النموذجين مفاهيم جديدة لمجتمع الرؤية الحاسوبية، حيث عالجوا تحديات مختلفة في تدريب النماذج وتصميم البنية ونشرها.
خلفيات النموذج والتفاصيل الفنية
قبل الخوض في تفاصيل هندستهما، من الضروري فهم أصول هذين النموذجين. فقد تم تطوير كلاهما من قبل مجموعات بحثية رائدة، وقد أدخلت منهجيات متقدمة لتوسيع حدود الكشف عن الأجسام في الوقت الفعلي.
YOLOv7
تم تطوير YOLOv7 كإضافة إلى YOLO YOLOv7 مفهوم "حقيبة الهدايا" القابلة للتدريب لتحسين الدقة بشكل كبير دون زيادة تكلفة الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- أرشيف:https://arxiv.org/abs/2207.02696
- GitHub:https://github.com/WongKinYiu/yolov7
- الوثائق:https://docs.ultralytics.com/models/yolov7/
YOLO
تم إنشاءYOLO من قبل باحثين في مجموعة Alibaba،YOLO بشكل كبير على البحث في الهندسة العصبية (NAS) وتقطير المعرفة المتقدمة لبناء نماذج عالية الكفاءة لمختلف الأجهزة.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المؤسسة:مجموعة علي بابا
- التاريخ: 2022-11-23
- Arxiv:https://arxiv.org/abs/2211.15444v2
- GitHub:https://github.com/tinyvision/DAMO-YOLO
الابتكارات المعمارية
YOLOv7: تحليل مسار التدرج وإعادة تحديد المعلمات
YOLOv7 بشكل كبير على شبكات تجميع الطبقات الفعالة الموسعة (E-ELAN). صمم المؤلفون E-ELAN من خلال تحليل مسارات التدرج للشبكة، مما يضمن أن الشبكة يمكنها التعلم باستمرار دون إضعاف مسار التدرج الأصلي. علاوة على ذلك، يستخدم YOLOv7 إعادة معايرة النموذج YOLOv7 أثناء الاستدلال، حيث يدمج الطبقات بسلاسة لتقليل FLOPs وتسريع أوقات التنفيذ. وهذا يجعله قادرًا بشكل كبير على الاستدلال في الوقت الفعلي على وحدات معالجة الرسومات الحديثة.
YOLO: البحث عن البنية العصبية و RepGFPN
YOLO من خلال الاستفادة بشكل كبير من البحث في البنية العصبية (NAS) في ظل قيود الكمون. ويستخدم إطار عمل يسمى MAE-NAS لاكتشاف الهياكل الأساسية المثلى المصممة خصيصًا لأجهزة معينة، مثل الأجهزة المحمولة أو مسرعات الحافة المحددة. بالنسبة لرقبته، فإنه يقدم شبكة RepGFPN (شبكة هرمية عامة للميزات المعلمة بالتمثيل) فعالة، ويستخدم تصميم ZeroHead لتقليل العبء الحسابي في رؤوس التنبؤ.
اختلافات التقطير
بينما YOLOv7 على تحسينات قوية في البنية الأساسية،YOLO بشكل كبير على عملية معقدة لتقطير المعرفة متعددة المراحل. ويتطلب ذلك تدريب نموذج تعليمي كبير لتقطير المعرفة إلى نموذج تعليمي أصغر، وهو ما قد يكون مكلفًا من الناحية الحسابية خلال مرحلة التدريب.
مقارنة الأداء والمقاييس
عند مقارنة هذه النماذج، من الضروري النظر إلى mAP متوسط الدقة) وسرعة الاستدلال وتعقيد النموذج.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
يوضح الجدول أعلاه أن YOLOv7 جيدًا مع المجالات عالية الدقة (YOLOv7x)، بينماYOLO نماذج صغيرة محسّنة للغاية للبيئات المقيدة.
كفاءة التدريب ومتطلبات الذاكرة
يكمن الاختلاف الرئيسي بين هاتين البنيتين في منهجيات التدريب المستخدمة. يعتمدYOLO على التقطير، مما يعني أن تدريب نموذج جديد من الصفر أو ضبطه على مجموعة بيانات رؤية حاسوبية مخصصة يتطلب في الغالب مزيدًا من ذاكرة VRAM ووقت GPU .
في المقابل، تم تحسين النماذج المدمجة في Ultralytics مثل YOLOv7 بشكل كبير لتلبية متطلبات الذاكرة. فهي تتيح للمطورين استخدام أحجام دفعات أكبر على أجهزة المستهلكين دون مواجهة أخطاء نفاد الذاكرة، مما يبسط عملية تتبع التجارب والتكرار.
ميزة Ultralytics
في حين أن كلا YOLOv7 YOLO ميزات جذابة، فإن نشر النماذج داخل Ultralytics يوفر تجربة مطورين لا مثيل لها.
- سهولة الاستخدام: توفرPython Ultralytics Python واجهة برمجة تطبيقات موحدة وبسيطة. يمكنك التبديل بسرعة بين بنى النماذج، وبدء حلقات التدريب، أو تشغيل الاستدلال باستخدام بضع أسطر من التعليمات البرمجية.
- نظام بيئي جيد الصيانة: Ultralytics تحديثات متكررة، مما يضمن التوافق الأصلي مع أحدث إصدارات PyTorchCUDA . كما أنه يبسط عملية تصدير النماذج إلى تنسيقات مثل ONNXو TensorRTو OpenVINO.
- تعدد الاستخدامات: على عكسYOLO الذي يقتصر على كشف الأجسام، يدعم Ultralytics مهام متنوعة بشكل أساسي. يمكن لنماذج Ultralytics إجراء الكشف القياسي عن المربعات المحيطة، وتقدير الوضع، وتجزئة الحالات، والمربعات المحيطة الموجهة (OBB).
مثال على الكود: البدء بسرعة
إليك كيفية تحميل Ultralytics وتدريبها وتشغيل الاستدلال باستخدامها بسهولة:
from ultralytics import YOLO
# Load a pre-trained YOLOv7 model (or newer models like yolo26n.pt)
model = YOLO("yolov7.pt")
# Train the model on the COCO8 dataset with automated hyperparameter handling
results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Run inference on an image
predictions = model("https://ultralytics.com/images/bus.jpg")
# Export to ONNX format for deployment
model.export(format="onnx")
تصدير النماذج
مع Ultralytics يتم تصدير الأوزان المدربة إلى تنسيقات متنوعة معجلة بالأجهزة (مثل TensorRT CoreML) عبر حجة واحدة في أمر التصدير، مما يوفر ساعات من تكوينات البرامج النصية المعقدة.
الجيل القادم: YOLO26
بينما YOLOv7 بنية قوية، إلا أن هذا المجال قد تطور بسرعة. بالنسبة للعمليات الجديدة، يُوصى باستخدام Ultralytics (الذي تم إصداره في يناير 2026) كمعيار، حيث يتفوق على الأجيال السابقة في جميع المقاييس تقريبًا.
- تصميم شامل NMS: تم تطويره لأول مرة في YOLOv10، يزيل YOLO26 بشكل أساسي المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يضمن استنتاجًا حتميًا وذو زمن انتقال منخفض للغاية، وهو أمر بالغ الأهمية لتقنيات الروبوتات والقيادة الذاتية.
- MuSGD Optimizer: مستوحى من تقنيات التدريب المتقدمة LLM (مثل Kimi K2 من Moonshot AI)، يجمع هذا المحسن الهجين بين SGD Muon لتوفير تدريب عالي الاستقرار وتقارب أسرع عبر مجموعات البيانات.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL) بشكل استراتيجي، يعزز YOLO26 الأداء بشكل كبير على منصات الحوسبة المتطورة ووحدات المعالجة المركزية.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات جوهرية في اكتشاف الأجسام الصغيرة، مما يجعل YOLO26 مناسبًا بشكل استثنائي للصور الجوية والمراقبة التفصيلية.
حالات الاستخدام المثالية
متى تختار DAMO-YOLO
- البحوث الأكاديمية في NAS: إذا كانت مؤسستك تستثمر بكثافة في دراسة منهجيات البحث في الهندسة العصبية.
- زمن انتقال محدود للغاية على أجهزة معينة: إذا كانت لديك الموارد اللازمة لإجراء عمليات بحث شاملة على NAS للعثور على بنية أساسية مخصصة لشريحة مسرع AI مخصصة.
متى تختار YOLOv7
- GPU الحالية: للفرق التي تحافظ على خطوط أنابيب الإنتاج القديمة والمُحسّنة بشكل كبير حول بنية E-ELAN الخاصة YOLOv7 على NVIDIA المتطورة.
لماذا الانتقال إلى Ultralytics الحديثة (YOLO11 YOLO26)
بالنسبة للغالبية العظمى من تطبيقات المؤسسات — من تحليلات البيع بالتجزئة والتصنيع الذكي إلى الرعاية الصحية — لا توجد Ultralytics حديثة تضاهيها. يوفر التكامل مع Ultralytics خط أنابيب ML كاملًا، مما يوفر سهولة الاستخدام وتوثيقًا فائقًا ودعمًا قويًا من المجتمع وتنوعًا في المهام المتعددة. سواء كان ذلك لتتبع المخزون على Raspberry Pi أو تشغيل تحليلات ثقيلة في السحابة، توفر نماذج مثل YOLO26 التوازن المثالي للأداء لمستقبل الرؤية الحاسوبية.