YOLO YOLOv7: نظرة متعمقة على اكتشاف الكائنات في الوقت الفعلي

شهد عام 2022 لحظة حاسمة في تطور الرؤية الحاسوبية، حيث تم إطلاق بنيةين مؤثرتين للغاية: YOLO و YOLOv7. سعى كلا النموذجين إلى إعادة تعريف حدود التوازن بين السرعة والدقة، لكنهما تعاملا مع هذا التحدي من منطلق فلسفتين هندسيتين مختلفتين تمامًا.

يستفيدYOLO الذي طورته مجموعة Alibaba Group، من البحث في البنية العصبية (NAS) وإعادة المعلمات بشكل مكثف للحصول على أقصى إنتاجية من الأجهزة. على العكس من ذلك، يركز YOLOv7، YOLOv7 أنشأه مؤلفو YOLOv4، على تحسين مسارات انتشار التدرج واستراتيجيات التدريب "bag-of-freebies" لتحقيق دقة متطورة.

يقدم هذا الدليل مقارنة تقنية دقيقة بين هذين النموذجين، حيث يحلل هياكلهما ومقاييس أدائهما ومدى ملاءمتهما لتطبيقات الرؤية الحاسوبية الحديثة. سنستكشف أيضًا كيف تغير المشهد مع طرح Ultralytics الذي يدمج أفضل ما في هذه الأساليب القديمة في إطار عمل موحد وسهل الاستخدام.

مقاييس ومعايير الأداء

لفهم الاختلافات العملية بين هذه البنى، من الضروري النظر إلى أدائها على معايير قياسية مثل COCO . يقارن الجدول أدناه بين النماذج بناءً على متوسط الدقة (mAP) وسرعة الاستدلال (الكمون) وتعقيد الحساب.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
DAMO-YOLOt	640	42.0	-	2.32	8.5	18.1
DAMO-YOLOs	640	46.0	-	3.45	16.3	37.8
DAMO-YOLOm	640	49.2	-	5.09	28.2	61.8
DAMO-YOLOl	640	50.8	-	7.18	42.1	97.3

YOLOv7l	640	51.4	-	6.84	36.9	104.7
YOLOv7x	640	53.1	-	11.57	71.3	189.9

كما توضح البيانات، YOLOv7 يهيمن بشكل عام على الدقة الأولية، حيث حقق متغير YOLOv7 نسبة mAP ملحوظة بلغت 53.1٪. وهذا يجعله مرشحًا قويًا للسيناريوهات التي لا يمكن التنازل فيها عن الدقة، مثل تحليل الصور الطبية أو مراجعة المستندات الجنائية. ومع ذلك، يتفوق YOLO في الكفاءة، لا سيما مع نسخته "Tiny"، التي توفر زمن انتقال منخفض للغاية (2.32 مللي ثانية) على الأجهزة TensorRT مما يجعلها مناسبة للفرز الصناعي عالي السرعة.

الابتكارات المعمارية

يكمن الاختلاف الجوهري بين هذين النموذجين في كيفية تصميم هياكلهما.

YOLO: نهج NAS

يعتمدYOLO نموذج التقطير المعزز) بشكل كبير على البحث عن البنية العصبية (NAS). بدلاً من صنع كل كتلة يدويًا، استخدم المؤلفون طريقة تسمى MAE-NAS لاكتشاف هياكل أساسية فعالة تلقائيًا.

RepGFPN: يقدم شبكة هرمية عامة معاد تقييمها بكفاءة. وهذا يسمح بدمج ميزات متعددة المستويات بشكل فائق، مما يضمن الكشف الفعال عن الأجسام الصغيرة والكبيرة على حد سواء.
ZeroHead: لتقليل التكلفة الحسابية لرأس الكشف،YOLO استراتيجية "ZeroHead"، التي تبسط الطبقات النهائية لتقليل المللي ثانية الحرجة أثناء الاستدلال.
التقطير: جزء أساسي من مسار التدريب يتضمن تقطير المعرفة بشكل مكثف، حيث يوجه نموذج المعلم الأكبر نموذج الطالب الأصغر، مما يعزز الدقة دون إضافة تكلفة الاستدلال.

YOLOv7: تحسين مسار التدرج

YOLOv7 على "أكياس الهدايا القابلة للتدريب" — وهي تحسينات تعمل على تحسين الدقة أثناء التدريب دون زيادة تكلفة الاستدلال.

E-ELAN: شبكة تجميع الطبقات الفعالة الموسعة هي العمود الفقري لـ YOLOv7. وهي تخلق بنية تسمح للشبكة بتعلم المزيد من الميزات من خلال التحكم في أقصر وأطول مسارات التدرج، مما يضمن تقارب الشبكة بكفاءة.
تحجيم النموذج: على عكس الإصدارات السابقة التي كانت تكتفي بتوسيع أو تعميق الشبكة، YOLOv7 خصائص التحجيم هذه، ويحافظ على التوازن الأمثل لمختلف قيود الأجهزة.
الرأس المساعد: تستخدم عملية التدريب رأسًا مساعدًا لتوفير إشراف عميق، مما يساعد الطبقات الوسيطة على تعلم ميزات غنية.

تعرف على المزيد حول YOLOv7

البديل الحديث: Ultralytics

في حين YOLOv7 YOLO YOLOv7 إنجازات هندسية مهمة، إلا أن هذا المجال قد تطور بسرعة. بالنسبة للمطورين الذين يبدؤون مشاريع جديدة في عام 2026، يقدم Ultralytics حلاً موحدًا يعالج قيود كلا النموذجين القديمين.

YOLO26 ليس مجرد تحديث تدريجي؛ إنه تحول نموذجي مصمم لعالم يركز على الحافة. فهو يدمج الدقة العالية المرتبطة بـ YOLOv7 الكفاءة لـYOLO ولكن مع قابلية استخدام فائقة واختراقات معمارية حديثة.

المزايا الرئيسية لـ YOLO26

تصميم شامل NMS: على عكس YOLOv7 الذي يتطلب استخدام تقنية Non-Maximum Suppression (NMS) لتصفية عمليات الكشف المكررة، فإن YOLO26 هو نظام شامل بطبيعته. وهذا يزيل التباين في زمن الاستجابة الناتج عن NMS مما يؤدي إلى سرعات استدلال حتمية ضرورية للروبوتات في الوقت الفعلي.
محسّن MuSGD: مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة (LLM) (على وجه التحديد Kimi K2 من Moonshot AI)، يستخدم YOLO26 محسّن MuSGD. يوفر هذا المزيج من SGD Muon استقرارًا غير مسبوق لتدريب الرؤية الحاسوبية، مما يسمح للنماذج بالتقارب بشكل أسرع مع عدد أقل من العصور.
كفاءة الحافة أولاً: من خلال إزالة فقدان بؤرة التوزيع (DFL)، يبسط YOLO26 الرسم البياني للنموذج للتصدير. وينتج عن ذلك CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بالأجيال السابقة، مما يجعله الخيار الأفضل للأجهزة مثل Raspberry Pi أو الهواتف المحمولة التي لا تحتوي على وحدات معالجة رسومات.
ProgLoss + STAL: يوفر دمج Programmable Loss (ProgLoss) و Soft-Target Anchor Labeling (STAL) مكاسب كبيرة في اكتشاف الأجسام الصغيرة، وهي نقطة ضعف تقليدية في النماذج الأخف وزناً مثلYOLO.

سير عمل مبسط مع Ultralytics

غالبًا ما يكون الانتقال من مستودعات الأبحاث إلى الإنتاج أمرًا صعبًا بسبب قواعد البيانات المجزأة. تعمل Ultralytics على حل هذه المشكلة من خلال توفير واجهة موحدة. يمكنك تدريب نموذج YOLO26 track ونشرها بتنسيقات مثل ONNX أو CoreML واحدة، على عكس البرامج النصية اليدوية للتصدير المطلوبة لـYOLO.

تعرف على المزيد حول YOLO26

سهولة الاستخدام والنظام البيئي

لا تمثل بنية النموذج سوى نصف القصة؛ فالنظام البيئي هو الذي يحدد مدى سهولة تنفيذه.

YOLO هو في المقام الأول مستودع للأبحاث. على الرغم من أن الكود مفتوح المصدر، إلا أنه يفتقر إلى واجهة برمجة تطبيقات (API) موحدة لتسهيل دمجه في Python الأكبر حجماً. غالباً ما يحتاج المستخدمون إلى التعامل يدوياً مع أدوات تحميل البيانات وملفات التكوين ونصوص التصدير.

YOLOv7 تم تحسين هذا الأمر من خلال توثيق أفضل، ولكنه لا يزال يعتمد على سير عمل أكثر تقليدية قائم على البرامج النصية (train.py, detect.py).

Ultralytics تمنح الأولوية لسهولة الاستخدام. توفر المكتبة واجهة برمجة تطبيقات Pythonic API تعامل النماذج ككائنات. وهذا يسمح بالتكامل السلس في مجموعات البرامج الحالية.

from ultralytics import YOLO

# Load the cutting-edge YOLO26 model
model = YOLO("yolo26n.pt")

# Train on a custom dataset with MuSGD optimizer enabled automatically
results = model.train(data="coco8.yaml", epochs=100)

# Run inference with NMS-free speed
# No post-processing steps required by the user
results = model("https://ultralytics.com/images/bus.jpg")

علاوة على ذلك، تشتهر Ultralytics بتنوعها. في حين أنYOLO مجرد كاشف للأجسام، فإن Ultralytics يدعم تصنيف الصور وتقسيم الحالات وتقدير الوضع وكشف الصندوق المحيط الموجه (OBB). وهذا يسمح لفريق واحد بالتعامل مع مهام الرؤية الحاسوبية المتنوعة باستخدام مكتبة واحدة جيدة الصيانة.

كفاءة التدريب والموارد

تدريب نماذج الرؤية الحديثة قد يتطلب موارد كثيرة. YOLOv7 معروف بـ "حقيبة الهدايا المجانية" التي تعني أن النموذج يتعلم بفعالية كبيرة، ولكن عملية التدريب قد تستهلك الكثير من ذاكرة VRAM. اعتماد YOLO على التقطير يعني أنك تحتاج فعليًا إلى تشغيل نموذجين (المعلم والطالب) أثناء التدريب، مما يزيد من حجم الذاكرة المستخدمة وتعقيد خط التدريب.

يعالج Ultralytics متطلبات الذاكرة من خلال تحسين البنية الهندسية لتقليل استخدام CUDA . وهذا يتيح للمطورين استخدام أحجام دفعات أكبر على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين. بالإضافة إلى ذلك، فإن إزالة المكونات المعقدة مثل DFL وإدخال مُحسِّن MuSGD يضمن أن يكون التدريب ليس مستقرًا فحسب، بل فعالًا أيضًا من الناحية الحسابية.

الخلاصة

YOLOv7 كل منYOLO YOLOv7 مساهمتين بارزتين في مجال الذكاء الاصطناعي. YOLOv7 حدود الدقة إلى أقصى حدودها من خلال تحسينات مصممة يدويًا، بينماYOLO قوة البحث الآلي في البنية الهندسية للتطبيقات منخفضة زمن الاستجابة.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل قوي ومستقبلي في عام 2026، فإن Ultralytics هو الخيار الموصى به بوضوح. فهو يجمع بين الدقة العالية التي تتميز بها YOLO والابتكارات الحديثة مثل الكشف NMS والمحسّنات المستوحاة من LLM. مدعومًا بالوثائق الشاملة والمجتمع النشط Ultralytics البيئي، يوفر YOLO26 التوازن المثالي بين الأداء وسهولة الاستخدام ومرونة النشر.

YOLO

المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
المؤسسة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444v2
GitHub:https://github.com/tinyvision/DAMO-YOLO

YOLOv7

المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
الجهة المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
أرشيف:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7