تخطي إلى المحتوى

YOLOv7 YOLOv10: تطور الكشف عن الكائنات في الوقت الفعلي

شهد مجال الرؤية الحاسوبية تطورات ملحوظة على مدى السنوات القليلة الماضية، حيث قادت عائلة نماذج YOLO You Only Look Once) الطليعة في مجال الكشف عن الأجسام في الوقت الفعلي. يتطلب اختيار البنية المناسبة لمشاريع الرؤية الحاسوبية فهمًا عميقًا للخيارات المتاحة. في هذه المقارنة التقنية الشاملة، سوف نستكشف الاختلافات الرئيسية بين بنيتين بارزتين: YOLOv7 و YOLOv10.

مقدمة إلى النماذج

يمثل كلا النموذجين إنجازات هامة في تاريخ الذكاء الاصطناعي، ومع ذلك، فإنهما يتبعان منهجيات مختلفة جوهريًا لحل تحديات اكتشاف الكائنات.

YOLOv7: رائد حقيبة الهدايا المجانية

صدر YOLOv7 في 6 يوليو 2022 عن الباحثين Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao من معهد علوم المعلومات التابع لأكاديمية سينيكا، YOLOv7 تغييرًا جذريًا في طريقة تحسين الشبكات العصبية. ركزت الأبحاث الأصلية، التي تم تفصيلها في ورقتهم الأكاديمية ونشرت على مستودع GitHub الرسمي، بشكل كبير على إعادة تحديد معلمات البنية الهندسية و"حقيبة الهدايا" القابلة للتدريب.

YOLOv7 شبكة تجميع طبقات فعالة موسعة (E-ELAN) لتوجيه الشبكة في تعلم ميزات متنوعة دون تدمير مسار التدرج الأصلي. وهذا يجعله خيارًا قويًا لمعايير البحث الأكاديمي والأنظمة التي تعتمد بشكل كبير على وحدات معالجة الرسومات (GPU) القياسية المتطورة.

تعرف على المزيد حول YOLOv7

YOLOv10: كشف شامل في الوقت الفعلي

YOLOv10 تطوير YOLOv10 بواسطة Ao Wang وفريقه في جامعة Tsinghua، YOLOv10 إصداره في 23 مايو 2024. كما هو مفصل في منشور arxiv ومستودع Tsinghua GitHub، فإن هذا النموذج يزيل عقبة طويلة الأمد في اكتشاف الكائنات: Non-Maximum Suppression (NMS).

YOLOv10 مهام مزدوجة متسقة للتدريب NMS، مما أدى إلى تغيير جذري في خط أنابيب المعالجة اللاحقة. من خلال نشر استراتيجية تصميم نموذج شاملة تعتمد على الكفاءة والدقة، YOLOv10 التكرار الحسابي. وينتج عن ذلك بنية مصممة خصيصًا للأجهزة المتطورة التي تتطلب زمن انتقال منخفض للغاية.

تعرف على المزيد حول YOLOv10

بنية NMS

إزالة Non-Maximum Suppression (NMS) في YOLOv10 بتصدير النموذج بأكمله كرسم بياني حسابي واحد. وهذا يبسط بشكل كبير عملية النشر باستخدام أوقات التشغيل مثل TensorRT أو OpenVINO.

مقارنة الأداء والمقاييس

عند تحليل أداء النموذج، من الضروري تقييم المفاضلة بين الدقة والسرعة والوزن الحسابي. يوضح الجدول التالي كيفية مقارنة أحجام مختلفة من هذه النماذج مع بعضها البعض.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv7l64051.4-6.8436.9104.7
YOLOv7x64053.1-11.5771.3189.9
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4

تحليل المفاضلات

تكشف المقاييس المذكورة أعلاه عن فجوة جيلية واضحة. في حين أن YOLOv7x يقدم معدلmAPval قويًا للغاية يبلغ 53.1٪، إلا أنه يتطلب 71.3 مليون معلمة و 189.9 مليار FLOP. في المقابل، يتجاوز YOLOv10l هذه الدقة (53.3٪ mAP) بينما يتطلب أقل من نصف المعلمات (29.5 مليون) وعدد أقل بكثير من FLOPs (120.3 مليار). علاوة على ذلك، يوفر YOLOv10n المحسّن للغاية سرعة استدلال مذهلة تبلغ 1.56 مللي ثانية، مما يجعله مثاليًا لتحليلات الفيديو في الوقت الفعلي والتطبيقات المحمولة.

حالات الاستخدام في العالم الحقيقي

تحدد الاختلافات المعمارية بين هذه النماذج حالات الاستخدام المثلى لها.

متى تستخدم YOLOv7

بفضل تمثيله الغني للميزات، يتفوق YOLOv7 في البيئات شديدة التعقيد. تستفيد حالات الاستخدام مثل مراقبة تدفق حركة المرور في المناطق الحضرية الكثيفة، أو تحليل صور الأقمار الصناعية، أو تحديد العيوب في أتمتة التصنيع الثقيلة من إعادة التوصيف الهيكلي القوي. كما أنه مفضل بشدة في البيئات القديمة المدمجة بالفعل بعمق مع مسارات PyTorch 1.12 المحددة.

متى تستخدم YOLOv10

YOLOv10 تصميم YOLOv10 الخفيف الوزن NMS بأدائه YOLOv10 في البيئات المقيدة. ويوصى بشدة باستخدامه في أجهزة الحوسبة الطرفية مثل NVIDIA Nano أو Raspberry Pi. كما أن أداءه المنخفض الكمون يجعله مثاليًا للتطبيقات سريعة الحركة مثل تحليلات الرياضة والملاحة الذاتية للطائرات بدون طيار والفرز الآلي عالي السرعة على سيور النقل.

ميزة النظام البيئي لـ Ultralytics

على الرغم من أن كلا النموذجين لهما جذور أكاديمية قوية، إلا أن إمكاناتهما الحقيقية تتجلى عند استخدامهما ضمن Ultralytics الموحدة. من المعروف أن تطوير نماذج الرؤية الحاسوبية من الصفر أمر صعب للغاية، لكن Ultralytics يوفر تجربة لا مثيل لها لمهندسي التعلم الآلي.

  • سهولة الاستخدام: توفر واجهة برمجة تطبيقات Ultralytics Python واجهة موحدة. يمكنك تدريب النماذج والتحقق منها وتصديرها ببضعة أسطر فقط من التعليمات البرمجية، متجنبًا كوابيس التبعية المعقدة المرتبطة بالمستودعات الأكاديمية النموذجية.
  • نظام بيئي يتم صيانته جيدًا: تضمن Ultralytics أن الكود الأساسي يتم تطويره بنشاط. يستفيد المستخدمون من التكامل السلس مع أدوات تعلم الآلة الشائعة مثل Weights & Biases للتسجيل، أو Hugging Face للعروض التوضيحية السريعة عبر الويب.
  • متطلبات الذاكرة: غالبًا ما تستهلك كاشفات الكائنات القائمة على المحولات (transformers) كميات هائلة من ذاكرة CUDA أثناء التدريب. على النقيض من ذلك، تتطلب نماذج Ultralytics YOLO ذاكرة أقل بكثير، مما يتيح استخدام أحجام دفعات أكبر بكثير على الأجهزة الاستهلاكية.
  • تعدد الاستخدامات: لا تقتصر مسار عمل Ultralytics على الصناديق المحيطة القياسية. يدعم بسلاسة تقدير الوضعيات، وتجزئة الكائنات، والصناديق المحيطة الموجهة عبر عائلات النماذج المدعومة مثل YOLO11 وYOLOv8.

مثال على التدريب المبسط

Ultralytics تشغيل خط أنابيب التدريب باستخدام Ultralytics أمرًا بسيطًا للغاية. بغض النظر عما إذا كنت تستفيد من القوة التاريخية لـ YOLOv7 السرعة NMS لـ YOLOv10، تظل الصيغة متسقة:

from ultralytics import YOLO

# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")

# Export to an edge-friendly format like ONNX
model.export(format="onnx")

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv7 و YOLOv10 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv7

YOLOv7 خيارًا قويًا في الحالات التالية:

  • المقارنة المعيارية الأكاديمية: لإعادة إنتاج أحدث النتائج من حقبة 2022 أو دراسة تأثيرات E-ELAN وتقنيات "حقيبة المجانيات" القابلة للتدريب.
  • أبحاث إعادة التوسيط (Reparameterization): التحقيق في الالتفافات المعاد توسيطها المخطط لها واستراتيجيات قياس النماذج المركبة.
  • مسارات مخصصة موجودة: المشاريع ذات المسارات المخصصة بشكل كبير والمبنية حول بنية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.

متى تختار YOLOv10

يوصى YOLOv10 في الحالات التالية:

  • detect في الوقت الفعلي خالٍ من NMS: التطبيقات التي تستفيد من detect الشامل دون التثبيط غير الأقصى، مما يقلل من تعقيد النشر.
  • مقايضات متوازنة بين السرعة والدقة: المشاريع التي تتطلب توازنًا قويًا بين سرعة الاستدلال ودقة الكشف عبر مقاييس النماذج المختلفة.
  • تطبيقات زمن الاستجابة المتسق: سيناريوهات النشر التي تكون فيها أوقات الاستدلال المتوقعة حاسمة، مثل الروبوتات أو الأنظمة المستقلة.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

  • نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
  • بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

المستقبل: تقديم YOLO26

في حين أن YOLOv7 YOLOv10 إنجازين مذهلين، إلا أن حدود الذكاء الاصطناعي تتقدم دائمًا. تم إصدار Ultralytics في يناير 2026، وهو المعيار الجديد بلا منازع للكفاءة والدقة في جميع سيناريوهات النشر على الحافة والسحابة.

إذا كنت تبدأ اليوم مشروعًا جديدًا في مجال الرؤية الحاسوبية، فإن YOLO26 هي البنية الموصى بها. فهي تبني على إرث سابقاتها من خلال دمج العديد من الابتكارات الثورية:

  • تصميم شامل خالٍ من NMS: مستوحى من YOLOv10، يلغي YOLO26 بطبيعته المعالجة اللاحقة لـ NMS، مما يضمن استدلالاً بزمن انتقال منخفض للغاية للروبوتات الحتمية في الوقت الفعلي.
  • سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: من خلال الإزالة الاستراتيجية لوحدة Distribution Focal Loss (DFL)، يسرّع YOLO26 التنفيذ بشكل كبير على أجهزة الحوسبة الطرفية غير المعتمدة على GPU، مما يجعله قوة دافعة لـ أجهزة إنترنت الأشياء.
  • مُحسِّن MuSGD: مستوحى من ابتكارات تدريب نماذج اللغة الكبيرة الحديثة، يدمج YOLO26 مزيجًا هجينًا من SGD و Muon، مما يثبت مسارات التدريب ويضمن تقاربًا أسرع.
  • ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، متغلبة على ضعف تاريخي في أجيال YOLO الأقدم.
  • تعدد استخدامات لا مثيل له: يتميز YOLO26 بتحسينات أصلية خاصة بالمهام مثل تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتتبع الوضعيات، وخسائر زاوية متخصصة لـ OBB detection الدقيق في الصور الجوية.

بالنسبة للمهندسين الذين يبحثون عن التوازن المثالي بين السرعة والدقة وسهولة النشر، فإن الانتقال من النماذج القديمة إلى YOLO26 يوفر ميزة تنافسية فورية وقابلة للقياس.


تعليقات