YOLOv7 YOLOv10: تطور الكشف عن الكائنات في الوقت الفعلي
شهد مجال الرؤية الحاسوبية تطورات ملحوظة على مدى السنوات القليلة الماضية، حيث قادت عائلة نماذج YOLO You Only Look Once) الطليعة في مجال الكشف عن الأجسام في الوقت الفعلي. يتطلب اختيار البنية المناسبة لمشاريع الرؤية الحاسوبية فهمًا عميقًا للخيارات المتاحة. في هذه المقارنة التقنية الشاملة، سوف نستكشف الاختلافات الرئيسية بين بنيتين بارزتين: YOLOv7 و YOLOv10.
مقدمة إلى النماذج
يمثل هذان النموذجان معلمتين هامتين في تاريخ الذكاء الاصطناعي، إلا أنهما يتبعان نهجين مختلفين تمامًا في حل تحديات اكتشاف الأجسام.
YOLOv7: رائد حقيبة الهدايا المجانية
صدر YOLOv7 في 6 يوليو 2022 عن الباحثين Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao من معهد علوم المعلومات التابع لأكاديمية سينيكا، YOLOv7 تغييرًا جذريًا في طريقة تحسين الشبكات العصبية. ركزت الأبحاث الأصلية، التي تم تفصيلها في ورقتهم الأكاديمية ونشرت على مستودع GitHub الرسمي، بشكل كبير على إعادة تحديد معلمات البنية الهندسية و"حقيبة الهدايا" القابلة للتدريب.
YOLOv7 شبكة تجميع طبقات فعالة موسعة (E-ELAN) لتوجيه الشبكة في تعلم ميزات متنوعة دون تدمير مسار التدرج الأصلي. وهذا يجعله خيارًا قويًا لمعايير البحث الأكاديمي والأنظمة التي تعتمد بشكل كبير على وحدات معالجة الرسومات (GPU) القياسية المتطورة.
YOLOv10: كشف شامل في الوقت الفعلي
YOLOv10 تطوير YOLOv10 بواسطة Ao Wang وفريقه في جامعة Tsinghua، YOLOv10 إصداره في 23 مايو 2024. كما هو مفصل في منشور arxiv ومستودع Tsinghua GitHub، فإن هذا النموذج يزيل عقبة طويلة الأمد في اكتشاف الكائنات: Non-Maximum Suppression (NMS).
YOLOv10 مهام مزدوجة متسقة للتدريب NMS، مما أدى إلى تغيير جذري في خط أنابيب المعالجة اللاحقة. من خلال نشر استراتيجية تصميم نموذج شاملة تعتمد على الكفاءة والدقة، YOLOv10 التكرار الحسابي. وينتج عن ذلك بنية مصممة خصيصًا للأجهزة المتطورة التي تتطلب زمن انتقال منخفض للغاية.
بنية NMS
إزالة Non-Maximum Suppression (NMS) في YOLOv10 بتصدير النموذج بأكمله كرسم بياني حسابي واحد. وهذا يبسط بشكل كبير عملية النشر باستخدام أوقات التشغيل مثل TensorRT أو OpenVINO.
مقارنة الأداء والمقاييس
عند تحليل أداء النموذج، من الضروري تقييم المفاضلة بين الدقة والسرعة والوزن الحسابي. يوضح الجدول التالي كيفية مقارنة أحجام مختلفة من هذه النماذج مع بعضها البعض.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
تحليل المقايضات
تكشف المقاييس المذكورة أعلاه عن فجوة جيلية واضحة. في حين أن YOLOv7x يقدم معدلmAPval قويًا للغاية يبلغ 53.1٪، إلا أنه يتطلب 71.3 مليون معلمة و 189.9 مليار FLOP. في المقابل، يتجاوز YOLOv10l هذه الدقة (53.3٪ mAP) بينما يتطلب أقل من نصف المعلمات (29.5 مليون) وعدد أقل بكثير من FLOPs (120.3 مليار). علاوة على ذلك، يوفر YOLOv10n المحسّن للغاية سرعة استدلال مذهلة تبلغ 1.56 مللي ثانية، مما يجعله مثاليًا لتحليلات الفيديو في الوقت الفعلي والتطبيقات المحمولة.
حالات الاستخدام في العالم الحقيقي
تحدد الاختلافات المعمارية بين هذه النماذج حالات الاستخدام المثلى لها.
متى تستخدم YOLOv7
نظرًا لتميزه في تمثيل الميزات، YOLOv7 في البيئات شديدة التعقيد. تستفيد حالات الاستخدام مثل مراقبة تدفق حركة المرور في المناطق الحضرية المكتظة، أو تحليل صور الأقمار الصناعية، أو تحديد العيوب في أتمتة التصنيع الثقيل من إعادة معايرة معلماته الهيكلية القوية. كما أنه مفضل بشدة في البيئات القديمة التي تم دمجها بالفعل بعمق مع خطوط أنابيب PyTorch . PyTorch المحددة.
متى تستخدم YOLOv10
YOLOv10 تصميم YOLOv10 الخفيف الوزن NMS بأدائه YOLOv10 في البيئات المقيدة. ويوصى بشدة باستخدامه في أجهزة الحوسبة الطرفية مثل NVIDIA Nano أو Raspberry Pi. كما أن أداءه المنخفض الكمون يجعله مثاليًا للتطبيقات سريعة الحركة مثل تحليلات الرياضة والملاحة الذاتية للطائرات بدون طيار والفرز الآلي عالي السرعة على سيور النقل.
ميزة النظام البيئي لـ Ultralytics
على الرغم من أن كلا النموذجين لهما جذور أكاديمية قوية، إلا أن إمكاناتهما الحقيقية تتجلى عند استخدامهما ضمن Ultralytics الموحدة. من المعروف أن تطوير نماذج الرؤية الحاسوبية من الصفر أمر صعب للغاية، لكن Ultralytics يوفر تجربة لا مثيل لها لمهندسي التعلم الآلي.
- سهولة الاستخدام: توفرPython Ultralytics Python واجهة موحدة. يمكنك تدريب النماذج والتحقق من صحتها وتصديرها باستخدام بضع أسطر من التعليمات البرمجية، مما يتيح لك تجنب الكوابيس المعقدة المرتبطة بالاعتماد على المستودعات الأكاديمية النموذجية.
- نظام بيئي جيد الصيانة: Ultralytics أن الكود الأساسي يتم تطويره بشكل نشط. يستفيد المستخدمون من التكامل السلس مع أدوات التعلم الآلي الشائعة مثل Weights & Biases للتسجيل، أو Hugging Face للحصول على عروض توضيحية سريعة على الويب.
- متطلبات الذاكرة: غالبًا ما تستهلك أجهزة الكشف عن الكائنات القائمة على المحولات كميات هائلة من CUDA أثناء التدريب. في المقابل، تتطلبYOLO Ultralytics YOLO ذاكرة أقل بكثير، مما يسمح بأحجام دفعات أكبر بكثير على الأجهزة الاستهلاكية.
- التنوع: لا يقتصر Ultralytics على المربعات المحددة القياسية. فهو يدعم بسلاسة تقدير الوضع، وتجزئة المثيلات، والمربعات المحددة الموجهة عبر عائلات النماذج المدعومة مثل YOLO11 و YOLOv8.
مثال على التدريب المبسط
Ultralytics تشغيل خط أنابيب التدريب باستخدام Ultralytics أمرًا بسيطًا للغاية. بغض النظر عما إذا كنت تستفيد من القوة التاريخية لـ YOLOv7 السرعة NMS لـ YOLOv10، تظل الصيغة متسقة:
from ultralytics import YOLO
# Load the preferred model (e.g., YOLOv10 Nano)
model = YOLO("yolov10n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run an inference prediction on a sample image
predictions = model.predict("https://ultralytics.com/images/bus.jpg")
# Export to an edge-friendly format like ONNX
model.export(format="onnx")
حالات الاستخدام والتوصيات
YOLOv10 الاختيار بين YOLOv7 YOLOv10 على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv7
YOLOv7 خيارًا قويًا في الحالات التالية:
- المقارنة الأكاديمية: إعادة إنتاج أحدث النتائج لعام 2022 أو دراسة آثار E-ELAN وتقنيات bag-of-freebies القابلة للتدريب.
- أبحاث إعادة تحديد المعلمات: دراسة التلافيف المخطط لها المعاد تحديد معلماتها واستراتيجيات قياس النماذج المركبة.
- خطوط الأنابيب المخصصة الحالية: مشاريع ذات خطوط أنابيب مخصصة بشكل كبير ومبنية حول بنية YOLOv7 المحددة والتي لا يمكن إعادة هيكلتها بسهولة.
متى تختار YOLOv10
يوصى YOLOv10 في الحالات التالية:
- الكشف في الوقت الفعليNMS: تطبيقات تستفيد من الكشف الشامل بدون قمع غير أقصى، مما يقلل من تعقيد النشر.
- التوازن بين السرعة والدقة: المشاريع التي تتطلب توازناً قوياً بين سرعة الاستدلال ودقة الكشف عبر نماذج مختلفة.
- تطبيقات ذات زمن انتقال ثابت: سيناريوهات النشر التي يكون فيها زمن الاستدلال المتوقع أمرًا بالغ الأهمية، مثل الروبوتات أو الأنظمة المستقلة.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
المستقبل: تقديم YOLO26
في حين أن YOLOv7 YOLOv10 إنجازين مذهلين، إلا أن حدود الذكاء الاصطناعي تتقدم دائمًا. تم إصدار Ultralytics في يناير 2026، وهو المعيار الجديد بلا منازع للكفاءة والدقة في جميع سيناريوهات النشر على الحافة والسحابة.
إذا كنت تبدأ اليوم مشروعًا جديدًا في مجال الرؤية الحاسوبية، فإن YOLO26 هي البنية الموصى بها. فهي تبني على إرث سابقاتها من خلال دمج العديد من الابتكارات الثورية:
- تصميم NMS من البداية إلى النهاية: مستوحى من YOLOv10، يزيل YOLO26 بشكل أساسي NMS ، مما يضمن استنتاجًا فائق الانخفاض في زمن الاستجابة للروبوتات الحتمية في الوقت الفعلي.
- CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة وحدة Distribution Focal Loss (DFL) بشكل استراتيجي، يعمل YOLO26 على تسريع التنفيذ بشكل كبير على أجهزة الحوسبةGPU ، مما يجعله قوة دافعة لأجهزة إنترنت الأشياء.
- MuSGD Optimizer: مستوحى من أحدث الابتكارات في تدريب نماذج اللغة الكبيرة، يدمج YOLO26 مزيجًا من SGD Muon، مما يثبت مسارات التدريب ويضمن تقاربًا أسرع.
- ProgLoss + STAL: توفر وظائف الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الأجسام الصغيرة، متغلبًا على نقطة الضعف التاريخية في YOLO القديمة.
- تنوع لا مثيل له: يتميز YOLO26 بتحسينات أصلية ومخصصة للمهام مثل تقدير احتمالية السجل المتبقي (RLE) لتتبع الوضع وفقدان الزاوية المتخصص للكشف الدقيق عن OBB في الصور الجوية.
بالنسبة للمهندسين الذين يبحثون عن التوازن المثالي بين السرعة والدقة وسهولة النشر، فإن الانتقال من النماذج القديمة إلى YOLO26 يوفر ميزة تنافسية فورية وقابلة للقياس.