YOLOv10 مقابل YOLO11: الإبحار في حدود الكشف عن الأجسام في الوقت الحقيقي
يعد اختيار نموذج الرؤية الحاسوبية المناسب أمرًا محوريًا لنجاح أي مشروع ذكاء اصطناعي، حيث يوازن بين السرعة والدقة وسهولة النشر. يقدم هذا الدليل مقارنة تقنية مفصلة بين YOLOv10وهو إصدار أكاديمي يركّز على التدريب NMS و Ultralytics YOLO11وهو أحدث تطور في سلسلة YOLO الشهيرة المصممة للأداء على مستوى المؤسسات وتعدد الاستخدامات.
في حين أن YOLOv10 يقدم مفاهيم معمارية مثيرة للاهتمام لتقليل زمن الوصول، فإن YOLO11 يحسّن من أحدث ما توصلت إليه التكنولوجيا بدقة فائقة ودعم أوسع للمهام ونظام بيئي قوي يبسط سير العمل من شرح البيانات إلى نشر النموذج.
YOLOv10: أخصائي NMS
انبثق YOLOv10 من البحث الأكاديمي بهدف محدد: تحسين خط أنابيب الاستدلال من خلال التخلص من الحاجة إلى الكبح غير الأقصىNMS. يستهدف هذا النهج خفض زمن الاستجابة في سيناريوهات محددة للحافة.
- المؤلفون: Ao Wang, Hui Chen, Lihao Liu، وآخرون.
- المنظمةجامعة تسينغهوا
- التاريخ: 2024-05-23
- اركسيف:2405.14458
- جيثب:THU-MIG/yolov10
- المستنداتوثائقYOLOv10
الهندسة المعمارية والابتكار
إن السمة المميزة YOLOv10 هي استراتيجية التعيين المزدوج المتناسقة للتدريب NMS. تتنبأ نماذج YOLO التقليدية غالبًا بمربعات محددة متعددة لكائن واحد، مما يتطلب معالجة لاحقة NMS لتصفية التكرارات. يقوم YOLOv10 بتعديل خسارة التدريب لتشجيع النموذج على إخراج أفضل مربع واحد لكل كائن مباشرةً. بالإضافة إلى ذلك، فإنه يستخدم تصميم نموذج شامل قائم على الكفاءة والدقة، باستخدام رؤوس تصنيف خفيفة الوزن لتقليل عدد عمليات التشغيل المؤقت وعدد المعلمات.
نقاط القوة والضعف
نقاط القوة:
- الاستدلالNMS: من خلال إزالة خطوة NMS يقلل النموذج من زمن الاستجابة اللاحقة للمعالجة، وهو ما يمكن أن يكون مفيدًا على الأجهزة ذات الطاقة المحدودة CPU للعمليات غير المصفوفة.
- كفاءة المعلمة: تم تصميم البنية لتكون خفيفة الوزن وتحقق دقة جيدة مع عدد أقل نسبيًا من المعلمات.
نقاط الضعف:
- براعة محدودة: يركز YOLOv10 بشكل حصري تقريبًا على اكتشاف الأجسام. فهو يفتقر إلى الدعم الأصلي للمهام المعقدة مثل تجزئة المثيل أو تقدير الوضع، مما يحد من فائدته في تطبيقات الذكاء الاصطناعي متعددة الأوجه.
- دعم يركز على البحث: كمشروع أكاديمي، قد لا يوفر نفس المستوى من الصيانة طويلة الأجل أو تواتر التحديث أو التكامل مع أدوات النشر مثل النماذج المدعومة من المؤسسات.
حالة الاستخدام المثالية
يعتبر YOLOv10 الأنسب للتطبيقات المتخصصة للغاية ذات المهمة الواحدة حيث تكون إزالة خطوة NMS أمرًا بالغ الأهمية لتلبية ميزانيات زمن الاستجابة الصارمة على أجهزة مدمجة محددة.
Ultralytics YOLO11: ذروة التنوع والأداء
Ultralytics YOLO11 يمثل أحدث ما توصل إليه الذكاء الاصطناعي للرؤية، بناءً على إرث YOLOv8 و YOLOv5. لم يتم تصميمه كنموذج فحسب، بل كحل شامل لتحديات الذكاء الاصطناعي في العالم الحقيقي.
- المؤلفون: Glenn Jocher و Jing Qiu
- المنظمةUltralytics
- التاريخ: 2024-09-27
- جيثب:ultralytics
- المستنداتوثائقYOLO11
الهندسة المعمارية والنظام البيئي
يعمل YOLO11 على تحسين آلية الكشف الخالية من الارتكاز مع بنية محسّنة للعمود الفقري والرقبة، مع دمج وحدتي C3k2 و C2PSA اللتين تعززان كفاءة استخراج الميزة. وعلى عكس منافسيه، فإن YOLO11 هو نظام متعدد المهام. يدعم إطار واحد الكشف، والتجزئة، والتصنيف، وتقدير الوضع، والصناديق المحدودة الموجهة (OBB)، مما يسمح للمطورين بتوحيد مجموعة الذكاء الاصطناعي الخاصة بهم.
والأهم من ذلك أن YOLO11 مدعوم بنظامUltralytics البيئي. وهذا يضمن التكامل السلس مع أدوات إدارة البيانات، وسهولة تصدير النماذج إلى تنسيقات مثل ONNX و TensorRTوالدعم المجتمعي القوي.
المزايا الرئيسية
- توازن الأداء الفائق: يحقق YOLO11 باستمرار أعلى mAP أعلى مع الحفاظ على سرعات استدلالية استثنائية، وغالبًا ما تتفوق على البدائل NMS في الإنتاجية الواقعية على وحدات معالجة الرسومات.
- براعة لا مثيل لها: سواء أكنت بحاجة إلى track اللاعبين في الألعاب الرياضية، أو segment الصور الطبية، أو detect الأجسام المدورة في المناظر الجوية، فإن YOLO11 يتعامل مع كل ذلك ضمن واجهة برمجة تطبيقاتPython واحدة.
- سهولة الاستخدام: تشتهر واجهة Ultralytics ببساطتها. لا يتطلب تدريب نموذج متطور سوى بضعة أسطر من التعليمات البرمجية، مما يجعل الوصول إلى الذكاء الاصطناعي المتقدم أكثر ديمقراطية.
- كفاءة التدريب: تسمح إجراءات التدريب المُحسَّنة والأوزان عالية الجودة المُدرَّبة مسبقًا بتقارب أسرع، مما يوفر الوقت وموارد الحوسبة.
- متطلبات ذاكرة أقل: مقارنة بالبنى القائمة على المحولات مثل RT-DETRفإن YOLO11 أكثر كفاءة من حيث الذاكرة أثناء التدريب، مما يجعلها متاحة على نطاق أوسع من الأجهزة.
مزايا النظام البيئي
يمنح استخدام YOLO11 إمكانية الوصول إلى مجموعة من عمليات التكامل، بما في ذلك MLFlow لتتبع التجارب و OpenVINO للاستدلال المحسّن على أجهزة Intel مما يضمن توسع مشروعك بسلاسة من النموذج الأولي إلى الإنتاج.
مقارنة الأداء: السرعة، والدقة، والكفاءة
عند المقارنة بين YOLOv10 و YOLO11 من الضروري النظر إلى ما هو أبعد من عدد المعلمات وفحص مقاييس الأداء في العالم الحقيقي. بينما يقلل YOLOv10 من التعقيد النظري من خلال إزالة NMS يُظهرYOLO11 سرعات استدلالية فائقة على تكوينات الأجهزة القياسية مثل GPU T4 مع TensorRT.
تكشف البيانات أن YOLO11 يوفر مفاضلة أفضل لمعظم التطبيقات. على سبيل المثال، يحقق YOLO11n نفس الدقة (39.5 mAP) التي يحققها YOLOv10n ولكن ببنية أكثر قوة مدعومة بواجهة برمجة تطبيقات Ultralytics . مع زيادة حجم النموذج، تصبح مزايا YOLO11 في الدقة أكثر وضوحًا، حيث تصل دقة YOLO11x إلى 54.7 mAP مما يضع معيارًا عاليًا لدقة الكشف.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv10n | 640 | 39.5 | - | 1.56 | 2.3 | 6.7 |
| YOLOv10s | 640 | 46.7 | - | 2.66 | 7.2 | 21.6 |
| YOLOv10m | 640 | 51.3 | - | 5.48 | 15.4 | 59.1 |
| YOLOv10b | 640 | 52.7 | - | 6.54 | 24.4 | 92.0 |
| YOLOv10l | 640 | 53.3 | - | 8.33 | 29.5 | 120.3 |
| YOLOv10x | 640 | 54.4 | - | 12.2 | 56.9 | 160.4 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
التحليل
- السرعة: يوفر YOLO11 استنتاجًا أسرع على وحدات معالجة الرسوماتTensorRT) عبر جميع أحجام النماذج تقريبًا. على سبيل المثال، يتم تشغيل YOLO11l بسرعة 6.2 مللي ثانية مقارنةً بـ 8.33 مللي ثانية في YOLOv10l، وهو ما يمثل ميزة إنتاجية كبيرة لتحليلات الفيديو في الوقت الفعلي.
- الدقة: يتفوق YOLO11 باستمرار على YOLOv10 في mAP مما يضمن عددًا أقل من السلبيات الخاطئة وتحديدًا أفضل للتوطين، وهو أمر بالغ الأهمية للمهام الحرجة للسلامة مثل الملاحة المستقلة أو اكتشاف العيوب.
- الحوسبة: في حين أن YOLOv10 يقلل YOLO11 من المعلمات، فإن YOLO11 يحسّن الرسم البياني الحسابي الفعلي لتقديم أوقات تنفيذ أسرع، مما يثبت أن عدد المعلمات وحده لا يحدد السرعة.
تطبيق واقعي ومثال على التعليمات البرمجية
الاختبار الحقيقي للنموذج هو مدى سهولة دمجه في سير عمل الإنتاج. يتميز YOLO11 هنا بواجهة Python المباشرة. فيما يلي مثال على كيفية تحميل نموذج YOLO11 المدرب مسبقًا وتشغيل الاستدلال على صورة.
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Display the results
results[0].show()
يمنح هذا المقتطف البسيط إمكانية الوصول إلى أحدث أداء. تتيح لك واجهة برمجة التطبيقات نفسها الانتقال دون عناء إلى التدريب على مجموعات بيانات مخصصة، أو التحقق من أداء النموذج، أو تتبع الكائنات في تدفقات الفيديو.
الخاتمة: الحكم
بينما YOLOv10 يقدم نظرة مبتكرة على البنى NMS وهو خيار محترم للأبحاث الأكاديمية أو سيناريوهات الحافة المقيدة للغاية, Ultralytics YOLO11 هو الخيار الأفضل للغالبية العظمى من المطورين والشركات.
يجمع YOLO11 بين الدقة العالية، وسرعة الاستدلال في العالم الحقيقي، وتعدد الاستخدامات الذي لا مثيل له، مما يجعله الحل النهائي للرؤية الحاسوبية الحديثة. وبدعم من نظام Ultralytics البيئي الذي تتم صيانته بنشاط، لا يكتسب المطورون نموذجًا فحسب، بل شريكًا طويل الأجل في رحلة الذكاء الاصطناعي الخاصة بهم، مما يضمن بقاء تطبيقاتهم قوية وقابلة للتطوير ومتطورة.
بالنسبة لأولئك الذين يستكشفون أكثر، يمكن إجراء مقارنات مع نماذج أخرى مثل YOLOv9 أو RT-DETR يمكن أن توفر سياقًا إضافيًا حول المشهد المتطور لاكتشاف الأجسام.