YOLO11 مقابل YOLOv6 مقابل YOLOv6.0: مقارنة بين أحدث ما توصل إليه العلم في مجال الكشف عن الكائنات
يعد اختيار النموذج الأمثل للرؤية الحاسوبية قرارًا محوريًا يؤثر على كفاءة تطبيقات الذكاء الاصطناعي ودقتها وقابليتها للتطوير. يقدم هذا الدليل تحليلاً تقنيًا شاملاً يقارن بين Ultralytics YOLO11 و YOLOv6.0. ندرس الابتكارات المعمارية ومعايير الأداء ومنهجيات التدريب وملاءمتها لمختلف سيناريوهات النشر في العالم الحقيقي. وبينما قدم كلا الإطارين إسهامات كبيرة في هذا المجال، فإن YOLO11 يمثل أحدث تطور في الكفاءة والتنوع وتجربة المستخدم.
Ultralytics YOLO11
المؤلفان: جلين يوتشر وجينغ كيو
المنظمة: Ultralytics
التاريخ: 2024-09-27 2024
GitHub: ultralytics
المستندات: https:yolo11
YOLO11 هو التطور المتطور لسلسلة YOLO (أنت تنظر مرة واحدة فقط)، التي أطلقتها Ultralytics في أواخر عام 2024. تعتمد على نجاح سابقاتها مثل YOLOv8فإنه يقدم بنية محسنة مصممة لزيادة الأداء إلى أقصى حد مع تقليل التكاليف الحسابية. صُمم YOLO11 للتعامل مع مجموعة متنوعة من مهام الرؤية الحاسوبية، مما يجعله حلاً متعدد الاستخدامات للصناعات التي تتراوح من السيارات إلى الرعاية الصحية.
البنية والميزات الرئيسية
تركز بنية YOLO11 على تعزيز استخراج الميزات وكفاءة المعالجة. وهو يشتمل على تصميم محسّن للعمود الفقري والرقبة يقلل من العمليات الحسابية الزائدة عن الحاجة، مما يسمح بسرعات استدلال أسرع على كل من الأجهزة المتطورة والخوادم السحابية. وباعتباره كاشفًا خاليًا من المرساة، فإن YOLO11 يلغي الحاجة إلى تكوين صندوق الارتكاز يدويًا، مما يبسّط خط أنابيب التدريب ويحسّن القدرة على التكيف مع أشكال الأجسام المتنوعة.
نقاط القوة
- توازن أداء لا مثيل له: يوفر YOLO11 متوسط دقة متوسطة أعلى (mAP) مع عدد أقل بكثير من المعلمات وعمليات التشغيل المتكرر (FLOP) مقارنةً بالنماذج المماثلة. تعمل هذه الكفاءة على تقليل متطلبات التخزين وتسريع أوقات المعالجة.
- براعة شاملة: على عكس العديد من أجهزة الكشف التي تقتصر على المربعات المحددة، يدعم YOLO11 أصلاً اكتشاف الأجسام، وتجزئة النماذج، وتصنيف الصور، وتقدير الوضع، والمربعات المحددة الموجهة (OBB) في إطار واحد.
- نظام بيئي مبسط: يستفيد المستخدمون من نظامUltralytics الإيكولوجي القوي، والذي يتضمن واجهة برمجة تطبيقاتPython سهلة الاستخدام، والتكامل السلس مع Ultralytics HUB للتدريب بدون رموز، ودعم مجتمعي واسع النطاق.
- كفاءة التدريب: تم تحسين النموذج لتحقيق تقارب أسرع واستخدام أقل للذاكرة أثناء التدريب. هذه ميزة واضحة مقارنةً بالبنى القائمة على المحولات، والتي غالبًا ما تتطلب استخدامًا كبيرًا GPU كبيرة.
نقاط الضعف
- منحنى التبني: نظرًا لكونه نموذجًا تم إصداره مؤخرًا، فإن حجم البرامج التعليمية والموارد الخارجية التابعة لجهات خارجية ينمو بسرعة ولكن قد يكون حاليًا أقل من الإصدارات القديمة القديمة مثل YOLOv5.
- تحديات الأجسام الصغيرة: على الرغم من التحسن الملحوظ الذي طرأ على اكتشاف الأجسام الصغيرة للغاية، إلا أن اكتشاف الأجسام الصغيرة للغاية لا يزال يمثل مهمة صعبة بالنسبة لأجهزة الكشف عن الأجسام ذات المرحلة الواحدة مقارنةً بالمناهج المتخصصة، وإن كانت أبطأ.
حالات الاستخدام المثالية
يتفوق YOLO11 في السيناريوهات التي تتطلب إنتاجية ودقة عالية:
- الأنظمة ذاتية القيادة: تتبع الأجسام في الوقت الحقيقي للسيارات ذاتية القيادة والطائرات بدون طيار.
- التصنيع الذكي: مهام ضمان الجودة التي تتطلب الكشف عن العيوب وتقسيمها في وقت واحد.
- الرعاية الصحية: تحليل التصوير الطبي حيث يكون النشر المحدود الموارد ضرورياً في كثير من الأحيان.
- تحليلات البيع بالتجزئة: تحليل سلوك العملاء وإدارة المخزون باستخدام تقدير الوضعيات وتتبعها.
YOLOv6.0
المؤلفون: تشوي لي، ولولو لي، ويفي قنغ، وهونغليانغ جيانغ، ومنغ تشنغ، وبو تشانغ، وبو تشانغ، وزيدان كي، وشياومينغ شو، وشيانغ شيانغ تشو
المنظمة: Meituan
التاريخ: 2023-01-13
Arxiv: https://arxiv.org/abs/2301.05586https://arxiv.org/abs/2301.05586
GitHub: YOLOv6
Docs: https:ultralytics
YOLOv6.0 هو إطار عمل للكشف عن الأجسام تم تطويره بواسطة Meituan، ويستهدف التطبيقات الصناعية على وجه التحديد. تم إصداره في أوائل عام 2023، وقد تم تصميمه لتقديم مفاضلة تنافسية بين سرعة الاستدلال والدقة، وتلبية احتياجات أنظمة الوقت الفعلي في مجال الخدمات اللوجستية والأتمتة.
البنية والميزات الرئيسية
تقدم بنية YOLOv6.0 YOLOv6.0 "إعادة تحميل كامل النطاق" للشبكة. وهي تستخدم عموداً فقرياً فعالاً قابلاً لإعادة التحديد (EfficientRep) وهيكل رأس فصل. وتشمل الابتكارات الرئيسية استخدام تقنيات التقطير الذاتي أثناء التدريب لتعزيز الدقة دون زيادة تكاليف الاستدلال والتحسينات المحددة ل TensorRT النشر.
نقاط القوة
- التركيز الصناعي: صُممت بنية النموذج خصيصًا للأجهزة الصناعية، وخاصةً تحسين زمن الاستجابة على وحدات معالجة الرسومات NVIDIA .
- الجاهزية الكمية: يوفر YOLOv6 دعمًا محددًا للتقدير الكمي للنموذج، مما يسهل النشر على الأجهزة ذات الدقة الحسابية المحدودة.
- المتغيرات المتنقلة: يشتمل إطار العمل على إصدارات YOLOv6 المحسّنة لـ YOLOv6 المحسّنة لـ CPUS المحمول وبنى DSP.
نقاط الضعف
- كثافة الموارد: كما هو موضّح في بيانات الأداء، غالبًا ما يتطلب YOLOv6.0 عددًا أكبر بكثير من المعلمات وعمليات التشغيل الحراري لتحقيق دقة مماثلة للنماذج الأحدث مثل YOLO11.
- نطاق المهمة المحدود: ينصب التركيز الأساسي على اكتشاف الأجسام. فهو يفتقر إلى الدعم السلس والمتعدد المهام الأصلي (التجزئة، والوضع، والتصنيف، و OBB) الموجود في إطار عمل Ultralytics الموحد.
- تجزئة النظام الإيكولوجي: على الرغم من أن النظام البيئي مفتوح المصدر، إلا أنه أقل تكاملاً من نظام Ultralytics مما قد يتطلب المزيد من الجهد اليدوي لمهام مثل إدارة مجموعة البيانات والتتبع والتدريب السحابي.
حالات الاستخدام المثالية
YOLOv6.0 مناسب لـ
- الأنظمة الصناعية القديمة: البيئات المضبوطة خصيصًا لبنية YOLOv6 .
- مهام الكشف المخصصة: التطبيقات التي تتطلب الكشف عن المربعات المحدودة فقط، ولا ضرورة لإمكانيات المهام المتعددة.
- عمليات نشر أجهزة محددة: سيناريوهات الاستفادة من خطوط أنابيب التكميم المحددة التي يدعمها إطار عمل Meituan.
مقاييس الأداء: السرعة، والدقة، والكفاءة
يعرض الجدول التالي مقارنة تفصيلية بين YOLO11 و YOLOv6.0 على مجموعة بياناتCOCO . تسلط المقاييس الضوء على التطورات في الكفاءة التي حققتها بنية YOLO11 .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
| YOLOv6.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6.0 م | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6.0L | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
تحليل البيانات
تكشف المقارنة عن اتجاه واضح: يحققYOLO11 باستمرار دقة أعلى (mAP) مع انخفاض كبير في النفقات الحسابية.
- كفاءة المعلمات: يحقق نموذج YOLO11m كفاءة بارامترية متفوقة تبلغ 51.5 mAP مقارنةً بنموذج YOLOv6.0m الذي يبلغ 50.0 mAP ومع ذلك فهو يستخدم 20.1 مليون معلمة فقط مقابل 34.9 مليون معلمة. وهذا يمثل انخفاضًا بنسبة 42% تقريبًا في حجم النموذج لتحقيق أداء أفضل.
- التكلفة الحسابية: وبالمثل، يتطلب YOLO11l 86.9 مليار وحدة فلوب FLOP للوصول إلى 53.4 mAP بينما يتطلب YOLOv6.0l 150.7 مليار وحدة فلوب للوصول إلى 52.8 mAP أقل. يُترجم انخفاض FLOPs مباشرةً إلى انخفاض استهلاك الطاقة وتقليل توليد الحرارة، وهي عوامل حاسمة للأنظمة المدمجة.
- سرعة الاستدلال: في حين يُظهر YOLOv6.0n سرعات TensorRT أسرع قليلاً، فإن فجوة الدقة الكبيرة (2.0 mAP) وحجم النموذج الأكبر يجعل YOLO11n خيارًا أكثر توازناً للتطبيقات الحديثة التي تكون فيها الدقة أمرًا بالغ الأهمية.
ميزة النشر
لا يقتصر دور YOLO11 في تقليل عدد المعلمات في YOLO11 على تسريع عملية الاستدلال فحسب، بل يقلل أيضًا من متطلبات عرض النطاق الترددي للذاكرة. وهذا يجعل YOLO11 فعّالاً بشكل خاص على الأجهزة المتطورة مثل Raspberry Pi أو NVIDIA Jetson، حيث تكون موارد الذاكرة هي عنق الزجاجة في كثير من الأحيان.
التدريب وسهولة الاستخدام
سهولة الاستخدام والنظام البيئي
أحد أهم ما يميزها هو النظام البيئي المحيط بالنماذج. تم دمج Ultralytics YOLO11 في منصة شاملة تبسّط دورة حياة عمليات التعلم الآلي (MLOps) بأكملها.
- واجهة برمجة تطبيقات بسيطة: يمكن للمطوّرين التحميل والتدريب والتنبؤ باستخدام YOLO11 في بضعة أسطر من كود Python .
- التوثيق: تضمن الوثائق الشاملة التي تتم صيانتها بنشاط أن يتمكن المستخدمون من العثور بسهولة على أدلة إرشادية حول كل شيء بدءًا من التعليقات التوضيحية للبيانات وحتى تصدير النماذج.
- المجتمع: يوفر المجتمع النابض بالحياة على GitHub و Discord الدعم السريع والتحسينات المستمرة.
في المقابل، بينما يوفر YOLOv6 قاعدة كود متينة، إلا أنه يفتقر إلى نفس المستوى من الأدوات المتكاملة وتوافر الموارد التي يحركها المجتمع، مما قد يزيد من الوقت اللازم لنشر المشاريع الجديدة.
كفاءة التدريب
تم تصميم YOLO11 ليكون عالي الكفاءة أثناء التدريب. تسمح بنيته بتقارب أسرع، مما يعني أنه يمكن للمستخدمين في كثير من الأحيان تحقيق الدقة المستهدفة في عدد أقل من الحلقات مقارنةً بالبنى القديمة. وعلاوةً على ذلك، تم تحسين متطلبات الذاكرة أثناء التدريب، مما يسمح بأحجام دفعات أكبر على وحدات معالجة الرسومات من فئة المستهلك.
فيما يلي مثال على مدى سهولة البدء في تدريب نموذج YOLO11 :
from ultralytics import YOLO
# Load a pretrained YOLO11n model
model = YOLO("yolo11n.pt")
# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")
الخلاصة
في حين يظل YOLOv6.0 نموذجًا قادرًا على القيام بمهام كشف صناعية محددة، يبرز Ultralytics YOLO11 كخيار متفوق للغالبية العظمى من مشاريع الرؤية الحاسوبية الجديدة.
يوفر YOLO11 مزيجًا مقنعًا من الدقة العالية واستهلاك أقل للموارد وتعدد استخدامات لا مثيل له. تعمل قدرته على التعامل مع الاكتشاف والتجزئة وتقدير الوضعية والتصنيف ضمن إطار عمل واحد سهل الاستخدام على تبسيط سير عمل التطوير. بدعم من نظام Ultralytics البيئي والأدوات التي تتم صيانتها بنشاط مثل Ultralytics HUB، يوفر YOLO11 أساسًا مستقبليًا لبناء حلول ذكاء اصطناعي قابلة للتطوير وعالية الأداء.
بالنسبة للمطورين الذين يسعون إلى تحقيق أفضل توازن بين الأداء والكفاءة وسهولة الاستخدام، فإن YOLO11 هو المسار الموصى به للمضي قدمًا.
استكشف نماذج أخرى
إذا كنت مهتمًا بمزيد من المقارنات، استكشف هذه الصفحات ذات الصلة في الوثائق: