DAMO-YOLO مقابل PP-YOLOE+: مقارنة فنية
يعد اختيار البنية المثلى لاكتشاف الأجسام قرارًا محوريًا يؤثر على كفاءة مشاريع الرؤية الحاسوبية ودقتها وقابليتها للتوسع. تحلل هذه المقارنة الشاملة نموذجين بارزين: YOLO وهو كاشف يركّز على السرعة من Alibaba، وPP-YOLOE+، وهو نموذج عالي الدقة من نظام PaddlePaddle من Baidu. نتعمق في بنيتهما الفريدة ومقاييس أدائهما وسيناريوهات النشر المثالية لمساعدة المطورين على اتخاذ خيارات مستنيرة.
YOLO: الابتكار الموجه نحو السرعة من علي بابا
يُمثل YOLO الذي طورته مجموعة علي بابا، قفزة كبيرة في الكشف الفعال عن الأجسام. فهو يعطي الأولوية للمفاضلة الفائقة بين السرعة والدقة، مستفيداً من التقنيات المتقدمة مثل البحث عن البنية العصبية (NAS) لتحسين الأداء على الأجهزة محدودة الموارد.
تفاصيل فنية:
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
- المستنداتhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
البنية والميزات الرئيسية
تتميز YOLO بفلسفة التصميم المعياري التي تدمج العديد من التقنيات المتطورة:
- العمود الفقري MAE-NAS: على عكس النماذج التقليدية التي تستخدم العمود الفقري القياسي مثل ResNet، يستخدم YOLO عمودًا فقريًا تم اكتشافه عبر البحث عن البنية العصبية (NAS). وينتج عن ذلك بنية مُحسّنة رياضيًا من أجل كفاءة استخراج الميزات.
- شبكة هرم السمات المعممة الفعالة: يستخدم النموذج شبكة هرمية معممة للميزات (GFPN) معززة بتقنيات إعادة المعلمات (Rep). تعمل بنية العنق هذه على تحسين دمج الميزات عبر مقاييس مختلفة مع تقليل زمن الاستجابة أثناء الاستدلال.
- تقنية "ZeroHead": الميزة البارزة هي تصميم "ZeroHead"، الذي يقلل بشكل كبير من العبء الحسابي لرأس الكشف. من خلال الفصل بين مهام التصنيف والانحدار بشكل أكثر فعالية، فإنه يوفر المعلمات دون التضحية بالدقة.
- تعيين التسمية AlignedOTA: أثناء التدريب، يستخدم YOLO استراتيجية AlignedOTA، وهي استراتيجية ديناميكية لتعيين التسميات تضمن مواءمة أفضل بين أهداف التصنيف والانحدار، مما يؤدي إلى تقارب أسرع.
التقطير للنماذج المدمجة
يستخدم نظام YOLO بكثافة تقنية تقطير المعرفة في متغيراته الأصغر (صغير، صغير). من خلال نقل المعرفة من نموذج "معلم" أكبر إلى نموذج "طالب" أصغر، فإنه يحقق دقة أعلى مما هو ممكن عادةً لمثل هذه البنى خفيفة الوزن.
PP-YOLOE+: هندسة دقيقة داخل PaddlePaddle
PP-YOLOE+ هو تطوير لسلسلة YOLO التي طورها باحثو بايدو. وهو عبارة عن كاشف أحادي المرحلة خالٍ من الارتكاز مصمم لتخطي حدود الدقة في المعايير القياسية مثل مجموعة بياناتCOCO وهو مُحسَّن خصيصًا لإطار عمل PaddlePaddle للتعلم العميق.
تفاصيل فنية:
- المؤلفون: مؤلفو PaddlePaddle
- المنظمة:بايدو
- التاريخ: 2022-04-02
- اركسيف:https://arxiv.org/abs/2203.16250
- جيثبhttps://github.com/PaddlePaddle/PaddleDetection/
- المستنداتhttps://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
البنية والميزات الرئيسية
يركّز PP-YOLOE+ على الصقل والمكونات عالية الدقة:
- آلية خالية من المراسي: من خلال اعتماد نهج خالٍ من المر ساة، يعمل PP-YOLOE+ على تبسيط مشهد المعلمة الفائقة، مما يلغي الحاجة إلى تصميم مربعات الارتكاز يدويًا.
- CSPRepResNet: يجمع العمود الفقري بين الشبكات الجزئية عبر المراحل (CSPNet) مع الكتل المتبقية المعاد تحديدها، مما يوفر مستخرج ميزات قوي يوازن بين تدفق التدرج والتكلفة الحسابية.
- تعلُّم محاذاة المهام (TAL): تعمل هذه الطريقة على مواءمة درجة التصنيف مع جودة التوطينIoU) بشكل صريح، مما يضمن أن عمليات الكشف عالية الثقة لها أيضًا مربعات تحديد عالية الجودة.
- الرأس المتوائم مع المهام بكفاءة (ET-Head): يعمل الرأس المتوائم مع المهام بكفاءة (ET-Head) على تحسين الفصل بين مهام التصنيف وتحديد الموقع، مما يساهم في تحقيق درجات mAP العالية للنموذج.
تحليل الأداء: المقاييس والكفاءة
عند المقارنة بين YOLO وPP-YOLOE+، عادةً ما تكمن المفاضلة بين سرعة الاستدلال البحتة والدقة المطلقة. صُمم YOLO ليكون أسرع على أجهزة GPU بينما يهدف PP-YOLOE+ إلى تحقيق دقة من الدرجة الأولى، وغالبًا ما يكون ذلك على حساب زيادة حجم النموذج وعمليات التشغيل من نوع FLOP.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
نقاط القوة والضعف
YOLO
- نقاط القوة: سرعات استثنائية في الاستدلال في الوقت الحقيقي، مما يجعلها مثالية لمعالجة الفيديو وعمليات النشر على الحافة حيث يكون زمن الاستجابة حرجاً. تضمن البنية القائمة على NAS استخدام الموارد بكفاءة.
- نقاط الضعف: يرتبط التنفيذ ارتباطًا وثيقًا بقواعد برمجة بحثية محددة، والتي قد يكون من الصعب دمجها في خطوط الإنتاج القياسية مقارنةً بالمكتبات الأكثر رسوخًا.
PP-YOLOE+:
- نقاط القوة: سقوف دقة عالية جداً، خاصةً مع المتغير "x" (كبير جداً). يوفر التكامل مع نظام PaddlePaddle مجموعة شاملة من الأدوات للمستخدمين الموجودين بالفعل في تلك البيئة.
- نقاط الضعف: يمكن أن يكون الاعتماد الأكبر على إطار عمل PaddlePaddle عائقًا أمام الفرق التي تعتمد على PyTorch. يتطلب بشكل عام المزيد من المعلمات لسرعات استنتاج مماثلة مقارنةً بـ YOLO.
حالات الاستخدام والتطبيقات
تحدد الاختلافات المعمارية حالات الاستخدام المثالية لكل نموذج:
- تتفوق YOLO في مجال الذكاء الاصطناعي والروبوتات المتطورة. يُعد زمن انتقاله المنخفض مثاليًا للطائرات بدون طيار أو الروبوتات المتنقلة المستقلة (AMRs) التي تحتاج إلى معالجة البيانات المرئية على الفور للتنقل في البيئات أو تجنب العقبات.
- إن PP-YOLOE+ مناسب تمامًا للفحص الصناعي والتحليلات التفصيلية. في سيناريوهات مثل مراقبة جودة التصنيع أو تحليل الصور الطبية، حيث يكون فقدان عيب صغير أكثر تكلفة من وقت استنتاج أبطأ قليلاً، فإن mAP الأعلى لـ PP-YOLOE+ يكون ذا قيمة.
ميزة Ultralytics: لماذا تختار YOLO11؟
في حين أن كلاً من YOLO وPP-YOLOE+ يقدمان مزايا محددة, Ultralytics YOLO11 حلاً شاملاً يوازن بين الأداء وسهولة الاستخدام ودعم النظام البيئي. بالنسبة لمعظم المطورين، يمثل YOLO11 الخيار الأكثر عملية وقوة لجلب رؤية الكمبيوتر إلى الإنتاج.
تنوع لا مثيل له ونظام بيئي لا مثيل له
على عكس أجهزة الكشف المتخصصة، فإن YOLO11 هو برنامج متعدد الوسائط. فهو يدعم مجموعة واسعة من المهام بما في ذلك اكتشاف الأجسام، وتجزئة النماذج، وتقدير الوضع، والتصنيف، واكتشاف الصندوق المحيط الموجه (OBB) - كل ذلك في إطار واحد وموحد.
- سهولة الاستخدام: تعطي Ultralytics الأولوية لتجربة المطورين من خلال واجهة برمجة تطبيقات Python البسيطة والبديهية. يمكنك تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر من التعليمات البرمجية، مما يقلل بشكل كبير من وقت التطوير مقارنةً بالتكوينات المعقدة التي تتطلبها النماذج الموجهة نحو البحث في كثير من الأحيان.
- توازن الأداء: يحقق YOLO11 دقة فائقة مع سرعة ملحوظة. تم تحسينه ليعمل بكفاءة على أجهزة متنوعة، من وحدات معالجة الرسومات السحابية القوية إلى الأجهزة المتطورة مثل NVIDIA Jetson، باستخدام ذاكرة أقل من العديد من البدائل القائمة على المحولات.
- كفاءة التدريب: يتضمن إطار العمل إجراءات تدريب مُحسَّنة ومكتبة واسعة من الأوزان المُدرَّبة مسبقًا. يسمح ذلك بإجراء ضبط سريع على مجموعات البيانات المخصصة، مما يوفر تكاليف الحوسبة والوقت.
انسيابية سير العمل
تم تصميم نظام Ultralytics البيئي للانتقال السلس من البحث إلى الإنتاج. وبفضل الصيانة النشطة والتحديثات المتكررة والتكاملات مع أدوات مثل TensorRT OpenVINO يمكن للمطورين نشر النماذج بثقة.
مثال: تشغيل YOLO11 مع Python
إن بدء استخدام YOLO11 سهل ومباشر. يوضح المقتطف البرمجي التالي كيفية تحميل نموذج مُدرَّب مسبقًا وتشغيل الاستدلال على صورة:
from ultralytics import YOLO
# Load a pre-trained YOLO11 model
model = YOLO("yolo11n.pt")
# Run inference on a local image source
results = model("path/to/image.jpg")
# Display the inference results
results[0].show()
هذه البساطة، إلى جانب الأداء القوي، تجعل من Ultralytics YOLO11 الخيار المفضل للمطورين الذين يتطلعون إلى بناء حلول ذكاء اصطناعي قابلة للتطوير والصيانة.
الخلاصة
ساهم كل من YOLO وPP-YOLOE+ بشكل كبير في مجال الرؤية الحاسوبية. يُظهر YOLO قوة البحث المعماري العصبي لتحقيق الكفاءة، بينما يسلط PP-YOLOE+ الضوء على الدقة الممكنة مع التصاميم الخالية من المراسي في نظام PaddlePaddle البيئي.
ومع ذلك، للحصول على حل متعدد الاستخدامات وجاهز للإنتاج يوفر التوازن الأمثل بين السرعة والدقة وسهولة الاستخدام, Ultralytics YOLO11 هو الحل الأمثل. حيث إن دعمه الشامل لمهام الرؤية المتعددة، وانخفاض بصمة الذاكرة، والتوثيق الشامل، يمكّن المطورين من الابتكار بشكل أسرع وأكثر فعالية.