YOLOv7 مقابل PP-YOLOE+: مقارنة تقنية لاكتشاف الأجسام
يُعدّ اختيار البنية المثلى للكشف عن الأجسام قرارًا محوريًا في تطوير الرؤية الحاسوبية، حيث يؤثر بشكل كبير على أداء وكفاءة التطبيقات النهائية. يقدم هذا التحليل غوصًا تقنيًا عميقًا في YOLOv7وPP-YOLOE+، وهما نموذجان لامعان شكّلا مشهد الكشف في الوقت الحقيقي. ندرس ابتكاراتهما المعمارية ومنهجيات التدريب ومقاييس الأداء لتوجيه الباحثين والمهندسين في اتخاذ خيارات مستنيرة.
YOLOv7: تحديد السرعة والدقة في الوقت الفعلي
YOLOv7 برز كعلامة فارقة في تطور عائلة You Only Look Once، المصممة لتخطي حدود السرعة والدقة لتطبيقات الوقت الحقيقي. فقد قدم استراتيجيات معمارية حسّنت من تعلم الميزات دون زيادة تكاليف الاستدلال، مما أدى إلى وضع معيار جديد على أحدث طراز عند إصداره.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمــةمعهد علوم المعلومات، الأكاديمية الصينية للمعلومات، تايوان
- التاريخ: 2022-07-06
- ArXiv:https://arxiv.org/abs/2207.02696
- جيثبhttps://github.com/WongKinYiu/yolov7
- المستنداتhttps://docs.ultralytics.com/models/yolov7/
الابتكارات المعمارية
إن جوهر تصميم YOLOv7 هو شبكة تجميع الطبقات الموسعة ذات الكفاءة الموسعة (E-ELAN). تتحكم بنية العمود الفقري الجديدة هذه في أقصر وأطول مسارات التدرج لتعلم الميزات بفعالية دون تعطيل تدفق التدرج. من خلال تحسين مسار التدرج، تحقق الشبكة قدرات تعلم أعمق مع الحفاظ على الكفاءة.
بالإضافة إلى ذلك، يستخدم YOLOv7 استراتيجية "حقيبة من الرغبات المجانية" أثناء التدريب. هذه هي أساليب التحسين التي تعزز الدقة دون إضافة تكلفة حسابية أثناء مرحلة محرك الاستدلال. تشمل التقنيات إعادة تحديد معلمات النموذج، والتي تدمج الوحدات المنفصلة في وحدة واحدة متميزة للنشر، وفقدان موجه من الخشونة إلى الدقة للإشراف على الرأس المساعدة.
نقاط القوة والضعف
- نقاط القوة: يوفر YOLOv7 نسبة سرعة إلى دقة استثنائية، مما يجعله فعالاً للغاية في الاستدلال في الوقت الحقيقي على وحدات معالجة الرسومات. تم ضبط نهجها القائم على الارتكاز بشكل جيد لمجموعات البيانات القياسية مثل COCO.
- نقاط الضعف: بصفته كاشفًا قائمًا على الارتكاز، فإنه يتطلب تكوينًا محددًا مسبقًا لمربعات الارتكاز، وهو ما يمكن أن يكون دون المستوى الأمثل لمجموعات البيانات المخصصة ذات نسب أبعاد غير عادية للأجسام. يمكن أيضًا أن يكون توسيع نطاق النموذج بكفاءة عبر قيود أجهزة مختلفة جدًا معقدًا مقارنةً بالتكرارات الأحدث.
PP-YOLOE+: المتحدي الخالي من المرساة
PP-YOLOE+ هو تطوير ل PP-YOLOE، الذي طورته Baidu كجزء من مجموعة PaddleDetection. وهي تتميز بهيكلية خالية من الارتكاز، تهدف إلى تبسيط خط أنابيب الكشف وتقليل عدد المعلمات المفرطة التي يحتاج المطورون إلى ضبطها.
- المؤلفون: مؤلفو PaddlePaddle
- المنظمة:بايدو
- التاريخ: 2022-04-02
- ArXiv:https://arxiv.org/abs/2203.16250
- جيثبhttps://github.com/PaddlePaddle/PaddleDetection/
- المستنداتhttps://github.com/PaddlePaddle/PaddleDetection/blob/release/2.8.1/configs/ppyoloe/README.md
الابتكارات المعمارية
يتبنى PP-YOLOE+ آلية كاشف خالية من المرساة، مما يلغي الحاجة إلى تجميع صندوق الارتكاز. وهو يستخدم العمود الفقري لشبكة CSPRepResNet وتصميم رأس مبسط. إن مفتاح أدائه هو تعلم محاذاة المهام (TAL)، والذي يقوم بتعيين عينات إيجابية ديناميكيًا بناءً على محاذاة جودة التصنيف والتوطين.
يدمج النموذج أيضًا VariFocal Loss، وهي دالة خسارة متخصصة مصممة لإعطاء الأولوية لتدريب الأمثلة عالية الجودة. يتضمن الإصدار "+" تحسينات على هياكل الرقبة والرأس، وتحسين هرم السمات من أجل اكتشاف أفضل متعدد المقاييس.
نقاط القوة والضعف
- نقاط القوة: يبسّط التصميم الخالي من المرساة إعداد التدريب ويحسّن التعميم على أشكال الأجسام المتنوعة. يتدرج بشكل جيد عبر أحجام مختلفة (s، m، l، x) وتم تحسينه بشكل كبير لإطار عمل PaddlePaddle .
- نقاط الضعف: يمكن أن يؤدي اعتمادها الأساسي على نظام PaddlePaddle البيئي إلى خلق احتكاك للفرق التي تم تأسيسها في PyTorch أو TensorFlow الأنظمة البيئية. إن دعم المجتمع وأدوات الطرف الثالث خارج الصين أقل انتشارًا بشكل عام مقارنةً بمجتمع YOLO العالمي.
مقارنة الأداء
عند مقارنة هذه النماذج، من المهم النظر إلى التوازن بين متوسط الدقة المتوسطة (mAP) والكمون في الاستدلال. يسلط الجدول أدناه الضوء على المقاييس الرئيسية على مجموعة بيانات COCO .
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| PP-YOLOE+t | 640 | 39.9 | - | 2.84 | 4.85 | 19.15 |
| PP-YOLOE+s | 640 | 43.7 | - | 2.62 | 7.93 | 17.36 |
| PP-YOLOE+m | 640 | 49.8 | - | 5.56 | 23.43 | 49.91 |
| PP-YOLOE+l | 640 | 52.9 | - | 8.36 | 52.2 | 110.07 |
| PP-YOLOE+x | 640 | 54.7 | - | 14.3 | 98.42 | 206.59 |
التحليل
كما هو ملاحظ، يُظهر YOLOv7l كفاءة مثيرة للإعجاب، حيث يحقق 51.4% من mAP بسرعة TensorRT تبلغ 6.84 مللي ثانية. في المقابل، يحقق PP-YOLOE+l كفاءة أعلى قليلًا بنسبة 52.9% من mAP ولكن بسرعة أبطأ تبلغ 8.36 مللي ثانية وبمعلمات أعلى بكثير (52.2 مليون مقابل 36.9 مليون). وهذا يسلط الضوء على كفاءة YOLOv7 الفائقة في استخدام المعلمات وسرعة الاستدلال لمستويات دقة مماثلة. بينما يدفع PP-YOLOE+x حدود الدقة، إلا أنه يفعل ذلك على حساب ما يقرب من ضعف معلمات نماذج YOLO المماثلة.
مسائل الكفاءة
بالنسبة لعمليات نشر الذكاء الاصطناعي المتطورة حيث تكون الذاكرة والحوسبة محدودة، غالبًا ما يُترجم عدد المعلمات المنخفضة وعمليات التشغيل المتغيرة (FLOP) في بنيات YOLO إلى تشغيل أكثر برودة واستهلاك أقل للطاقة مقارنةً بالبدائل الأثقل.
ميزة Ultralytics : لماذا التحديث؟
في حين أن نموذجي YOLOv7 وPP-YOLOE+ هما نموذجان قادران، فإن مجال الرؤية الحاسوبية يتحرك بسرعة. اعتماد أحدث نماذج Ultralytics مثل YOLO11يوفر مزايا متميزة تتجاوز المقاييس الأولية.
1. تجربة مستخدم مبسطة
تعطي Ultralytics الأولوية لسهولة الاستخدام. على عكس ملفات التكوين المعقدة وإدارة التبعيات التي تتطلبها الأطر الأخرى في كثير من الأحيان، يمكن استخدام نماذج Ultralytics ببضعة أسطر من Python. وهذا يقلل من حاجز الدخول للمطورين ويسرّع دورة نشر النموذج.
2. النظام البيئي الموحد وتعدد الاستخدامات
لا تقتصر نماذج Ultralytics الحديثة على اكتشاف الكائنات. فهي تدعم أصلاً مجموعة واسعة من المهام ضمن إطار عمل واحد:
- تجزئة المثيل: إخفاء دقيق للأجسام على مستوى البكسل.
- تقدير الوضعية: الكشف عن النقاط الرئيسية على الأجسام البشرية أو الحيوانات.
- الكشف عن الأجسام الموجهة (OBB): التعامل مع الأجسام الدوارة مثل السفن في الصور الجوية.
- التصنيف: تصنيف الصورة الكاملة.
يسمح هذا التنوع للفرق بالتوحيد القياسي على مكتبة واحدة لمهام الرؤية الحاسوبية المتعددة، مما يسهل عملية الصيانة.
3. التدريب وكفاءة الذاكرة
تم تصميم نماذج Ultralytics لتحقيق كفاءة الذاكرة. فهي عادةً ما تتطلب ذاكرة وصول عشوائي (VRAM) أقل أثناء التدريب مقارنةً بالبنى القديمة أو النماذج القائمة على المحولات مثل RT-DETR. يسمح ذلك بتدريب أحجام دفعات أكبر على وحدات معالجة الرسومات الاستهلاكية القياسية، مما يجعل إنشاء النماذج عالية الأداء في متناول المزيد من الباحثين.
4. مثال على الكود: الطريقة الحديثة
يعد تشغيل الاستدلال باستخدام نموذج Ultralytics الحديث أمرًا بديهيًا. فيما يلي مثال كامل وقابل للتشغيل باستخدام YOLO11 يوضح مدى الحاجة إلى عدد قليل من الأسطر البرمجية لتحميل نموذج مُدرَّب مسبقًا وتشغيل التنبؤ.
from ultralytics import YOLO
# Load the YOLO11n model (nano version for speed)
model = YOLO("yolo11n.pt")
# Run inference on a local image
# This automatically downloads the model weights if not present
results = model("https://ultralytics.com/images/bus.jpg")
# Process results
for result in results:
boxes = result.boxes # Boxes object for bbox outputs
result.show() # Display results on screen
result.save(filename="result.jpg") # Save results to disk
5. نظام بيئي جيد الصيانة
يعني اختيار Ultralytics الانضمام إلى مجتمع نابض بالحياة. بفضل التحديثات المتكررة، والتوثيق الشامل، والتكامل مع أدوات MLOPS مثل Ultralytics HUB، يتم دعم المطورين طوال دورة حياة مشروع الذكاء الاصطناعي الخاص بهم بالكامل.
الخلاصة
كلاهما YOLOv7وPP-YOLOE+ مساهمات كبيرة في مجال اكتشاف الأجسام. تتفوق YOLOv7 في تقديم استدلال عالي السرعة على أجهزة GPU من خلال بنيتها الفعالة E-ELAN. يوفر PP-YOLOOE+ بديلاً قوياً خالياً من الارتكاز، وهو قوي بشكل خاص داخل نظام PaddlePaddle .
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل مستقبلي يوازن بين الأداء المتطور وسهولة الاستخدام التي لا مثيل لها, Ultralytics YOLO11 هو الخيار الموصى به. إن تكاملها في نظام بيئي شامل، ودعمها للمهام متعددة الوسائط، وكفاءتها الفائقة تجعلها المنصة المثالية لبناء تطبيقات رؤية حاسوبية قابلة للتطوير في عام 2025 وما بعده.
استكشف نماذج أخرى
وسّع فهمك لمشهد اكتشاف الكائنات من خلال هذه المقارنات:
- YOLOv7 مقابل YOLOv8
- PP-YOLOE+ مقابل YOLOv8
- RT-DETR مقابل YOLOv7
- YOLOX ضد YOLOv7
- استكشف أحدث إمكانيات YOLO11.