تخطي إلى المحتوى

PP-YOLOE+ مقابل YOLOv6. YOLOv6: نظرة متعمقة على الكشف عن الكائنات في الوقت الفعلي

تطورت تقنية الكشف عن الأجسام في الوقت الفعلي بسرعة كبيرة، مع ظهور أطر عمل توسع حدود الدقة والكمون. هناك اثنان من المشاركين المهمين في هذا المجال هما PP-YOLOE+، وهو تطور لكواشف PaddlePaddle و YOLOv6.YOLOv6، وهو نموذج يركز على الصناعة من Meituan. تهدف كلتا البنيتين إلى تحسين التوازن بين السرعة والدقة، لكنهما تتعاملان مع المشكلة بفلسفات تصميم مختلفة وتستهدفان بيئات نشر مختلفة.

نظرة عامة على النموذج

فهم نسب هذه النماذج يساعد في توضيح قراراتها المعمارية وحالات الاستخدام المثالية.

PP-YOLOE+

المؤلفون: PaddlePaddle
المنظمة:Baidu
التاريخ: 2022-04-02
الروابط:Arxiv | GitHub

PP-YOLOE+ هو إصدار محسّن من PP-YOLOE، تم تطويره بواسطة PaddlePaddle التابع لشركة Baidu. وهو يعتمد على نموذج بدون مرساة، ويحسّن العمود الفقري CSPRepResNet ويقدم استراتيجية جديدة لتعلم محاذاة المهام (TAL). وهو مصمم للتكامل بشكل وثيق مع PaddlePaddle ويوفر دعماً قوياً لمختلف الخلفيات المادية عبر PaddleLite.

YOLOv6-3.0

المؤلفون: Chuyi Li، Lulu Li، Yifei Geng، Hongliang Jiang، Meng Cheng، Bo Zhang، Zaidan Ke، Xiaoming Xu، و Xiangxiang Chu
المنظمة:Meituan
التاريخ: 2023-01-13
الروابط:Arxiv | GitHub

تم تطوير YOLOv6.YOLOv6، الذي يشار إليه غالبًا باسم "إعادة التحميل الكامل"، من قبل قسم الذكاء البصري في Meituan. على عكس نماذج الأبحاث الأكاديمية التي تركز فقط على FLOPs، تم تصميم YOLOv6. YOLOv6 للتطبيقات الصناعية في العالم الحقيقي، وتحديداً لتحسين الإنتاجية على وحدات معالجة الرسومات مثل NVIDIA T4. ويستخدم استراتيجية تدريب هجينة تسمى Anchor-Aided Training (AAT) لتعظيم الأداء.

تعرف على المزيد حول YOLOv6

مقارنة البنية التقنية

تكمن الاختلافات الأساسية بين هذين النموذجين في تصميمات الرأس واستراتيجيات التدريب وتحسينات العمود الفقري.

بنية PP-YOLOE+

يستخدم PP-YOLOE+ بنية أساسية قابلة للتطوير تعتمد على CSPRepResNet، والتي تستخدم التلافيف القابلة لإعادة المعلمات لتحقيق التوازن بين قدرة استخراج الميزات وسرعة الاستدلال. ومن الابتكارات الرئيسية في هذا المجال الرأس المتوافق مع المهام الفعالة (ET-head). غالبًا ما تعاني أجهزة الكشف التقليدية أحادية المرحلة من عدم التوافق بين ثقة التصنيف ودقة تحديد الموقع. يعالج PP-YOLOE+ هذه المشكلة من خلال تعلم محاذاة المهام (TAL)، وهي استراتيجية لتعيين التسميات تختار العينات الإيجابية ديناميكيًا استنادًا إلى مزيج مرجح من درجات التصنيف والانحدار.

بنية YOLOv6-3.0

يركز YOLOv6.YOLOv6 بشكل كبير على تصميم الشبكات العصبية التي تدرك الأجهزة. ويقدم RepBi-PAN، وهي شبكة تجميع مسارات ثنائية الاتجاه معززة بكتل من نوع RepVGG، مما يحسن كفاءة دمج الميزات. الميزة الأكثر بروزًا في الإصدار 3.0 هي التدريب بمساعدة المثبت (AAT). بينما يتم نشر النموذج ككاشف خالٍ من المثبتات من أجل السرعة، فإنه يستخدم فرعًا مساعدًا قائمًا على المثبتات أثناء التدريب لتثبيت التقارب وتعزيز الدقة، مما يحقق "أفضل ما في العالمين" بشكل فعال.

تحذير: شرح إعادة تحديد المعلمات

يستخدم كلا النموذجين إعادة تحديد المعلمات الهيكلية. أثناء التدريب، تستخدم الشبكة هياكل متعددة الفروع معقدة (مثل اتصالات ResNet) لتعلم ميزات غنية. أثناء الاستدلال، يتم دمج هذه الفروع رياضيًا في طبقة تلافيف واحدة. تقلل هذه التقنية، التي شاع استخدامها بواسطة RepVGG، بشكل كبير من تكاليف الوصول إلى الذاكرة وتقلل من زمن الاستدلال دون التضحية بالدقة.

مقاييس الأداء

يُقارن الجدول التالي أداء نماذج مختلفة على COCO .

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59
YOLOv6-3.0n64037.5-1.174.711.4
YOLOv6-3.0s64045.0-2.6618.545.3
YOLOv6-3.0m64050.0-5.2834.985.8
YOLOv6-3.0l64052.8-8.9559.6150.7

يُظهر YOLOv6 ميزة واضحة في GPU (TensorRT )، لا سيما على نطاق Nano (n)، مما يجعله فعالاً للغاية في معالجة مقاطع الفيديو ذات الحجم الكبير. غالباً ما يحقق PP-YOLOE+ دقة مماثلة أو أعلى قليلاً (mAP) على نطاقات أكبر ولكن مع ملف تعريف كفاءة معلمات مختلف.

ميزة Ultralytics

بينما يوفر PP-YOLOE+ و YOLOv6. YOLOv6 إمكانات مذهلة، يفضل العديد من المطورين تحقيق التوازن بين الأداء وسهولة الاستخدام ودعم النظام البيئي. وهنا يأتي دور Ultralytics ، وتحديدًا YOLO11 و YOLO26المتطورة.

لماذا تختار Ultralytics؟

  1. سهولة الاستخدام: Ultralytics تجربة "من الصفر إلى القمة". على عكس مستودعات الأبحاث التي تتطلب إعدادات بيئية معقدة، يمكن الوصول إلى Ultralytics عبر تثبيت pip بسيط Python موحدة.
  2. نظام بيئي جيد الصيانة: توفر Ultralytics ومستودع GitHub تحديثات مستمرة، مما يضمن التوافق مع أحدث برامج التشغيل وتنسيقات التصدير (ONNX و TensorRT و CoreML) والأجهزة.
  3. تعدد الاستخدامات: في حين أن YOLOv6 في الأساس محرك للكشف، فإن Ultralytics مهام تقسيم الحالات وتقدير الوضع والتصنيف ومهام Oriented Bounding Box (OBB) ضمن نفس المكتبة.
  4. كفاءة التدريب: تم تحسين Ultralytics لتقليل استخدام الذاكرة أثناء التدريب. وهذا يتناقض بشكل حاد مع النماذج القائمة على المحولات (مثل RT-DETR)، التي تتطلب غالبًا CUDA كبيرة ووقت تدريب أطول.

قوة YOLO26

صدر YOLO26 في يناير 2026، وهو يمثل قمة الكفاءة في نشر الحافة والسحابة. يعالج المشاكل الشائعة في خطوط أنابيب النشر من خلال عدة ميزات متطورة:

  • تصميم NMS من البداية إلى النهاية: يزيل YOLO26 المعالجة اللاحقة لـ Non-Maximum Suppression (NMS). وهذا يقلل من تقلب زمن الاستجابة ويبسط منطق النشر، وهو مفهوم رائد في YOLOv10.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : من خلال إزالة Distribution Focal Loss (DFL) وتحسين البنية، أصبح YOLO26 أسرع بشكل ملحوظ على وحدات المعالجة المركزية، مما يجعله الخيار المثالي للذكاء الاصطناعي المتطور على أجهزة مثل Raspberry Pi أو الهواتف المحمولة.
  • محسن MuSGD: مستوحى من استقرار تدريب LLM، يضمن محسن MuSGD (مزيج من SGD Muon) تقاربًا أسرع وتشغيلًا مستقرًا للتدريب.
  • ProgLoss + STAL: تعمل وظائف الخسارة المتقدمة على تحسين اكتشاف الأجسام الصغيرة، وهو أمر بالغ الأهمية بالنسبة لصور الطائرات بدون طيار وأجهزة استشعار إنترنت الأشياء.

تعرف على المزيد حول YOLO26

مثال على التعليمات البرمجية

تدريب نموذج متطور باستخدام Ultralytics بسيط:

from ultralytics import YOLO

# Load the latest YOLO26 small model
model = YOLO("yolo26s.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
results = model("https://ultralytics.com/images/bus.jpg")

حالات الاستخدام والتطبيقات الواقعية

يعتمد اختيار النموذج الصحيح غالبًا على القيود المحددة لمشروعك.

مناسب بشكل مثالي لـ PP-YOLOE+

  • تحليل الصور الثابتة: البيئات التي يكون فيها زمن الاستجابة أقل أهمية من الدقة المطلقة، مثل تحليل صور الأقمار الصناعية عالية الدقة لأغراض التخطيط الحضري.
  • PaddlePaddle : ستجد الفرق التي تستخدم بالفعل حزمة Baidu لمهام أخرى تتعلق بالذكاء الاصطناعي أن التكامل سلس.

مناسب بشكل مثالي لـ YOLOv6-3.0

  • الفحص الصناعي: خطوط التصنيع عالية السرعة التي تتطلب الكشف عن العيوب على سيور النقل سريعة الحركة. تعد TensorRT العالية TensorRT ميزة رئيسية في هذا المجال.
  • تحليلات الفيديو: معالجة تدفقات فيديو متعددة في وقت واحد على GPU واحد لأغراض الأمن أو مراقبة حركة المرور.

مناسب بشكل مثالي لـ Ultralytics YOLO26 / YOLO11)

  • الحوسبة الطرفية: بفضل CPU الأسرع بنسبة تصل إلى 43٪، يعد YOLO26 مثاليًا للأجهزة التي تعمل بالبطارية والكاميرات الذكية والتطبيقات المحمولة.
  • الروبوتات: يقلل التصميمNMS من تقلبات زمن الوصول، وهو أمر بالغ الأهمية لدورات التغذية الراجعة في الوقت الفعلي اللازمة في الملاحة الذاتية.
  • المشاريع متعددة الوسائط: يمكن للتطبيقات التي تتطلب كلاً من اكتشاف الكائنات وتقدير الوضع (مثل تحليلات الرياضة) استخدام مكتبة واحدة، مما يبسط قاعدة الكود.

الخلاصة

يعد كل من PP-YOLOE+ و YOLOv6. YOLOv6 مساهمتين رائعتين في مجتمع الرؤية الحاسوبية. يوسع PP-YOLOE+ حدود الدقة الخالية من المراسي داخل نظام Paddle البيئي، بينما يوفر YOLOv6. YOLOv6 إنتاجية استثنائية لأحمال العمل الصناعية GPU.

ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل متعدد الاستخدامات ومستقبلي يمتد من التدريب السحابي إلى النشر المتطور، فإن Ultralytics هو الخيار الأمثل. إن الجمع بين الاستدلالNMS والتدريب الفعال للذاكرة ودعم المهام الواسع يجعله الخيار الموصى به لتطوير الذكاء الاصطناعي الحديث. سواء كنت تبني حلاً للمدن الذكية أو روبوت زراعي مخصص، فإن Ultralytics يوفر الأدوات التي تساعدك على الوصول إلى مرحلة الإنتاج بشكل أسرع.

لمزيد من الاستكشاف، يرجى مراجعة الوثائق الخاصة بـ YOLOv8 أو YOLO المتخصصة للكشف عن المفردات المفتوحة.


تعليقات