YOLO مقابل YOLOv7: مقارنة تقنية مفصلة
يعد اختيار البنية المثلى لاكتشاف الأجسام قرارًا محوريًا في تطوير الرؤية الحاسوبية. وغالباً ما يستلزم هذا الاختيار الموازنة بين زمن الاستجابة للاستدلال ودقة الكشف، مع مراعاة قيود أجهزة النشر. تبحث هذه المقارنة التقنية في YOLO و YOLOv7 وهما نموذجان مؤثران تم إصدارهما في عام 2022، وقد دفعا حدود الكشف في الوقت الحقيقي. نقوم بتحليل ابتكاراتهما المعمارية وأدائهما المعياري وسيناريوهات التطبيق المثالية لمساعدتك في عملية اختيار النموذج.
YOLO: البحث في البنية العصبية لكفاءة الحافة
تم تطوير YOLO من قِبل مجموعة علي بابا مع التركيز بشكل خاص على تحقيق أقصى قدر من الأداء للتطبيقات الصناعية. ويتميز هذا النظام عن طريق دمج خاصية البحث المعماري العصبي (NAS) لأتمتة تصميم عموده الفقري، مما يضمن الكفاءة المثلى.
- المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، ييلون هوانغ، يوان تشانغ، وشيو يو صن
- المنظمةمجموعة علي بابا
- التاريخ: 2022-11-23
- اركسيف:https://arxiv.org/abs/2211.15444v2
- جيثبhttps://github.com/tinyvision/DAMO-YOLO
- المستنداتhttps://github.com/tinyvision/DAMO-YOLO/blob/master/README.md
الابتكارات المعمارية
يقدم YOLO العديد من التقنيات المتطورة التي تهدف إلى تقليل النفقات الحسابية مع الحفاظ على دقة عالية:
- العمود الفقري MAE-NAS (GiraffeNet): على عكس العمود الفقري التقليدي المصمم يدويًا، يستخدم YOLO نهج NAS (MAE) الذي يعتمد على الكفاءة الواعية بالطريقة (MAE). وينتج عن ذلك سلسلة العمود الفقري المسماة GiraffeNet، والتي توفر مفاضلة فائقة بين عمليات الفاصلة العائمة (FLOPs) وزمن الاستجابة في ظل قيود الأجهزة المختلفة.
- شبكة هرم السمات المعممة الفعالة: يتميز النموذج بشبكة هرمية معممة للسمات (GFPN) محسّنة مع إعادة المعلمات. تسمح هذه الشبكة "RepGFPPN" بدمج الميزات متعددة النطاقات بكفاءة، وهي ضرورية للكشف عن الأجسام ذات الأحجام المختلفة دون التكلفة الحسابية الثقيلة المرتبطة بشبكات FPN القياسية.
- ZeroHead: يعمل التصميم الجديد "ZeroHead" على تبسيط رأس الكشف بشكل كبير. فمن خلال الفصل بين مهمتي التصنيف والانحدار وإزالة الطبقة المحددة المعقدة، فإنه يقلل من عدد معلمات الرأس إلى الصفر أثناء الاستدلال، مما يوفر الذاكرة ويعزز السرعة.
- AlignedOTA: لتحسين ثبات التدريب ودقته، يستخدم YOLO استراتيجية AlignedOTA، وهي استراتيجية تعيين التسمية الديناميكية التي تحل مشكلة عدم التوافق بين ثقة التصنيف ودقة الانحدار.
نقاط القوة وحالات الاستخدام
تتفوق YOLO في البيئات التي يكون فيها زمن الاستجابة حرجاً. تُعد متغيراته الأصغر (Tiny/Small) فعالة بشكل خاص في عمليات نشر الذكاء الاصطناعي المتطورة.
- الأتمتة الصناعية: مثالية لخطوط التجميع عالية السرعة حيث يتم حساب أجزاء من الثانية.
- تطبيقات الهاتف المحمول: إن انخفاض عدد المعلمات يجعلها مناسبة للتشغيل على الهواتف الذكية ذات الطاقة الحوسبية المحدودة.
YOLOv7: تحسين الدقة في الوقت الحقيقي
وضع YOLOv7 الذي تم إصداره قبل فترة وجيزة من إصدار YOLO معيارًا جديدًا للأداء المتطور في نطاق 5 إطارات في الثانية إلى 160 إطارًا في الثانية. وقد ركزت بشكل كبير على تحسين عملية التدريب وتدفق التدرج لتحقيق دقة أعلى دون زيادة تكاليف الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمــةمعهد علوم المعلومات، الأكاديمية الصينية للمعلومات، تايوان
- التاريخ: 2022-07-06
- اركسيف:https://arxiv.org/abs/2207.02696
- جيثبhttps://github.com/WongKinYiu/yolov7
- المستنداتhttps://docs.ultralytics.com/models/yolov7/
الابتكارات المعمارية
قدم YOLOv7 أساليب "كيس من الفراغات" التي تعمل على تحسين الدقة أثناء التدريب دون التأثير على بنية النموذج الاستدلالي:
- E-ELAN (شبكة تجميع الطبقات الموسعة ذات الكفاءة الموسعة): تتحكم هذه البنية في أقصر وأطول مسارات التدرج، مما يسمح للشبكة بتعلم ميزات أكثر تنوعًا. تعمل على تحسين القدرة على تعلم "الكاردينالية" دون تدمير حالة مسار التدرج الأصلي.
- قياس النموذج للنماذج القائمة على التسلسل: يقترح YOLOv7 طريقة تحجيم مركّبة تقيس العمق والعرض في آنٍ واحد للنماذج القائمة على التسلسل، مما يضمن الاستخدام الأمثل للمعلمات.
- حقيبة مجانية قابلة للتدريب: تُستخدَم تقنيات مثل إعادة المعلمات المخططة والإشراف على الرأس الإضافي (من الخشنة إلى الدقيقة). تعمل هذه التقنيات على تحسين متانة النموذج ودقته أثناء التدريب ولكن يتم دمجها أو تجاهلها أثناء الاستدلال، مما يحافظ على سرعة النموذج.
نقاط القوة وحالات الاستخدام
يُعدّ YOLOv7 مركزًا قويًا للكشف عن الأجسام للأغراض العامة، حيث يوفر متوسط دقة ممتازًا على مجموعات البيانات القياسية مثل MS COCO.
- مراقبة المدن الذكية: دقتها العالية تجعلها موثوقة للكشف عن المشاة والمركبات في البيئات الحضرية المعقدة.
- الأنظمة المستقلة: مناسبة للروبوتات والطائرات بدون طيار التي تتطلب اكتشافًا موثوقًا في نطاقات أطول حيث تكون المدخلات عالية الدقة مفيدة.
مقارنة الأداء
يقارن الجدول التالي بين أداء YOLO و YOLOv7. في حين أن YOLO غالبًا ما يحقق زمن استجابة أقل (سرعة أعلى) بالنسبة لحجمه، فإن YOLOv7 يحافظ عمومًا على سمعة قوية من حيث الدقة، خاصة في تكويناته الأكبر حجمًا.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
توضح البيانات أنه بالنسبة للبيئات شديدة التقييد، تقدم YOLO حلاً خفيف الوزن للغاية (8.5 مليون بارامتر للنسخة الصغيرة). ومع ذلك YOLOv7 يتخطى حدود الدقة من خلال متغيره X الذي يحقق 53.1% mAP وإن كان ذلك بتكاليف حسابية أعلى.
مقايضات الهندسة المعمارية
في حين أن العمود الفقري القائم على NAS في YOLO يعمل على تحسين زمن الاستجابة على وجه التحديد، يركز التصميم المعماري اليدوي لـ YOLOv7 على كفاءة تدفق التدرج. يجب أن يقيس المستخدمون كلاهما على أجهزتهم الخاصة، حيث لا ترتبط دائمًا وحدات FLOP النظرية بشكل مثالي مع سرعة الاستدلال في العالم الحقيقي.
ميزة Ultralytics : لماذا الترقية؟
في حين أن كلاً من YOLO و YOLOv7 يمثلان إنجازين مهمين في تاريخ الرؤية الحاسوبية، فإن المجال يتطور بسرعة. للمطورين الذين يبحثون عن الحلول الأكثر قوة وتنوعاً وسهولة في الاستخدام, Ultralytics YOLO11 و YOLOv8 هما الخياران الموصى بهما.
تم تصميم نماذج Ultralytics ليس فقط كأدوات بحثية بل كأدوات إنتاج شاملة. فهي تعالج مشاكل "الميل الأخير" في نشر الذكاء الاصطناعي - سهولة الاستخدام والتكامل والصيانة.
المزايا الرئيسية لنماذج Ultralytics
- سهولة الاستخدام: من خلال واجهة برمجة تطبيقاتPython API و CLI الموحّدة، يمكنك تدريب نموذج متطور في بضعة أسطر من التعليمات البرمجية. ليست هناك حاجة لضبط ملفات التكوين المعقدة يدويًا أو الصراع مع التبعيات.
- نظام بيئي جيد الصيانة: يوفر نظام Ultralytics نظامًا بيئيًا مزدهرًا مع تحديثات متكررة، وتحديد الأخطاء وإصلاحها بسرعة. يتوفر الدعم بسهولة من خلال التوثيق الشامل وقنوات المجتمع النشطة.
- توازن الأداء: موديلات مثل YOLO11 تستخدم رؤوس كشف متطورة خالية من المثبتات وعمودين أساسيين محسّنين لتحقيق نسب دقة إلى سرعة فائقة مقارنةً بكل من YOLOv7 YOLO.
- تعدد الاستخدامات: على عكس النماذج القديمة التي غالبًا ما تقتصر على الاكتشاف، يدعم Ultralytics YOLO تجزئة المثيل وتقدير الوضعية واكتشاف الكائنات الموجهة (OBB) والتصنيف خارج الصندوق.
- كفاءة التدريب: تضمن الأوزان المُدرَّبة مسبقًا وأجهزة تحميل البيانات المُحسَّنة تقاربًا أسرع، مما يوفر ساعات عمل GPU والطاقة.
from ultralytics import YOLO
# Load the latest YOLO11 model
model = YOLO("yolo11n.pt")
# Train on COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
الخلاصة
يتمتع كل من YOLO و YOLOv7 بمزايا مميزة. يعد YOLO مرشحًا قويًا للمشاريع التي تكون فيها سرعة الاستدلال على الحواف هي القيد الأساسي، حيث تستفيد من NAS في اختصار أجزاء من الثانية. YOLOv7 يظل خيارًا قويًا للباحثين الذين يبحثون عن اكتشاف عالي الدقة مع سلالة معمارية مثبتة.
ومع ذلك، بالنسبة لمعظم التطبيقات التجارية والبحثية اليوم، فإن Ultralytics YOLO تجربة متفوقة. من خلال الجمع بين الأداء المتطور وسهولة الاستخدام وتعدد الاستخدامات التي لا مثيل لها، تسمح نماذج Ultralytics للمطورين بالتركيز على بناء القيمة بدلاً من تصحيح الأخطاء البرمجية. وسواء كنت تقوم بالنشر على خادم سحابي أو جهاز متطور مثل NVIDIA Jetson، فإن Ultralytics توفر المسار الأكثر انسيابية للإنتاج.
نماذج أخرى
إذا كنت تستكشف بنيات اكتشاف الكائنات، فقد تكون مهتمًا أيضًا بهذه النماذج:
- Ultralytics YOLOv8: نموذج متعدد الاستخدامات يدعم مهام الكشف والتجزئة والوضعية.
- Ultralytics YOLO11: أحدث تطور في سلسلة YOLO الذي يوفر كفاءة متطورة.
- RT-DETR: كاشف قائم على محول في الوقت الحقيقي يتجنب التأخير في NMS .
- YOLOv9: يتميز بمعلومات التدرج القابلة للبرمجة (PGI) لتعزيز التعلم.
- YOLOv10: يركز على التدريب المتكامل NMS لتقليل زمن الاستجابة.