YOLOv7 مقابل YOLO: مقارنة تقنية مفصلة
يُعدّ اختيار البنية المثلى للكشف عن الأجسام قرارًا محوريًا في تطوير الرؤية الحاسوبية، حيث يوازن بين المتطلبات المتنافسة لزمن الاستنتاج والدقة وتخصيص الموارد الحاسوبية. يقارن هذا التحليل الفني بين نموذجي YOLOv7 YOLO وهما نموذجان مؤثران تم إصدارهما في أواخر عام 2022، وقد دفعا حدود الكشف في الوقت الحقيقي. نحن ندرس ابتكاراتهما المعمارية الفريدة من نوعها، وأداءهما المعياري، ومدى ملاءمتهما لسيناريوهات النشر المختلفة لمساعدتك في عملية الاختيار.
YOLOv7: تحسين التدريب من أجل الدقة في الوقت الحقيقي
مثّل YOLOv7 تطورًا كبيرًا في عائلة YOLO حيث أعطى الأولوية للكفاءة المعمارية واستراتيجيات التدريب المتقدمة لتعزيز الأداء دون تضخيم تكاليف الاستدلال. تم تطويره من قبل المؤلفين الأصليين لـ YOLOv4 المتدرجة، وقد أدخلت طرقًا للسماح للشبكة بالتعلم بشكل أكثر فعالية أثناء مرحلة التدريب.
المؤلفون: تشين ياو وانغ، وأليكسي بوشكوفسكي، وهونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية للعلوم بتايوان
التاريخ: 2022-07-06
اركسيف:https://arxiv.org/abs/2207.02696
جيثب:https://github.com/WongKinYiu/yolov7
المستندات:ultralytics
الابتكارات المعمارية
يتميز جوهر YOLOv7 بشبكة تجميع الطبقات الموسعة ذات الكفاءة الموسعة (E-ELAN). تسمح هذه البنية للنموذج بتعلم ميزات متنوعة من خلال التحكم في أقصر وأطول مسارات التدرج، مما يحسن التقارب دون تعطيل تدفق التدرج الحالي. بالإضافة إلى ذلك، يستخدم YOLOv7 "حقيبة من الحريّات القابلة للتدريب"، وهي مجموعة من تقنيات التحسين المطبقة أثناء معالجة بيانات التدريب التي لا تؤثر على بنية النموذج أثناء النشر. وتشمل هذه التقنيات إعادة تحديد معلمات النموذج والرؤوس المساعدة للإشراف العميق، مما يضمن أن يلتقط العمود الفقري ميزات قوية.
حقيبة الهدايا المجانية
يشير مصطلح "حقيبة النماذج المجانية" إلى الأساليب التي تزيد من تعقيد التدريب لتعزيز الدقة ولكنها لا تتكبد أي تكلفة أثناء الاستدلال في الوقت الحقيقي. تضمن هذه الفلسفة بقاء النموذج النهائي المُصدَّر خفيف الوزن.
نقاط القوة والضعف
يشتهر YOLOv7 بتوازنه الممتاز على معيار MS COCO حيث يقدم متوسط دقة (mAP) عاليًا بالنسبة لحجمه. وتكمن قوته الأساسية في المهام عالية الدقة حيث تكون الدقة بالغة الأهمية. ومع ذلك، فإن تعقيد البنية يمكن أن يجعل من الصعب تعديلها للبحث المخصص. علاوةً على ذلك، في حين أن الاستدلال فعال، فإن عملية التدريب تستهلك الكثير من الموارد، وتتطلب ذاكرة كبيرة GPU مقارنةً بالبنى الأحدث.
YOLO: بحث البنية العصبية عن الحافة
يتّبع YOLO المنبثق من فريق البحث في علي بابا، نهجاً مختلفاً من خلال الاستفادة من البحث عن البنية العصبية (NAS) لاكتشاف هياكل الشبكات الفعالة تلقائياً والمصممة خصيصاً لبيئات منخفضة الكمون.
المؤلفون: شيانزهي شو، وييكي جيانغ، وويهوا تشن، ووي هوا تشن، ويلون هوانغ، ويوان تشانغ، وشيويو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
اركسيف:https://arxiv.org/abs/2211.15444
جيثب:YOLO
الابتكارات المعمارية
يُقدِّم YOLO طريقة MAE-NAS، وهي طريقة لتوليد العمود الفقري تسمى GiraffeNet، والتي تزيد من الإنتاجية إلى أقصى حد في ظل قيود زمن انتقال محددة. يكمّل هذا هو ZeroHead، وهو رأس كشف خفيف الوزن يفصل بين مهام التصنيف والانحدار مع إزالة المعلمات الثقيلة، مما يقلل بشكل كبير من حجم النموذج. تستخدم البنية أيضًا عنقًا فعالاً يُعرف باسم RepGFPPN (شبكة هرم الميزات المعممة) لدمج الميزات متعددة النطاقات ومواءمة درجات التصنيف مع دقة التوطين باستخدام AlignedOTA لتعيين التسمية.
نقاط القوة والضعف
تتفوق YOLO في سيناريوهات الذكاء الاصطناعي المتطورة. توفر متغيراتها الأصغر (Tiny/Small) سرعات مذهلة، مما يجعلها مناسبة للأجهزة المحمولة وتطبيقات إنترنت الأشياء. يضمن استخدام NAS أن تكون البنية مُحسَّنة رياضياً لتحقيق الكفاءة. وعلى العكس من ذلك، فإن نماذج YOLO الأكبر حجماً تتخلف أحياناً عن نماذج YOLOv7 الأعلى مستوى في الدقة البحتة. بالإضافة إلى ذلك، وباعتباره مشروعًا يتمحور حول البحث، فإنه يفتقر إلى النظام البيئي الشامل ودعم الأدوات الموجود في الأطر الأوسع نطاقًا.
مقارنة مقاييس الأداء
يسلط الجدول التالي الضوء على مفاضلات الأداء. يحقق YOLOv7 بشكل عام دقة أعلىmAP) على حساب تعقيد حسابي أعلى (FLOPs)، بينما يعطي YOLO الأولوية للسرعة وكفاءة البارامترات، خاصةً في تكويناته الأصغر.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تطبيقات عملية في أرض الواقع
غالباً ما يعتمد الاختيار بين هذه النماذج على أجهزة النشر ومهام الرؤية الحاسوبية المحددة المطلوبة.
- الأمن والتحليلات المتطورة (YOLOv7): بالنسبة للتطبيقات التي تعمل على خوادم قوية حيث تكون كل نقطة مئوية من الدقة مهمة، مثل أنظمة الإنذار الأمني أو إدارة حركة المرور التفصيلية، فإن YOLOv7 مرشح قوي. قدرته على حل التفاصيل الدقيقة تجعله مناسبًا لاكتشاف الأجسام الصغيرة في تدفقات الفيديو عالية الدقة.
- أجهزة الحافة والروبوتات (YOLO): في السيناريوهات ذات الميزانيات الصارمة لزمن الاستجابة، مثل الروبوتات المستقلة أو تطبيقات الأجهزة المحمولة، تتألق بنية YOLO خفيفة الوزن. يقلل عدد المعلمات المنخفض من ضغط عرض النطاق الترددي للذاكرة، وهو أمر بالغ الأهمية للأجهزة التي تعمل بالبطارية التي تقوم باكتشاف الأجسام.
ميزة Ultralytics : لماذا التحديث؟
على الرغم من أن YOLOv7 YOLO نموذجين قادرين على ذلك، فإن مشهد الذكاء الاصطناعي يتقدم بسرعة. يجب على المطورين والباحثين الذين يبحثون عن حل مستقبلي وفعال وسهل الاستخدام أن يفكروا في نظامUltralytics وتحديداً YOLO11. تقدم الترقية إلى نماذج Ultralytics الحديثة العديد من المزايا المتميزة:
1. سهولة الاستخدام المبسط
تعطي نماذج Ultralytics الأولوية لتجربة المطورين. على عكس مستودعات البحث التي غالبًا ما تتطلب إعدادات بيئة معقدة وتنفيذًا يدويًا للنصوص البرمجية، توفر Ultralytics واجهة برمجة تطبيقاتPython API و CLI موحدة. يمكنك تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر من التعليمات البرمجية.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. تعدد الاستخدامات الشاملة
صُمم YOLOv7 YOLO بشكل أساسي لاكتشاف الصندوق المحدود. في المقابل، يدعم YOLO11 مجموعة واسعة من المهام بشكل أصلي في نفس الإطار، بما في ذلك تجزئة النماذج، وتقدير الوضعية، واكتشاف الأجسام الموجهة (OBB)، وتصنيف الصور. يتيح لك ذلك معالجة المشاكل المعقدة - مثل تحليل وضعية الإنسان في الرياضة - دون الحاجة إلىتبديل المكتبات.
3. أداء وكفاءة فائقان
يعتمد YOLO11 على سنوات من البحث والتطوير لتقديم دقة فائقة مع تقليل النفقات الحسابية بشكل كبير. فهو يستخدم رأس كشف خالٍ من المراسي وعمليات خلفية محسّنة، مما يؤدي إلى استخدام أقل للذاكرة أثناء التدريب والاستدلال مقارنةً بإصدارات YOLO القديمة أو النماذج القائمة على المحولات مثل RT-DETR. تُترجم هذه الكفاءة إلى تكاليف حوسبة سحابية أقل ومعالجة أسرع على الأجهزة المتطورة.
4. النظام الإيكولوجي القوي والدعم
يوصلك اعتماد نموذج Ultralytics إلى نظام بيئي مزدهر وجيد الصيانة. فمع التحديثات المتكررة، والوثائق الشاملة، وقنوات المجتمع النشطة، لن تُترك أبدًا لتصحيح الأخطاء في التعليمات البرمجية غير المدعومة. علاوة على ذلك، تسهل عمليات التكامل السلس مع أدوات مثل Ultralytics HUB نشر النموذج وإدارة مجموعة البيانات بسهولة.
الخلاصة
ساهم كل من YOLOv7 و YOLO بشكل كبير في مجال اكتشاف الأجسام في عام 2022. فقد أظهر YOLOv7 كيف يمكن لتقنيات التحسين القابلة للتدريب أن تعزز الدقة، بينما عرض YOLO قوة البحث عن البنية العصبية لإنشاء نماذج فعالة وجاهزة للحافة.
ومع ذلك، بالنسبة لبيئات الإنتاج الحالية YOLO11 يمثل ذروة تقنية الذكاء الاصطناعي للرؤية. من خلال الجمع بين سرعة YOLO ودقة YOLOv7 وسهولة الاستخدام التي لا مثيل لها لإطار عمل Ultralytics يقدم YOLO11 حلاً متعدد الاستخدامات يسرّع دورات التطوير ويحسّن أداء التطبيقات. سواء كنت تقوم ببناء بنية تحتية للمدينة الذكية أو تحسين مراقبة جودة التصنيع، فإن نماذج Ultralytics توفر الموثوقية والكفاءة المطلوبة لتحقيق النجاح.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف خيارات أخرى في مجال رؤية الكمبيوتر، ففكر في هذه النماذج:
- Ultralytics YOLOv8: الإصدار السابق لـ YOLO11 والمعروف بقوته واعتماده على نطاق واسع في الصناعة.
- YOLOv10: كاشف في الوقت الحقيقي يركز على التدريب NMS لتقليل زمن الاستجابة.
- YOLOv9: يقدم معلومات التدرج القابلة للبرمجة (PGI) لتقليل فقدان المعلومات في الشبكات العميقة.
- RT-DETR: كاشف قائم على المحولات يوفر دقة عالية ولكنه يتطلب عادةً المزيد من ذاكرة GPU .
- YOLOv6: نموذج آخر يركز على الكفاءة تم تحسينه للتطبيقات الصناعية.