YOLOv7 ضد DAMO-YOLO: مقارنة فنية تفصيلية
يُعد اختيار بنية الكشف عن الكائنات المثالية قرارًا محوريًا في تطوير رؤية الحاسوب، حيث يوازن بين المتطلبات المتنافسة المتمثلة في زمن الوصول للاستدلال والدقة وتخصيص موارد الحوسبة. يقارن هذا التحليل الفني بين YOLOv7 و DAMO-YOLO، وهما نموذجان مؤثران تم إصدارهما في أواخر عام 2022 وقد دفعا حدود الكشف في الوقت الفعلي. ندرس الابتكارات المعمارية الفريدة الخاصة بهما، وأداء المقارنة المعيارية، ومدى ملاءمتهما لسيناريوهات النشر المختلفة لمساعدتك في التنقل في عملية الاختيار.
YOLOv7: تحسين التدريب لتحقيق الدقة في الوقت الفعلي
يمثل YOLOv7 تطورًا كبيرًا في عائلة YOLO، حيث يعطي الأولوية للكفاءة المعمارية واستراتيجيات التدريب المتقدمة لتحسين الأداء دون تضخيم تكاليف الاستدلال. تم تطويره بواسطة المؤلفين الأصليين لـ Scaled-YOLOv4، وقدم طرقًا للسماح للشبكة بالتعلم بشكل أكثر فعالية خلال مرحلة التدريب.
المؤلفون: تشين-ياو وانغ، أليكسي بوتشكوفسكي، وهونغ-يوان مارك لياو
المنظمة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
التاريخ: 2022-07-06
Arxiv:https://arxiv.org/abs/2207.02696
GitHub:https://github.com/WongKinYiu/yolov7
المستندات:https://docs.ultralytics.com/models/yolov7/
الابتكارات المعمارية
يتميز جوهر YOLOv7 بشبكة تجميع الطبقات الفعالة الممتدة (E-ELAN). تسمح هذه البنية للنموذج بتعلم ميزات متنوعة من خلال التحكم في أقصر وأطول مسارات التدرج، مما يحسن التقارب دون تعطيل تدفق التدرج الحالي. بالإضافة إلى ذلك، تستخدم YOLOv7 "حقيبة التدريب المجانية القابلة للتدريب"، وهي مجموعة من تقنيات التحسين المطبقة أثناء معالجة بيانات التدريب التي لا تؤثر على بنية النموذج أثناء النشر. وتشمل هذه إعادة معلمات النموذج والرؤوس المساعدة للإشراف العميق، مما يضمن التقاط العمود الفقري لميزات قوية.
Bag-of-Freebies
يشير مصطلح "bag-of-freebies" إلى الطرق التي تزيد من تعقيد التدريب لتعزيز الدقة ولكنها لا تتكبد أي تكلفة أثناء الاستدلال في الوقت الفعلي. تضمن هذه الفلسفة بقاء النموذج المُصدَّر النهائي خفيف الوزن.
نقاط القوة والضعف
يُحتفى بـ YOLOv7 لتوازنه الممتاز على معيار MS COCO، حيث يقدم متوسط دقة متوسطة (mAP) عاليًا لحجمه. تكمن قوته الأساسية في المهام عالية الدقة حيث تكون الدقة ذات أهمية قصوى. ومع ذلك، يمكن أن تجعل بنية البرنامج المعقدة من الصعب تعديله للبحث المخصص. علاوة على ذلك، في حين أن الاستدلال فعال، إلا أن عملية التدريب تستهلك الكثير من الموارد، وتتطلب ذاكرة GPU كبيرة مقارنة بالبنى الأحدث.
DAMO-YOLO: البحث عن الهندسة المعمارية العصبية للحافة
يتبع DAMO-YOLO، المنبثق عن فريق أبحاث Alibaba، نهجًا مختلفًا من خلال الاستفادة من البحث في الهندسة المعمارية العصبية (NAS) لاكتشاف هياكل الشبكات الفعالة المصممة خصيصًا لبيئات الكمون المنخفض تلقائيًا.
المؤلفون: شيانزه شو، يي تشي جيانغ، وي هوا تشن، يي لون هوانغ، يوان تشانغ، و شيو يو صن
المنظمة:مجموعة علي بابا
التاريخ: 2022-11-23
Arxiv:https://arxiv.org/abs/2211.15444
GitHub:https://github.com/tinyvision/DAMO-YOLO
الابتكارات المعمارية
تقدم DAMO-YOLO MAE-NAS، وهي طريقة لإنشاء العمود الفقري المسمى GiraffeNet، والذي يزيد الإنتاجية إلى أقصى حد في ظل قيود معينة على زمن الانتقال. ويكمل ذلك ZeroHead، وهو رأس detect خفيف الوزن يفصل بين مهام التصنيف والانحدار مع إزالة المعلمات الثقيلة، مما يقلل بشكل كبير من حجم النموذج. تستخدم البنية أيضًا عنقًا فعالًا يُعرف باسم RepGFPN (شبكة هرم الميزات المعممة) لدمج الميزات متعددة المقاييس وتتوافق مع درجات التصنيف مع دقة تحديد الموقع باستخدام AlignedOTA لتعيين التسميات.
نقاط القوة والضعف
تتفوق DAMO-YOLO في سيناريوهات الذكاء الاصطناعي الطرفي. توفر المتغيرات الأصغر (Tiny/Small) سرعات رائعة، مما يجعلها مناسبة للأجهزة المحمولة وتطبيقات إنترنت الأشياء. يضمن استخدام NAS تحسين بنية النظام رياضيًا لتحقيق الكفاءة. وعلى العكس من ذلك، تتخلف أكبر نماذج DAMO-YOLO أحيانًا عن نماذج YOLOv7 الأعلى مستوى في الدقة الخالصة. بالإضافة إلى ذلك، كمشروع يركز على البحث، فإنه يفتقر إلى النظام البيئي الواسع ودعم الأدوات الموجودة في الأطر الأوسع.
مقارنة مقاييس الأداء
يسلط الجدول التالي الضوء على المفاضلات في الأداء. يحقق YOLOv7 عمومًا دقة أعلى (mAP) على حساب تعقيد حسابي أعلى (FLOPs)، بينما يعطي DAMO-YOLO الأولوية للسرعة وكفاءة المعلمات، لا سيما في تكويناته الأصغر.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| DAMO-YOLOt | 640 | 42.0 | - | 2.32 | 8.5 | 18.1 |
| DAMO-YOLOs | 640 | 46.0 | - | 3.45 | 16.3 | 37.8 |
| DAMO-YOLOm | 640 | 49.2 | - | 5.09 | 28.2 | 61.8 |
| DAMO-YOLOl | 640 | 50.8 | - | 7.18 | 42.1 | 97.3 |
تطبيقات عملية في أرض الواقع
غالبًا ما يعتمد الاختيار بين هذه النماذج على أجهزة النشر ومهام رؤية الكمبيوتر المحددة المطلوبة.
- الأمن والتحليلات المتطورة (YOLOv7): بالنسبة للتطبيقات التي تعمل على خوادم قوية حيث تهم كل نقطة مئوية من الدقة، مثل أنظمة إنذار الأمان أو إدارة حركة المرور التفصيلية، فإن YOLOv7 هو مرشح قوي. قدرته على حل التفاصيل الدقيقة تجعله مناسبًا لاكتشاف الأجسام الصغيرة في تدفقات الفيديو عالية الدقة.
- الأجهزة الطرفية والروبوتات (DAMO-YOLO): في السيناريوهات ذات ميزانيات الكمون الصارمة، مثل الروبوتات المستقلة أو تطبيقات الأجهزة المحمولة، تتألق البنية خفيفة الوزن لـ DAMO-YOLO. يقلل عدد المعلمات المنخفض من ضغط عرض النطاق الترددي للذاكرة، وهو أمر بالغ الأهمية للأجهزة التي تعمل بالبطارية والتي تقوم detect الأجسام.
ميزة Ultralytics: لماذا التحديث؟
في حين أن YOLOv7 و DAMO-YOLO هما نموذجان قادران، إلا أن مشهد الذكاء الاصطناعي يتقدم بسرعة. يجب على المطورين والباحثين الذين يبحثون عن حل فعال وسهل الاستخدام ومقاوم للمستقبل أن يفكروا في النظام البيئي Ultralytics، وتحديدًا YOLO11. توفر الترقية إلى نماذج Ultralytics الحديثة العديد من المزايا المتميزة:
1. سهولة الاستخدام المبسطة
تعطي نماذج Ultralytics الأولوية لتجربة المطور. على عكس المستودعات البحثية التي تتطلب غالبًا إعدادات بيئة معقدة وتنفيذًا يدويًا للبرامج النصية، توفر Ultralytics واجهة برمجة تطبيقات Python موحدة و CLI. يمكنك تدريب النماذج والتحقق من صحتها ونشرها في بضعة أسطر فقط من التعليمات البرمجية.
from ultralytics import YOLO
# Load a model
model = YOLO("yolo11n.pt")
# Train the model
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference
results = model("path/to/image.jpg")
2. تنوع شامل
تم تصميم YOLOv7 و DAMO-YOLO بشكل أساسي لاكتشاف المربعات المحيطة. في المقابل، تدعم YOLO11 مجموعة واسعة من المهام أصلاً داخل نفس الإطار، بما في ذلك تجزئة المثيل و تقدير الوضعية و اكتشاف الكائنات الموجهة (OBB) و تصنيف الصور. يتيح لك هذا معالجة المشكلات المعقدة - مثل تحليل وضعية الإنسان في الألعاب الرياضية - دون تبديل المكتبات.
3. أداء وكفاءة فائقة
يعتمد YOLO11 على سنوات من البحث والتطوير لتقديم أحدث دقة مع تقليل النفقات الحسابية بشكل كبير. يستخدم رأس كشف خالٍ من المرساة وعمليات خلفية محسّنة، مما يؤدي إلى تقليل استخدام الذاكرة أثناء التدريب والاستدلال مقارنةً بإصدارات YOLO الأقدم أو النماذج القائمة على المحولات مثل RT-DETR. تترجم هذه الكفاءة إلى انخفاض تكاليف الحوسبة السحابية ومعالجة أسرع على أجهزة الحافة.
4. نظام بيئي قوي ودعم
إن اعتماد نموذج Ultralytics يوصلك بنظام بيئي مزدهر ويتم صيانته جيدًا. مع التحديثات المتكررة والوثائق الشاملة وقنوات المجتمع النشطة، لن تترك أبدًا لتصحيح أخطاء التعليمات البرمجية غير المدعومة. علاوة على ذلك، فإن التكامل السلس مع أدوات مثل Ultralytics HUB يسهل نشر النموذج وإدارة مجموعة البيانات بسهولة.
الخلاصة
ساهم كل من YOLOv7 و DAMO-YOLO بشكل كبير في مجال الكشف عن الكائنات في عام 2022. أظهر YOLOv7 كيف يمكن لتقنيات التحسين القابلة للتدريب أن تعزز الدقة، بينما عرض DAMO-YOLO قوة البحث عن البنية العصبية لإنشاء نماذج فعالة وجاهزة للحافة.
ومع ذلك، بالنسبة لبيئات الإنتاج اليوم، يمثل YOLO11 قمة تكنولوجيا الذكاء الاصطناعي البصري. من خلال الجمع بين سرعة DAMO-YOLO ودقة YOLOv7 وسهولة الاستخدام التي لا مثيل لها لإطار عمل Ultralytics، يقدم YOLO11 حلاً متعدد الاستخدامات يسرع دورات التطوير ويحسن أداء التطبيق. سواء كنت تقوم ببناء بنية تحتية للمدن الذكية أو تحسين مراقبة جودة التصنيع، فإن نماذج Ultralytics توفر الموثوقية والكفاءة اللازمتين للنجاح.
استكشف نماذج أخرى
إذا كنت مهتمًا باستكشاف خيارات أخرى في مجال رؤية الكمبيوتر، فضع في اعتبارك هذه النماذج:
- Ultralytics YOLOv8: النموذج الذي يسبق YOLO11، والمعروف بمتانته واعتماده على نطاق واسع في الصناعة.
- YOLOv10: كاشف في الوقت الفعلي يركز على التدريب بدون NMS لتقليل زمن الوصول.
- YOLOv9: يقدم معلومات التدرج القابلة للبرمجة (PGI) لتقليل فقدان المعلومات في الشبكات العميقة.
- RT-DETR: كاشف يعتمد على المحولات ويوفر دقة عالية ولكنه يتطلب عادةً المزيد من ذاكرة GPU.
- YOLOv6: نموذج آخر يركز على الكفاءة ومُحسَّن للتطبيقات الصناعية.