YOLOv7 ضد YOLOv9: مقارنة فنية شاملة
تميز تطور عائلة YOLO (You Only Look Once) بالابتكار المستمر في بنية الشبكة العصبية، مع الموازنة بين المفاضلات الهامة بين سرعة الاستدلال والدقة والكفاءة الحسابية. يتعمق هذا التحليل في YOLOv7، وهو إصدار بارز من عام 2022 معروف بـ "حقيبة الامتيازات المجانية" القابلة للتدريب، و YOLOv9، وهي بنية 2024 تقدم معلومات التدرج القابلة للبرمجة (PGI) للتغلب على الاختناقات المعلوماتية في الشبكات العميقة.
تحليل الأداء والكفاءة
يمثل الانتقال من YOLOv7 إلى YOLOv9 قفزة كبيرة في كفاءة المعلمات. في حين تم تحسين YOLOv7 لتجاوز حدود الكشف عن الكائنات في الوقت الفعلي باستخدام شبكات تجميع الطبقات الفعالة الموسعة (E-ELAN)، يقدم YOLOv9 تغييرات معمارية تسمح له بتحقيق دقة متوسطة أعلى (mAP) مع عدد أقل من المعلمات وعمليات النقطة العائمة (FLOPs).
بالنسبة للمطورين الذين يركزون على نشر الذكاء الاصطناعي على الحافة، تعد هذه الكفاءة أمرًا بالغ الأهمية. كما هو موضح في الجدول أدناه، تحقق YOLOv9e نسبة 55.6% mAP المهيمنة، متجاوزة YOLOv7x الأكبر حجمًا مع الحفاظ على بصمة حسابية تنافسية. وعلى العكس من ذلك، يقدم YOLOv9t الأصغر حلًا خفيف الوزن للأجهزة ذات القيود العالية، وهي فئة لا تستهدفها YOLOv7 بشكل صريح بنفس القدر من التفصيل.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
YOLOv7: تحسين حقيبة التحسينات المجانية القابلة للتدريب
قدم YOLOv7، الذي تم إصداره في يوليو 2022، العديد من الإصلاحات الهيكلية لهندسة YOLO، مع التركيز على تحسين عملية التدريب دون زيادة تكلفة الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2022-07-06
- Arxiv:YOLOv7: Trainable bag-of-freebies sets new state-of-the-art
- GitHub:WongKinYiu/yolov7
أبرز ملامح الهيكلة
يستخدم YOLOv7 E-ELAN (شبكة تجميع الطبقات الفعالة الممتدة)، التي تتحكم في أقصر وأطول مسارات التدرج للسماح للشبكة بتعلم المزيد من الميزات بشكل فعال. كما أنه نشر تغيير حجم النموذج للنماذج القائمة على التسلسل، مما يسمح بتغيير حجم العمق والعرض في وقت واحد. كان الابتكار الرئيسي هو الالتفافية المعاد تحديدها المخطط لها، والتي تعمل على تبسيط بنية النموذج أثناء الاستدلال لتعزيز السرعة.
الحالة القديمة
في حين أن YOLOv7 لا يزال نموذجًا قادرًا، إلا أنه يفتقر إلى الدعم الأصلي للتحسينات الأحدث الموجودة في النظام البيئي لـ Ultralytics. قد يجد المطورون أن التكامل مع أدوات MLOps الحديثة أكثر صعوبة مقارنة بالتكرارات الأحدث.
YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي
يعالج YOLOv9، الذي تم تقديمه في أوائل عام 2024، قضية أساسية في التعلم العميق: فقدان المعلومات أثناء مرور البيانات عبر الطبقات المتتالية.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 2024-02-21
- Arxiv:YOLOv9: Learning What You Want to Learn Using PGI
- GitHub:WongKinYiu/yolov9
أبرز ملامح الهيكلة
يكمن الابتكار الأساسي في YOLOv9 في معلومات التدرج القابلة للبرمجة (PGI). في الشبكات العميقة، يمكن أن تضيع المعلومات المفيدة أثناء عملية التغذية الأمامية، مما يؤدي إلى تدرجات غير موثوقة. توفر PGI إطار عمل إشرافي مساعد يضمن الحفاظ على المعلومات الأساسية لوظيفة الخسارة. بالإضافة إلى ذلك، تعمل شبكة تجميع الطبقات الفعالة المعممة (GELAN) على توسيع قدرات ELAN من خلال السماح بالحظر التعسفي، مما يزيد من استخدام المعلمات والموارد الحسابية.
هذه البنية تجعل YOLOv9 قويًا بشكل استثنائي لمهام الكشف المعقدة، مثل الكشف عن الأجسام الصغيرة في البيئات المزدحمة أو تحليل الصور الجوية عالية الدقة.
لماذا نماذج Ultralytics (YOLO11 و YOLOv8) هي الخيار المفضل؟
في حين أن YOLOv7 و YOLOv9 هما إنجازان أكاديميان مثيران للإعجاب، إلا أن سلسلة Ultralytics YOLO - بما في ذلك YOLOv8 وأحدث التقنيات YOLO11 - مصممة خصيصًا لتطوير التطبيقات العملية في العالم الحقيقي. تعطي هذه النماذج الأولوية لسهولة الاستخدام و تكامل النظام البيئي و الكفاءة التشغيلية، مما يجعلها الخيار الأفضل لمعظم الفرق الهندسية.
تجربة مستخدم مبسطة
يتم تضمين نماذج Ultralytics في واجهة برمجة تطبيقات Python موحدة تجرد تعقيدات مسارات التدريب. يتطلب التبديل بين اكتشاف الكائنات و تقسيم المثيلات و تقدير الوضعية و مربع الإحاطة الموجه (OBB) تغيير وسيطة واحدة فقط، وهو تنوع تفتقر إليه تطبيقات YOLOv7 أو YOLOv9 القياسية.
from ultralytics import YOLO
# Load a model (YOLO11 automatically handles architecture)
model = YOLO("yolo11n.pt") # Load a pretrained model
# Train the model with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Perform inference on an image
results = model("path/to/image.jpg")
نظام بيئي مُدار جيدًا
يمنح اختيار نموذج Ultralytics الوصول إلى نظام بيئي قوي. يتضمن ذلك التكامل السلس مع Ultralytics HUB (ومنصة Ultralytics القادمة) للتدريب السحابي وإدارة مجموعات البيانات. علاوة على ذلك، يضمن المجتمع النشط والتحديثات المتكررة التوافق مع أحدث الأجهزة، مثل التصدير إلى TensorRT أو OpenVINO للحصول على سرعات استدلال مثالية.
الذاكرة وكفاءة التدريب
تشتهر نماذج Ultralytics بـ كفاءة التدريب. على عكس النماذج القائمة على المحولات (مثل RT-DETR) التي يمكن أن تستهلك الذاكرة وتكون بطيئة في التقارب، تستخدم نماذج Ultralytics YOLO أدوات تحميل بيانات مُحسَّنة و زيادة Mosaic لتقديم أوقات تدريب سريعة مع متطلبات ذاكرة CUDA أقل. يتيح ذلك للمطورين تدريب أحدث النماذج على وحدات معالجة الرسومات ذات المستوى الاستهلاكي.
حالات الاستخدام المثالية
يعتمد اختيار النموذج المناسب على القيود المحددة لمشروعك.
تطبيقات العالم الحقيقي لـ YOLOv9
- Research & Benchmarking: مثالي للدراسات الأكاديمية التي تتطلب أعلى دقة مُبلغ عنها على COCO dataset.
- المراقبة عالية الدقة: في سيناريوهات مثل أنظمة إنذار الأمان حيث تبرر زيادة الدقة بنسبة 1-2٪ تعقيد التنفيذ الأعلى.
تطبيقات العالم الحقيقي لـ YOLOv7
- الأنظمة القديمة: المشاريع المبنية بالفعل على أنظمة Darknet أو PyTorch المبكرة التي تتطلب كمية مستقرة ومعروفة دون إعادة بناء قاعدة الأكواد بأكملها.
تطبيقات العالم الحقيقي لـ Ultralytics YOLO11
- المدن الذكية: استخدام تتبع الكائنات لتحليل تدفق حركة المرور حيث تكون السرعة وسهولة النشر في غاية الأهمية.
- الرعاية الصحية:تحليل الصور الطبية حيث تكون التجزئة والكشف detect مطلوبين غالبًا في وقت واحد.
- التصنيع: نشر أنظمة مراقبة الجودة على الأجهزة الطرفية مثل NVIDIA Jetson أو Raspberry Pi، والاستفادة من خيارات التصدير المباشرة إلى TFLite و ONNX.
الخلاصة
يمثل كل من YOLOv7 و YOLOv9 علامات بارزة في تاريخ رؤية الكمبيوتر. يقدم YOLOv9 ترقية مقنعة على الإصدار v7 ببنيته PGI، مما يوفر كفاءة ودقة أفضل. ومع ذلك، بالنسبة للمطورين الذين يبحثون عن حل متعدد الاستخدامات وسهل الاستخدام ومدعوم جيدًا، يظل Ultralytics YOLO11 هو الخيار الموصى به. يوفر توازنه بين الأداء والوثائق الشاملة وقدرات المهام المتعددة (detect و segment و classify و pose) أسرع طريق من المفهوم إلى الإنتاج.
استكشف نماذج أخرى
للعثور على الملاءمة المثالية لمهام رؤية الكمبيوتر الخاصة بك، ضع في اعتبارك استكشاف هذه المقارنات الأخرى:
- YOLOv8 مقابل YOLOv9 - قارن بين الإصدار 8 المعتمد على نطاق واسع والإصدار 9 الذي يركز على الأبحاث.
- YOLOv10 مقابل YOLOv9 - تعرف على كيفية مقارنة YOLOv10 الشاملة.
- YOLO11 مقابل YOLOv8 - فهم التحسينات في أحدث إصدار من Ultralytics.
- RT-DETR مقابل YOLOv9 - نظرة على الكشف المستند إلى المحولات مقابل الشبكات العصبية التلافيفية (CNNs).