YOLOv9 YOLO11: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
أدى التطور السريع في مجال الرؤية الحاسوبية إلى توسيع حدود الإمكانيات في مجال الكشف عن الأجسام في الوقت الفعلي. عند مقارنة البنى الرائدة، YOLOv9 و Ultralytics YOLO11 باعتبارهما قفزتين هائلتين إلى الأمام، حيث تلبي كل منهما احتياجات تقنية متميزة. YOLOv9 طرقًا جديدة للحفاظ على تدفق التدرج أثناء تدريب الشبكة العميقة، بينما YOLO11 نظام الرؤية العام الغرض بفضل كفاءتها وتعدد استخداماتها وسهولة استخدامها التي لا مثيل لها.
تحلل هذه المقارنة التقنية الشاملة هياكلها ومقاييس أدائها ومتطلبات الذاكرة وسيناريوهات النشر المثالية لمساعدتك في اختيار النموذج الأمثل لمشروع الذكاء الاصطناعي التالي.
اجعل مشروعك مستعدًا للمستقبل مع YOLO26
في حين أن YOLOv9 YOLO11 نموذجان ممتازان، YOLO11 YOLO26 الذي تم إصداره مؤخرًا يمثل قفزة نوعية جديدة إلى الأمام. يتميز بتصميم شامل NMS لتبسيط النشر، CPU أسرع بنسبة تصل إلى 43٪ CPU ومُحسِّن MuSGD المبتكر للتقارب السريع. يوصى بشدة باستخدام YOLO26 في جميع مشاريع الإنتاج الجديدة.
المواصفات الفنية والمؤلف
إن فهم سلالة هذه النماذج يوفر سياقًا أساسيًا لقراراتها المعمارية وتبعيات إطار عملها.
YOLOv9
YOLOv9 تركيزًا أكاديميًا قويًا على اختناقات معلومات التعلم العميق، مع إعطاء أولوية كبيرة لأقصى درجة من دقة الميزات من خلال كتل شبكات مخصصة.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المؤسسة:معهد علوم المعلومات، أكاديميا سينيكا
- التاريخ: 21 فبراير 2024
- أرشيف:https://arxiv.org/abs/2402.13616
- GitHub:https://github.com/WongKinYiu/yolov9
Ultralytics YOLO11
YOLO11 تصميم YOLO11 من الألف إلى الياء لبيئات الإنتاج، مع التركيز على تحقيق التوازن بين الدقة الفائقة وسرعات النشر في العالم الواقعي وتعدد المهام.
- المؤلفون: غلين جوشر وجينغ تشيو
- المؤسسة:Ultralytics
- التاريخ: 27 سبتمبر 2024
- GitHub:https://github.com/ultralytics/ultralytics
الابتكارات المعمارية
معلومات التدرج القابلة للبرمجة في YOLOv9
YOLOv9 مفهوم معلومات التدرج القابلة للبرمجة (PGI) إلى جانب شبكة تجميع الطبقات الفعالة المعممة (GELAN). مع ازدياد عمق الشبكات العصبية، غالبًا ما تعاني من اختناقات في المعلومات، حيث تُفقد التفاصيل المهمة أثناء عملية التغذية الأمامية. يعالج PGI هذه المشكلة من خلال توفير تحديثات موثوقة للتدرج تحتفظ بالمعلومات المكانية الدقيقة، بينما تعمل GELAN على زيادة كفاءة المعلمات إلى أقصى حد. وهذا يجعل YOLOv9 بارعًا YOLOv9 في المهام التي تتطلب دقة عالية في الميزات، على الرغم من أنه يعتمد على قمع غير أقصى (NMS) قياسي أثناء المعالجة اللاحقة، مما قد يؤدي إلى حدوث تأخير في الأجهزة الطرفية.
كفاءة مبسطة في YOLO11
YOLO11 على سنوات من الأبحاث الأساسية لتقديم بنية محسّنة للغاية. وهو يحسّن الإصدارات السابقة من خلال تقليل الأعباء الحسابية مع تعظيم استخراج الميزات. على عكس NMS التقليدية التي تسبب اختناقات CPU ، YOLO11 رؤوس كشف محسّنة تحقق توازنًا مذهلاً بين زمن الاستجابة والدقة. علاوة على ذلك، YOLO11 باستخدام أقل للذاكرة بشكل أساسي أثناء تدريب النموذج والاستدلال مقارنةً بنماذج Transformer الثقيلة، التي غالبًا ما تكون أبطأ في التدريب وتتطلب كميات هائلة من CUDA .
مقارنة مقاييس الأداء
عند مقارنة هذين النموذجين على COCO القياسية، يظهر كلاهما قدرات مذهلة، ولكن تظهر بعض التنازلات بين عدد المعلمات الأولية وسرعة التشغيل.
فيما يلي تفصيل مفصل لمقاييسYOLO .
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLO11n | 640 | 39.5 | 56.1 | 1.5 | 2.6 | 6.5 |
| YOLO11s | 640 | 47.0 | 90.0 | 2.5 | 9.4 | 21.5 |
| YOLO11m | 640 | 51.5 | 183.2 | 4.7 | 20.1 | 68.0 |
| YOLO11l | 640 | 53.4 | 238.6 | 6.2 | 25.3 | 86.9 |
| YOLO11x | 640 | 54.7 | 462.8 | 11.3 | 56.9 | 194.9 |
تحليل النتائج
- السرعة وكفاءة الأجهزة: يتفوق YOLO11 على YOLOv9 سرعة الاستدلال. على سبيل المثال، يحقق YOLO11n سرعة مذهلة تبلغ 1.5 مللي ثانية على GPU NVIDIA GPU TensorRT، مما يجعله مناسبًا بشكل لا يصدق لخطوط الإنتاج الصارمة في الوقت الفعلي.
- متطلبات الحوسبة: تتطلب YOLO11 عمومًا عددًا أقل من FLOPs (على سبيل المثال، 68.0 مليار لـ YOLO11m مقابل 76.3 مليار لـ YOLOv9m)، مما يعني استهلاكًا أقل للطاقة على الأجهزة الطرفية التي تعمل بالبطارية مثل Raspberry Pi أو الأجهزة المحمولة.
- تكافؤ الدقة: في حين أن YOLOv9e يتفوق قليلاً على YOLO11x في mAP المطلق mAP 55.6 مقابل 54.7)، YOLO11 ذروة دقته مع زمن انتقال أقل بكثير (11.3 مللي ثانية مقابل 16.77 مللي ثانية)، مما يظهر توازن أداء أكثر ملاءمة للتطبيقات في العالم الحقيقي.
النظام البيئي وسهولة الاستخدام
على الرغم من أهمية المقاييس الأولية، غالبًا ما يحدد نظام الإطار البيئي نجاح المشروع. وهنا تبرز Ultralytics بشكل واضح.
YOLOv9 الأصلي متخصص للغاية، ويقدم تطبيقات بحثية متطورة. ومع ذلك، توفر Ultralytics وحزمة البرامج مفتوحة المصدر المرتبطة بها تجربة مستخدم مبسطة وواجهة برمجة تطبيقات بسيطة ووثائق شاملة تقلل بشكل كبير من وقت طرح المنتج في السوق.
تعدد المهام وتعدد الاستخدامات
YOLOv9 بشكل أساسي على اكتشاف المربعات المحددة. في المقابل، YOLO11 محرك متعدد المهام موحد يدعم بشكل أساسي:
نشر سلس
يتيح استخدام Ultralytics للمطورين تصدير النماذج بسلاسة إلى مجموعة من التنسيقات بسطر واحد من Python . سواء كان الهدف هو ONNXأم OpenVINOأم TFLite، أو CoreML، فإن الانتقال من التدريب إلى الإنتاج يكون سهلاً.
from ultralytics import YOLO
# Load a highly efficient YOLO11 model
model = YOLO("yolo11n.pt")
# Train rapidly on a custom dataset with minimal memory footprint
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export the trained model to OpenVINO for Intel CPU acceleration
model.export(format="openvino")
حالات الاستخدام المثالية
متى تستخدم YOLOv9
YOLOv9 أداة رائعة للبيئات أو السيناريوهات التي تركز على البحث وتولي الأولوية لدقة الميزات القصوى حيث لا يمثل زمن استجابة الأجهزة القيد الرئيسي. يمكن أن تكون بنية GELAN الخاصة بها مفيدة للغاية في تحليل الصور الطبية حيث يكون اكتشاف أصغر تغيرات البكسل أمرًا بالغ الأهمية.
لماذا YOLO11 الخيار الأفضل
بالنسبة للمطورين والمهندسين وفرق الإنتاج، YOLO11 بشدةYOLO11 . فهو يتفوق في البيئات التي تتطلب نشرًا عالي السرعة وقابل للتوسع:
- تحليلات البيع بالتجزئة الذكية: تتبع المنتجات والعملاء بسلاسة باستخدام معالجاتIntel .
- الطائرات بدون طيار ذاتية التشغيل: حيث تحافظ البنى ذات معدل FLOP المنخفض على عمر البطارية مع توفير إمكانية كشف الأجسام الصغيرة بشكل فعال.
- المشاريع الديناميكية: سير العمل الذي قد يبدأ كاكتشاف ولكنه يتطور ليتطلب تقدير الوضع أو التجزئة في وقت لاحق.
التطلع إلى المستقبل: التطور التالي
في حين أن YOLO11 أحدث ما توصلت إليه التكنولوجيا في جيله، فإن مجال الرؤية الحاسوبية يواصل التقدم. يجب على المستخدمين الذين يستكشفون حدود الذكاء الاصطناعي أن يتطلعوا أيضًا إلى YOLO26.
رائدة في تصميم شامل NMS تم استكشافه لأول مرة في YOLOv10، يقدم YOLO26 مُحسِّن MuSGD (مزيج من SGD Muon) لتحقيق استقرار غير مسبوق في التدريب. مع إزالة Distribution Focal Loss (DFL) لتبسيط التصدير، وآليات الخسارة المتقدمة مثل ProgLoss و STAL، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU . بالنسبة للمشاريع الحديثة، يقدم هذا التصميم مزيجًا مثاليًا من الابتكار الأكاديمي والموثوقية الجاهزة للإنتاج. علاوة على ذلك، فإن الفرق التي تقوم بالترقية من أنظمة قديمة مثل Ultralytics YOLOv8 ستجد أن الانتقال إلى YOLO26 أو YOLO11 سلس YOLO11 بفضل Ultralytics الموحدة.