YOLOv9 YOLOX: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
شهد مجال الرؤية الحاسوبية تطوراً سريعاً في هياكل الكشف عن الأجسام في الوقت الفعلي. يقدم هذا الدليل مقارنة شاملة بين YOLOv9 و YOLOX ، حيث يحلل ابتكاراتهما المعمارية ومقاييس الأداء ومنهجيات التدريب. سواء كنت تقوم ببناء تطبيقات ذكية للذكاء الاصطناعي في مجال التصنيع أو تستكشف النمذجة التنبؤية ، فإن فهم هذه النماذج سيساعدك على اتخاذ قرارات مستنيرة لنشرها في المرة القادمة.
الابتكارات المعمارية
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9 تحولاً جذرياً من خلال معالجة مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وتشمل ابتكاراتها الأساسية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 21 فبراير 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
من خلال الاحتفاظ بالبيانات المهمة للسمات أثناء عملية التغذية الأمامية، YOLOv9 أن التدرجات المستخدمة لتحديث الأوزان أثناء التراجع تظل دقيقة. تتميز هذه البنية ب قدرتها الفائقة على استخراج السمات، مما يجعلها قادرة على اكتشاف الأجسام الصغيرة في البيئات المعقدة، مثل تلك الموجودة في الصور الجوية والمسح الطبي التفصيلي.
YOLOX: سد الفجوة بين البحث والصناعة
صدر YOLOX في منتصف عام 2021، وحوّل YOLO إلى تصميم خالٍ من المراسي. وقدم رأسًا منفصلاً، يفصل بين مهام التصنيف والتحديد المكاني، واستخدم استراتيجية تعيين العلامات SimOTA لتحسين تقارب التدريب.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 18 يوليو 2021
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
في حين أن YOLOX كان رائدًا في عصره، حيث حقق دقة متوسطة ممتازة (mAP) وقضى على ضبط المعلمات الفائقة لمربع التثبيت، إلا أن بنيته الأساسية قد تجاوزتها الشبكات الحديثة التي تحقق توازنًا أفضل بين عدد المعلمات والاحتفاظ بالميزات.
تطور بدون مرساة
تتبنى كل من YOLOX Ultralytics الأحدث تصميمات خالية من المراسي، مما يقلل من تعقيد ضبط المعلمات الفائقة ويحسن التعميم عبر مجموعات البيانات المتنوعة.
تحليل الأداء
عند مقارنة هذه النماذج عبر COCO MS COCO ، YOLOv9 التطورات في YOLOv9 بوضوح. يحقق YOLOv9 توازنًا أفضل بين الدقة و FLOPs.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
بينما يقدم YOLOX نسخًا خفيفة الوزن مثل YOLOX-Nano للحالات القصوى، تتفوق YOLOv9 باستمرار على نماذج YOLOX ذات الحجم المماثل من حيث الدقة الخالصة. على سبيل المثال، يحقق YOLOv9m معدل mAP بنسبة 51.4٪ mAP بـ 49.7٪ لـ YOLOXl، على الرغم من أن معلماته أقل من النصف (20.0 مليون مقابل 54.2 مليون).
ميزة Ultralytics
لا يقتصر اختيار النموذج على النظرية المعمارية فحسب؛ بل إن النظام البيئي المحيط به هو الذي يحدد سرعة التطوير ونجاح النشر. يوفر استخدام YOLOv9 Ultralytics سهولة استخدام لا مثيل لها ودعمًا قويًا من المجتمع.
على عكس مستودعات الأبحاث الأصلية القديمة، يوفر Ultralytics Python موحدة تعمل على تبسيط عمليات التحويل المعقدة. يتطلب التدريب GPU أقل بكثير من العديد من البدائل الأخرى، مما يوفر كفاءة تدريب مذهلة.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")
بفضل الدعم المدمج للمهام المتعددة، بما في ذلك اكتشاف الكائنات وتجزئة المثيلات وتقدير الوضع، يمكنك تغيير حلول الرؤية الحاسوبية بسرعة دون تغيير قاعدة الكود بالكامل.
تصدير سلس
هل تريد نشرها على الحافة؟ Ultralytics من السهل تصدير نماذجك المدربة إلى تنسيقات محسّنة للغاية مثل ONNXو TensorRTو OpenVINO واحد فقط.
تطبيقات عملية في أرض الواقع
تجعل نقاط القوة المحددة لهذه النماذج منها مناسبة لتطبيقات واقعية متميزة:
تحليلات التجزئة عالية السرعة
بالنسبة لبيئات البيع بالتجزئة الحديثة التي تتطلب التعرف على المنتجات في الوقت الفعلي، YOLOv9 . إن قدرته على الاحتفاظ بتفاصيل الميزات المعقدة تجعله مناسبًا تمامًا للذكاء الاصطناعي في عمليات البيع بالتجزئة حيث يكون من الضروري التمييز بين المنتجات المتشابهة بصريًا على الرفوف المزدحمة.
عمليات نشر Legacy Edge
في السيناريوهات التي تخضع لقيود صارمة على الأجهزة أو وحدات المعالجة العصبية المتخصصة (NPU) التي تواجه صعوبات في التعامل مع كتل التجميع الأحدث، يمكن أن تجد YOLOX-Nano أحيانًا مكانًا مناسبًا لها. فأنماط التحويل المطابقة البسيطة والمبسطة الخاصة بها تكون مفضلة أحيانًا للميكروكونترولرات ذات الموارد المحدودة للغاية.
الروبوتات المستقلة
في مجال الملاحة الروبوتية، قد يكون فقدان الأجسام الصغيرة أمراً كارثياً. YOLOv9 بنية GELAN في YOLOv9 عدم فقدان ميزات العوائق الصغيرة والبعيدة في الطبقات العميقة للشبكة، مما يجعلها تتفوق على النماذج القديمة في بيئات السلامة الحرجة مثل الذكاء الاصطناعي في تطبيقات السيارات.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv9 YOLOX على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.
متى تختار YOLOX
يوصى باستخدام YOLOX في الحالات التالية:
- أبحاث الكشف بدون مرساة: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة طرفية فائقة الخفة: يتم نشرها على وحدات التحكم الدقيقة أو الأجهزة المحمولة القديمة حيث يكون الحجم الصغير للغاية (0.91 مليون معلمة) لنسخة YOLOX-Nano أمرًا بالغ الأهمية.
- دراسات تخصيص علامات SimOTA: مشاريع بحثية تبحث في الاستراتيجيات المثلى لتخصيص العلامات على أساس النقل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
المستقبل: أدخل YOLO26
في حين YOLOv9 إنجازًا مذهلاً، فإن متطلبات بيئات الإنتاج تدفع الحدود إلى الأمام باستمرار. الإصدار الجديد YOLO26 المعيار النهائي للذكاء الاصطناعي البصري الحديث.
يعمل YOLO26 على تنشيط خط أنابيب النشر بالكامل من خلال تصميم أصلي شامل NMS. من خلال التخلص من الحاجة إلى عملية قمع غير قصوى معقدة أثناء المعالجة اللاحقة، فإنه يوفر زمن استدلال أقل بكثير.
علاوة على ذلك، يدمج YOLO26 محرك MuSGD Optimizer المبتكر، وهو مزيج من SGD Muon يستعير ابتكارات من تدريب LLM لتوفير تقارب سريع ومستقر بشكل لا يصدق. من خلال إزالة Distribution Focal Loss (DFL)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بسابقيه، مما يجعله الخيار الأفضل على الإطلاق للأجهزة المتطورة ونشرات المؤسسات. بفضل التحسينات الملحوظة في التعرف على الأجسام الصغيرة عبر ProgLoss و STAL، يحل YOLO26 محل كل من YOLOX و YOLOv9 بشكل فعال.
بالنسبة للمهندسين الذين يستكشفون الهندسة المعمارية الحديثة، نوصيهم أيضًا بالاطلاع على YOLO11 و RT-DETR كبديلين قويين ضمن Ultralytics . تأكد من أن مشروعك جاهز للمستقبل من خلال الاستفادة من الأداء الفريد لأحدث النماذج على Ultralytics .