YOLOv9 YOLOX: دراسة تقنية متعمقة حول الكشف الحديث عن الأجسام
شهد مجال الرؤية الحاسوبية تطوراً سريعاً في هياكل الكشف عن الأجسام في الوقت الفعلي. يقدم هذا الدليل مقارنة شاملة بين YOLOv9 و YOLOX ، حيث يحلل ابتكاراتهما المعمارية ومقاييس الأداء ومنهجيات التدريب. سواء كنت تقوم ببناء تطبيقات ذكية للذكاء الاصطناعي في مجال التصنيع أو تستكشف النمذجة التنبؤية ، فإن فهم هذه النماذج سيساعدك على اتخاذ قرارات مستنيرة لنشرها في المرة القادمة.
الابتكارات المعمارية
YOLOv9: معلومات التدرج القابلة للبرمجة
YOLOv9 تحولاً جذرياً من خلال معالجة مشكلة اختناق المعلومات المتأصلة في الشبكات العصبية العميقة. وتشمل ابتكاراتها الأساسية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
- التاريخ: 21 فبراير 2024
- Arxiv:2402.13616
- GitHub:WongKinYiu/yolov9
من خلال الاحتفاظ ببيانات الميزات الحاسمة أثناء عملية التغذية الأمامية (feed-forward)، تضمن YOLOv9 أن التدرجات المستخدمة لتحديث الأوزان أثناء الانتشار العكسي (backpropagation) تظل دقيقة. تتفوق هذه البنية في استخراج الميزات، مما يجعلها قادرة للغاية على detect الكائنات الصغيرة في البيئات المعقدة، مثل تلك الموجودة في الصور الجوية والمسح الطبي التفصيلي.
YOLOX: سد الفجوة بين البحث والصناعة
صدر YOLOX في منتصف عام 2021، وحوّل YOLO إلى تصميم خالٍ من المراسي. وقدم رأسًا منفصلاً، يفصل بين مهام التصنيف والتحديد المكاني، واستخدم استراتيجية تعيين العلامات SimOTA لتحسين تقارب التدريب.
- المؤلفون: تشنغ قه، سونغتاو ليو، فنغ وانغ، زيمينغ لي، وجيان صن
- المنظمة: Megvii
- التاريخ: 18 يوليو 2021
- Arxiv:2107.08430
- GitHub:Megvii-BaseDetection/YOLOX
في حين أن YOLOX كان رائدًا في عصره، حيث حقق دقة متوسطة ممتازة (mAP) وقضى على ضبط المعلمات الفائقة لمربع التثبيت، إلا أن بنيته الأساسية قد تجاوزتها الشبكات الحديثة التي تحقق توازنًا أفضل بين عدد المعلمات والاحتفاظ بالميزات.
تطور بلا مرساة
تتبنى كل من YOLOX ونماذج Ultralytics الأحدث تصميمات خالية من نقاط الارتكاز، مما يقلل من تعقيد ضبط المعلمات الفائقة ويحسن التعميم عبر مجموعات البيانات المتنوعة.
تحليل الأداء
عند مقارنة هذه النماذج عبر COCO MS COCO ، YOLOv9 التطورات في YOLOv9 بوضوح. يحقق YOLOv9 توازنًا أفضل بين الدقة و FLOPs.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
بينما يقدم YOLOX نسخًا خفيفة الوزن مثل YOLOX-Nano للحالات القصوى، تتفوق YOLOv9 باستمرار على نماذج YOLOX ذات الحجم المماثل من حيث الدقة الخالصة. على سبيل المثال، يحقق YOLOv9m معدل mAP بنسبة 51.4٪ mAP بـ 49.7٪ لـ YOLOXl، على الرغم من أن معلماته أقل من النصف (20.0 مليون مقابل 54.2 مليون).
ميزة Ultralytics
يتضمن اختيار النموذج أكثر من مجرد النظرية المعمارية؛ فالنظام البيئي المحيط به يحدد سرعة التطوير ونجاح النشر. يوفر استخدام YOLOv9 ضمن نظام Ultralytics البيئي سهولة استخدام لا مثيل لها ودعمًا قويًا من المجتمع.
على عكس مستودعات الأبحاث الأصلية القديمة، يوفر Ultralytics Python موحدة تعمل على تبسيط عمليات التحويل المعقدة. يتطلب التدريب GPU أقل بكثير من العديد من البدائل الأخرى، مما يوفر كفاءة تدريب مذهلة.
from ultralytics import YOLO
# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")
# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Validate the model's performance
metrics = model.val()
# Export the optimized model to TensorRT format
model.export(format="engine")
بفضل الدعم المدمج للمهام المتعددة، بما في ذلك اكتشاف الكائنات وتجزئة المثيلات وتقدير الوضع، يمكنك تغيير حلول الرؤية الحاسوبية بسرعة دون تغيير قاعدة الكود بالكامل.
تصدير سلس
هل تنشر على الأجهزة الطرفية؟ تسهل Ultralytics تصدير نماذجك المدربة إلى تنسيقات محسّنة للغاية مثل ONNX وTensorRT وOpenVINO بأمر واحد فقط.
تطبيقات عملية في أرض الواقع
تجعل نقاط القوة المحددة لهذه النماذج منها مناسبة لتطبيقات واقعية متميزة:
تحليلات التجزئة عالية السرعة
بالنسبة لبيئات البيع بالتجزئة الحديثة التي تتطلب التعرف على المنتجات في الوقت الفعلي، YOLOv9 . إن قدرته على الاحتفاظ بتفاصيل الميزات المعقدة تجعله مناسبًا تمامًا للذكاء الاصطناعي في عمليات البيع بالتجزئة حيث يكون من الضروري التمييز بين المنتجات المتشابهة بصريًا على الرفوف المزدحمة.
عمليات نشر Legacy Edge
في السيناريوهات التي تخضع لقيود صارمة على الأجهزة أو وحدات المعالجة العصبية المتخصصة (NPU) التي تواجه صعوبات في التعامل مع كتل التجميع الأحدث، يمكن أن تجد YOLOX-Nano أحيانًا مكانًا مناسبًا لها. فأنماط التحويل المطابقة البسيطة والمبسطة الخاصة بها تكون مفضلة أحيانًا للميكروكونترولرات ذات الموارد المحدودة للغاية.
الروبوتات ذاتية التحكم
في مجال الملاحة الروبوتية، قد يكون فقدان الأجسام الصغيرة أمراً كارثياً. YOLOv9 بنية GELAN في YOLOv9 عدم فقدان ميزات العوائق الصغيرة والبعيدة في الطبقات العميقة للشبكة، مما يجعلها تتفوق على النماذج القديمة في بيئات السلامة الحرجة مثل الذكاء الاصطناعي في تطبيقات السيارات.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv9 و YOLOX على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.
متى تختار YOLOX
يوصى باستخدام YOLOX في الحالات التالية:
- أبحاث الكشف الخالي من المراسي: أبحاث أكاديمية تستخدم بنية YOLOX النظيفة والخالية من المراسي كأساس لتجربة رؤوس كشف جديدة أو وظائف خسارة.
- أجهزة الحافة خفيفة الوزن للغاية: النشر على المتحكمات الدقيقة أو الأجهزة المحمولة القديمة حيث تعتبر البصمة الصغيرة للغاية لمتغير YOLOX-Nano (0.91 مليون معلمة) أمرًا بالغ الأهمية.
- دراسات تعيين التسميات SimOTA: مشاريع بحثية تستكشف استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
المستقبل: أدخل YOLO26
في حين YOLOv9 إنجازًا مذهلاً، فإن متطلبات بيئات الإنتاج تدفع الحدود إلى الأمام باستمرار. الإصدار الجديد YOLO26 المعيار النهائي للذكاء الاصطناعي البصري الحديث.
يعمل YOLO26 على تنشيط خط أنابيب النشر بالكامل من خلال تصميم أصلي شامل NMS. من خلال التخلص من الحاجة إلى عملية قمع غير قصوى معقدة أثناء المعالجة اللاحقة، فإنه يوفر زمن استدلال أقل بكثير.
علاوة على ذلك، يدمج YOLO26 محرك MuSGD Optimizer المبتكر، وهو مزيج من SGD Muon يستعير ابتكارات من تدريب LLM لتوفير تقارب سريع ومستقر بشكل لا يصدق. من خلال إزالة Distribution Focal Loss (DFL)، يحقق YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بسابقيه، مما يجعله الخيار الأفضل على الإطلاق للأجهزة المتطورة ونشرات المؤسسات. بفضل التحسينات الملحوظة في التعرف على الأجسام الصغيرة عبر ProgLoss و STAL، يحل YOLO26 محل كل من YOLOX و YOLOv9 بشكل فعال.
بالنسبة للمهندسين الذين يستكشفون الهندسة المعمارية الحديثة، نوصيهم أيضًا بالاطلاع على YOLO11 و RT-DETR كبديلين قويين ضمن Ultralytics . تأكد من أن مشروعك جاهز للمستقبل من خلال الاستفادة من الأداء الفريد لأحدث النماذج على Ultralytics .