YOLOX مقابل YOLOv9: مقارنة تقنية
يُعد اختيار البنية الصحيحة لاكتشاف الأجسام قرارًا حاسمًا يؤثر على سرعة ودقة وجدوى النشر لمشاريع الرؤية الحاسوبية. يقارن هذا التحليل بين نموذج YOLOX، وهو نموذج محوري خالٍ من الارتكاز تم إصداره في عام 2021، و YOLOv9وهي بنية متطورة طُرحت في عام 2024 وتستفيد من معلومات التدرج القابلة للبرمجة (PGI).
بينما حوّل YOLOX النموذج نحو الاكتشاف الخالي من الارتكاز، يقدم YOLOv9 آليات جديدة للاحتفاظ بالمعلومات في الشبكات العميقة، مما يوفر مقاييس أداء فائقة. يفصّل هذا الدليل بنياتها ومعاييرها وحالات الاستخدام المثالية لمساعدتك في اختيار أفضل نموذج لاحتياجاتك.
يولوكس: الرائد الخالي من المرساة
تم إصدار YOLOX لسد الفجوة بين المجتمع البحثي والتطبيقات الصناعية من خلال تبسيط رأس الكشف وإزالة الاعتماد على مربعات الارتكاز المحددة مسبقًا.
المؤلفون: Zheng Ge، وSongtao Liu، وFeng Wang، وZeming Li، وJian Sun
المنظمة:Megvi
التاريخ: 2021-07-18
Arxiv:arXiv:2107.08430
GitHub:Megvii-BaseDetection/YOLOX
المستندات:YOLOX Documentation
أبرز الملامح المعمارية
قدمت YOLOX بنية رأس منفصلة، تفصل بين مهام التصنيف والانحدار. يسمح هذا الفصل للنموذج بالتقارب بشكل أسرع وتحقيق دقة أفضل. كما أنه يستخدم أيضًا آلية خالية من الارتكاز، مما يلغي الحاجة إلى تحليل التجميع لتحديد أحجام مربعات الارتكاز المثلى، مما يجعل النموذج أكثر قوة في التعامل مع أشكال الكائنات المتنوعة. علاوةً على ذلك، يستخدم YOLOX نظام SimOTA لتعيين التسمية، حيث يعامل العملية كمشكلة نقل مثالية لتحسين استقرار التدريب.
نقاط القوة والضعف
- نقاط القوة: يبسّط التصميم الخالي من المرساة عملية ضبط المعلمة الفائقة. ينتج الرأس المنفصل بشكل عام دقة أعلى لمهام تحديد الموقع مقارنة بالرؤوس المقترنة في تلك الحقبة.
- نقاط الضعف: كنموذج لعام 2021، فهو يفتقر إلى التحسينات الحديثة الموجودة في البنى الأحدث. قد يتطلب المزيد من بيانات التدريب للوصول إلى ذروة الأداء مقارنةً بالنماذج التي تستخدم تقنيات زيادة البيانات المتقدمة وتجميع الطبقات.
YOLOv9: معلومات التدرج القابلة للبرمجة
يمثل YOLOv9 قفزة كبيرة إلى الأمام، حيث يعالج مشكلة "عنق الزجاجة المعلوماتي" المتأصلة في الشبكات العصبية العميقة.
المؤلفون: تشين ياو وانغ، هونغ يوان مارك لياو
المنظمة:معهد علوم المعلومات، الأكاديمية الصينية
التاريخ: 2024-02-21
Arxiv:arXiv:2402.13616
GitHub:WongKinYiu/yolov9
المستندات:Ultralytics YOLOv9 Docs
أبرز الملامح المعمارية
يقدم YOLOv9 معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). يمنع PGI فقدان معلومات الإدخال المهمة أثناء مرور البيانات عبر الطبقات العميقة، مما يضمن توليد تدرج موثوق لتحديثات النموذج. تعمل GELAN على تحسين استخدام البارامترات، مما يسمح للنموذج بأن يكون خفيف الوزن ودقيقًا في نفس الوقت. تُمكِّن هذه الابتكارات YOLOv9 من التفوق على النماذج السابقة بشكل كبير من حيث الكفاءة ومتوسط الدقة (mAP).
نقاط القوة والضعف
- نقاط القوة: نسبة دقة استثنائية إلى المعطيات، مما يجعلها ذات كفاءة عالية للتطبيقات في الوقت الحقيقي. تحافظ البنية على تدفق المعلومات بشكل أفضل من التكرارات السابقة، مما يؤدي إلى اكتشاف أفضل للأجسام الصغيرة.
- نقاط الضعف: نظرًا لكونها بنية أحدث، فقد تتطلب برامج تشغيل CUDA محدثة ودعمًا للأجهزة مقارنةً بالنماذج القديمة.
مقارنة الأداء
يقارن الجدول التالي بين أداء YOLOX و YOLOv9 على مجموعة بياناتCOCO . يُظهِر YOLOv9 باستمرار درجات أعلى في mAP مع عدد أقل من المعلمات، مما يسلط الضوء على كفاءة بنية GELAN.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOXnano | 416 | 25.8 | - | - | 0.91 | 1.08 |
| YOLOXtiny | 416 | 32.8 | - | - | 5.06 | 6.45 |
| YOLOXs | 640 | 40.5 | - | 2.56 | 9.0 | 26.8 |
| YOLOXm | 640 | 46.9 | - | 5.43 | 25.3 | 73.8 |
| YOLOXl | 640 | 49.7 | - | 9.04 | 54.2 | 155.6 |
| YOLOXx | 640 | 51.1 | - | 16.1 | 99.1 | 281.9 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
التحليل: يوفرYOLOv9 ترقية كبيرة في كثافة الأداء. على سبيل المثال، يحقق YOLOv9c نسبة 53.0% mAP باستخدام 25.3 مليون معلمة فقط، في حين يتطلب YOLOX-L 54.2 مليون معلمة لتحقيق درجة أقل تبلغ 49.7% من mAP. يشير هذا إلى أن YOLOv9 أكثر كفاءة من حيث استخدام المعلمات لهذا المستوى من الدقة بمقدار الضعف تقريبًا.
مسائل الكفاءة
عند النشر على الأجهزة المتطورة، فإن النظر إلى وحدات FLOP والمعلمات لا يقل أهمية عن mAP. تقلل بنية YOLOv9 في YOLOv9 بشكل كبير من النفقات الحسابية الزائدة، مما يؤدي إلى تشغيل أجهزة أكثر برودة وعمر بطارية أطول في عمليات النشر على الأجهزة المحمولة.
ميزة Ultralytics
في حين أن YOLOX هو مستودع مستقل قوي، فإن استخدام YOLOv9 ضمن نظامUltralytics البيئي يوفر مزايا مميزة للمطورين والباحثين.
سهولة الاستخدام والتكامل
يوحّد إطار عمل Ultralytics التفاعل بين النماذج. يمكنك تدريب YOLOv9 والتحقق من صحته ونشره باستخدام واجهة برمجة تطبيقاتPython بسيطة وبديهية. وهذا يتناقض مع قاعدة كود YOLOX، والتي غالبًا ما تتطلب المزيد من التكوين اليدوي لمتغيرات البيئة ومسارات مجموعة البيانات.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Run inference on an image
results = model("path/to/image.jpg")
# Train the model on a custom dataset with a single line of code
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
نظام بيئي جيد الصيانة
تستفيد نماذج Ultralytics من التحديثات المستمرة وإصلاحات الأخطاء ودعم المجتمع. يتيح التكامل مع Ultralytics HUB إمكانية إجراء عمليات MLOPS سلسة، مما يمكّن الفرق من إدارة مجموعات البيانات track التجارب ونشر النماذج بتنسيقات مختلفةONNX TensorRT CoreML) دون كتابة نصوص تصدير معقدة.
توازن الأداء وكفاءة الذاكرة
تم تصميم نماذج Ultralytics YOLO لتحقيق توازن عملي بين السرعة والدقة. علاوة على ذلك، فإنها عادةً ما تُظهر متطلبات ذاكرة أقل أثناء التدريب مقارنةً بالبنى القديمة أو النماذج القائمة على المحولات الثقيلة. تقلل هذه الكفاءة من تكاليف الحوسبة السحابية وتجعل التدريب متاحاً على وحدات معالجة الرسومات من فئة المستهلك.
تعدد الاستخدامات
في حين أن YOLOX هو في المقام الأول كاشف كائنات، فإن إطار عمل Ultralytics يوسع قدرات النماذج المدعومة. يمكن للمستخدمين التبديل بسهولة بين مهام مثل تجزئة النماذج، وتقدير الوضع، واكتشاف الصندوق المحيط الموجه (OBB) باستخدام بناء الجملة وسير العمل المماثل، وهو تنوع تفتقر إليه مستودعات البحث المستقلة في كثير من الأحيان.
حالات الاستخدام المثالية
متى تختار YOLOv9
- الأنظمة ذاتية القيادة: تُعد الدقة العالية لـ YOLOv9 مثالية للمركبات ذاتية القيادة حيث يكون اكتشاف العوائق الصغيرة عن بُعد أمراً بالغ الأهمية للسلامة.
- التحليلات في الوقت الحقيقي: بالنسبة لإدارة البيع بالتجزئة أو إدارة حركة المرور، يوفر YOLOv9c أفضل ما في الأمر من معدلات إطارات عالية واكتشاف دقيق.
- الذكاء الاصطناعي المتطور: تجعل الكفاءة المعمارية لـ GELAN من YOLOv9t و YOLOv9s مثالية للنشر على أجهزة مثل NVIDIA Jetson أو Raspberry Pi.
متى تختار YOLOX
- التكامل القديم: إذا كان خط أنابيب الإنتاج الحالي مصمم بالفعل بشكل كبير حول تنسيق رأس YOLOX المحدد الخالي من المرساة.
- البحث الأكاديمي: قد يجد الباحثون الذين يبحثون على وجه التحديد في سلوك الرؤوس المنفصلة في أجهزة الكشف المبكرة الخالية من المرساة أن YOLOX خط أساس قيّم للمقارنة.
الخلاصة
اكتسبت كلتا البنيتين مكانتهما في تاريخ الرؤية الحاسوبية. نجحت YOLOX في تحدي الوضع الراهن القائم على المرساة في عام 2021. ومع ذلك YOLOv9 تمثل المعيار الحديث، حيث تتضمن سنوات من التقدم في تحسين التدفق المتدرج وتجميع الطبقات.
بالنسبة لمعظم التطورات الجديدة، فإن YOLOv9 هو الخيار الموصى به. حيث يضمن أدائه المتفوق لكل معيار بالإضافة إلى سهولة الاستخدام وكفاءة التدريب وخيارات النشر القوية التي يوفرها نظام Ultralytics البيئي مسارًا أسرع من المفهوم إلى الإنتاج.
استكشف الخيارات الحديثة الأخرى في النظام البيئي، مثل YOLO11 و YOLOv8للعثور على الأنسب لقيود تطبيقك المحددة.