YOLOv9 مقابل YOLOX: تحليل تقني معمق في الكشف الحديث عن الأجسام

شهد مجال الرؤية الحاسوبية تطوراً سريعاً في بنيات الكشف عن الأجسام في الوقت الفعلي. يقدم هذا الدليل مقارنة شاملة بين YOLOv9 و YOLOX، مع تحليل ابتكاراتهما المعمارية ومقاييس الأداء ومنهجيات التدريب. سواء كنت تبني تطبيقات ذكية لـ الذكاء الاصطناعي في التصنيع أو تستكشف النمذجة التنبؤية، فإن فهم هذه النماذج سيساعدك على اتخاذ قرارات مستنيرة لنشرك القادم.

الابتكارات المعمارية

YOLOv9: معلومات التدرج القابلة للبرمجة

قدم YOLOv9 تحولاً جذرياً من خلال معالجة مشكلة عنق زجاجة المعلومات المتأصلة في الشبكات العصبية العميقة. تشمل ابتكاراته الأساسية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).

  • المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
  • المنظمة: معهد علوم المعلومات، أكاديميا سينيكا، تايوان
  • التاريخ: 21 فبراير 2024
  • Arxiv: 2402.13616
  • GitHub: WongKinYiu/yolov9

من خلال الاحتفاظ ببيانات الميزات الحاسمة أثناء عملية التغذية الأمامية، يضمن YOLOv9 بقاء التدرجات المستخدمة لتحديث الأوزان أثناء الانتشار العكسي دقيقة. تتفوق هذه البنية في استخراج الميزات، مما يجعلها قادرة للغاية على اكتشاف الأجسام الصغيرة في البيئات المعقدة، مثل تلك الموجودة في الصور الجوية وعمليات المسح الطبي المفصلة.

اعرف المزيد حول YOLOv9

YOLOX: سد الفجوة بين البحث والصناعة

تم إصدار YOLOX في منتصف عام 2021، وقد حول سلسلة YOLO نحو تصميم خالٍ من الرواسي (anchor-free). قدمت الشبكة رأساً مفككاً (decoupled head) يفصل بين مهام التصنيف والتحديد المكاني، واستخدمت استراتيجية تخصيص التسميات SimOTA لتحسين تقارب التدريب.

  • المؤلفون: Zheng Ge، Songtao Liu، Feng Wang، Zeming Li، و Jian Sun
  • المنظمة: Megvii
  • التاريخ: 18 يوليو 2021
  • Arxiv: 2107.08430
  • GitHub: Megvii-BaseDetection/YOLOX

في حين كان YOLOX رائداً في وقته، حيث حقق متوسط دقة متوسطة (mAP) ممتازاً وتخلص من ضبط المعلمات التشعبية لصناديق الارتساء، فقد تم تجاوز بنيته الأساسية منذ ذلك الحين بواسطة شبكات حديثة توازن بشكل أفضل بين عدد المعلمات والاحتفاظ بالميزات.

تعرف على المزيد حول YOLOX

التطور الخالي من الرواسي (Anchor-Free)

تتبنى كل من YOLOX ونماذج Ultralytics الأحدث تصميمات خالية من الرواسي، مما يقلل من تعقيد ضبط المعلمات التشعبية ويحسن التعميم عبر مجموعات البيانات المتنوعة.

تحليل الأداء

عند مقارنة هذه النماذج عبر معيار MS COCO، تصبح التطورات في YOLOv9 واضحة. يحقق YOLOv9 باستمرار توازناً أفضل بين الدقة و FLOPs.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
YOLOXnano41625.8--0.911.08
YOLOXtiny41632.8--5.066.45
YOLOXs64040.5-2.569.026.8
YOLOXm64046.9-5.4325.373.8
YOLOXl64049.7-9.0454.2155.6
YOLOXx64051.1-16.199.1281.9

بينما يوفر YOLOX متغيرات خفيفة الوزن مثل YOLOX-Nano لحالات الحافة المتطرفة، تتفوق متغيرات YOLOv9 باستمرار على نماذج YOLOX ذات الحجم المماثل في الدقة الصرفة. على سبيل المثال، يحقق YOLOv9m دقة mAP تبلغ 51.4% مقارنة بـ 49.7% لـ YOLOXl، على الرغم من احتوائه على أقل من نصف المعلمات (20.0 مليون مقابل 54.2 مليون).

ميزة Ultralytics

يتطلب اختيار النموذج أكثر من مجرد نظرية معمارية؛ فالنظام البيئي المحيط به يملي سرعة التطوير ونجاح النشر. يوفر استخدام YOLOv9 ضمن نظام Ultralytics البيئي سهولة استخدام لا مثيل لها ودعماً قوياً من المجتمع.

على عكس مستودعات الأبحاث الأصلية القديمة، يوفر إطار عمل Ultralytics واجهة برمجة تطبيقات Python موحدة تبسط خطوط المعالجة المعقدة. يتطلب التدريب ذاكرة GPU أقل بكثير من العديد من البدائل، مما يوفر كفاءة تدريب مذهلة.

from ultralytics import YOLO

# Initialize the YOLOv9c model
model = YOLO("yolov9c.pt")

# Train the model on your custom dataset seamlessly
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Validate the model's performance
metrics = model.val()

# Export the optimized model to TensorRT format
model.export(format="engine")

مع دعم مدمج لمهام متعددة، بما في ذلك الكشف عن الأجسام، و تجزئة المثيلات، و تقدير الوضعية، يمكنك تغيير حلول الرؤية الحاسوبية الخاصة بك بسرعة دون تغيير قاعدة الكود بأكملها.

تصدير سلس

هل تقوم بالنشر على الحافة (Edge)؟ يجعل Ultralytics من السهل تصدير نماذجك المدربة إلى تنسيقات محسنة للغاية مثل ONNX، و TensorRT، و OpenVINO بأمر واحد فقط.

تطبيقات العالم الحقيقي

تخصص نقاط القوة المحددة لهذه النماذج لتطبيقات واقعية مميزة:

تحليلات التجزئة عالية السرعة

بالنسبة لبيئات التجزئة الحديثة التي تتطلب التعرف على المنتجات في الوقت الفعلي، يتفوق YOLOv9. قدرته على الاحتفاظ بتفاصيل الميزات المعقدة تجعله مناسباً تماماً لعمليات نشر الذكاء الاصطناعي في التجزئة حيث يكون التمييز بين المنتجات المتشابهة بصرياً على رف مزدحم أمراً ضرورياً.

عمليات نشر الحافة القديمة

في السيناريوهات التي تحكمها قيود الأجهزة الصارمة أو وحدات NPU المتخصصة التي تعاني من كتل التجميع الأحدث، يمكن لـ YOLOX-Nano أحياناً العثور على مكانة خاصة. غالباً ما يُفضل نمط الالتفاف المبسط الخاص به لـ وحدات التحكم الدقيقة المقيدة للغاية بالموارد.

الروبوتات المستقلة

بالنسبة للملاحة في الروبوتات، قد يكون فقدان الأجسام الصغيرة كارثياً. تضمن بنية GELAN داخل YOLOv9 عدم ضياع ميزات العوائق الصغيرة والبعيدة في الطبقات العميقة للشبكة، متفوقة على النماذج الأقدم في بيئات السلامة الحرجة مثل تطبيقات الذكاء الاصطناعي في السيارات.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv9 و YOLOX على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLOv9

يعتبر YOLOv9 خياراً قوياً لـ:

  • أبحاث عنق زجاجة المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس أداء الاكتشاف عالي الدقة: السيناريوهات التي تحتاج فيها إلى أداء قياس COCO القوي لـ YOLOv9 كنقطة مرجعية للمقارنات المعمارية.

متى تختار YOLOX

يُنصح بـ YOLOX من أجل:

  • أبحاث الاكتشاف الخالي من المراسي: البحث الأكاديمي الذي يستخدم بنية YOLOX النظيفة والخالية من المراسي كقاعدة لتجربة رؤوس اكتشاف جديدة أو دوال خسارة (loss functions).
  • أجهزة الحافة خفيفة الوزن للغاية: النشر على وحدات التحكم الدقيقة أو أجهزة الهاتف المحمول القديمة حيث يعد البصمة الصغيرة جداً لمتغير YOLOX-Nano (0.91M معامل) أمراً بالغ الأهمية.
  • دراسات تعيين التسميات SimOTA: المشاريع البحثية التي تبحث في استراتيجيات تعيين التسميات القائمة على النقل الأمثل وتأثيرها على تقارب التدريب.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

المستقبل: دخول YOLO26

بينما يمثل YOLOv9 علامة فارقة مثيرة للإعجاب، فإن متطلبات بيئات الإنتاج تدفع الحدود باستمرار. يمثل الإصدار الجديد YOLO26 المعيار النهائي للذكاء الاصطناعي البصري الحديث.

YOLO26 completely revitalizes the deployment pipeline with a native End-to-End NMS-Free Design. By eliminating the need for complex Non-Maximum Suppression during post-processing, it delivers significantly lower inference latency.

علاوة على ذلك، يدمج YOLO26 مُحسِّن MuSGD الرائد، وهو هجين من SGD و Muon يستعير ابتكارات من تدريب نماذج اللغات الكبيرة لتوفير تقارب سريع ومستقر بشكل لا يصدق. من خلال إزالة فقدان التركيز التوزيعي (DFL)، يحقق YOLO26 استدلالاً أسرع لوحدة المعالجة المركزية بنسبة تصل إلى 43% مقارنة بسابقاته، مما يجعله الخيار الأفضل على الإطلاق لأجهزة الحافة وعمليات النشر المؤسسية. مع تحسينات ملحوظة في التعرف على الأجسام الصغيرة عبر ProgLoss و STAL، يحل YOLO26 محل كل من YOLOX و YOLOv9 بفعالية.

بالنسبة للمهندسين الذين يستكشفون بنيات حديثة، نوصي أيضاً بالاطلاع على YOLO11 و RT-DETR كبدائل قوية ضمن مجموعة Ultralytics. تأكد من أن مشروعك مستقبلي من خلال الاستفادة من الأداء الذي لا مثيل له لأحدث النماذج على منصة Ultralytics.

التعليقات