YOLOv9 مقابل RTDETRv2: مقارنة تقنية لاكتشاف الكائنات
يعد اختيار البنية الصحيحة للكشف عن الأجسام قرارًا محوريًا في تطوير الرؤية الحاسوبية، وغالبًا ما يتطلب من المطورين المفاضلة بين الدقة وزمن الاستنتاج والنفقات الحسابية. يقدم هذا التحليل مقارنة تقنية شاملة بين YOLOv9وهي بنية معتمدة على شبكة سي إن إن (CNN) مُحسّنة لتحقيق الكفاءة، وRTDETRv2، وهو نموذج قائم على المحولات مصمم للكشف عالي الدقة.
YOLOv9: إعادة تعريف كفاءة شبكة CNN
YOLOv9 يمثل تطوراً هاماً في سلسلةYOLO) التي تركز على حل مشكلة عنق الزجاجة المعلوماتية المتأصلة في الشبكات العصبية العميقة. من خلال تقديم مفاهيم معمارية جديدة، يحقق هذا البرنامج أحدث أداء مع الحفاظ على البصمة خفيفة الوزن التي تتميز بها عائلة YOLO .
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمــةمعهد علوم المعلومات، الأكاديمية الصينية للمعلومات، تايوان
- التاريخ: 2024-02-21
- اركسيف:arXiv:2402.13616
- جيثب:وونغكين ييو/يولوف 9
- المستنداتمستنداتUltralytics YOLOv9
البنية الأساسية
يقدم YOLOv9 ابتكارين أساسيين: معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN). يعالج PGI مشكلة فقدان معلومات البيانات أثناء انتشارها عبر الطبقات العميقة، مما يضمن الحفاظ على معلومات التدرج الموثوقة لتحديثات النموذج. تعمل GELAN على تحسين استخدام البارامترات، مما يسمح للنموذج بتحقيق دقة أعلى مع عدد أقل من عمليات الفاصلة العائمة (FLOPs) مقارنةً بالبنى التلافيفية التقليدية.
تكامل نظام Ultralytics البيئي
تم دمج YOLOv9 بالكامل في نظام Ultralytics البيئي، مما يوفر للمطورين وصولاً سلسًا إلى أدوات التدريب والتحقق والنشر. يضمن هذا التكامل أن يتمكن المستخدمون من الاستفادة من نفس واجهة برمجة التطبيقات البسيطة المستخدمة في YOLO11 و YOLOv8مما يقلل بشكل كبير من عائق الدخول إلى مهام الرؤية الحاسوبية المتقدمة.
RTDETRv2: المتحول المتحدي
يعتمد نموذج RTDETRv2 على نجاح محول الكشف في الوقت الحقيقيRT-DETR)، حيث يعمل على تحسين خط الأساس لتعزيز التعامل مع المقياس الديناميكي واستقرار التدريب. وباعتباره نموذجًا قائمًا على المحولات، فإنه يستفيد من آليات الانتباه الذاتي لالتقاط السياق العالمي، وهو ما يمكن أن يكون مفيدًا لتمييز الأجسام في المشاهد المعقدة.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2024-07-24
- اركسيف:arXiv:2407.17140
- جيثب:مستودع جيثبRT-DETR GitHub
البنية الأساسية
على عكس شبكات CNN التي تعالج الصور في بقع محلية، يستخدم RTDETRv2 عمودًا فقريًا محولًا لمعالجة ميزات الصورة. يسمح هذا النهج للنموذج بفهم العلاقات بين الأجزاء البعيدة من الصورة، مما قد يحسن الدقة في البيئات المزدحمة. ومع ذلك، فإن آلية الانتباه العالمي هذه عادةً ما تأتي مع تكاليف ذاكرة وحسابية أعلى، خاصةً أثناء التدريب.
مقارنة الأداء
تسلط البيانات التالية الضوء على مقاييس الأداء لمختلف أحجام النماذج على مجموعة بياناتCOCO . تركز المقارنة على متوسط متوسط الدقةmAP) وسرعة الاستدلال والتعقيد الحسابي.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل المقاييس
- دقة الذروة: يُحقّق نموذج YOLOv9e mAPقة تصل إلى 55.6% من الدقة القصوى، متجاوزاً بذلك أكبر نموذج RTDETRv2-x (54.3% من mAP). وهذا يدل على أن الابتكارات المعمارية في YOLOv9 تسد الفجوة بين شبكات التواصل الاجتماعي والمحولات بشكل فعال، بل وتتفوق عليها في دقة الذروة.
- الكفاءة: يقدم YOLOv9 باستمرار أداءً أعلى لكل معلمة. على سبيل المثال، يحقق YOLOv9c نسبة 53.0% mAP مع 25.3 مليون معلمة فقط و102.1 مليار عملية معالجة فلوب (FLOP)، في حين أن RTDETRv2-l المماثلة تتطلب 42 مليون معلمة و136 مليار عملية معالجة فلوب (FLOP) للوصول إلى 53.4% mAP. هذه الكفاءة تجعل YOLOv9 أخف بكثير في التخزين وأسرع في التنفيذ.
- سرعة الاستدلال: السرعة أمر بالغ الأهمية في تطبيقات الوقت الحقيقي. توفر متغيرات YOLOv9 الأصغر حجماً، مثل YOLOv9t، زمن انتقال منخفض للغاية (2.3 مللي ثانية على TensorRT)، مما يجعلها مثالية لعمليات نشر الذكاء الاصطناعي المتطورة حيث قد تكون نماذج RTDETRv2 ثقيلة للغاية.
كفاءة التدريب والنظام البيئي
أحد أهم العوامل الحاسمة بالنسبة للمطورين هو سهولة التدريب والموارد المطلوبة لضبط النماذج على مجموعات البيانات المخصصة.
متطلبات الذاكرة
تشتهر النماذج القائمة على المحولات مثل RTDETRv2 باستهلاكها العالي للذاكرة أثناء التدريب بسبب التعقيد التربيعي لآليات الانتباه الذاتي. وغالباً ما يستلزم ذلك وجود وحدات معالجة رسومات مؤسسية متطورة ذات ذاكرة وصول عشوائي ضخمة. في المقابل YOLOv9 يحافظ على كفاءة ذاكرة الشبكات الشبكية ذاتية التفاعل، مما يسمح بالتدريب على أجهزة من فئة المستهلكين. هذا الحاجز المنخفض للدخول يجعل الوصول إلى أحدث ما توصلت إليه التكنولوجيا في مجال الكشف عن الأجسام أمراً ديمقراطياً.
ميزة Ultralytics
يوفر اختيار نموذج داخل منظومةUltralytics مزايا مميزة تتجاوز مقاييس الأداء الأولية:
- سهولة الاستخدام: تلخص واجهة برمجة تطبيقات Ultralytics Python API حلقات التدريب المعقدة في بضعة أسطر من التعليمات البرمجية.
- نظام بيئي جيد الصيانة: تضمن التحديثات المتكررة التوافق مع أحدث إصدارات PyTorch وتنسيقات التصديرONNX و TensorRT و CoreML) وبرامج تشغيل الأجهزة.
- تعدد الاستخدامات: في حين أن RTDETRRv2 هو في المقام الأول كاشف للأجسام، فإن إطار عمل Ultralytics يدعم مجموعة واسعة من المهام بما في ذلك تجزئة النماذج وتقدير الوضعيات واكتشاف الصندوق المحيط الموجه (OBB) عبر عائلات النماذج الخاصة به.
مثال على الكود
إن تدريب YOLOv9 سهل ومباشر باستخدام حزمة Ultralytics . يوضح مقتطف الكود التالي كيفية تحميل نموذج مدرب مسبقًا وتدريبه على مجموعة بيانات مخصصة:
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on a custom dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference on an image
results = model("path/to/image.jpg")
القدرة على التصدير
يمكن تصدير نماذج Ultralytics بسهولة إلى تنسيقات مختلفة للنشر. على سبيل المثال، التصدير إلى ONNX للتوافق على نطاق أوسع:
model.export(format="onnx")
حالات الاستخدام المثالية
متى تختار YOLOv9
إن YOLOv9 هو الخيار الموصى به لغالبية تطبيقات الرؤية الحاسوبية، خاصةً عندما يتطلب الأمر تحقيق التوازن بين السرعة والدقة وكفاءة الموارد.
- نشر الحافة: تستفيد الأجهزة مثل NVIDIA Jetson أو Raspberry Pi من انخفاض عدد وحدات FLOP وعداد المعلمات في YOLOv9.
- تحليلات الفيديو في الوقت الحقيقي: تتطلب التغذية الأمنية وأنظمة مراقبة حركة المرور معدلات الإطارات العالية التي يوفرها YOLOv9 .
- التدريب المقيد بالموارد: لا يزال بإمكان الفرق التي ليس لديها إمكانية الوصول إلى مجموعات ضخمة من GPU ضبط أحدث النماذج.
متى يجب التفكير في RTDETRv2
RTDETRv2 مناسب للسيناريوهات المتخصصة حيث:
- السياق العالمي أمر بالغ الأهمية: المشاهد ذات الانسداد العالي أو التي يكون فيها السياق من وحدات البكسل البعيدة ضروريًا للغاية للتصنيف.
- الأجهزة غير محدودة: عمليات النشر على وحدات معالجة الرسومات من فئة الخادم حيث تكون قيود الذاكرة والحوسبة ضئيلة.
- التفضيل الخالي من المرساة: الباحثون الذين يتطلعون على وجه التحديد إلى تجربة البنى الخالية من المرساة والقائمة على المحولات الخالصة.
الخلاصة
بينما يُظهر RTDETRv2 إمكانات المحولات في اكتشاف الأجسام، يبرزYOLOv9 كخيار عملي أفضل لمعظم المطورين والباحثين. فهو يوفر دقة قصوى أعلى (55.6% mAP) مع كفاءة أفضل بكثير، واستخدام أقل للذاكرة، وسرعات استدلال أسرع. عندما يقترن بالدعم القوي، والتوثيق الشامل، وسهولة الاستخدام التي يوفرها نظام Ultralytics البيئي، يوفر YOLOv9 مسارًا أكثر انسيابية من النموذج الأولي إلى الإنتاج.
لأولئك الذين يتطلعون إلى استكشاف أحدث ما توصلت إليه تكنولوجيا الرؤية الحاسوبية على الإطلاق، نوصي أيضاً بالاطلاع على YOLO11الذي يتخطى حدود السرعة والدقة إلى أبعد من ذلك.
استكشف نماذج أخرى
- YOLO11: أحدث تطور في سلسلة YOLO تم تحسينه للمهام المتنوعة بما في ذلك التجزئة وتقدير الوضعية.
- YOLOv8: طراز شائع للغاية ومتعدد الاستخدامات معروف بموثوقيته ودعم المجتمع له على نطاق واسع.
- RT-DETR: استكشف تطبيق محول الكشف في الوقت الحقيقي الأصلي ضمن إطار عمل Ultralytics .