مقارنة بين RTDETRv2 و YOLOv9: مقارنة تقنية بين أحدث نماذج الكشف
في مجال الرؤية الحاسوبية سريع التطور، يعد اختيار البنية الصحيحة لاكتشاف الأجسام أمرًا بالغ الأهمية لتحقيق التوازن بين الدقة والسرعة والموارد الحاسوبية. يوفر هذا الدليل مقارنة تقنية مفصلة بين RTDETRv2 (محول الكشف في الوقت الحقيقي v2)، وهو نموذج متقدم قائم على المحولات، و YOLOv9وهو نموذج متطور يركز على الكفاءة مدمج في نظامUltralytics البيئي.
بينما يدفع RTDETRv2 حدود الكشف القائم على المحولات، يقدم YOLOv9 مفاهيم معمارية جديدة مثل معلومات التدرج القابلة للبرمجة (PGI) لزيادة كفاءة المعلمات إلى أقصى حد. فيما يلي، نحلل أدناه بنيتيهما ومقاييس أدائهما وسيناريوهات النشر المثالية لمساعدتك في تحديد النموذج الذي يناسب احتياجات مشروعك.
مقاييس الأداء: الدقة والسرعة
يعرض الجدول التالي مقارنة بين مقاييس الأداء الرئيسية التي تم تقييمها على مجموعة بياناتCOCO . وهو يسلط الضوء على كيفية تحقيق YOLOv9 دقة تنافسية أو متفوقةmAP) مع تكاليف حسابية أقل بكثير (FLOPs) وسرعات استدلال أسرع مقارنةً ب RTDETRv2.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
كما هو موضح، يتفوق YOLOv9e على RTDETRv2-x في الدقة(55.6% مقابل 54.3% mAP) مع استخدام عدد أقل من وحدات FLOP (189B مقابل 259B). تجعل هذه الكفاءة من YOLOv9 خيارًا مقنعًا لتطبيقات الوقت الحقيقي حيث تكون موارد الأجهزة في الاعتبار.
RTDETRv2: تنقيح محول الكشف
RTDETRv2 هو تطوير ل RT-DETRv2 الأصلي RT-DETRالأصلي، وهو مصمم لمعالجة قيود أجهزة الكشف التقليدية القائمة على المرساة من خلال الاستفادة من بنية المحولات. وهو يركز على تحسين استقرار وأداء محولات الكشف في الوقت الحقيقي من خلال نهج "حقيبة من المجاني"، وتحسين استراتيجيات التدريب وتغيير حجم المفردات الديناميكية.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2024-07-24
- اركسيف:https://arxiv.org/abs/2407.17140
- جيثبhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
- المستنداتhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch#readme
الهندسة المعمارية والخصائص الرئيسية
يستخدم RTDETRv2 بنية هجين للتشفير وفك التشفير. تعالج وحدة التشفير ميزات الصورة، بينما تقوم وحدة فك ترميز المحولات بإنشاء استعلامات الكائنات. تشمل التحسينات المعمارية الرئيسية آلية انتباه محسّنة تسمح باختيار الاستعلام الديناميكي، مما يقلل من النفقات الحسابية الزائدة المرتبطة عادةً بالمحوّلات.
وخلافاً لنماذج YOLO القياسية التي تعتمد على العمود الفقري والرؤوس القائمة على شبكة CNN، يفصل RTDETRv2 مفهوم "المراسي" عن رأس الكشف، ويتعامل مع اكتشاف الكائنات كمشكلة تنبؤ مباشر للمجموعة. ويؤدي ذلك إلى إزالة الحاجة إلى الكبح غير الأقصى (NMS) في العديد من التكوينات، مما يبسّط نظريًا خط أنابيب ما بعد المعالجة.
نقاط القوة والضعف
نقاط القوة:
- الدقة: تتفوق في اكتشاف الأجسام ذات التفاعلات المعقدة أو الانسدادات بسبب الوعي بالسياق العام.
- خالي من المرساة: يُلغي الحاجة إلى ضبط صندوق الارتكاز يدويًا، مما يبسّط التكوين لمجموعات البيانات المتنوعة.
- القدرة على التكيف: تسمح المفردات الديناميكية للنموذج بالتكيف بشكل أفضل مع ظروف التدريب المتغيرة.
نقاط الضعف:
- كثافة الموارد: تتطلب معماريات المحولات عمومًا المزيد من ذاكرة GPU وطاقة حوسبة أكبر للتدريب مقارنةً بوحدات CNN.
- زمن انتقال الاستدلال: على الرغم من التحسينات، يمكن أن تكون المحولات أبطأ على أجهزة الذكاء الاصطناعي المتطورة مقارنةً بأجهزة CNN المحسّنة للغاية مثل YOLOv9.
- التعقيد: يمكن أن يكون خط أنابيب التدريب وضبط المعلمات الفائقة للمحولات أكثر تعقيدًا من نماذج YOLO .
حالات الاستخدام المثالية
يُعد RTDETRv2 مناسبًا تمامًا لعمليات نشر الخوادم المتطورة حيث تكون الدقة أمرًا بالغ الأهمية، مثل:
- التصوير الطبي: تحليل عمليات المسح المعقدة حيث يساعد السياق العالمي في تحديد الحالات الشاذة.
- المراقبة الجوية: الكشف عن الأجسام الصغيرة في صور الأقمار الصناعية الكبيرة عالية الدقة.
- مراقبة الجودة التفصيلية: فحص عيوب التصنيع حيث تكون التفاصيل الدقيقة أكثر أهمية من السرعة الخام.
YOLOv9: الكفاءة من خلال التدرجات القابلة للبرمجة
YOLOv9 يمثل قفزة كبيرة في عائلة YOLO حيث يقدم ابتكارات معمارية تحل مشكلة عنق الزجاجة المعلوماتية العميقة في الشبكات العصبية. من خلال ضمان الحفاظ على معلومات التدرج عبر الطبقات العميقة، يحقق YOLOv9 أداءً متطورًا مع كفاءة ملحوظة في المعلمات.
- المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
- المنظمــةمعهد علوم المعلومات، الأكاديمية الصينية للمعلومات، تايوان
- التاريخ: 2024-02-21
- اركسيف:https://arxiv.org/abs/2402.13616
- جيثبhttps://github.com/WongKinYiu/yolov9
- المستنداتhttps://docs.ultralytics.com/models/yolov9/
الهندسة المعمارية: PGI و GELAN
يقدم YOLOv9 مفهومين رائدين:
- معلومات التدرج القابلة للبرمجة (PGI): إطار عمل إشرافي مساعد يولد تدرجات موثوقة لتحديث أوزان الشبكة، مما يضمن احتفاظ الطبقات العميقة بمعلومات الميزة الحاسمة. وهذا يحاكي مزايا إعادة تحديد المعلمات دون تكلفة الاستدلال.
- شبكة تجميع الطبقات المعممة الفعالة المعممة (GELAN): بنية شبكة خفيفة الوزن تعمل على تحسين استخدام المعلمات والإنتاجية الحسابية (FLOPs). تتيح GELAN تشغيل YOLOv9 بشكل أسرع مع استخدام ذاكرة أقل من سابقاتها ومنافسيها.
لماذا تختار YOLOv9
يوفر دمج YOLOv9 في منظومةUltralytics مزايا مميزة للمطورين:
- كفاءة التدريب: يتطلب YOLOv9 ذاكرة GPU أقل بكثير أثناء التدريب من النماذج القائمة على المحولات مثل RTDETRv2. يتيح ذلك التدريب على أجهزة من فئة المستهلكين أو أحجام دفعات أكبر على مجموعات الشركات.
- سهولة الاستخدام: باستخدام واجهة برمجة تطبيقاتUltralytics Python يمكن للمستخدمين تدريب YOLOv9 والتحقق من صحته ونشره في بضعة أسطر من التعليمات البرمجية.
- تعدد الاستخدامات: على الرغم من أنه نموذج لاكتشاف الكائنات في المقام الأول، إلا أن البنية الأساسية مرنة بما يكفي لدعم مهام مثل تجزئة المثيل واكتشاف الصندوق المحيط الموجه (OBB).
- توازن الأداء: يحقق التوازن الأمثل، حيث يوفر دقة من الدرجة الأولى مع السرعة المطلوبة لتحليلات الفيديو في الوقت الحقيقي.
ميزة النظام البيئي
توفر Ultralytics واجهة موحدة لجميع نماذجها. لا يتطلب التبديل من YOLOv8 أو YOLO11 إلى YOLOv9 سوى تغيير سلسلة اسم النموذج، مما يسمح بإجراء القياس والتجريب دون عناء.
حالات الاستخدام المثالية
YOLOv9 هو الخيار المفضل لعمليات النشر في العالم الحقيقي التي تتطلب السرعة والكفاءة:
- حوسبة الحافة: النشر على الأجهزة المدمجة مثل NVIDIA Jetson أو Raspberry Pi.
- تحليلات الوقت الحقيقي: مراقبة حركة المرور وتحليلات البيع بالتجزئة والتحليلات الرياضية حيث تكون معدلات الإطارات العالية ضرورية.
- تطبيقات الهاتف المحمول: تعمل بكفاءة على أجهزة iOS و Android عبر CoreML أو TFLite التصدير
- الروبوتات: توفير الإدراك السريع للملاحة والتفاعل المستقل.
تحليل مقارن: الهندسة المعمارية وسير العمل
عند المفاضلة بين RTDETRv2 و YOLOv9 ضع في اعتبارك الاختلافات المعمارية الأساسية. يعتمد RTDETRRv2 على قوة المحولات، باستخدام آليات الانتباه الذاتي لفهم السياق العام. غالبًا ما يؤدي ذلك إلى دقة أعلى في الصور الثابتة الصعبة ولكن يأتي ذلك على حساب استهلاك ذاكرة تدريب أعلى واستدلال أبطأ على الأجهزة التي لا تعتمد على GPU معالجة الرسومات.
على النقيض من ذلك YOLOv9 تستفيد من بنية شبكة CNN المطورة (GELAN) المحسّنة بواسطة PGI. هذا التصميم بطبيعته أكثر ملاءمةً للأجهزة، مستفيدًا من سنوات من تحسين شبكة CNN في مكتبات مثل TensorRT و OpenVINO.
منهجية التدريب
يتضمن تدريب RTDETRv2 عادةً وقت تقارب أطول ومتطلبات ذاكرة أعلى لاستيعاب خرائط الانتباه. وعلى العكس من ذلك، يستفيد YOLOv9 من عمليات التدريب الفعالة التي صقلها فريق Ultralytics . يعمل توافر الأوزان المدربة مسبقًا والقدرة على التكامل بسلاسة مع Ultralytics HUB على تبسيط سير العمل بدءًا من شرح البيانات إلى نشر النموذج.
from ultralytics import YOLO
# Load a pre-trained YOLOv9 model
model = YOLO("yolov9c.pt")
# Train the model on your dataset with excellent memory efficiency
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)
# Run inference with high speed
results = model("path/to/image.jpg")
الخاتمة: ما النموذج الذي يناسب احتياجاتك؟
بالنسبة للغالبية العظمى من التطبيقات التجارية والبحثية, YOLOv9 هو الخيار الموصى به. فهو يوفر مفاضلة فائقة بين الدقة والسرعة، مدعومًا بنظامUltralytics البيئي القوي. إن بصمته المنخفضة للذاكرة وخيارات النشر المتنوعة تجعله مناسبًا لكل شيء بدءًا من الخوادم السحابية وحتى الأجهزة المتطورة.
تظل RTDETRv2 أداة قوية للبحث الأكاديمي والسيناريوهات المتخصصة حيث توفر الخصائص الفريدة لمحوّلات الرؤية ميزة محددة، ولا تمثل القيود الحسابية مصدر قلق أساسي.
استكشف نماذج Ultralytics الأخرى
إذا كنت تبحث عن المزيد من الخيارات، ففكر في هذه البدائل ضمن إطار عمل Ultralytics :
- YOLO11: أحدث إصدار من سلسلة YOLO الذي يقدم المزيد من التحسينات في السرعة والدقة للتطبيقات المتطورة.
- YOLOv8: نموذج متعدد الاستخدامات يدعم الاكتشاف والتجزئة وتقدير الوضعية والتصنيف، وهو معروف بثباته واعتماده على نطاق واسع.
- RT-DETR: تدعم Ultralytics أيضًا نموذج RT-DETR الأصلي، مما يسمح لك بتجربة الاكتشاف القائم على المحولات داخل واجهة برمجة تطبيقات Ultralytics المألوفة.