YOLOv9 مقابل RTDETRv2: نظرة تقنية متعمقة في الكشف الحديث عن الأجسام

شهد مشهد الكشف عن الأجسام اللحظي تحولاً جذرياً في السنوات الأخيرة. ظهرت فلسفتان معماريتان متميزتان للسيطرة على هذا المجال: الشبكات العصبية التلافيفية (CNNs) المحسنة للغاية، ومحولات الكشف (DETRs) اللحظية. وتمثل YOLOv9 و RTDETRv2 قمة هذين النهجين.

يقارن هذا الدليل الشامل بين هذين النموذجين القويين، ويحلل ابتكاراتهما المعمارية، ومقاييس الأداء، وسيناريوهات النشر المثالية لمساعدتك في اختيار النموذج المناسب لخط أنابيب الرؤية الحاسوبية الخاص بك.

الملخص التنفيذي

يحقق كلا النموذجين نتائج متطورة، لكنهما يلبيان قيود نشر وبيئات تطوير مختلفة قليلاً.

  • اختر YOLOv9 إذا: كنت بحاجة إلى استخدام فعال للغاية للمعلمات واستنتاج سريع على أجهزة الحافة. تدفع YOLOv9 الحدود النظرية لكفاءة CNN، مما يجعلها مثالية للبيئات التي تكون فيها الموارد الحسابية محدودة للغاية.
  • اختر RTDETRv2 إذا: كنت تحتاج إلى فهم السياق الدقيق الذي توفره المحولات (Transformers)، خاصة في المشاهد التي تحتوي على انسداد شديد أو علاقات معقدة بين الأجسام، وكان لديك العتاد اللازم لدعم بنية أثقل قليلاً.
  • اختر YOLO26 (موصى به) إذا: كنت ترغب في الحصول على أفضل ما في العالمين. بصفتها الجيل الأحدث المتاح على منصة Ultralytics، تتميز YOLO26 بـ تصميم أصلي شامل خالٍ من NMS (مشابه لنماذج DETR ولكنه أسرع بكثير)، مما يلغي اختناقات المعالجة اللاحقة ويوفر استنتاجاً على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43% مقارنة بالأجيال السابقة.

المواصفات التقنية والمؤلفون

يوفر فهم أصول وقصد تصميم هذه النماذج سياقاً حاسماً لاختياراتها المعمارية.

YOLOv9

المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة: معهد علوم المعلومات، أكاديمية سينيكا
التاريخ: 21-02-2024
Arxiv: https://arxiv.org/abs/2402.13616
GitHub: WongKinYiu/yolov9

اعرف المزيد حول YOLOv9

RTDETRv2

المؤلفون: Wenyu Lv و Yian Zhao و Qinyao Chang و Kui Huang و Guanzhong Wang و Yi Liu
المنظمة: Baidu التاريخ: 24-07-2024
Arxiv: https://arxiv.org/abs/2407.17140
GitHub: lyuwenyu/RT-DETR

تعرف على المزيد حول RTDETR

الابتكارات المعمارية

YOLOv9: حل اختناق المعلومات

تقدم Ultralytics YOLOv9 ابتكارين رئيسيين مصممين لمعالجة فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة:

  1. معلومات التدرج القابلة للبرمجة (PGI): يضمن إطار الإشراف المساعد هذا توليد تدرجات موثوقة لتحديث أوزان الشبكة، مما يحافظ على معلومات الميزات الحيوية حتى في طبقات الشبكة العميقة جداً.
  2. شبكة تجميع الطبقات الفعالة المعممة (GELAN): بنية جديدة تجمع بين نقاط قوة CSPNet و ELAN. تعمل GELAN على تحسين كفاءة المعلمات، مما يسمح لـ YOLOv9 بتحقيق دقة أعلى مع عمليات (FLOPs) أقل مقارنة بـ CNN التقليدية.

RTDETRv2: تعزيز المحولات لحظية

بناءً على نجاح RT-DETR الأصلية، تستخدم RTDETRv2 بنية قائمة على المحولات (Transformer) تتجنب بطبيعتها الحاجة إلى الكبت غير الأقصى (NMS). تشمل تحسيناتها:

  1. استراتيجية مجموعة الهدايا (Bag-of-Freebies): يدمج إصدار v2 تقنيات تدريب متقدمة وزيادات في البيانات تعزز الدقة بشكل كبير دون إضافة أي عبء على زمن انتقال الاستنتاج.
  2. المشفر الهجين الفعال: من خلال معالجة الميزات متعددة النطاق عبر آلية انتباه مفككة داخل النطاق وعبر النطاقات، تدير RTDETRv2 بفعالية التكلفة الحسابية العالية التقليدية لمحولات الرؤية (Vision Transformers).
الكشف الأصلي الشامل

بينما تستفيد RTDETRv2 من المحولات للكشف الخالي من NMS، تحقق بنية YOLO26 الجديدة ذلك بشكل أصلي ضمن بنية CNN محسنة للغاية، مما يوفر نفس النشر المبسط ولكن مع سرعات استنتاج على الحافة فائقة الجودة.

مقارنة الأداء

عند تقييم النماذج للإنتاج، تعد المقايضة بين الدقة والمتطلبات الحسابية أمراً بالغ الأهمية. يوضح الجدول أدناه أداء أحجام النماذج المختلفة عبر المعايير القياسية.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ملي ثانية)
السرعة
T4 TensorRT10
(ملي ثانية)
المعلمات
(مليون)
FLOPs
(مليار)
YOLOv9t64038.3-2.32.07.7
YOLOv9s64046.8-3.547.126.4
YOLOv9m64051.4-6.4320.076.3
YOLOv9c64053.0-7.1625.3102.1
YOLOv9e64055.6-16.7757.3189.0
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

التحليل

كما تظهر البيانات، تحافظ YOLOv9 على ميزة صارمة في كفاءة المعلمات. يحقق نموذج YOLOv9c دقة 53.0 mAP رائعة بـ 25.3 مليون معلمة فقط، مما يجعله خفيف الوزن بشكل لا يصدق.

على العكس من ذلك، توفر RTDETRv2 منافسة قوية في فئات النماذج المتوسطة إلى الكبيرة. ومع ذلك، يأتي هذا على حساب عدد أكبر من المعلمات وعمليات FLOPs أكبر بشكل ملحوظ، وهو أمر نموذجي لـ نماذج المحولات. يترجم هذا الاختلاف المعماري أيضاً إلى استخدام الذاكرة: تتطلب نماذج YOLO عادةً ذاكرة CUDA أقل بكثير أثناء التدريب والاستنتاج مقارنة بنظيراتها من المحولات.

ميزة Ultralytics: النظام البيئي والتنوع

في حين أن المقاييس المعمارية البحتة مهمة، فإن نظام البرمجيات البيئي غالباً ما يملي نجاح مشروع الذكاء الاصطناعي. يوفر الوصول إلى هذه النماذج المتقدمة عبر واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics مزايا لا مثيل لها.

التدريب والنشر المبسط

يتطلب تدريب محول الكشف عادةً ملفات تكوين معقدة ووحدات GPU متطورة. من خلال استخدام إطار عمل Ultralytics، يمكن للمطورين تدريب كل من نموذجي YOLOv9 و RTDETR بنفس النحو البسيط، مع الاستفادة من خطوط أنابيب تدريب فعالة للغاية وأوزان مدربة مسبقاً متاحة بسهولة.

from ultralytics import RTDETR, YOLO

# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)

# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")

تعدد استخدامات لا مثيل له

يتمثل أحد القيود الرئيسية للنماذج المتخصصة مثل RTDETRv2 في تركيزها الضيق على الكشف عن مربعات الإحاطة. في المقابل، يدعم نظام Ultralytics البيئي الأوسع، الذي يضم نماذج مثل YOLO11 و YOLOv8، مجموعة واسعة من مهام الرؤية الحاسوبية. ويشمل ذلك تجزئة المثيلات بدقة البكسل، وتقدير الوضعية الهيكلية، وتصنيف الصور الكاملة، والكشف عن مربع الإحاطة الموجه (OBB) للصور الجوية.

تطبيقات العالم الحقيقي

تحليلات الحافة عالية السرعة

بالنسبة لبيئات البيع بالتجزئة أو خطوط التصنيع التي تتطلب التعرف على المنتجات لحظياً على أجهزة الحافة، تعتبر YOLOv9 هي الخيار المتفوق. تضمن بنية GELAN الخاصة بها إنتاجية عالية على الأجهزة المقيدة مثل سلسلة NVIDIA Jetson، مما يتيح مراقبة الجودة المؤتمتة دون تأخير كبير.

تحليل المشاهد المعقدة

في سيناريوهات مثل مراقبة الحشود الكثيفة أو تقاطعات المرور المعقدة حيث غالباً ما تحجب الأجسام بعضها البعض، تتألق آليات الانتباه العالمية الخاصة بـ RTDETRv2. تسمح قدرة النموذج على الاستدلال أصلياً حول سياق الصورة بالكامل له بالحفاظ على تتبع وكشف قوي حتى عندما تكون الأجسام مخفية جزئياً.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLOv9 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLOv9

يعتبر YOLOv9 خياراً قوياً لـ:

  • أبحاث عنق زجاجة المعلومات: المشاريع الأكاديمية التي تدرس معمارية معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
  • دراسات تحسين تدفق التدرج: الأبحاث التي تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
  • قياس أداء الاكتشاف عالي الدقة: السيناريوهات التي تحتاج فيها إلى أداء قياس COCO القوي لـ YOLOv9 كنقطة مرجعية للمقارنات المعمارية.

متى تختار RT-DETR

يُوصى بـ RT-DETR لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه ومعماريات Transformer لاكتشاف الأشياء بشكل شامل (end-to-end) بدون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون قبول زمن انتقال استدلال أعلى قليلاً مقبولاً.
  • اكتشاف الأشياء الكبيرة: المشاهد التي تحتوي بشكل أساسي على أشياء متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

متى تختار Ultralytics (YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطورين:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استدلالاً ثابتاً ومنخفض التأخير دون تعقيد المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئات تعتمد فقط على CPU: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث توفر سرعة استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

المستقبل: دخول YOLO26

بينما تمثل YOLOv9 و RTDETRv2 إنجازات هائلة، يتحرك مجال الرؤية الحاسوبية بسرعة. بالنسبة للمطورين الذين يتطلعون إلى بدء مشاريع جديدة، YOLO26 هو الحل الحديث الموصى به.

تم إصدار YOLO26 في عام 2026، وهي تدمج أفضل ميزات CNNs و DETRs. وهي تتميز بـ تصميم شامل خالٍ من NMS، مما يلغي تماماً زمن انتقال المعالجة اللاحقة—وهي تقنية تم ريادتها لأول مرة في YOLOv10. علاوة على ذلك، تزيل YOLO26 خسارة التوزيع البؤري (DFL) لتحسين التوافق مع الحافة وتقدم مُحسِّن MuSGD الثوري. هذا المُحسِّن الهجين، المستوحى من تدريب نماذج اللغات الكبيرة (تحديداً Kimi K2 من Moonshot AI)، يضمن استقرار تدريب غير مسبوق وتقارباً أسرع.

إلى جانب وظائف الخسارة المحسنة مثل ProgLoss و STAL للتعرف الاستثنائي على الأجسام الصغيرة، توفر YOLO26 استنتاجاً على وحدة المعالجة المركزية (CPU) أسرع بنسبة تصل إلى 43%، مما يعزز مكانتها كالنموذج النهائي لنشر الذكاء الاصطناعي الحديث.

التعليقات