YOLOv9 RTDETRv2: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات
شهد مجال الكشف عن الأجسام في الوقت الفعلي تحولاً جذرياً في السنوات الأخيرة. فقد ظهرت فلسفتان معماريتان متميزتان لتسيطران على هذا المجال: الشبكات العصبية التلافيفية (CNN) عالية التحسين ومحولات الكشف في الوقت الفعلي (DETR). ويمثل قمة هذين النهجين YOLOv9 و RTDETRv2.
يقارن هذا الدليل الشامل هذين النموذجين القويين، ويحلل ابتكاراتهما المعمارية ومقاييس أدائهما وسيناريوهات النشر المثالية لمساعدتك في اختيار النموذج المناسب لخط أنابيب الرؤية الحاسوبية الخاص بك.
ملخص تنفيذي
يحقق كلا النموذجين نتائج متطورة، لكنهما يلبيان قيود نشر ونظم تطوير مختلفة قليلاً.
- اختر YOLOv9 : كنت بحاجة إلى استخدام معلمات عالي الكفاءة واستنتاج سريع على الأجهزة الطرفية. YOLOv9 الحدود النظرية لكفاءة CNN، مما يجعله مثاليًا للبيئات التي تكون فيها الموارد الحاسوبية محدودة للغاية.
- اختر RTDETRv2 إذا: كنت بحاجة إلى الفهم الدقيق للسياق الذي توفره Transformers، خاصة في المشاهد التي تتسم بانسداد شديد أو علاقات معقدة بين الكائنات، ولديك الأجهزة اللازمة لدعم بنية أثقل قليلاً.
- اختر YOLO26 (موصى به) إذا: كنت تريد أفضل ما في العالمين. باعتباره أحدث جيل متوفر على Ultralytics يتميز YOLO26 بتصميم أصلي شامل NMS (مشابه لنماذج DETR ولكن أسرع بكثير)، مما يزيل اختناقات المعالجة اللاحقة ويوفر CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بالأجيال السابقة.
المواصفات الفنية والمؤلف
إن فهم أصول هذه النماذج والغرض من تصميمها يوفر سياقًا مهمًا لخياراتها المعمارية.
YOLOv9
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة:معهد علوم المعلومات، أكاديمية سينكا
التاريخ: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9
RTDETRv2
المؤلفون: Wenyu Lv، Yian Zhao، Qinyao Chang، Kui Huang، Guanzhong Wang، و Yi Liu
المنظمة:Baidu التاريخ: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:RT-DETR
الابتكارات المعمارية
YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي
Ultralytics YOLOv9 يقدم اثنين من الابتكارات الرئيسية المصممة لمعالجة فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة:
- معلومات التدرج القابلة للبرمجة (PGI): يضمن إطار الإشراف الإضافي هذا إنشاء تدرجات موثوقة لتحديث أوزان الشبكة، مع الحفاظ على المعلومات المهمة حتى في طبقات الشبكة العميقة جدًا.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): بنية جديدة تجمع بين مزايا CSPNet و ELAN. تعمل GELAN على تحسين كفاءة المعلمات، مما يتيح YOLOv9 دقة أعلى باستخدام عدد أقل من FLOPs مقارنة بشبكات CNN التقليدية.
RTDETRv2: تحسين المحولات في الوقت الحقيقي
بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 بنية قائمة على المحولات التي تتجنب بطبيعتها الحاجة إلى عدم القمع الأقصى (NMS). وتشمل التحسينات التي أدخلت عليه ما يلي:
- استراتيجية "حقيبة الهدايا المجانية": تتضمن النسخة v2 تقنيات تدريب متقدمة وزيادات في البيانات تعزز الدقة بشكل كبير دون إضافة أي عبء على زمن الاستدلال.
- مشفر هجين فعال: من خلال معالجة الميزات متعددة النطاقات من خلال آلية انتباه منفصلة داخل النطاق وعبر النطاقات، يدير RTDETRv2 بكفاءة التكلفة الحسابية العالية تقليديًا لمحولات الرؤية.
الكشف الأصلي من البداية إلى النهاية
بينما يستفيد RTDETRv2 من Transformers للكشف NMS فإن بنية YOLO26 الجديدة تحقق ذلك بشكل أصلي ضمن بنية CNN محسّنة للغاية، مما يوفر نفس النشر المبسط ولكن بسرعات استدلال حافة أعلى بكثير.
مقارنة الأداء
عند تقييم نماذج الإنتاج، فإن المفاضلة بين الدقة ومتطلبات الحوسبة أمر بالغ الأهمية. يوضح الجدول أدناه أداء أحجام النماذج المختلفة عبر معايير قياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل
كما تظهر البيانات، YOLOv9 يحافظ على ميزة قوية في كفاءة المعلمات. يحقق نموذج YOLOv9c معدل دقة متوسط مثير للإعجاب يبلغ 53.0 mAP 25.3 مليون معلمة فقط، مما يجعله خفيف الوزن بشكل لا يصدق.
على العكس من ذلك، يوفر RTDETRv2 منافسة قوية في فئات النماذج المتوسطة إلى الكبيرة. ومع ذلك، يأتي ذلك على حساب عدد أكبر من المعلمات وعمليات FLOPs أكبر بكثير، وهو ما يميز نماذج Transformer. هذا الاختلاف في البنية يؤثر أيضًا على استخدام الذاكرة: عادةً ما تتطلب YOLO CUDA أقل بكثير أثناء التدريب والاستدلال مقارنة بنظيراتها من Transformer.
Ultralytics : النظام البيئي والتنوع
على الرغم من أهمية المقاييس المعمارية البحتة، غالبًا ما يحدد النظام البيئي للبرمجيات نجاح مشروع الذكاء الاصطناعي. يوفر الوصول إلى هذه النماذج المتقدمة من خلال Python Ultralytics Python مزايا لا مثيل لها.
تدريب ونشر مبسطان
يتطلب تدريب محول الكشف عادةً ملفات تكوين معقدة ووحدات معالجة رسومات متطورة. من خلال استخدام Ultralytics يمكن للمطورين تدريب نماذج YOLOv9 RTDETR باستخدام صيغة بسيطة ومتطابقة، والاستفادة من خطوط أنابيب تدريب عالية الكفاءة وأوزان مسبقة التدريب متاحة بسهولة.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")
تنوع مهام لا مثيل له
أحد القيود الرئيسية للنماذج المتخصصة مثل RTDETRv2 هو تركيزها الضيق على اكتشاف الصناديق المحددة. في المقابل، فإن Ultralytics الأوسع نطاقًا، الذي يشمل نماذج مثل YOLO11 و YOLOv8، مجموعة واسعة من مهام الرؤية الحاسوبية. ويشمل ذلك تقسيم الحالات بدقة البكسل، وتقدير الوضع الهيكلي، وتصنيف الصورة بأكملها، واكتشاف المربعات المحددة الموجهة (OBB) للصور الجوية.
تطبيقات عملية في أرض الواقع
تحليلات حافة عالية السرعة
بالنسبة لبيئات البيع بالتجزئة أو خطوط الإنتاج التي تتطلب التعرف على المنتجات في الوقت الفعلي على الأجهزة الطرفية، YOLOv9 هو الخيار الأفضل. تضمن بنية GELAN الخاصة به إنتاجية عالية على الأجهزة المقيدة مثل سلسلة NVIDIA مما يتيح مراقبة الجودة تلقائيًا دون تأخير كبير.
تحليل المشاهد المعقدة
في سيناريوهات مثل مراقبة الحشود الكثيفة أو تقاطعات المرور المعقدة حيث تحجب الأجسام بعضها البعض بشكل متكرر، تبرز آليات الاهتمام الشامل لـ RTDETRv2. تسمح قدرة النموذج على التفكير بشكل أصلي حول سياق الصورة بأكمله بالحفاظ على تتبع وكشف قويين حتى عندما تكون الأجسام مخفية جزئيًا.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLOv9 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن اختناق المعلومات: مشاريع أكاديمية تدرس هياكل معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين التدفق التدرجي: تركز الأبحاث على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- مقارنة أداء الكشف عالي الدقة: سيناريوهات تتطلب أداء YOLOv9 القوي COCO كنقطة مرجعية لمقارنات الهندسة المعمارية.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
المستقبل: أدخل YOLO26
في حين أن YOLOv9 RTDETRv2 يمثلان إنجازات هائلة، فإن مجال الرؤية الحاسوبية يتطور بسرعة. بالنسبة للمطورين الذين يتطلعون إلى بدء مشاريع جديدة، يعد YOLO26 هو الحل المتطور الموصى به.
تم إصدار YOLO26 في عام 2026، وهو يدمج أفضل ميزات كل من CNNs و DETRs. ويتميز بتصميم شامل NMS، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة — وهي تقنية تم ابتكارها لأول مرة في YOLOv10. علاوة على ذلك، يزيل YOLO26 خسارة التركيز التوزيعي (DFL) لتحسين توافق الحواف ويقدم مُحسِّن MuSGD الثوري. مستوحى من تدريب نموذج اللغة الكبير (على وجه التحديد Kimi K2 من Moonshot AI)، يضمن هذا المُحسِّن الهجين استقرارًا غير مسبوق في التدريب وتقاربًا أسرع.
بالإضافة إلى وظائف الخسارة المحسنة مثل ProgLoss و STAL للتعرف الاستثنائي على الأجسام الصغيرة، يوفر YOLO26 CPU أسرع بنسبة تصل إلى 43٪ CPU مما يعزز مكانته كنموذج مثالي لتطبيقات الذكاء الاصطناعي الحديثة.