YOLOv9 RTDETRv2: دراسة تقنية متعمقة حول الكشف الحديث عن الكائنات
شهد مجال الكشف عن الأجسام في الوقت الفعلي تحولاً جذرياً في السنوات الأخيرة. فقد ظهرت فلسفتان معماريتان متميزتان لتسيطران على هذا المجال: الشبكات العصبية التلافيفية (CNN) عالية التحسين ومحولات الكشف في الوقت الفعلي (DETR). ويمثل قمة هذين النهجين YOLOv9 و RTDETRv2.
يقارن هذا الدليل الشامل هذين النموذجين القويين، ويحلل ابتكاراتهما المعمارية ومقاييس أدائهما وسيناريوهات النشر المثالية لمساعدتك في اختيار النموذج المناسب لخط أنابيب الرؤية الحاسوبية الخاص بك.
ملخص تنفيذي
تحقق كلا النموذجين نتائج متطورة، لكنهما يلبيان قيود نشر وبيئات تطوير مختلفة قليلاً.
- اختر YOLOv9 إذا: كنت بحاجة إلى استخدام فعال للغاية للمعلمات واستدلال سريع على الأجهزة الطرفية. يدفع YOLOv9 الحدود النظرية لكفاءة CNN، مما يجعله مثاليًا للبيئات التي تكون فيها موارد الحوسبة محدودة للغاية.
- اختر RTDETRv2 إذا: كنت تحتاج إلى فهم السياق الدقيق الذي توفره نماذج المحولات (Transformers)، خاصة في المشاهد التي تحتوي على إعاقة شديدة أو علاقات كائنية معقدة، ولديك الأجهزة اللازمة لدعم بنية أثقل قليلاً.
- اختر YOLO26 (موصى به) إذا: كنت تريد الأفضل على الإطلاق. بصفته أحدث جيل متاح على منصة Ultralytics، يتميز YOLO26 بـتصميم شامل خالٍ من NMS (مشابه لنماذج DETR ولكنه أسرع بكثير)، مما يلغي اختناقات المعالجة اللاحقة ويوفر استدلال CPU أسرع بنسبة تصل إلى 43% من الأجيال السابقة.
المواصفات الفنية والمؤلف
إن فهم أصول هذه النماذج والغرض من تصميمها يوفر سياقًا مهمًا لخياراتها المعمارية.
YOLOv9
المؤلفون: Chien-Yao Wang و Hong-Yuan Mark Liao
المنظمة:معهد علوم المعلومات، أكاديميا سينيكا
التاريخ: 2024-02-21
Arxiv:https://arxiv.org/abs/2402.13616
GitHub:WongKinYiu/yolov9
RTDETRv2
المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
المنظمة:Baiduالتاريخ: 2024-07-24
Arxiv:https://arxiv.org/abs/2407.17140
GitHub:lyuwenyu/RT-DETR
الابتكارات المعمارية
YOLOv9: حل مشكلة عنق الزجاجة المعلوماتي
يقدم Ultralytics YOLOv9 ابتكارين رئيسيين مصممين لمعالجة فقدان المعلومات أثناء مرور البيانات عبر الشبكات العصبية العميقة:
- معلومات التدرج القابلة للبرمجة (PGI): يضمن إطار العمل الإشرافي المساعد هذا توليد تدرجات موثوقة لتحديث أوزان الشبكة، مما يحافظ على معلومات الميزات الحاسمة حتى في طبقات الشبكة العميقة جدًا.
- شبكة تجميع الطبقات الفعالة المعممة (GELAN): هندسة معمارية مبتكرة تجمع بين نقاط القوة في CSPNet و ELAN. تعمل GELAN على تحسين كفاءة المعلمات، مما يسمح لـ YOLOv9 بتحقيق دقة أعلى بعدد أقل من عمليات FLOPs مقارنة بشبكات CNN التقليدية.
RTDETRv2: تحسين المحولات في الوقت الحقيقي
بناءً على نجاح RT-DETR الأصلي، يستخدم RTDETRv2 بنية قائمة على المحولات تتجنب بطبيعتها الحاجة إلى قمع الحد الأقصى غير الأقصى (NMS). تشمل تحسيناته:
- استراتيجية حقيبة المجانيات: يشتمل الإصدار الثاني على تقنيات تدريب متقدمة وتكبير البيانات التي تعزز الدقة بشكل كبير دون إضافة أي حمل زائد على زمن انتقال الاستدلال.
- مشفر هجين فعال: من خلال معالجة الميزات متعددة المقاييس عبر آلية اهتمام مفصولة داخل المقاييس وعبر المقاييس، يدير RTDETRv2 بكفاءة التكلفة الحسابية العالية تقليديًا لمُحولات الرؤية (Vision Transformers).
الكشف الأصلي من البداية إلى النهاية
بينما يستفيد RTDETRv2 من Transformers للكشف NMS فإن بنية YOLO26 الجديدة تحقق ذلك بشكل أصلي ضمن بنية CNN محسّنة للغاية، مما يوفر نفس النشر المبسط ولكن بسرعات استدلال حافة أعلى بكثير.
مقارنة الأداء
عند تقييم نماذج الإنتاج، فإن المفاضلة بين الدقة ومتطلبات الحوسبة أمر بالغ الأهمية. يوضح الجدول أدناه أداء أحجام النماذج المختلفة عبر معايير قياسية.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv9t | 640 | 38.3 | - | 2.3 | 2.0 | 7.7 |
| YOLOv9s | 640 | 46.8 | - | 3.54 | 7.1 | 26.4 |
| YOLOv9m | 640 | 51.4 | - | 6.43 | 20.0 | 76.3 |
| YOLOv9c | 640 | 53.0 | - | 7.16 | 25.3 | 102.1 |
| YOLOv9e | 640 | 55.6 | - | 16.77 | 57.3 | 189.0 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
تحليل
كما تظهر البيانات، يحافظ YOLOv9 على ميزة صارمة في كفاءة المعاملات. يحقق نموذج YOLOv9c قيمة mAP مثيرة للإعجاب تبلغ 53.0 مع 25.3 مليون معامل فقط، مما يجعله خفيف الوزن بشكل لا يصدق.
على العكس من ذلك، يوفر RTDETRv2 منافسة قوية في فئات النماذج متوسطة إلى كبيرة الحجم. ومع ذلك، يأتي هذا على حساب أعداد معلمات أعلى وعدد FLOPs أكبر بكثير، وهو أمر نموذجي لـ نماذج Transformer. يترجم هذا الاختلاف المعماري أيضًا إلى استخدام الذاكرة: تتطلب نماذج YOLO عادةً ذاكرة CUDA أقل بكثير أثناء التدريب والاستدلال مقارنة بنظيراتها من Transformer.
Ultralytics : النظام البيئي والتنوع
على الرغم من أهمية المقاييس المعمارية البحتة، غالبًا ما يحدد النظام البيئي للبرمجيات نجاح مشروع الذكاء الاصطناعي. يوفر الوصول إلى هذه النماذج المتقدمة من خلال Python Ultralytics Python مزايا لا مثيل لها.
تدريب ونشر مبسطان
يتطلب تدريب محول الكشف عادةً ملفات تكوين معقدة ووحدات معالجة رسومات متطورة. من خلال استخدام Ultralytics يمكن للمطورين تدريب نماذج YOLOv9 RTDETR باستخدام صيغة بسيطة ومتطابقة، والاستفادة من خطوط أنابيب تدريب عالية الكفاءة وأوزان مسبقة التدريب متاحة بسهولة.
from ultralytics import RTDETR, YOLO
# Train a YOLOv9 model
model_yolo = YOLO("yolov9c.pt")
model_yolo.train(data="coco8.yaml", epochs=100, imgsz=640)
# Train an RTDETR model using the exact same API
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100, imgsz=640)
# Export models to OpenVINO or TensorRT seamlessly
model_yolo.export(format="openvino")
تنوع مهام لا مثيل له
من القيود الرئيسية للنماذج المتخصصة مثل RTDETRv2 هو تركيزها الضيق على اكتشاف الصناديق المحيطة. في المقابل، يدعم نظام Ultralytics البيئي الأوسع، الذي يشمل نماذج مثل YOLO11 و YOLOv8، مجموعة واسعة من مهام الرؤية الحاسوبية. يشمل ذلك تجزئة الكائنات (instance segmentation) بدقة البكسل، وتقدير الوضعيات الهيكلية (pose estimation)، وتصنيف الصور الكاملة، واكتشاف الصناديق المحيطة الموجهة (OBB) للصور الجوية.
تطبيقات عملية في أرض الواقع
تحليلات حافة عالية السرعة
بالنسبة لبيئات البيع بالتجزئة أو خطوط الإنتاج التي تتطلب التعرف على المنتجات في الوقت الفعلي على الأجهزة الطرفية، YOLOv9 هو الخيار الأفضل. تضمن بنية GELAN الخاصة به إنتاجية عالية على الأجهزة المقيدة مثل سلسلة NVIDIA مما يتيح مراقبة الجودة تلقائيًا دون تأخير كبير.
تحليل المشاهد المعقدة
في سيناريوهات مثل مراقبة الحشود الكثيفة أو تقاطعات المرور المعقدة حيث تحجب الأجسام بعضها البعض بشكل متكرر، تبرز آليات الاهتمام الشامل لـ RTDETRv2. تسمح قدرة النموذج على التفكير بشكل أصلي حول سياق الصورة بأكمله بالحفاظ على تتبع وكشف قويين حتى عندما تكون الأجسام مخفية جزئيًا.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين YOLOv9 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار YOLOv9
YOLOv9 خيار قوي لـ:
- أبحاث عن عنق الزجاجة المعلوماتي: مشاريع أكاديمية تدرس بنى معلومات التدرج القابلة للبرمجة (PGI) وشبكة تجميع الطبقات الفعالة المعممة (GELAN).
- دراسات تحسين تدفق التدرج: أبحاث تركز على فهم وتخفيف فقدان المعلومات في طبقات الشبكة العميقة أثناء التدريب.
- قياس الأداء للكشف عالي الدقة: السيناريوهات التي تتطلب أداء YOLOv9 القوي في معيار COCO كنقطة مرجعية للمقارنات المعمارية.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
- سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
المستقبل: أدخل YOLO26
في حين أن YOLOv9 RTDETRv2 يمثلان إنجازات هائلة، فإن مجال الرؤية الحاسوبية يتطور بسرعة. بالنسبة للمطورين الذين يتطلعون إلى بدء مشاريع جديدة، يعد YOLO26 هو الحل المتطور الموصى به.
تم إصدار YOLO26 في عام 2026، وهو يدمج أفضل ميزات كل من CNNs و DETRs. ويتميز بتصميم شامل NMS، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة — وهي تقنية تم ابتكارها لأول مرة في YOLOv10. علاوة على ذلك، يزيل YOLO26 خسارة التركيز التوزيعي (DFL) لتحسين توافق الحواف ويقدم مُحسِّن MuSGD الثوري. مستوحى من تدريب نموذج اللغة الكبير (على وجه التحديد Kimi K2 من Moonshot AI)، يضمن هذا المُحسِّن الهجين استقرارًا غير مسبوق في التدريب وتقاربًا أسرع.
بالاقتران مع دوال الخسارة المحسنة مثل ProgLoss و STAL للتعرف الاستثنائي على الكائنات الصغيرة، يقدم YOLO26 سرعة استدلال على CPU أسرع بنسبة تصل إلى 43%، مما يعزز مكانته كنموذج مثالي لعمليات نشر الذكاء الاصطناعي الحديثة.