مقارنة تقنية مفصلة بين RTDETRv2 و YOLOv7: مقارنة تقنية مفصلة
شهد مشهد الكشف عن الأجسام في الوقت الحقيقي منافسة شرسة بين الشبكات العصبية التلافيفية (CNNs) ومحولات الرؤية الناشئة (ViTs). هناك علامتان بارزتان هامتان في هذا التطور هما RTDETRv2 (محول الكشف في الوقت الحقيقي v2) و YOLOv7 (أنت تنظر مرة واحدة فقط الإصدار 7). في حين يمثل YOLOv7 ذروة تحسين بنية شبكة CNN الفعالة، يقدم RTDETRv2 قوة المحولات لإلغاء الحاجة إلى خطوات ما بعد المعالجة مثل الكبت غير الأقصىNMS).
تستكشف هذه المقارنة المواصفات الفنية والاختلافات المعمارية ومقاييس الأداء لكلا النموذجين لمساعدة المطورين على اختيار الأداة المناسبة لتطبيقات الرؤية الحاسوبية الخاصة بهم.
مقاييس الأداء: الدقة مقابل السرعة
يعرض الجدول التالي مقارنة مباشرة لمقاييس الأداء الرئيسية. يُظهر RTDETRRv2-x دقة فائقة مع mAP أعلى، ويرجع ذلك إلى حد كبير إلى فهم السياق العالمي القائم على المحولات. ومع ذلك YOLOv7 لا تزال قادرة على المنافسة، خاصةً في السيناريوهات التي تتطلب سرعات استدلال أخف وزنًا وسرعات متوازنة على أجهزة متفاوتة.
| النموذج | الحجم (بالبكسل) | mAPفال 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv7l | 640 | 51.4 | - | 6.84 | 36.9 | 104.7 |
| YOLOv7x | 640 | 53.1 | - | 11.57 | 71.3 | 189.9 |
RTDETRv2: نهج المحولات
يعتمد RTDETRv2 على نجاح RT-DETR الأصلي، وهو أول كاشف قائم على المحولات ينافس نماذج YOLO في سرعة الوقت الحقيقي. تم تطويره من قبل باحثين في Baidu، وهو يعالج الاختناقات الحسابية المرتبطة بالتفاعل متعدد النطاقات في بنيات DETR القياسية.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المنظمة:بايدو
- التاريخ: 2023-04-17
- اركسيف:https://arxiv.org/abs/2304.08069
- جيثبhttps://github.com/lyuwenyu/RT-DETR/tree/main/rtdetrv2_pytorch
الميزات المعمارية الرئيسية
يستخدم RTDETRRv2 برنامج تشفير هجين يعالج الميزات متعددة النطاقات بكفاءة من خلال فصل التفاعل داخل النطاق الواحد عن الاندماج عبر النطاقات. يقلل هذا التصميم من التكاليف الحسابية بشكل كبير مقارنةً بالمحولات القياسية. وتتمثل الميزة البارزة في اختيار الاستعلامIoU المتداخلة، مما يحسن من تهيئة استعلامات الكائنات، مما يؤدي إلى تقارب أسرع ودقة أعلى. على عكس النماذج القائمة على شبكة CNN، فإن RTDETRv2 NMS مما يعني أنها لا تتطلب قمعًا غير أقصى بعد المعالجة، مما يبسط خط أنابيب النشر ويقلل من ارتعاش زمن الوصول.
ميزة المحولات
الميزة الأساسية لبنية RTDETRv2 هي قدرتها على التقاط السياق العالمي. بينما تنظر CNNs إلى حقول الاستقبال الموضعية، فإن آلية الانتباه الذاتي في المحولات تسمح للنموذج بالنظر في سياق الصورة بالكامل عند اكتشاف الأجسام، وهو أمر مفيد لحل الغموض في المشاهد المعقدة ذات الانسداد.
YOLOv7: ذروة سي إن إن إن
يدفع YOLOv7 حدود ما هو ممكن مع الشبكات العصبية التلافيفية. وهو يركز على تحسين عملية التدريب وبنية النموذج لتحقيق "حقيبة من الرغبات المجانية" - وهي أساليب تزيد من الدقة دون زيادة تكلفة الاستدلال.
- المؤلفون: Chien-Yao Wang و Alexey Bochkovskiy و Hong-Yuan Mark Liao
- المنظمــة معهد علوم المعلومات، الأكاديمية الصينية
- التاريخ: 2022-07-06
- اركسيف:https://arxiv.org/abs/2207.02696
- جيثبhttps://github.com/WongKinYiu/yolov7
الميزات المعمارية الرئيسية
YOLOv7 شبكة تجميع الطبقات الموسّعة الفعّالة ( E-ELAN )، والتي تعزز قدرة الشبكة على التعلّم من خلال التحكم في طول مسار التدرج. كما أنها تستخدم أيضًا إعادة تحديد معلمات النموذج، وهي تقنية تكون فيها بنية النموذج معقدة أثناء التدريب من أجل تعلم أفضل ولكنها مبسطة أثناء الاستدلال من أجل السرعة. يسمح ذلك لـ YOLOv7 بالحفاظ على الأداء العالي على أجهزةGPU مع الحفاظ على المعلمات منخفضة نسبيًا مقارنةً بنماذج المحولات.
تحليل المقارنة
الهندسة المعمارية وتعدد الاستخدامات
يكمن الاختلاف الأساسي في تصميم العمود الفقري والرأس. يعتمد YOLOv7 على هياكل شبكة CNN العميقة التي تم تحسينها بشكل كبير من أجل CUDA ولكن قد تواجه صعوبة في التعامل مع التبعيات بعيدة المدى في الصورة. تستفيد RTDETRv2 من آليات الانتباه لفهم العلاقات بين وحدات البكسل البعيدة، مما يجعلها قوية في البيئات المزدحمة. ومع ذلك، يأتي ذلك على حساب ارتفاع استهلاك الذاكرة أثناء التدريب.
نماذج Ultralytics مثل YOLO11 تسد هذه الفجوة من خلال تقديم بنية قائمة على شبكة CNN تدمج وحدات حديثة شبيهة بالانتباه، مما يوفر سرعة شبكات CNN مع الدقة التي عادةً ما تكون مخصصة للمحوّلات. وعلاوة على ذلك، في حين أن RTDETRv2 هو في المقام الأول كاشف للأشياء، فإن نماذج Ultralytics الأحدث تدعم تجزئة النماذج وتقدير الوضع والتصنيف أصلاً.
التدريب وسهولة الاستخدام
تتطلب نماذج المحولات التدريبية مثل RTDETRv2 عادةً ذاكرة كبيرة GPU وحقبة تدريب أطول للتقارب مقارنةً بنماذج الشبكات الشبكية ذات الشبكات المتكاملة مثل YOLOv7.
للمطورين الذين يبحثون عن كفاءة التدريب و سهولة الاستخدام، فإن نظام Ultralytics البيئي يوفر ميزة مميزة. مع ultralytics حزمة Python يمكن للمستخدمين تدريب النماذج والتحقق من صحتها ونشرها ببضعة أسطر من التعليمات البرمجية، والوصول إلى مجموعة من الأوزان المدربة مسبقًا لمهام مختلفة.
from ultralytics import RTDETR, YOLO
# Load an Ultralytics YOLOv7-style model (if available) or YOLO11
model_yolo = YOLO("yolo11n.pt") # Recommended for best performance
model_yolo.train(data="coco8.yaml", epochs=10)
# Load RT-DETR for comparison
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.predict("asset.jpg")
النشر والنظام البيئي
يتمتع YOLOv7 بدعم واسع النطاق نظرًا لقدمه، ولكن يمكن أن يكون التكامل في خطوط أنابيب MLOps الحديثة يدويًا. أما RTDETRv2 فهو أحدث ويحظى بدعم متزايد. في المقابل Ultralytics تستفيد النماذج من نظام بيئي جيد الصيانة، بما في ذلك التصدير السلس إلى ONNXTensorRT CoreML والتكامل مع أدوات مثل Ultralytics HUB للتدريب السحابي وإدارة مجموعة البيانات.
حالات الاستخدام المثالية
- اختر RTDETRv2 إذا: لديك ذاكرة واسعة GPU وتحتاج إلى دقة عالية في المشاهد ذات الانسداد أو الازدحام الشديد، حيث تفشل عادةً NMS . إنه ممتاز للأبحاث وأنظمة المراقبة المتطورة.
- اختر YOLOv7 إذا: إذا كنت بحاجة إلى بنية CNN قديمة ومثبتة تعمل بكفاءة على أجهزة GPU القياسية لمهام الكشف للأغراض العامة.
- اختر Ultralytics YOLO11 إذا: أنت بحاجة إلى أفضل أداء يوازن بين السرعة والدقة، ومتطلبات أقل للذاكرة، ونموذج متعدد الاستخدامات قادر على الكشف والتجزئة وتقدير الوضعية. إنه الخيار المثالي للمطورين الذين يقدرون سير العمل المبسط والتوثيق الشامل.
لماذا الترقية إلى YOLO11
في حين أن YOLOv7 و RTDETRv2 قويان, YOLO11 يمثل أحدث تطور في الذكاء الاصطناعي للرؤية. فهو يتطلب ذاكرة CUDA أقل من المحولات، ويتدرب بشكل أسرع، ويوفر دقة متطورة عبر نطاق أوسع من الأجهزة، من الأجهزة المتطورة إلى الخوادم السحابية.
الخلاصة
شكّل كل من RTDETRv2 و YOLOv7 اتجاه الرؤية الحاسوبية. فقد نجح RTDETRV2 في تحدي الفكرة القائلة بأن المحولات بطيئة للغاية بالنسبة لتطبيقات الوقت الحقيقي، بينما أظهر YOLOv7 الكفاءة الدائمة لشبكات CNN. ومع ذلك، بالنسبة لمعظم تطبيقات العالم الحقيقي اليوم، فإن Ultralytics YOLO11 يقدم تجربة مطورين متفوقة، حيث يجمع بين أفضل سمات هذه النماذج السابقة مع نظام بيئي حديث وداعم.
استكشف مقارنات أخرى
لفهم مشهد النموذج بشكل أكبر، استكشف هذه المقارنات: