Link to this sectionمقارنة بين YOLOv5 و RTDETRv2#

لقد توسع مشهد الرؤية الحاسوبية بشكل كبير على مدى السنوات القليلة الماضية، مما وفر للمطورين مجموعة واسعة من البنيات لمعالجة المهام المرئية المعقدة. ومن بين أكثر النماذج شيوعًا نجد الشبكات العصبية التلافيفية (CNNs) ومحولات الكشف (DETRs).

يقدم هذا الدليل مقارنة تقنية متعمقة بين نموذجين محوريين في هذه الفئات: Ultralytics YOLOv5، وهو نموذج قائم على CNN يتسم بالكفاءة العالية واعتماده على نطاق واسع، وRTDETRv2، وهو كاشف كائنات متطور قائم على Transformer يعمل في الوقت الفعلي.

Link to this sectionUltralytics YOLOv5: معيار الصناعة للكفاءة#

منذ إصداره، أصبح Ultralytics YOLOv5 حجر الزاوية في مجتمع الذكاء الاصطناعي، حيث يشغل آلاف التطبيقات التجارية والمشاريع البحثية على مستوى العالم. تم بناؤه بالكامل على إطار عمل PyTorch، وقد أعطى الأولوية لتجربة مطور بديهية دون المساومة على الأداء في الوقت الفعلي.

الخصائص الرئيسية:

المؤلف: Glenn Jocher
المنظمة: Ultralytics
التاريخ: 2020-06-26
الروابط: مستودع GitHub

Link to this sectionالمعمارية ونقاط القوة#

يستخدم YOLOv5 بنية CNN انسيابية مصممة لزيادة كفاءة استخراج الميزات إلى أقصى حد مع الحفاظ على بصمة ذاكرة منخفضة للغاية. وهو يوظف عمودًا فقريًا CSPDarknet وعنقًا PANet، مما يخلق مزيجًا قويًا لدمج الميزات متعددة النطاقات.

إحدى المزايا الرئيسية لـ YOLOv5 هي توازن الأداء. فهو يحقق مقايضة استثنائية بين السرعة والدقة، مما يجعله خيارًا مثاليًا لـ نشر النماذج على الأجهزة ذات الموارد المحدودة مثل أجهزة NVIDIA Jetson والهواتف الذكية.

علاوة على ذلك، يتميز YOLOv5 بتعدد استخدامات لا مثيل له. وعلى عكس النماذج المقتصرة بدقة على تنبؤات المربعات المحيطة، يدعم YOLOv5 أصليًا تصنيف الصور وتجزئة المثيلات، مما يوفر إطار عمل موحدًا لمهام مرئية متنوعة. كما أن كفاءة التدريب الخاصة به ملحوظة أيضًا، حيث تتطلب ذاكرة CUDA أقل بكثير أثناء التدريب مقارنة بالبنيات القائمة على Transformer.

Link to this sectionنقاط الضعف#

نظرًا لاعتماده على إطار عمل CNN أقدم، يعتمد YOLOv5 بطبيعته على إخماد غير الحد الأقصى (NMS) أثناء المعالجة اللاحقة للتخلص من المربعات المحيطة المكررة. على الرغم من تحسينها بشكل كبير داخل إطار عمل Ultralytics، يمكن أن تتسبب NMS أحيانًا في اختناقات زمن الوصول على وحدات NPU المتخصصة في الحافة.

اعرف المزيد عن YOLOv5

Link to this sectionRTDETRv2: محولات الوقت الفعلي من Baidu#

يمثل RTDETRv2 (محول الكشف في الوقت الفعلي الإصدار 2) قفزة كبيرة في تطبيق بنيات Transformer على الكشف عن الكائنات في الوقت الفعلي، معالجةً أوجه القصور الحسابية التي عانت منها DETRs القياسية تاريخيًا.

الخصائص الرئيسية:

المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, و Yi Liu
المنظمة: Baidu
التاريخ: 24-07-2024
الروابط: ورقة بحثية Arxiv، مستودع GitHub

Link to this sectionالمعمارية ونقاط القوة#

يبني RTDETRv2 على سابقه باستخدام مشفر هجين وتصميم فك تشفير مرن لمعالجة الصور. توفر آلية الانتباه الذاتي الخاصة بـ Transformer للنموذج فهمًا عالميًا لسياق الصورة، مما يسمح له بالأداء بشكل استثنائي في المشاهد المعقدة مع وجود انسداد شديد للكائنات.

من الميزات المحددة لـ RTDETRv2 تصميمه الشامل وخلوه من NMS. من خلال التنبؤ باستعلامات الكائنات مباشرة دون الحاجة إلى مربعات مرساة أو معالجة لاحقة بـ NMS، فإنه يبسط خط أنابيب الاستدلال. تحقق هذه البنية mAP (متوسط دقة متوسط) مبهرًا على مجموعات بيانات قياسية مثل COCO.

Link to this sectionنقاط الضعف#

على الرغم من قدراته في الوقت الفعلي، إلا أن RTDETRv2 لديه متطلبات ذاكرة أعلى بشكل ملحوظ مقارنة بنماذج YOLO. تتوسع آليات الانتباه في المحولات تربيعيًا مع طول التسلسل، مما قد يؤدي إلى أخطاء نفاد الذاكرة أثناء التدريب عالي الدقة ما لم يتم استخدام مجموعات GPU ضخمة. بالإضافة إلى ذلك، يفتقر إلى تعدد الاستخدامات الجاهز لنظام Ultralytics البيئي، حيث يركز بشكل أساسي على الكشف عن الكائنات ثنائي الأبعاد فقط دون دعم أصلي للتجزئة أو تقدير الوضع.

تعرف على المزيد حول RTDETR

Link to this sectionجدول مقارنة الأداء#

لتقييم هذه البنيات بموضوعية، قمنا بتجميع مقاييس أدائها. تمثل القيم المميزة بالخط العريض المقاييس الأكثر كفاءة أو الأفضل أداءً عبر النطاقات التي تم اختبارها.

النموذج	الحجم ^(بكسل)	mAP^val 50-95	السرعة ^{CPU ONNX (ms)}	السرعة ^{T4 TensorRT10 (ms)}	المعلمات ^(M)	FLOPs ^(B)
YOLOv5n	640	28.0	73.6	1.12	2.6	7.7
YOLOv5s	640	37.4	120.7	1.92	9.1	24.0
YOLOv5m	640	45.4	233.9	4.03	25.1	64.2
YOLOv5l	640	49.0	408.4	6.61	53.2	135.0
YOLOv5x	640	50.7	763.2	11.89	97.2	246.4

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

سياق الأداء

بينما يحقق RTDETRv2-x أعلى mAP مطلق، فإنه يتطلب ما يقرب من 30 ضعف معلمات YOLOv5n. بالنسبة للتطبيقات عالية السرعة التي تعمل على أجهزة محدودة، تقدم نماذج Ultralytics باستمرار أفضل كفاءة حسابية.

Link to this sectionميزة نظام Ultralytics البيئي#

عند نقل نموذج من دفتر ملاحظات بحثي إلى بيئة إنتاج، يكون البرنامج المحيط بالنموذج بنفس أهمية بنية الشبكة العصبية. يعمل النظام البيئي المُصان جيدًا الذي توفره Ultralytics على تسريع دورة حياة التطوير بشكل كبير.

Link to this sectionسهولة استخدام لا تضاهى#

تعطي نماذج Ultralytics الأولوية لتجربة مستخدم مبسطة للغاية. سواء كنت ترغب في تدريب نموذج مخصص، أو إجراء التحقق، أو التصدير إلى تنسيقات خاصة بالأجهزة مثل TensorRT أو ONNX، فإن واجهة برمجة تطبيقات Python الخاصة بـ Ultralytics تجعل ذلك ممكنًا في بضعة أسطر فقط من التعليمات البرمجية.

إليك مثال برمجي عملي يوضح مدى بساطة تدريب وتشغيل الاستدلال باستخدام نموذج Ultralytics:

from ultralytics import YOLO

# Initialize the model (automatically downloads the weights)
model = YOLO("yolov5s.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=50, imgsz=640, device="cpu")

# Perform inference on an online image
inference_results = model.predict("https://ultralytics.com/images/bus.jpg")

# Display the resulting image with bounding boxes
inference_results[0].show()

تدعم واجهة برمجة التطبيقات الموحدة والبسيطة هذه أصليًا عمليات تكامل تتبع التجارب مع أدوات مثل Weights & Biases وComet، مما يسمح للمطورين بتسجيل المقاييس بسلاسة دون كتابة تعليمات برمجية معقدة.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين YOLOv5 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار YOLOv5#

يعد YOLOv5 خيارًا قويًا لـ:

أنظمة الإنتاج المثبتة: عمليات النشر الحالية حيث يتم تقدير سجل YOLOv5 الطويل من الاستقرار، والوثائق الشاملة، ودعم المجتمع الضخم.
التدريب محدود الموارد: البيئات ذات موارد GPU المحدودة حيث تكون خط أنابيب التدريب الفعال لـ YOLOv5 ومتطلبات الذاكرة الأقل ميزة.
دعم واسع لتنسيقات التصدير: المشاريع التي تتطلب النشر عبر العديد من التنسيقات بما في ذلك ONNX وTensorRT وCoreML وTFLite.

Link to this sectionمتى تختار RT-DETR#

يوصى بـ RT-DETR لـ:

أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionالتطلع إلى المستقبل: YOLO11 و YOLO26#

إذا كنت تبدأ مشروع رؤية جديدًا اليوم، فمن المستحسن بشدة استكشاف أحدث أجيال نماذج Ultralytics.

بينما يظل YOLOv5 موثوقًا بشكل لا يصدق، يوفر YOLO11 دقة محسنة ومجموعة موسعة من المهام بما في ذلك الكشف عن المربع المحيط الموجه (OBB).

والأهم من ذلك، يدمج YOLO26 المتطور أفضل ما في العالمين. إنه ينفذ تصميمًا شاملاً بدون NMS (تم ريادته لأول مرة في YOLOv10)، مما يلغي عبء المعالجة اللاحقة مع الحفاظ على كفاءة CNN. يقدم YOLO26 أيضًا محسن MuSGD، المستوحى من ابتكارات تدريب LLM، لتحقيق تقارب أسرع. مع إزالة DFL (إزالة فقدان البؤرة التوزيعي للتصدير المبسط وتوافق أفضل مع أجهزة الحافة/منخفضة الطاقة)، يوفر YOLO26 استدلال CPU أسرع بنسبة تصل إلى 43%، مما يجعله الخيار الأفضل على الإطلاق لذكاء الحافة الاصطناعي. بالإضافة إلى ذلك، توفر ProgLoss + STAL وظائف فقدان محسنة مع تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء والروبوتات والصور الجوية.

Link to this sectionالخلاصة#

يعتمد الاختيار بين YOLOv5 و RTDETRv2 بشكل كبير على قيود النشر الخاصة بك. يدفع RTDETRv2 حدود mAP باستخدام آليات انتباه قوية لـ Transformer ولكنه يأتي بتكلفة باهظة من حيث الذاكرة والعبء الحسابي.

وعلى العكس من ذلك، يقدم Ultralytics YOLOv5 حلاً مثبتًا وعالي الكفاءة ومتعدد الاستخدامات يعمل بسلاسة في كل مكان - من خوادم السحابة إلى وحدات التحكم الدقيقة. بالنسبة للفرق التي تبحث عن أعلى دقة ممكنة جنبًا إلى جنب مع أدوات نشر سلسة، فإن الترقية داخل نظام Ultralytics البيئي إلى YOLO26 توفر الحل المتطور النهائي لتطبيقات رؤية الذكاء الاصطناعي الحديثة.

المساهمون

GLglenn-jocher¹⁴ PDpderrenger¹

تم الإنشاء 27 يناير 2025تم التحديث قبل 3 أسابيع

Link to this sectionمقارنة بين YOLOv5 و RTDETRv2#

Link to this sectionUltralytics YOLOv5: معيار الصناعة للكفاءة#

Link to this sectionالمعمارية ونقاط القوة#

Link to this sectionنقاط الضعف#

Link to this sectionRTDETRv2: محولات الوقت الفعلي من Baidu#

Link to this sectionالمعمارية ونقاط القوة#

Link to this sectionنقاط الضعف#

Link to this sectionجدول مقارنة الأداء#

Link to this sectionميزة نظام Ultralytics البيئي#

Link to this sectionسهولة استخدام لا تضاهى#

Link to this sectionحالات الاستخدام والتوصيات#

Link to this sectionمتى تختار YOLOv5#

Link to this sectionمتى تختار RT-DETR#

Link to this sectionمتى تختار Ultralytics (YOLO26)#

Link to this sectionالتطلع إلى المستقبل: YOLO11 و YOLO26#

Link to this sectionالخلاصة#

التعليقات