تخطي إلى المحتوى

YOLOv10 مقابل RT-DETRv2: مقارنة تقنية لاكتشاف الأجسام

يُعدّ اختيار البنية المثلى للكشف عن الأجسام قرارًا محوريًا يتطلب المفاضلة بين سرعة الاستدلال والدقة ومتطلبات الموارد الحاسوبية. يقارن هذا الدليل الشامل بين YOLOv10وهو تطور متطور متطور لعائلة YOLO المستندة إلى شبكة CNN والمعروفة بكفاءتها، و RT-DETRv2وهو نموذج متطور قائم على المحولات مصمم للمهام عالية الدقة. نقوم بتحليل ابتكاراتهم المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية لمساعدتك على اتخاذ خيار مستنير لمشاريع الرؤية الحاسوبية الخاصة بك.

YOLOv10: الكشف في الوقت الحقيقي المدفوع بالكفاءة

YOLOv10 يمثل قفزة كبيرة في سلالة YOLO حيث يركز على التخلص من اختناقات أجهزة الكشف في الوقت الحقيقي التقليدية. تم تطويره من قبل باحثين في جامعة تسينغهوا، وهو يقدم نموذج تدريب NMS غير الأقصى NMS) يعمل على تبسيط خط أنابيب النشر من خلال إزالة الحاجة إلى المعالجة اللاحقة للقمع غير الأقصى.

الابتكارات المعمارية

يتبنى YOLOv10 تصميمًا شاملًا قائمًا على الكفاءة والدقة. فهو يستخدم تعيينات مزدوجة متسقة أثناء التدريب لتمكين الاستدلال NMS، مما يقلل بشكل كبير من زمن الاستجابة. كما تتميز البنية أيضًا برأس تصنيف خفيف الوزن وقناة مكانية مفصولة عن القناة المكانية لتقليل التكرار الحسابي. يضمن هذا التصميم أن يظل النموذج سريعًا للغاية مع الحفاظ على دقة تنافسية، مما يجعله مناسبًا بشكل خاص للحوسبة المتطورة حيث تكون الموارد شحيحة.

الاستدلال NMS

تقلل إزالة YOLOv10 للقمع غير الأقصى (NMS) من تعقيد خطوات ما بعد المعالجة. يؤدي ذلك إلى تقليل زمن انتقال الاستدلال ويجعل من الأسهل نشر النموذج في خطوط الأنابيب من البداية إلى النهاية دون نواة CUDA مخصصة لـ NMS.

يتدرج النموذج بفعالية عبر مختلف الأحجام، بدءًا من إصدار النانو (n) للبيئات المقيدة للغاية إلى الإصدار الكبير جدًا (x) لمتطلبات الدقة الأعلى.

from ultralytics import YOLO

# Load a pre-trained YOLOv10n model
model = YOLO("yolov10n.pt")

# Run inference on an image
results = model.predict("path/to/image.jpg")

اعرف المزيد عن YOLOv10

RT-DETRv2: الدقة المستندة إلى المحولات

RT-DETRv2(محول الكشف في الوقت الحقيقي الإصدار 2) يعتمد على نجاح RT-DETR الأصلي، مما يزيد من تحسين تطبيق محولات الرؤية للكشف عن الأجسام في الوقت الحقيقي. ويستفيد هذا النموذج، الذي طورته شركة Baidu، من آليات الانتباه الذاتي لالتقاط السياق العالمي، وغالباً ما يتفوق في الأداء على نظرائه المستند إلى شبكة CNN في المشاهد المعقدة ذات الانسدادات.

المحولات البصرية في الكشف

وخلافاً لنماذج الشبكات الشبكية الشبكية التقليدية التي تعالج الصور باستخدام حقول الاستقبال المحلية، يستخدم RT-DETRv2 عموداً فقرياً لمحول الرؤية (ViT). وهذا يسمح للنموذج بمعالجة بقع الصور مع الانتباه الذاتي، وفهم العلاقات بين الأجسام البعيدة في المشهد بشكل فعال. في حين أن قدرة السياق العالمي هذه تعزز دقة الاكتشاف، إلا أنها تأتي بشكل عام بتكاليف حسابية أعلى مقارنةً بالبنية المبسطة ل YOLOv10.

صُمم RT-DETRv2 ليكون قابلاً للتكيف، حيث يقدم مقاييس نموذجية مختلفة لتناسب احتياجات الأداء المختلفة، على الرغم من أنه يتطلب عادةً ذاكرة GPU أكثر للتدريب والاستدلال من نماذج YOLO المكافئة.

تعرف على المزيد حول RT-DETRv2

تحليل الأداء

تسلط المقارنة أدناه الضوء على المزايا المميزة لكل بنية. YOLOv10 تتفوق في السرعة والكفاءة، حيث تقدم زمن انتقال منخفض بشكل ملحوظ وعدد معلمات منخفض بشكل ملحوظ. على سبيل المثال، يعمل طراز YOLOv10n بسرعة 1.56 مللي ثانية على GPU T4، مما يجعله مثاليًا لمعالجة الفيديو عالية السرعة. RT-DETRv2على الرغم من أنه أبطأ، إلا أنه يوفر دقة قوية، خاصةً في أحجام النماذج الأكبر، ولكن على حساب عدد عمليات FLOP أعلى بكثير واستخدام ذاكرة أعلى بكثير.

النموذجالحجم
(بالبكسل)
mAPفال
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLOv10n64039.5-1.562.36.7
YOLOv10s64046.7-2.667.221.6
YOLOv10m64051.3-5.4815.459.1
YOLOv10b64052.7-6.5424.492.0
YOLOv10l64053.3-8.3329.5120.3
YOLOv10x64054.4-12.256.9160.4
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

كما هو ملاحظ في الجدول، يحقق YOLOv10x كفاءة mAP متفوقة بنسبة 54.4% مقارنةً بـ 54.3% في RT-DETRv2 مع استخدام وقت أقل بنسبة 23% للاستدلال وامتلاك بصمة نموذج أصغر بكثير. تجعل هذه الكفاءة من YOLOv10 خياراً أكثر توازناً لمعظم التطبيقات التي تكون فيها موارد الأجهزة في الاعتبار.

نقاط القوة والضعف

YOLOv10

  • نقاط القوة:
    • زمن استجابة منخفض: يسمح التصميم NMS بالاستدلال السريع للغاية، وهو أمر بالغ الأهمية للتطبيقات في الوقت الحقيقي.
    • كفاءة الموارد: يتطلب عددًا أقل من المعلمات ووحدات FLOP، مما يجعله مناسبًا للنشر على أجهزة الذكاء الاصطناعي المتطورة مثل NVIDIA Jetson أو المنصات المحمولة.
    • تكامل النظام الإيكولوجي: مدمج بالكامل في نظام Ultralytics البيئي، مما يسهل التصدير بسهولة إلى تنسيقات مثل ONNX و TensorRT و CoreML.
  • نقاط الضعف:
    • اكتشاف الأجسام الصغيرة: قد تقايض الإصدارات الصغيرة للغاية (مثل YOLOv10n) بعض الدقة الدقيقة مقابل السرعة الأولية مقارنةً بنماذج المحولات الأكبر حجمًا.

RT-DETRv2

  • نقاط القوة:
    • السياق العالمي: تتفوق بنية المحول في فهم المشاهد المعقدة والعلاقات بين الكائنات.
    • أصليةNMS: تتجنب المحولات بطبيعة الحال NMS مما يبسِّط خط أنابيب ما بعد المعالجة على غرار YOLOv10.
  • نقاط الضعف:
    • تكلفة حوسبة عالية: يتطلب التدريب والاستدلال قدراً أكبر بكثير من ذاكرة CUDA والقدرة الحاسوبية.
    • سرعات أبطأ: آلية الانتباه الذاتي، على الرغم من دقتها، إلا أنها مكلفة من الناحية الحسابية، مما يؤدي إلى ارتفاع زمن الاستجابة.
    • تعقيد النشر: يمكن أن تكون نماذج المحولات في بعض الأحيان أكثر صعوبة في تحسينها لبعض الأجهزة المدمجة مقارنةً بنماذج CNNs.

حالات الاستخدام المثالية

يعتمد الاختيار بين هذه النماذج إلى حد كبير على القيود التشغيلية الخاصة بك.

  • اختر YOLOv10 عندما: أنت بحاجة إلى أداء في الوقت الحقيقي على الأجهزة المتطورة، كما هو الحال في الطائرات بدون طيار المستقلة أو تطبيقات الأجهزة المحمولة. بصمة الذاكرة المنخفضة والسرعة العالية تجعلها مثالية لسيناريوهات مثل مراقبة حركة المرور أو تحليلات البيع بالتجزئة.
  • اختر RT-DETRv2 عندما: إذا كانت لديك موارد وافرة من GPU وتعالج مشاهد معقدة حيث تكون الدقة القصوى هي الأولوية الوحيدة، مثل الأبحاث الأكاديمية المتطورة أو تحليل الصور الصعبة من جانب الخادم.

ميزة Ultralytics

في حين أن كلا النموذجين يقدمان ميزات مقنعة، فإن الاستفادة من Ultralytics YOLO - بما في ذلك طرازات YOLOv10 وأحدث طرازات YOLO11-يوفر ميزة متميزة في دورة حياة التطوير.

  1. سهولة الاستخدام: توفر Ultralytics واجهة برمجة تطبيقاتPython API و CLI موحدة تعمل على توحيد التدريب والتحقق من الصحة والنشر. يسمح ذلك للمطورين بالتبديل بين YOLOv8 و YOLOv10 و YOLO11 و RT-DETR بسطر واحد من التعليمات البرمجية.
  2. كفاءة التدريب: تم تحسين نماذج Ultralytics لتحقيق كفاءة التدريب، وغالباً ما تتقارب بشكل أسرع وتتطلب ذاكرة أقل من التطبيقات القياسية. يؤدي ذلك إلى تقليل تكاليف الحوسبة السحابية وتسريع وقت الوصول إلى السوق.
  3. تعدد الاستخدامات: بالإضافة إلى الكشف، يدعم إطار عمل Ultralytics التجزئة وتقدير الوضعية و OBB، مما يسمح لك بتوسيع نطاق قدرات مشروعك دون تغيير الأدوات.
  4. نظام بيئي جيد الصيانة: بفضل التحديثات المتكررة، والأدلة الإرشادية الشاملة، والمجتمع المزدهر، يستفيد المستخدمون من التحسينات والدعم المستمر.

تشغيل نماذج مختلفة

يتم التبديل بين البنى بسلاسة مع واجهة برمجة تطبيقات Ultralytics :

from ultralytics import RTDETR, YOLO

# Train YOLOv10
model_yolo = YOLO("yolov10n.pt")
model_yolo.train(data="coco8.yaml", epochs=100)

# Train RT-DETR
model_rtdetr = RTDETR("rtdetr-l.pt")
model_rtdetr.train(data="coco8.yaml", epochs=100)

الخلاصة

كلاهما YOLOv10 و RT-DETRv2 يمثلان طليعة تقنيات اكتشاف الأجسام. RT-DETRv2 خيارًا قويًا للمهام الموجهة نحو البحث حيث تكون التكلفة الحسابية ثانوية بالنسبة للدقة. ومع ذلك، بالنسبة للغالبية العظمى من عمليات النشر في العالم الحقيقي, YOLOv10 توازنًا متفوقًا. إن جمعه بين السرعة العالية والكمون المنخفض وكفاءة الموارد يجعله الفائز العملي للمهندسين الذين يبنون تطبيقات قابلة للتطوير.

علاوة على ذلك، فإن استكشاف أحدث YOLO11 يسمح للمطورين بالوصول إلى تحسينات أكبر في الدقة والسرعة، كل ذلك ضمن نظام Ultralytics البيئي سهل الاستخدام. سواء كنت تقوم بالنشر على السحابة أو على الحافة، تضمن لك منصة Ultralytics الحصول على الأدوات اللازمة لبناء حلول رؤية حاسوبية عالمية المستوى بكفاءة.

استكشف نماذج أخرى

إذا كنت مهتمًا بإجراء المزيد من المقارنات، ففكر في الاطلاع على:


تعليقات