Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 مقابل PP-YOLOE+#

لقد أدى المجال المتطور بسرعة للرؤية الحاسوبية إلى إنتاج أساليب معمارية متنوعة لحل تحديات اكتشاف الأجسام في الوقت الفعلي المعقدة. ومن بين أبرز التطورات الأخيرة نجد RTDETRv2 و PP-YOLOE+، وهما نموذجان قويان يتعاملان مع التعرف البصري من فلسفات تصميم مختلفة جذرياً. وفي حين يهدف كلا النموذجين إلى توفير اكتشاف عالي الأداء، فإن آلياتهما الأساسية ونماذج تدريبهما وسيناريوهات النشر المثالية لهما تختلف بشكل كبير.

يتعمق هذا الدليل الشامل في الفروق التقنية لكلا النموذجين، حيث يقارن بين معمارياتهما ومقاييس أدائهما ودعم النظام البيئي لمساعدة المطورين والباحثين في اختيار الحل الأمثل لاحتياجات النشر الخاصة بهم.

Link to this sectionنظرة عامة على النماذج#

قبل تحليل بيانات الأداء، من المهم فهم أصول وأهداف الهندسة المعمارية لكل نموذج. كلاهما ينشأ من فرق بحثية في Baidu، ومع ذلك فهما يمثلان فروعاً مختلفة في شجرة عائلة اكتشاف الأجسام.

Link to this sectionRTDETRv2#

يمثل RTDETRv2 قفزة كبيرة في معماريات الرؤية القائمة على المحولات (Transformer). بناءً على نموذج Real-Time Detection Transformer الأصلي، فإنه يستفيد من هيكل أساسي مرن لرؤية المحولات مقترن بمشفر هجين فعال. ومن أبرز خصائصه قدرته الأصلية على التنبؤ من البداية إلى النهاية، مما يلغي تماماً الحاجة إلى كبت غير الحد الأقصى (NMS) أثناء المعالجة اللاحقة.

المؤلف: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu المنظمة: Baidu التاريخ: 2024-07-24 Arxiv: 2407.17140 GitHub: RT-DETR Repository

اعرف المزيد عن RTDETRv2

Link to this sectionPP-YOLOE+#

PP-YOLOE+ هو تكرار متقدم لسلسلة YOLO، تم تحسينه بشكل مكثف للتطبيقات الصناعية عالية الأداء. يتميز بهيكل CNN قابل للتطوير مع رأس اكتشاف خالٍ من المراسي (anchor-free). صُمم لتوفير مقايضات استثنائية بين السرعة والدقة، ويقدم تقنيات قوية مثل ET-head ووظيفة فقدان بؤري عامة لتحسين اكتشاف الأجسام الصغيرة.

المؤلف: PaddlePaddle Authors المنظمة: Baidu التاريخ: 2022-04-02 Arxiv: 2203.16250 GitHub: PaddleDetection Repository

تعرف على المزيد حول PP-YOLOE+

تكامل النظام البيئي

بينما يمتلك كلا النموذجين مستودعات بحثية مستقلة، يمكنك بسهولة تجربة RTDETRv2 مباشرة داخل حزمة Ultralytics Python، مع الاستفادة من واجهة برمجة تطبيقات موحدة وخيارات تصدير مبسطة.

Link to this sectionالاختلافات المعمارية#

يكمن الاختلاف الأساسي بين هذين النموذجين في كيفية معالجتهما للسياق البصري وتوليد التنبؤات.

يستخدم PP-YOLOE+ هيكلاً أساسياً تقليدياً ولكن محسناً للغاية للشبكات العصبية التلافيفية (CNN). يعتمد على حقول استقبال محلية لاستخراج الميزات، مما يجعله سريعاً وفعالاً بشكل لا يصدق للنشر القياسي. ومع ذلك، فإنه لا يزال يتطلب معالجة لاحقة قياسية عبر NMS لتصفية الصناديق المحيطة المتداخلة، وهو ما قد يؤدي إلى اختناقات في زمن الاستجابة في المشاهد المزدحمة.

على العكس من ذلك، يستخدم RTDETRv2 مشفراً هجيناً وفك تشفير محول. يتيح ذلك للنموذج التقاط السياق العالمي عبر الصورة بأكملها في وقت واحد. تفهم آليات الانتباه بطبيعتها العلاقات بين الأجسام، مما يمكن النموذج من إخراج صناديق محيطة نهائية مباشرة بدون NMS. يضمن هذا النهج من البداية إلى النهاية استقرار زمن استجابة الاستدلال بغض النظر عن عدد الأجسام المكتشفة.

Link to this sectionمقاييس الأداء والمقارنة#

عند تقييم مقاييس أداء YOLO، من الضروري الموازنة بين الدقة (mAP) والتكلفة الحسابية (FLOPs) وسرعة الاستدلال. يسلط الجدول أدناه الضوء على أداء كلا النموذجين عبر أحجام مختلفة.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
PP-YOLOE+t64039.9-2.844.8519.15
PP-YOLOE+s64043.7-2.627.9317.36
PP-YOLOE+m64049.8-5.5623.4349.91
PP-YOLOE+l64052.9-8.3652.2110.07
PP-YOLOE+x64054.7-14.398.42206.59

بينما يحقق PP-YOLOE+x دقة mAPval أعلى قليلاً بنسبة 54.7% على مجموعة بيانات COCO، توفر نماذج RTDETRv2 عموماً دقة تنافسية مع ميزة إضافية تتمثل في زمن استجابة ثابت بفضل تصميمها الخالي من NMS. ومع ذلك، يحتفظ PP-YOLOE+ بميزة صارمة في عدد المعلمات وعدد العمليات الحسابية (FLOPs) للنماذج الأصغر، مما يجعله فعالاً للغاية للنشر على الحافة (edge deployments).

Link to this sectionميزة Ultralytics: ظهور YOLO26#

في حين أن RTDETRv2 و PP-YOLOE+ نموذجان قويان بحد ذاتهما، فقد استمرت حالة الفن في التطور. بالنسبة للمطورين الذين يسعون للحصول على التوازن الأمثل بين السرعة والدقة ودعم النظام البيئي، يمثل Ultralytics YOLO26 المعيار الصناعي الجديد.

يجمع YOLO26 بين أفضل جوانب شبكات CNN والمحولات. فهو يتبنى تصميم End-to-End NMS-Free الذي رادت به المعماريات الحديثة، مما يقضي فعلياً على اختناقات المعالجة اللاحقة. علاوة على ذلك، فإنه يقدم محسن MuSGD الثوري، وهو نهج هجين مستوحى من ابتكارات تدريب النماذج اللغوية الكبيرة (LLM) التي تضمن تدريباً مستقراً للغاية وتقارباً سريعاً.

محسن للحافة

على عكس نماذج المحولات الثقيلة التي تتطلب ذاكرة CUDA كبيرة، يتميز YOLO26 بخاصية إزالة DFL (توزيع فقدان البؤرة) وهو محسّن خصيصاً للحوسبة على الحافة، مما يوفر استدلالاً أسرع بـ 43% على CPU مقارنة بالأجيال السابقة.

بالإضافة إلى ذلك، لا يقتصر YOLO26 على اكتشاف الأجسام البسيط. فهو متعدد الاستخدامات بطبيعته، ويدعم تجزئة المثيلات، وتقدير الوضعية، والصناديق المحيطة الموجهة (OBB) بشكل جاهز، في حين يركز PP-YOLOE+ بشكل أساسي على اكتشاف الصناديق المحيطة.

تعرف على المزيد حول YOLO26

Link to this sectionمنهجيات التدريب والنظام البيئي#

كفاءة التدريب وسهولة الاستخدام هما المكان الذي يتألق فيه النظام البيئي Ultralytics حقاً مقارنة بالمستودعات البحثية المستقلة. فبينما يعتمد PP-YOLOE+ على إطار عمل PaddlePaddle وغالباً ما يتطلب RTDETRv2 إعدادات بيئة معقدة، يوفر دمج النماذج عبر Ultralytics تجربة سلسة.

مع واجهة برمجة تطبيقات Ultralytics، يمكنك الاستفادة من متطلبات ذاكرة أقل أثناء التدريب، ومعالجة آلية لمجموعات البيانات، وضبط مبسط للمعلمات الفائقة. علاوة على ذلك، يمكن إنجاز نشر النماذج في تنسيقات الإنتاج مثل ONNX أو TensorRT بأمر واحد فقط.

Link to this sectionمثال كودي: استدلال مبسط#

فيما يلي عرض توضيحي لمدى سهولة استخدام RTDETRv2 جنباً إلى جنب مع نموذج YOLO26 الموصى به باستخدام حزمة Ultralytics Python:

from ultralytics import RTDETR, YOLO

# Initialize the RTDETRv2 model
model_rtdetr = RTDETR("rtdetr-l.pt")

# Perform NMS-free inference on a test image
results_rtdetr = model_rtdetr("https://ultralytics.com/images/bus.jpg")
results_rtdetr[0].show()

# For superior speed and versatility, initialize the latest YOLO26 model
model_yolo26 = YOLO("yolo26n.pt")

# Train the YOLO26 model effortlessly with optimized memory usage
model_yolo26.train(data="coco8.yaml", epochs=50, imgsz=640)

# Export to TensorRT for edge deployment
model_yolo26.export(format="engine")

Link to this sectionالتطبيقات الواقعية وحالات الاستخدام#

غالباً ما يعتمد الاختيار بين هذه المعماريات على الأجهزة المحددة ومتطلبات التطبيق.

  • يتفوق RTDETRv2 في بيئات الخادم وفهم المشاهد المعقدة. آليته للانتباه العالمي تجعله فعالاً للغاية في إدارة الحشود وتحليل الصور الطبية الكثيفة، حيث تؤدي الأجسام المتداخلة عادةً إلى فشل خوارزميات NMS القياسية.
  • يعد PP-YOLOE+ مناسباً جداً للفحص الصناعي عالي السرعة والبيئات المستثمرة بكثافة في نظام PaddlePaddle البيئي. إن انخفاض عدد المعلمات لديه عند المقاييس الأصغر يجعله قابلاً للتطبيق في بعض تطبيقات الروبوتات.
  • يعد Ultralytics YOLO26 هو الحل الموصى به عالمياً للنشر التجاري الشامل. بفضل وظائف ProgLoss + STAL المحسنة، فإنه يحسن بشكل كبير التعرف على الأجسام الصغيرة وهو أمر بالغ الأهمية لـ عمليات الطائرات بدون طيار ومراقبة حركة المرور في المدن الذكية.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين RT-DETR و PP-YOLOE+ على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

Link to this sectionمتى تختار RT-DETR#

RT-DETR خيار قوي لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار PP-YOLOE+#

يوصى بـ PP-YOLOE+ من أجل:

  • التكامل مع نظام PaddlePaddle البيئي: للمؤسسات التي لديها بنية تحتية موجودة مبنية على إطار عمل Baidu's PaddlePaddle.
  • النشر على أجهزة الحافة (Paddle Lite): عند النشر على أجهزة ذات أنوية استنتاج محسّنة خصيصاً لمحرك Paddle Lite أو محرك استنتاج Paddle.
  • الكشف عالي الدقة من جانب الخادم: السيناريوهات التي تعطي الأولوية لأقصى دقة للكشف على خوادم GPU قوية حيث لا يمثل الاعتماد على إطار عمل معين مصدر قلق.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionالخلاصة#

لقد دفع كل من RTDETRv2 و PP-YOLOE+ حدود ما هو ممكن في الرؤية الحاسوبية، مما أثبت جدوى كل من المحولات ومعماريات CNN المحسنة للغاية. ومع ذلك، فإن تعقيد نشر قواعد الأكواد البحثية المجزأة يمكن أن يعيق جداول زمنية للإنتاج.

بالنسبة لمهندسي الذكاء الاصطناعي المعاصرين، يوفر الاستفادة من منصة Ultralytics ميزة لا مثيل لها. من خلال الانتقال إلى نماذج متكاملة بسلاسة مثل YOLO11 أو نموذج YOLO26 المتطور، يمكن للفرق تحقيق أعلى نسب دقة إلى سرعة ممكنة مع تقليل متطلبات الذاكرة والنفقات العامة للتطوير بشكل كبير.

التعليقات