Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 مقابل EfficientDet#

يعد اختيار معمارية الشبكة العصبية المثالية خياراً حاسماً لأي مشروع رؤية حاسوبية. تقارن هذه المقالة التقنية الشاملة بين نموذجين مؤثرين في كشف الأجسام: RTDETRv2، وهو كاشف حديث قائم على Transformer، وEfficientDet، وهي شبكة عصبية تلافيفية قابلة للتوسع بدرجة كبيرة. سنقوم بتقييم معمارياتهما المميزة، ومقاييس الأداء، ومنهجيات التدريب، وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرارات مبنية على البيانات لمسارات عمل الذكاء الاصطناعي الخاصة بك.

Link to this sectionRTDETRv2: نموذج Transformer للكشف في الوقت الفعلي#

بناءً على نجاح نموذج RT-DETR الأصلي، يعمل RTDETRv2 على تحسين نموذج كشف الأجسام القائم على Transformer. ومن خلال تحسين هياكل المشفر (Encoder) وفك التشفير (Decoder)، فإنه يوفر دقة عالية مع الحفاظ على سرعات استدلال في الوقت الفعلي، مما يسد الفجوة بفعالية بين شبكات CNN التقليدية ونماذج Vision Transformer.

تفاصيل النموذج المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
المنظمة: Baidu التاريخ: 2024-07-24 روابط: Arxiv, GitHub, Docs

Link to this sectionالهيكلية ونقاط القوة الأساسية#

يستخدم RTDETRv2 بنية هجينة تجمع بين هيكل CNN قوي (غالباً ResNet أو HGNet) ووحدة فك ترميز Transformer فعالة. السمة الأكثر تميزاً لـ RTDETRv2 هي قدرته الأصلية على تجاوز خاصية منع التكرار (NMS). تتطلب أجهزة الكشف التقليدية NMS لتصفية صناديق الإحاطة المكررة، مما يضيف تأخراً في الاستدلال متغيراً أثناء المعالجة اللاحقة. يصيغ RTDETRv2 عملية الكشف كمشكلة تنبؤ مباشر بالمجموعة، مستخدماً المطابقة الثنائية لإنتاج تنبؤات فريدة.

يتفوق هذا النموذج في عمليات النشر على جانب الخادم حيث تكون ذاكرة GPU وفيرة. توفر آلية الانتباه العالمية الخاصة به وعياً سياقياً استثنائياً، مما يجعله بارعاً للغاية في فصل الأجسام المتداخلة في البيئات المزدحمة والمكتظة مثل أنظمة إنذار أمني مؤتمتة أو مراقبة الحشود الكثيفة.

Link to this sectionالقيود#

على الرغم من قوتها، تتطلب بنية Transformer بطبيعتها المزيد من ذاكرة CUDA أثناء التدريب مقارنة بـ CNN القياسية. علاوة على ذلك، قد يتطلب الضبط الدقيق لـ RTDETRv2 أوقات تقارب أطول لـ بيانات التدريب، مما يجعل النمذجة الأولية السريعة أكثر استهلاكاً للموارد قليلاً.

اعرف المزيد عن RTDETRv2

Link to this sectionEfficientDet: شبكات CNN قابلة للتوسع وفعالة#

قدم EfficientDet عائلة من نماذج اكتشاف الكائنات المحسّنة لتحقيق كل من الدقة والكفاءة عبر نطاق واسع من قيود الموارد. ويظل مثالاً كلاسيكياً لتصميم الرؤية الحاسوبية القابل للتوسع.

تفاصيل النموذج المؤلفون: Mingxing Tan, Ruoming Pang, and Quoc V. Le
المنظمة: Google
التاريخ: 2019-11-20
روابط: Arxiv, GitHub, Docs

Link to this sectionالهيكلية ونقاط القوة الأساسية#

يكمن الابتكار وراء EfficientDet في مجالين رئيسيين: شبكة الهرم الميزات ثنائية الاتجاه (BiFPN) وطريقة التوسع المركب. يسمح BiFPN بـ استخراج ميزات بسيط وسريع متعدد المقاييس من خلال تقديم أوزان قابلة للتعلم لمعرفة أهمية ميزات الإدخال المختلفة، مع تطبيق دمج الميزات متعدد المقاييس من الأعلى إلى الأسفل ومن الأسفل إلى الأعلى بشكل متكرر. تعمل طريقة التوسع المركب على توسيع الدقة والعمق والعرض للشبكة بشكل موحد ومتزامن.

تتراوح نماذج EfficientDet من D0 خفيف الوزن للغاية إلى D7 الضخم. وهذا يجعلها متعددة الاستخدامات بشكل كبير لعمليات نشر الذكاء الاصطناعي عند الحافة حيث يتعين على المطورين موازنة ميزانيات الحوسبة المحدودة مع متطلبات الدقة، مثل تطبيقات الواقع المعزز المبكرة على الهواتف المحمولة.

Link to this sectionالقيود#

EfficientDet هي معمارية قديمة تعتمد بشكل كبير على صناديق الإرساء (anchor boxes) وخط أنابيب المعالجة اللاحقة التقليدي NMS. تتطلب عملية إنشاء الصناديق ضبطاً دقيقاً للمعاملات الفائقة، ويمكن أن تشكل خطوة NMS عنق زجاجة عند النشر على الأجهزة المضمنة مثل Raspberry Pi. كما أنها تفتقر إلى الدعم الأصلي لمهام حديثة مثل تقدير الوضع أو صناديق الإحاطة الموجهة (OBB).

اعرف المزيد عن EfficientDet

Link to this sectionمقارنة الأداء والمقاييس#

يتطلب فهم المقايضات الدقيقة بين هذه النماذج تحليل إنتاجيتها وكفاءة معاملاتها. يوضح الجدول أدناه كيفية مقارنة سلسلة RTDETRv2 الحديثة مع عائلة EfficientDet القابلة للتوسع.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

كما رأينا أعلاه، يحقق RTDETRv2 متوسط دقة متوسط (mAP) أعلى بكثير عند عدد معلمات مشابه لنماذج EfficientDet متوسطة المستوى، مستفيداً بشكل كبير من بنية Transformer الخاصة به لتعزيز الدقة.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين RT-DETR وEfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار RT-DETR#

RT-DETR خيار قوي لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار EfficientDet#

يُنصح باستخدام EfficientDet في الحالات التالية:

  • خطوط أنابيب Google Cloud وTPU: الأنظمة المتكاملة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
  • أبحاث القياس المركب (Compound Scaling): المقارنة المعيارية الأكاديمية التي تركز على دراسة تأثيرات موازنة عمق الشبكة، وعرضها، وتوسيع نطاق الدقة.
  • النشر عبر الهاتف المحمول باستخدام TFLite: المشاريع التي تتطلب تحديداً تصدير TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionبديل Ultralytics: دفع حدود التكنولوجيا الحديثة#

على الرغم من أن كلاً من RTDETRv2 وEfficientDet يتمتعان بمزايا قوية، فإن تطوير الذكاء الاصطناعي الحديث يتطلب أطراً توفر تجربة مطور سلسة جنباً إلى جنب مع أداء متطور. يوفر نظام Ultralytics البيئي نهجاً مبسطاً بشكل ملحوظ لمهام الرؤية الحاسوبية.

إذا كنت تستكشف أحدث تقنيات الكشف، فإن Ultralytics YOLO26 الذي تم إصداره حديثاً يجمع بين أفضل جوانب كل من شبكات CNN وtransformers.

لماذا تختار YOLO26؟

يطبق YOLO26 تصميماً من طرف إلى طرف بدون NMS، مما يجلب بساطة النشر لـ RTDETRv2 إلى بنية YOLO فائقة الكفاءة. علاوة على ذلك، يقدم محسن MuSGD—المستوحى من ابتكارات تدريب LLM—لاستقرار تدريب فائق. مع إزالة DFL (تمت إزالة خسارة البؤرة التوزيعية للتصدير المبسط وتحسين التوافق مع أجهزة الحافة/منخفضة الطاقة)، يفتخر YOLO26 بـ استدلال CPU أسرع بنسبة تصل إلى 43% مقارنة بالأجيال السابقة، مما يجعله خياراً استثنائياً لـ الحوسبة عند الحافة مقارنة بالنماذج الأثقل. بالإضافة إلى ذلك، تقدم ProgLoss + STAL دوال خسارة محسّنة مع تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو أمر بالغ الأهمية لإنترنت الأشياء، والروبوتات، والصور الجوية.

سهولة الاستخدام التي توفرها حزمة Python من Ultralytics لا تضاهى. يمكن للمطورين التدريب والتحقق من الصحة وتصدير النماذج باستخدام واجهة برمجة تطبيقات (API) بديهية تختصر الكود النموذجي المطلوب عادةً بواسطة مستودعات الأبحاث.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

تدعم نماذج Ultralytics أصلياً مهام متعددة، بما في ذلك تجزئة الأجسام (instance segmentation) وتصنيف الصور، مما يوفر مجموعة أدوات متعددة الاستخدامات لاحتياجات الصناعة المتنوعة. علاوة على ذلك، فإن إزالة Distribution Focal Loss (DFL) في نماذج Ultralytics الحديثة تبسط الرسم البياني الحسابي، مما يضمن تصديراً أكثر سلاسة إلى NPUs وTPUs المضمنة.

من أجل تعليق البيانات السلس وإدارة النماذج، توفر منصة Ultralytics بيئة سحابية شاملة للإشراف على دورة حياة تعلم الآلة بأكملها، مما يرسخ مكانتها كخيار أول لنشر حلول رؤية حاسوبية قوية في بيئات الإنتاج.

التعليقات