Meet YOLO26: next-gen vision AI.

Link to this sectionRTDETRv2 مقابل EfficientDet: تحليل معماريات الكشف في الوقت الفعلي#

يعد اختيار معمارية الشبكة العصبية المثالية خياراً حاسماً لأي مشروع رؤية حاسوبية. تقارن هذه المقالة التقنية الشاملة بين نموذجين مؤثرين في كشف الأجسام: RTDETRv2، وهو كاشف حديث قائم على Transformer، وEfficientDet، وهي شبكة عصبية تلافيفية قابلة للتوسع بدرجة كبيرة. سنقوم بتقييم معمارياتهما المميزة، ومقاييس الأداء، ومنهجيات التدريب، وسيناريوهات النشر المثالية لمساعدتك في اتخاذ قرارات مبنية على البيانات لمسارات عمل الذكاء الاصطناعي الخاصة بك.

Link to this sectionRTDETRv2: نموذج Transformer للكشف في الوقت الفعلي#

بناءً على نجاح نموذج RT-DETR الأصلي، يعمل RTDETRv2 على تحسين نموذج كشف الأجسام القائم على Transformer. ومن خلال تحسين هياكل المشفر (Encoder) وفك التشفير (Decoder)، فإنه يوفر دقة عالية مع الحفاظ على سرعات استدلال في الوقت الفعلي، مما يسد الفجوة بفعالية بين شبكات CNN التقليدية ونماذج Vision Transformer.

تفاصيل النموذج المؤلفون: Wenyu Lv, Yian Zhao, Qinyao Chang, Kui Huang, Guanzhong Wang, and Yi Liu
المنظمة: Baidu التاريخ: 2024-07-24 روابط: Arxiv, GitHub, Docs

Link to this sectionالهيكلية ونقاط القوة الأساسية#

RTDETRv2 utilizes a hybrid architecture that pairs a potent CNN backbone (often ResNet or HGNet) with an efficient transformer decoder. The most defining characteristic of RTDETRv2 is its native ability to bypass non-maximum suppression (NMS). Traditional detectors require NMS to filter out duplicate bounding boxes, adding variable inference latency during post-processing. RTDETRv2 formulates detection as a direct set prediction problem, utilizing bipartite matching to output unique predictions.

يتفوق هذا النموذج في عمليات النشر على جانب الخادم حيث تكون ذاكرة GPU وفيرة. توفر آلية الانتباه العالمية الخاصة به وعياً سياقياً استثنائياً، مما يجعله بارعاً للغاية في فصل الأجسام المتداخلة في البيئات المزدحمة والمكتظة مثل أنظمة إنذار أمني مؤتمتة أو مراقبة الحشود الكثيفة.

Link to this sectionالقيود#

While powerful, transformer architectures inherently require more CUDA memory during training compared to standard CNNs. Furthermore, fine-tuning RTDETRv2 can require extended training data convergence times, making rapid prototyping slightly more resource-intensive.

اعرف المزيد عن RTDETRv2

Link to this sectionEfficientDet: شبكات CNN قابلة للتوسع وفعالة#

EfficientDet introduced a family of object detection models optimized for both accuracy and efficiency across a wide spectrum of resource constraints. It remains a classic example of scalable machine vision design.

تفاصيل النموذج المؤلفون: Mingxing Tan, Ruoming Pang, and Quoc V. Le
المنظمة: Google
التاريخ: 2019-11-20
روابط: Arxiv, GitHub, Docs

Link to this sectionالهيكلية ونقاط القوة الأساسية#

The innovation behind EfficientDet lies in two key areas: the Bi-directional Feature Pyramid Network (BiFPN) and a compound scaling method. BiFPN allows for simple and fast multi-scale feature extraction by introducing learnable weights to learn the importance of different input features, while repeatedly applying top-down and bottom-up multi-scale feature fusion. The compound scaling method uniformly scales the resolution, depth, and width of the network simultaneously.

EfficientDet models range from the ultra-lightweight D0 to the massive D7. This makes them highly versatile for edge AI deployments where developers must balance tight computational budgets with accuracy requirements, such as early mobile augmented reality applications.

Link to this sectionالقيود#

EfficientDet هي معمارية قديمة تعتمد بشكل كبير على صناديق الإرساء (anchor boxes) وخط أنابيب المعالجة اللاحقة التقليدي NMS. تتطلب عملية إنشاء الصناديق ضبطاً دقيقاً للمعاملات الفائقة، ويمكن أن تشكل خطوة NMS عنق زجاجة عند النشر على الأجهزة المضمنة مثل Raspberry Pi. كما أنها تفتقر إلى الدعم الأصلي لمهام حديثة مثل تقدير الوضع أو صناديق الإحاطة الموجهة (OBB).

اعرف المزيد عن EfficientDet

Link to this sectionمقارنة الأداء والمقاييس#

يتطلب فهم المقايضات الدقيقة بين هذه النماذج تحليل إنتاجيتها وكفاءة معاملاتها. يوضح الجدول أدناه كيفية مقارنة سلسلة RTDETRv2 الحديثة مع عائلة EfficientDet القابلة للتوسع.

النموذجالحجم
(بكسل)
mAPval
50-95
السرعة
CPU ONNX
(ms)
السرعة
T4 TensorRT10
(ms)
المعلمات
(M)
FLOPs
(B)
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259
EfficientDet-d064034.610.23.923.92.54
EfficientDet-d164040.513.57.316.66.1
EfficientDet-d264043.017.710.928.111.0
EfficientDet-d364047.528.019.5912.024.9
EfficientDet-d464049.742.833.5520.755.2
EfficientDet-d564051.572.567.8633.7130.0
EfficientDet-d664052.692.889.2951.9226.0
EfficientDet-d764053.7122.0128.0751.9325.0

As seen above, RTDETRv2 achieves significantly higher mean Average Precision (mAP) at comparable parameter counts to the mid-tier EfficientDet models, heavily utilizing its transformer architecture to boost accuracy.

Link to this sectionحالات الاستخدام والتوصيات#

يعتمد الاختيار بين RT-DETR وEfficientDet على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

Link to this sectionمتى تختار RT-DETR#

RT-DETR خيار قوي لـ:

  • أبحاث الاكتشاف القائمة على Transformer: المشاريع التي تستكشف آليات الانتباه وهياكل transformer لاكتشاف الكائنات بنهاية واحدة دون NMS.
  • سيناريوهات الدقة العالية مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الاكتشاف هي الأولوية القصوى ويكون زمن انتقال الاستنتاج الأعلى قليلاً مقبولاً.
  • اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة حيث توفر آلية الانتباه العالمي للمحولات ميزة طبيعية.

Link to this sectionمتى تختار EfficientDet#

يُنصح باستخدام EfficientDet في الحالات التالية:

  • خطوط أنابيب Google Cloud وTPU: الأنظمة المتكاملة بعمق مع واجهات برمجة تطبيقات Google Cloud Vision أو بنية TPU التحتية حيث يتمتع EfficientDet بتحسين أصلي.
  • أبحاث القياس المركب (Compound Scaling): المقارنة المعيارية الأكاديمية التي تركز على دراسة تأثيرات موازنة عمق الشبكة، وعرضها، وتوسيع نطاق الدقة.
  • النشر على الأجهزة المحمولة عبر TFLite: المشاريع التي تتطلب بشكل خاص التصدير إلى TensorFlow Lite لأجهزة Android أو أجهزة Linux المدمجة.

Link to this sectionمتى تختار Ultralytics (YOLO26)#

بالنسبة لمعظم المشاريع الجديدة، يقدم Ultralytics YOLO26 أفضل مزيج من الأداء وتجربة المطور:

  • نشر الحافة الخالي من NMS: التطبيقات التي تتطلب استنتاجاً متسقاً ومنخفض زمن الانتقال دون تعقيدات معالجة ما بعد المعالجة باستخدام كبت غير الأقصى.
  • بيئات وحدة المعالجة المركزية (CPU) فقط: الأجهزة التي لا تحتوي على تسريع مخصص بوحدة معالجة الرسوميات (GPU)، حيث توفر سرعة استنتاج CPU أسرع بنسبة تصل إلى 43% في YOLO26 ميزة حاسمة.
  • اكتشاف الكائنات الصغيرة: السيناريوهات الصعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات IoT حيث تعزز ProgLoss و STAL الدقة بشكل كبير على الكائنات الصغيرة جداً.

Link to this sectionبديل Ultralytics: دفع حدود التكنولوجيا الحديثة#

على الرغم من أن كلاً من RTDETRv2 وEfficientDet يتمتعان بمزايا قوية، فإن تطوير الذكاء الاصطناعي الحديث يتطلب أطراً توفر تجربة مطور سلسة جنباً إلى جنب مع أداء متطور. يوفر نظام Ultralytics البيئي نهجاً مبسطاً بشكل ملحوظ لمهام الرؤية الحاسوبية.

إذا كنت تستكشف أحدث تقنيات الكشف، فإن Ultralytics YOLO26 الذي تم إصداره حديثاً يجمع بين أفضل جوانب كل من شبكات CNN وtransformers.

لماذا تختار YOLO26؟

YOLO26 implements an End-to-End NMS-Free Design, bringing the deployment simplicity of RTDETRv2 to the ultra-efficient YOLO architecture. Furthermore, it introduces the MuSGD Optimizer—inspired by LLM training innovations—for superior training stability. With DFL Removal (Distribution Focal Loss removed for simplified export and better edge/low-power device compatibility), YOLO26 boasts up to 43% faster CPU inference than previous generations, making it an exceptional choice for edge computing over heavier models. Additionally, ProgLoss + STAL delivers improved loss functions with notable improvements in small-object recognition, critical for IoT, robotics, and aerial imagery.

سهولة الاستخدام التي توفرها حزمة Python من Ultralytics لا تضاهى. يمكن للمطورين التدريب والتحقق من الصحة وتصدير النماذج باستخدام واجهة برمجة تطبيقات (API) بديهية تختصر الكود النموذجي المطلوب عادةً بواسطة مستودعات الأبحاث.

from ultralytics import RTDETR

# Load a pre-trained RTDETRv2 model from the Ultralytics ecosystem
model = RTDETR("rtdetr-l.pt")

# Train the model on the COCO8 dataset
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Export for optimized inference on TensorRT
model.export(format="engine")

تدعم نماذج Ultralytics أصلياً مهام متعددة، بما في ذلك تجزئة الأجسام (instance segmentation) وتصنيف الصور، مما يوفر مجموعة أدوات متعددة الاستخدامات لاحتياجات الصناعة المتنوعة. علاوة على ذلك، فإن إزالة Distribution Focal Loss (DFL) في نماذج Ultralytics الحديثة تبسط الرسم البياني الحسابي، مما يضمن تصديراً أكثر سلاسة إلى NPUs وTPUs المضمنة.

من أجل تعليق البيانات السلس وإدارة النماذج، توفر منصة Ultralytics بيئة سحابية شاملة للإشراف على دورة حياة تعلم الآلة بأكملها، مما يرسخ مكانتها كخيار أول لنشر حلول رؤية حاسوبية قوية في بيئات الإنتاج.

التعليقات