تخطي إلى المحتوى

YOLO26 مقابل RTDETRv2: مقارنة شاملة بين هياكل الكشف عن الكائنات الحديثة

يتطور مجال الرؤية الحاسوبية باستمرار، مما يضع الممارسين أمام خيار حاسم: هل يجب الاستفادة من الشبكات العصبية التلافيفية (CNN) عالية التحسين أم اعتماد البنى الأحدث القائمة على المحولات؟ هناك منافسان بارزان في هذا المجال هما Ultralytics و RTDETRv2 من Baidu. كلا النموذجين يوسعان حدود الكشف عن الكائنات في الوقت الفعلي، لكنهما يعتمدان على فلسفتين معماريتين مختلفتين جذريًا.

يقدم هذا الدليل تحليلاً تقنياً متعمقاً لكلا النموذجين، ويقارن بين هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدتك في اختيار الأساس الأفضل لمشروع الرؤية الحاسوبية التالي.

Ultralytics : قمة الذكاء الاصطناعي للرؤية التي تركز على الحافة

تم تطوير YOLO26 بواسطة Ultralytics، وهو يمثل قفزة جيلية هائلة YOLO . تم إصداره في يناير 2026، وهو مصمم خصيصًا للسرعة والدقة والنشر السلس عبر بيئات السحابة والحافة.

الابتكارات المعمارية ونقاط القوة

يقدم YOLO26 العديد من الميزات الرائدة التي تميزه ليس فقط عن نماذج Transformer ولكن أيضًا عن الإصدارات السابقة مثل YOLO11:

  • تصميم NMS من البداية إلى النهاية: يزيل YOLO26 تقنية Non-Maximum Suppression (NMS) التقليدية أثناء المعالجة اللاحقة. تم ابتكاره لأول مرة في نماذج مثل YOLOv10، يقلل هذا النهج الشامل أصلاً من تباين زمن الاستدلال ويبسط منطق النشر، خاصة على الأجهزة المتطورة.
  • CPU أسرع بنسبة تصل إلى 43٪ CPU : إدراكًا للحاجة المتزايدة إلى الذكاء الاصطناعي اللامركزي، تم تحسين YOLO26 بشكل كبير للأجهزة التي تفتقر إلى وحدات معالجة رسومات مخصصة، مثل Raspberry Pi.
  • إزالة DFL: من خلال إزالة Distribution Focal Loss (DFL)، يوفر YOLO26 عملية تصدير مبسطة وتوافقًا محسّنًا بشكل كبير مع الأجهزة الطرفية منخفضة الطاقة والميكروكونترولرات.
  • مُحسّن MuSGD: لسد الفجوة بين تدريب نموذج اللغة الكبيرة (LLM) والرؤية الحاسوبية، يستخدم YOLO26 مُحسّن MuSGD. هذا المزيج من SGD Muon — المستوحى من Kimi K2 من Moonshot AI — يضمن استقرارًا قويًا في التدريب وتقاربًا أسرع.
  • ProgLoss + STAL: توفر وظائف الخسارة المتقدمة تحسينات ملحوظة في التعرف على الأجسام الصغيرة. وهذا أمر بالغ الأهمية للصناعات التي تعتمد على تحليل الصور الجوية وأجهزة استشعار إنترنت الأشياء (IoT).

تعرف على المزيد حول YOLO26

تعدد الاستخدامات في مهام الرؤية

على عكس النماذج المقتصرة على الصناديق المحددة، فإن YOLO26 هو محرك متعدد الاستخدامات. فهو يشتمل على تحسينات خاصة بالمهام، مثل فقدان التجزئة الدلالية والبروتو متعدد المقاييس لتجزئة المثال، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع، وفقدان الزاوية المتخصص لحل مشكلات الحدود في مهام الصندوق المحدد الموجه (OBB).

استراتيجية نشر الحافة

عند النشر على الأجهزة الطرفية، استخدم YOLO26n (نانو) أو YOLO26s (صغيرة) المتغيرات. تصدير هذه النماذج إلى CoreML أو TFLite لا يوجد أي احتكاك بفضل إزالة DFL والبنية NMS مما يضمن أداءً سلسًا في الوقت الفعلي على iOS Android.

RTDETRv2: تحسين محولات الكشف في الوقت الفعلي

تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي. ويهدف إلى إثبات أن محولات الكشف (DETRs) يمكنها منافسة، وأحيانًا تجاوز، سرعة ودقة شبكات CNNs عالية التحسين في سيناريوهات الوقت الفعلي.

  • المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
  • المؤسسة:بايدو
  • التاريخ: 2024-07-24
  • Arxiv:2407.17140
  • GitHub:PyTorch RT-DETRv2 PyTorch
  • المستندات:RT-DETRv2

الهندسة المعمارية والقدرات

يستخدم RTDETRv2 بنية قائمة على المحولات، والتي تعالج الصور بطريقة مختلفة عن شبكات CNN من خلال الاستفادة من آليات الانتباه الذاتي لفهم السياق العام.

  • Bag-of-Freebies: تقدم النسخة v2 سلسلة من تقنيات التدريب المحسّنة (bag-of-freebies) التي تعمل على تحسين الأداء الأساسي دون إضافة تكلفة الاستدلال.
  • الوعي بالسياق العام: بفضل طبقات الانتباه في Transformer، يتميز RTDETRv2 بقدرة فطرية على فهم المشاهد المعقدة التي تتطلب سياقًا عامًا لتمييز الكائنات المتداخلة أو المحجوبة.

تعرف على المزيد حول RTDETR

قيود نماذج المحولات

على الرغم من قوتها، غالبًا ما تواجه نماذج الكشف القائمة على Transformer مثل RTDETRv2 تحديات في النشر العملي. فهي عادةً ما تتطلب CUDA أكبر أثناء التدريب مقارنةً بشبكات CNN الفعالة. علاوةً على ذلك، قد يكون دمجها في بيئات حافة متنوعة أمرًا صعبًا بسبب العمليات المعقدة التي تتطلبها طبقات الانتباه، مما يجعل نماذج مثل YOLO26 أكثر جاذبية للنشر في البيئات المحدودة الموارد.

مقارنة الأداء

يكشف تقييم هذه النماذج بشكل مباشر عن الفوائد الملموسة لأحدث تحسينات CNN. يوضح الجدول أدناه أداءها على المعايير القياسية.

النموذجالحجم
(بالبكسل)
mAPval
50-95
السرعة
وحدة المعالجة المركزية CPU ONNX
(بالمللي ثانية)
السرعة
T4 TensorRT10
(بالمللي ثانية)
المعلمات
(M)
FLOPs
(B)
YOLO26n64040.938.91.72.45.4
YOLO26s64048.687.22.59.520.7
YOLO26m64053.1220.04.720.468.2
YOLO26l64055.0286.26.224.886.4
YOLO26x64057.5525.811.855.7193.9
RTDETRv2-s64048.1-5.032060
RTDETRv2-m64051.9-7.5136100
RTDETRv2-l64053.4-9.7642136
RTDETRv2-x64054.3-15.0376259

كما هو موضح، يتفوق YOLO26 باستمرار على RTDETRv2 في جميع المتغيرات الحجمية. يحقق YOLO26x معدل دقة ملحوظًا mAP 57.5 mAP زمن انتقال أقل (11.8 مللي ثانية على TensorRT) وعدد أقل بكثير من المعلمات (55.7 مليون) مقارنةً بـ RTDETRv2-x (54.3 mAP 15.03 مللي ثانية، 76 مليون معلمة).

حالات الاستخدام والتوصيات

RT-DETR الاختيار بين YOLO26 و RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.

متى تختار YOLO26

YOLO26 هو خيار قوي لـ:

  • نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
  • بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
  • كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

  • أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
  • سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
  • كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.

ميزة Ultralytics

اختيار بنية التعلم الآلي المناسبة ليس سوى جزء من المعادلة؛ فالبيئة المحيطة هي التي تحدد مدى سرعة انتقال الفريق من مرحلة النموذج الأولي إلى مرحلة الإنتاج.

سهولة الاستخدام وكفاءة التدريب

توفر Python Ultralytics Python تجربة مبسطة بشكل ملحوظ. لم يعد تدريب النماذج المعقدة يتطلب كودًا نمطيًا مطولًا. علاوة على ذلك، فإن كفاءة تدريب YOLO26 أفضل بكثير، حيث تستخدم GPU أقل بكثير من آليات الانتباه كثيفة الاستخدام للذاكرة في RTDETRv2، مما يسمح بأحجام دفعات أكبر حتى على الأجهزة الاستهلاكية.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

نظام بيئي يتم صيانته جيدًا

من خلال استخدام Ultralytics ، يحصل المطورون على إمكانية الوصول إلى إطار عمل يتم صيانته بشكل نشط ويتكامل بشكل أصلي مع أدوات التتبع الحديثة مثل Weights & Biases و Comet . بالنسبة لأولئك الذين يفضلون نهجًا بدون كود، تسهل Ultralytics التدريب السحابي وإدارة مجموعات البيانات والنشر بنقرة واحدة.

موازنة الأداء

يحقق YOLO26 توازنًا لا مثيل له بين سرعة الاستدلال والدقة. يضمن إزالة NMS مع مُحسِّن MuSGD أنك تقوم بنشر نموذج يتميز بدقة عالية على الأجسام الصغيرة (بفضل ProgLoss + STAL) وسرعة فائقة في الإنتاج، مما يجعله الخيار الأفضل لجميع تطبيقات الرؤية الحاسوبية الحديثة تقريبًا.

نماذج أخرى في النظام البيئي

بينما يغطي YOLO26 و RTDETRv2 أحدث ما توصلت إليه تقنيات الكشف في الوقت الفعلي، قد يفكر المطورون الذين يحافظون على خطوط الإنتاج القديمة أو يستكشفون منحنيات كفاءة مختلفة في استخدام YOLOv8 لبيئات المؤسسات الراسخة، أو استكشاف بنى أخرى مثل EfficientDet. ومع ذلك، بالنسبة لأي مبادرة جديدة، فإن YOLO26 هو التوصية النهائية.


تعليقات