RTDETRv2 مقابل YOLO26: المحولات مقابل شبكات CNN من الجيل التالي في الكشف عن الكائنات في الوقت الفعلي

يتطور مجال الكشف عن الأجسام في الوقت الفعلي باستمرار، حيث تتنافس حالياً بنية أساسية رئيسية على الهيمنة: RTDETRv2 القائمة على المحول و YOLO26 القائمة على CNN. في حين يهدف كلا النموذجين إلى حل التحدي الأساسي المتمثل في الكشف عن الأجسام بسرعة ودقة، فإنهما يتعاملان مع المشكلة بفلسفات وخيارات معمارية مختلفة تماماً.

يقدم هذا الدليل نظرة متعمقة على المواصفات الفنية ومقاييس الأداء وحالات الاستخدام المثالية لكلا الطرازين، مما يساعدك على تحديد البنية الأكثر ملاءمة لاحتياجات النشر لديك.

نظرة عامة على RTDETRv2

يمثل RTDETRv2 (Real-Time DEtection TRansformer v2) تطورًا في عائلة DETR (DEtection TRansformer)، في محاولة لجلب قوة محولات الرؤية إلى التطبيقات في الوقت الفعلي. بناءً على RT-DETR الأصلي، تركز هذه النسخة على المرونة وتقارب التدريب.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24 (إصدار v2)
الورقة:RT-DETRv2: تحسين خط الأساس باستخدام Bag-of-Freebies من أجل محول الكشف في الوقت الفعلي
GitHub:RT-DETR Repository

يستخدم RTDETRv2 بنية هجينة تجمع بين العمود الفقري لشبكة CNN ومشفّر-مفكّك محوّل. ومن الميزات الرئيسية لهذه البنية "Bag-of-Freebies"، التي تتضمن استراتيجيات تدريب محسّنة وتعديلات على البنية لتعزيز سرعة التقارب مقارنة بالمحولات التقليدية. ومع ذلك، فإنه يعتمد بشكل كبير، مثل سابقيه، على GPU لإجراء عمليات ضرب المصفوفات بكفاءة، وهي عملية متأصلة في آليات الانتباه.

تعرف على المزيد حول RT-DETR

نظرة عامة على YOLO26

يمثل YOLO26 أحدث قفزة في سلسلة You Only Look Once، التي صممتها Ultralytics حدود الكفاءة على الأجهزة المتطورة. وهو يمثل اختلافًا كبيرًا عن الأجيال السابقة من خلال اعتماد تصميم أصلي شامل NMS مع الاحتفاظ بمزايا السرعة التي تتمتع بها الشبكات العصبية التلافيفية (CNNs).

المؤلفون: غلين جوشر وجينغ تشيو
المؤسسة:Ultralytics
التاريخ: 2026-01-14
الوثائق:وثائق YOLO26
GitHub:Ultralytics Repository

تم تصميم YOLO26 من أجل النشر "الذي يركز على الحافة أولاً". وهو يقدم مُحسِّن MuSGD — المستوحى من استقرار تدريب LLM — ويزيل Distribution Focal Loss (DFL) لتبسيط تصدير النموذج. وتؤدي هذه التغييرات إلى نموذج ليس فقط عالي الدقة، بل وسريع للغاية على الأجهزة CPU حيث غالبًا ما تواجه المحولات صعوبات.

تعرف على المزيد حول YOLO26

مقارنة فنية

يوضح الجدول التالي الفروق في الأداء بين RTDETRv2 و YOLO26. لاحظ الفرق الكبير في سرعات CPU وكفاءة المعلمات.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

الهندسة المعمارية والتصميم

يكمن الاختلاف الأساسي في كيفية معالجة هذه النماذج للبيانات المرئية.

يعتمد RTDETRv2 على آلية الانتباه. في حين أن هذا يسمح للنموذج بالتقاط السياق العام (فهم العلاقات بين وحدات البكسل البعيدة)، إلا أنه يأتي بتكلفة حسابية تربيعية بالنسبة لحجم الصورة. وهذا يجعل الاستدلال عالي الدقة مكلفًا. وهو يلغي الحاجة إلى القمع غير الأقصى (NMS) باستخدام المطابقة الثنائية أثناء التدريب، وهي سمة مشتركة مع YOLO26 الجديد.

يستفيد YOLO26 من بنية CNN المتقدمة، ولكنه يقدم تصميمًا مبتكرًا من طرف إلى طرف NMS. تاريخيًا، كانت YOLOs تتطلب NMS لإزالة المربعات المحددة المكررة. يزيل YOLO26 هذه الخطوة بشكل أساسي، على غرار DETRs، ولكن دون الحاجة إلى الحمل الحسابي الثقيل للمحولات. بالإضافة إلى ذلك، فإن إزالة Distribution Focal Loss (DFL) يبسط البنية للتصدير إلى تنسيقات مثل ONNX TensorRT مما يضمن توافقًا أوسع مع مسرعات الحافة منخفضة الطاقة.

كفاءة التدريب والتحسين

تعد كفاءة التدريب عاملاً حاسماً للفرق التي تعمل على مجموعات بيانات مخصصة.

يقدم YOLO26 مُحسّن MuSGD، وهو مزيج من SGD Muon. مستوحى من الابتكارات في تدريب نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يوفر هذا المُحسّن استقرارًا محسّنًا وتقاربًا أسرع لمهام الرؤية. بالاقتران مع ProgLoss (الخسارة التقدمية) و STAL (التعلم الذاتي للمرساة)، يوفر YOLO26 أوقات تدريب سريعة واستخدام أقل للذاكرة، مما يسمح بأحجام دفعات أكبر على وحدات معالجة الرسومات (GPU) المخصصة للمستهلكين.
يتطلب RTDETRv2 عمومًا المزيد GPU (VRAM) وجداول تدريب أطول لتثبيت طبقات الانتباه الخاصة به. من المعروف أن المحولات تستهلك الكثير من البيانات ويمكن أن تكون أبطأ في التכנס مقارنة بنظيراتها من CNN.

كفاءة الذاكرة

تتميز بنية YOLO26 القائمة على CNN بكفاءة أكبر في استخدام الذاكرة مقارنة بالبدائل القائمة على المحولات. وهذا يتيح لك تدريب نماذج أكبر على وحدات معالجة الرسومات (GPU) ذات ذاكرة VRAM محدودة (مثل RTX 3060 أو 4060) أو استخدام أحجام دفعات أكبر للحصول على تدرجات أكثر استقرارًا.

تحليل التطبيقات في العالم الواقعي

يعتمد الاختيار بين هذه النماذج بشكل كبير على قيود الأجهزة الخاصة بك ومتطلبات الدقة.

أين يتفوق YOLO26

1. Edge AI و IoT: بفضل CPU أسرع بنسبة تصل إلى 43٪، يعد YOLO26 ملك الحافة بلا منازع. بالنسبة للتطبيقات التي تعمل على Raspberry Pi أو NVIDIA Nano أو الهواتف المحمولة، غالبًا ما تكون تكلفة كتل المحولات RTDETRv2 باهظة. يوفر YOLO26n (Nano) سرعات في الوقت الفعلي على وحدات المعالجة المركزية (CPU) حيث تقيس المحولات زمن الوصول بالثواني وليس بالمللي ثانية.

2. الروبوتات والملاحة: يعد تصميم YOLO26 NMS أمرًا بالغ الأهمية للروبوتات. من خلال إزالة خطوة NMS ، يقلل YOLO26 من تباين زمن الاستجابة، مما يوفر أوقات استدلال متسقة وحتمية مطلوبة لمهام الملاحة والتلاعب عالية السرعة.

3. مهام رؤية متنوعة: YOLO26 ليس مجرد كاشف. يدعم Ultralytics مجموعة من المهام بشكل أساسي:

تجزئة المثيل: لفهم الكائنات على مستوى البكسل.
تقدير الوضع: استخدام تقدير الاحتمالية اللوغاريتمية المتبقية (RLE) للحصول على نقاط مرجعية عالية الدقة.
مربع الحدود الموجه (OBB): وظائف فقدان الزاوية المتخصصة للكشف عن الأجسام الدوارة مثل السفن أو المركبات الجوية.

أين يتناسب RTDETRv2

RTDETRv2 هي في الأساس بنية تركز على البحث. وهي الأنسب للسيناريوهات التالية:

السياق العالمي أكثر أهمية من السمات المحلية (مثل بعض مهام التصوير الطبي).
لا توجد قيود على الأجهزة، وتتوفر وحدات معالجة رسومات (GPU) عالية الجودة من فئة الخوادم (مثل NVIDIA أو H100s) للاستخدام.
التحيزات الاستقرائية المحددة للمحولات مطلوبة لمشكلة بحثية متخصصة.

ومع ذلك، بالنسبة لبيئات الإنتاج، Ultralytics يؤدي عدم وجود نظام بيئي ناضج للنشر مقارنةً بـ Ultralytics إلى حدوث احتكاك.

ميزة Ultralytics

بالإضافة إلى المقاييس الأولية، يلعب النظام البيئي للبرمجيات دورًا حيويًا في نجاح المشروع. يستفيد YOLO26 من Ultralytics القوية، التي تعمل على تبسيط دورة حياة MLOps بأكملها.

سهولة الاستخدام: تعني تجربة "من الصفر إلى البطل" أنه يمكنك تحميل نموذج وتدريبه ونشره في أقل من 10 أسطر من Python .
نظام بيئي جيد الصيانة: على عكس مستودعات الأبحاث التي قد تمر شهور دون تحديثات، Ultralytics تصحيحات متكررة ودعمًا نشطًا من المجتمع ووثائق شاملة.
مرونة النشر: سواء كنت بحاجة إلى التشغيل على iOS CoreML أو على متصفح ويب باستخدام TF.js، أو على وحدة معالجة TPU متطورة، فإن أوضاع التصدير المدمجة تجعل عملية الانتقال سلسة.

مثال على الكود: البدء مع YOLO26

يوضح المثال التالي مدى سهولة تدريب نموذج YOLO26 باستخدامPython Ultralytics Python . تتناقض هذه البساطة مع ملفات التكوين المعقدة التي غالبًا ما تتطلبها نماذج المحولات القائمة على الأبحاث.

from ultralytics import YOLO

# Load the YOLO26 Nano model (efficient for edge devices)
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset
# The MuSGD optimizer and ProgLoss are handled automatically
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Run inference on an image
# NMS-free prediction ensures low latency
results = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for broad deployment compatibility
path = model.export(format="onnx")

الخلاصة

بينما يبرهن RTDETRv2 على الإمكانات الأكاديمية للمحولات في مجال الكشف، يقدم Ultralytics حلاً أكثر عملية وكفاءة وتنوعاً للغالبية العظمى من التطبيقات الواقعية.

إن المزيج الفريد من بنية NMS الشاملة، وتحسين MuSGD، والأداء المتفوق على الحافة يجعل YOLO26 الخيار الأمثل لعام 2026. سواء كنت تبني نظام كاميرات ذكي، أو طائرة بدون طيار ذاتية القيادة، أو خط أنابيب لتحليل الفيديو عالي الإنتاجية، فإن YOLO26 يوفر التوازن بين السرعة والدقة اللازمين للانتقال من النموذج الأولي إلى الإنتاج بثقة.

بالنسبة للمطورين المهتمين بخيارات أخرى متطورة، يدعم Ultralytics أيضًا YOLO11 و RT-DETRالأصلي، مما يتيح إجراء مقارنات مرجعية بسهولة ضمن واجهة برمجة تطبيقات موحدة.