YOLO26 مقابل RTDETRv2: مقارنة شاملة بين هياكل الكشف عن الكائنات الحديثة

يتطور مجال الرؤية الحاسوبية باستمرار، مما يضع الممارسين أمام خيار حاسم: هل يجب الاستفادة من الشبكات العصبية التلافيفية (CNN) عالية التحسين أم اعتماد البنى الأحدث القائمة على المحولات؟ هناك منافسان بارزان في هذا المجال هما Ultralytics و RTDETRv2 من Baidu. كلا النموذجين يوسعان حدود الكشف عن الكائنات في الوقت الفعلي، لكنهما يعتمدان على فلسفتين معماريتين مختلفتين جذريًا.

يقدم هذا الدليل تحليلاً تقنياً متعمقاً لكلا النموذجين، ويقارن بين هياكلهما ومقاييس أدائهما وحالات الاستخدام المثالية لمساعدتك في اختيار الأساس الأفضل لمشروع الرؤية الحاسوبية التالي.

Ultralytics : قمة الذكاء الاصطناعي للرؤية التي تركز على الحافة

تم تطوير YOLO26 بواسطة Ultralytics، وهو يمثل قفزة جيلية هائلة YOLO . تم إصداره في يناير 2026، وهو مصمم خصيصًا للسرعة والدقة والنشر السلس عبر بيئات السحابة والحافة.

المؤلفون: غلين جوشر وجينغ تشيو
المؤسسة:Ultralytics
التاريخ: 2026-01-14
GitHub:Ultralytics Repository
الوثائق:الوثائق الرسمية لـ YOLO26

الابتكارات ونقاط القوة المعمارية

يقدم YOLO26 العديد من الميزات الرائدة التي تميزه ليس فقط عن نماذج Transformer ولكن أيضًا عن الإصدارات السابقة مثل YOLO11:

تصميم شامل خالٍ من NMS: يلغي YOLO26 قمع غير الأقصى (NMS) التقليدي أثناء المعالجة اللاحقة. الذي كان رائداً في نماذج مثل YOLOv10، يقلل هذا النهج الشامل بطبيعته من تباين زمن انتقال الاستدلال ويبسط منطق النشر، خاصة على الأجهزة الطرفية.
استدلال أسرع على CPU بنسبة تصل إلى 43%: إدراكًا للحاجة المتزايدة للذكاء الاصطناعي اللامركزي، تم تحسين YOLO26 بشكل كبير للأجهزة التي تفتقر إلى وحدات GPU مخصصة، مثل Raspberry Pi.
إزالة DFL: بإزالة خسارة التركيز التوزيعي (DFL)، يوفر YOLO26 عملية تصدير مبسطة وتوافقًا محسّنًا بشكل كبير مع الأجهزة الطرفية منخفضة الطاقة ووحدات التحكم الدقيقة.
مُحسِّن MuSGD: لسد الفجوة بين تدريب نماذج اللغات الكبيرة (LLM) والرؤية الحاسوبية، يستخدم YOLO26 مُحسِّن MuSGD. هذا الهجين من SGD و Muon—المستوحى من Kimi K2 من Moonshot AI—يضمن استقرارًا قويًا للتدريب وتقاربًا أسرع.
ProgLoss + STAL: وظائف الخسارة المتقدمة تحقق تحسينات ملحوظة في التعرف على الكائنات الصغيرة. وهذا أمر بالغ الأهمية للصناعات التي تعتمد على تحليل الصور الجوية وأجهزة استشعار إنترنت الأشياء (IoT).

تعرف على المزيد حول YOLO26

تعدد الاستخدامات في مهام الرؤية

على عكس النماذج المقتصرة على الصناديق المحددة، فإن YOLO26 هو محرك متعدد الاستخدامات. فهو يشتمل على تحسينات خاصة بالمهام، مثل فقدان التجزئة الدلالية والبروتو متعدد المقاييس لتجزئة المثال، وتقدير الاحتمالية اللوغاريتمية المتبقية (RLE) لتقدير الوضع، وفقدان الزاوية المتخصص لحل مشكلات الحدود في مهام الصندوق المحدد الموجه (OBB).

استراتيجية نشر الحافة

عند النشر على الأجهزة الطرفية، استخدم YOLO26n (نانو) أو YOLO26s (صغيرة) المتغيرات. تصدير هذه النماذج إلى CoreML أو TFLite لا يوجد أي احتكاك بفضل إزالة DFL والبنية NMS مما يضمن أداءً سلسًا في الوقت الفعلي على iOS Android.

RTDETRv2: تحسين محولات الكشف في الوقت الفعلي

تم تطوير RTDETRv2 بواسطة باحثين في Baidu، وهو يعتمد على RT-DETR الأصلي. ويهدف إلى إثبات أن محولات الكشف (DETRs) يمكنها منافسة، وأحيانًا تجاوز، سرعة ودقة شبكات CNNs عالية التحسين في سيناريوهات الوقت الفعلي.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
Arxiv:2407.17140
GitHub:تطبيق RT-DETRv2 PyTorch
الوثائق:ملف README لـ RT-DETRv2

الهندسة المعمارية والقدرات

يستخدم RTDETRv2 بنية قائمة على المحولات، والتي تعالج الصور بطريقة مختلفة عن شبكات CNN من خلال الاستفادة من آليات الانتباه الذاتي لفهم السياق العام.

حقيبة المجانيات: يقدم الإصدار الثاني سلسلة من تقنيات التدريب المحسّنة (حقيبة المجانيات) التي تحسن الأداء الأساسي دون إضافة تكلفة استدلال.
الوعي بالسياق العالمي: بفضل طبقات انتباه Transformer، يتميز RTDETRv2 بطبيعته في فهم المشاهد المعقدة حيث يكون السياق العالمي ضروريًا لتمييز الكائنات المتداخلة أو المحجوبة.

تعرف على المزيد حول RTDETR

قيود نماذج المحولات

على الرغم من قوتها، غالبًا ما تواجه نماذج الكشف القائمة على Transformer مثل RTDETRv2 تحديات في النشر العملي. فهي عادةً ما تتطلب CUDA أكبر أثناء التدريب مقارنةً بشبكات CNN الفعالة. علاوةً على ذلك، قد يكون دمجها في بيئات حافة متنوعة أمرًا صعبًا بسبب العمليات المعقدة التي تتطلبها طبقات الانتباه، مما يجعل نماذج مثل YOLO26 أكثر جاذبية للنشر في البيئات المحدودة الموارد.

مقارنة الأداء

يكشف تقييم هذه النماذج بشكل مباشر عن الفوائد الملموسة لأحدث تحسينات CNN. يوضح الجدول أدناه أداءها على المعايير القياسية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLO26n	640	40.9	38.9	1.7	2.4	5.4
YOLO26s	640	48.6	87.2	2.5	9.5	20.7
YOLO26m	640	53.1	220.0	4.7	20.4	68.2
YOLO26l	640	55.0	286.2	6.2	24.8	86.4
YOLO26x	640	57.5	525.8	11.8	55.7	193.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

كما هو موضح، يتفوق YOLO26 باستمرار على RTDETRv2 عبر جميع متغيرات الحجم. يحقق YOLO26x نسبة 57.5 mAP مذهلة مع زمن استجابة أقل (11.8 مللي ثانية على TensorRT) وعدد أقل بكثير من المعلمات (55.7 مليون) مقارنة بـ RTDETRv2-x (54.3 mAP، 15.03 مللي ثانية، 76 مليون معلمة).

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLO26 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLO26

YOLO26 هو خيار قوي لـ:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

ميزة Ultralytics

اختيار بنية التعلم الآلي الصحيحة هو جزء فقط من المعادلة؛ فالنظام البيئي المحيط يحدد مدى سرعة انتقال الفريق من النماذج الأولية إلى الإنتاج.

سهولة الاستخدام وكفاءة التدريب

توفر Python Ultralytics Python تجربة مبسطة بشكل ملحوظ. لم يعد تدريب النماذج المعقدة يتطلب كودًا نمطيًا مطولًا. علاوة على ذلك، فإن كفاءة تدريب YOLO26 أفضل بكثير، حيث تستخدم GPU أقل بكثير من آليات الانتباه كثيفة الاستخدام للذاكرة في RTDETRv2، مما يسمح بأحجام دفعات أكبر حتى على الأجهزة الاستهلاكية.

from ultralytics import YOLO

# Initialize the cutting-edge YOLO26 Nano model
model = YOLO("yolo26n.pt")

# Train on the COCO8 dataset for 100 epochs
results = model.train(data="coco8.yaml", epochs=100, imgsz=640)

# Execute high-speed, NMS-free inference
predictions = model("https://ultralytics.com/images/bus.jpg")

# Export to ONNX for seamless deployment
model.export(format="onnx")

نظام بيئي مُصان جيدًا

باستخدام نماذج Ultralytics، يحصل المطورون على إطار عمل مُصان بنشاط يتكامل أصلاً مع أدوات التتبع الحديثة مثل Weights & Biases وComet ML. وبالنسبة لأولئك الذين يفضلون نهجًا بدون تعليمات برمجية، تسهل منصة Ultralytics التدريب السحابي وإدارة مجموعات البيانات والنشر بنقرة واحدة.

موازنة الأداء

يحقق YOLO26 توازنًا لا مثيل له بين سرعة الاستدلال والدقة. يضمن إزالة NMS مع مُحسِّن MuSGD أنك تقوم بنشر نموذج يتميز بدقة عالية على الأجسام الصغيرة (بفضل ProgLoss + STAL) وسرعة فائقة في الإنتاج، مما يجعله الخيار الأفضل لجميع تطبيقات الرؤية الحاسوبية الحديثة تقريبًا.

نماذج أخرى في النظام البيئي

بينما يغطي YOLO26 و RTDETRv2 أحدث ما توصلت إليه تقنيات الكشف في الوقت الفعلي، قد يفكر المطورون الذين يحافظون على خطوط الإنتاج القديمة أو يستكشفون منحنيات كفاءة مختلفة في استخدام YOLOv8 لبيئات المؤسسات الراسخة، أو استكشاف بنى أخرى مثل EfficientDet. ومع ذلك، بالنسبة لأي مبادرة جديدة، فإن YOLO26 هو التوصية النهائية.