YOLO11 RTDETRv2: مقارنة بين تطور شبكات CNNs ومحولات الرؤية

توسع مجال الرؤية الحاسوبية بسرعة، مما يوفر للمطورين خيارات لا حصر لها لإنشاء تطبيقات قوية تعتمد على الرؤية. في مجال الكشف عن الكائنات في الوقت الفعلي، أصبح الجدل بين الشبكات العصبية التلافيفية (CNN) ومحولات الرؤية (ViT) أكثر بروزًا من أي وقت مضى. تتعمق هذه المقارنة التقنية في هندستين رائدتين: YOLO11، التي تمثل قمة أطر عمل CNN عالية التحسين، و RTDETRv2، وهي نسخة قوية من عائلة محولات الكشف.

من خلال تحليل هندستها المعمارية ومقاييس الأداء وسيناريوهات النشر المثالية، يهدف هذا الدليل إلى مساعدة مهندسي تعلم الآلة على اتخاذ قرارات مستنيرة. بينما تدفع كلا النموذجين حدود الدقة، تقدم نماذج Ultralytics YOLO عادةً توازنًا فائقًا بين السرعة ودعم النظام البيئي وسهولة الاستخدام للإنتاج في العالم الحقيقي.

YOLO11: معيار التنوع في العالم الواقعي

تم طرح YOLO11 بواسطة Ultralytics YOLO11 على سنوات من الأبحاث الأساسية لتقديم نموذج سريع ودقيق ومتعدد الاستخدامات بشكل لا يصدق. وقد تم تصميمه للتعامل بسلاسة مع اكتشاف الكائنات وتقسيم الحالات وتصنيف الصور وتقدير الوضع واستخراج المربعات المحددة (OBB) بشكل أصلي.

المؤلفون: غلين جوشر وجينغ تشيو
المؤسسة:Ultralytics
التاريخ: 2024-09-27
GitHub:Ultralytics Repository
المستندات:توثيق YOLO11

تعرف على المزيد حول YOLO11

الهيكلة ونقاط القوة

YOLO11 ببنية أساسية CNN محسّنة وأهرامات ميزات مكانية متقدمة، مما يجعله فعالاً للغاية من حيث استخدام الموارد. وهو يعمل بشكل جيد في البيئات التي تفرض قيوداً صارمة على الأجهزة، حيث يوفر مساحة ذاكرة صغيرة للغاية أثناء التدريب والاستدلال. توفر Ultralytics دعماً أصلياً لـ YOLO11 مما يتيح مراقبة النماذج وتوضيح البيانات والتدريب السحابي بشكل مبسط دون الحاجة إلى ربط أدوات MLops المتباينة معاً.

بالنسبة للمطورين الذين يستهدفون الحوسبة الطرفية، YOLO11 بزمن انتقال منخفض للغاية. وتسمح طبيعته الخفيفة الوزن بتشغيله بكفاءة على أجهزة تتراوح من Raspberry Pis إلى الهواتف المحمولة الاستهلاكية، مما يجعله معيارًا للبيع بالتجزئة الذكي ومراقبة جودة التصنيع وإدارة حركة المرور الآلية.

RTDETRv2: محولات الوقت الحقيقي من Baidu

RTDETRv2 (محول الكشف في الوقت الحقيقي الإصدار 2) يمثل جهود Baidu لجعل البنى القائمة على المحولات قابلة للتطبيق في المهام التي تتم في الوقت الحقيقي. وهو يعتمد على RT-DETR الأصلي RT-DETR دمج نهج "bag-of-freebies" لتحسين دقة خط الأساس دون زيادة زمن استجابة الاستدلال.

المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
المؤسسة:بايدو
التاريخ: 2024-07-24
Arxiv:2407.17140
GitHub:RT-DETRv2 Repository
الوثائق:ملف README لـ RTDETRv2

تعرف على المزيد حول RTDETR

الهيكلة ونقاط القوة

على عكس الشبكات العصبية التوافقية التقليدية، تستخدم RTDETRv2 بنية تشفير-فك تشفير مع آليات الانتباه الذاتي، مما يسمح لها بالتقاط السياق العام عبر الصورة. وهذا مفيد بشكل خاص في المشاهد المزدحمة حيث تكثر حالات الحجب. تزيل RTDETRv2 الحاجة إلى القمع غير الأقصى (NMS) في المعالجة اللاحقة، وتعتمد بدلاً من ذلك على المطابقة المجرية أثناء التدريب للمطابقة الثنائية الفردية.

ومع ذلك، من المعروف أن نماذج المحولات تستهلك الكثير من CUDA VRAM CUDA . غالبًا ما يتطلب تدريب RTDETRv2 من البداية أو ضبطه على مجموعات بيانات مخصصة GPU متطورة وكبيرة الحجم، مما قد يشكل عائقًا أمام الفرق الصغيرة المرنة مقارنةً بصغر حجم التدريب الذي تتطلبه Ultralytics .

تحليل الأداء والمقاييس

عند تقييم هذه النماذج على COCO القياسية، نلاحظ وجود تفاوتات واضحة بين المعلمات وعمليات FLOPs والدقة الأولية.

النموذج	الحجم ^{(بالبكسل)}	mAP^val 50-95	السرعة ^{وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية)}	السرعة ^{T4 TensorRT10 (بالمللي ثانية)}	المعلمات ^(M)	FLOPs ^(B)
YOLO11n	640	39.5	56.1	1.5	2.6	6.5
YOLO11s	640	47.0	90.0	2.5	9.4	21.5
YOLO11m	640	51.5	183.2	4.7	20.1	68.0
YOLO11l	640	53.4	238.6	6.2	25.3	86.9
YOLO11x	640	54.7	462.8	11.3	56.9	194.9

RTDETRv2-s	640	48.1	-	5.03	20	60
RTDETRv2-m	640	51.9	-	7.51	36	100
RTDETRv2-l	640	53.4	-	9.76	42	136
RTDETRv2-x	640	54.3	-	15.03	76	259

تحليل النتائج

كما يتضح من الجدول، يوفر YOLO11 نسبة أداء إلى حجم لا تصدق. يحقق YOLO11x قيمة mAP^val أعلى (54.7) مقارنة بـ RTDETRv2-x (54.3)، مع استخدام عدد أقل بكثير من المعلمات (56.9 مليون مقابل 76 مليون) وعدد أقل بكثير من عمليات FLOPs الحسابية (194.9 مليار مقابل 259 مليار).

علاوة على ذلك، فإن سرعات الاستدلال YOLO11 على T4 TensorRT . يكمل YOLO11s الاستدلال في 2.5 مللي ثانية فقط، في حين أن أصغر RTDETRv2-s يستغرق 5.03 مللي ثانية. وهذا يجعل YOLO11 الأمثل لتدفقات تحليل الفيديو عالية السرعة في الوقت الفعلي حيث يمثل وقت معالجة الإطارات العائق الرئيسي.

تكلفة المحولات

بينما يحقق RTDETRv2 دقة ممتازة من خلال طبقات الانتباه الخاصة به، فإن هذه الآليات تتناسب تربيعيًا مع دقة الصورة، مما يؤدي إلى استهلاك أكبر لذاكرة VRAM أثناء التدريب والاستدلال. YOLO11 هذه المشكلة بفضل كتل التحويل الفائقة الكفاءة.

النظام البيئي للتدريب وسهولة الاستخدام

تكمن الميزة الأساسية لاعتماد Ultralytics في النظام البيئي المحيط. غالبًا ما يتطلب تدريب RTDETRv2 التنقل بين مستودعات معقدة على مستوى الأبحاث، وتعديل أوزان الخسارة المطابقة الثنائية المعقدة، وإدارة حمل ذاكرة كبير.

على العكس من ذلك، تركز Ultralytics بشكل كبير على تجربة المطورين. تعمل واجهة برمجة تطبيقات Python الموحدة على تجريد التعليمات البرمجية المتكررة، وتتكامل بسلاسة مع أدوات مثل Weights & Biases لـ تتبع التجارب، وتتعامل مع زيادات البيانات تلقائيًا.

إليك مدى سهولة تدريب وتصدير نموذج باستخدام ultralytics الحزمة:

from ultralytics import YOLO

# Initialize YOLO11 model with pre-trained weights
model = YOLO("yolo11n.pt")

# Train the model efficiently on a local GPU or cloud instance
train_results = model.train(
    data="coco8.yaml",
    epochs=100,
    imgsz=640,
    device=0,  # Utilize CUDA GPU
)

# Export the trained model to ONNX for widespread deployment
export_path = model.export(format="onnx")

بعد الانتهاء من التدريب، يمكن تصدير YOLO11 إلى تنسيقات مثل ONNXو OpenVINOأو CoreML لا يتطلب سوى أمر واحد، مما يضمن إمكانية توسيع نطاق خط أنابيب الرؤية الخاص بك بسهولة عبر خلفيات الأجهزة المتنوعة.

قدرات متعددة المهام

تذكر أن RTDETRv2 يركز حصريًا على اكتشاف المربعات المحيطة، بينما تدعم YOLO11 تقدير الوضع وتجزئة الحالات بشكل أساسي، مما يتيح لك دمج مهام رؤية متعددة في عائلة نماذج واحدة.

حالات الاستخدام والتوصيات

يعتمد الاختيار بين YOLO11 و RT-DETR على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.

متى تختار YOLO11

YOLO11 خيار قوي لـ:

النشر الإنتاجي على الحافة: التطبيقات التجارية على أجهزة مثل Raspberry Pi أو NVIDIA Jetson حيث الموثوقية والصيانة النشطة أمران بالغا الأهمية.
تطبيقات الرؤية متعددة المهام: المشاريع التي تتطلب الكشف (detect)، والـsegmentation، وتقدير الوضعية (pose estimation)، وOBB ضمن إطار عمل موحد واحد.
النماذج الأولية والنشر السريع: الفرق التي تحتاج إلى الانتقال بسرعة من جمع البيانات إلى الإنتاج باستخدام واجهة برمجة تطبيقات Ultralytics Python المبسطة.

متى تختار RT-DETR

RT-DETR في الحالات التالية:

أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.

متى تختار Ultralytics YOLO26)

بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:

نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.

نظرة إلى المستقبل: قوة YOLO26

في حين أن YOLO11 خيارًا ممتازًا للإنتاج، YOLO11 الفرق التي تبحث عن أحدث التقنيات يجب أن تفكر جديًا في استخدام YOLO26. تم إصدار YOLO26 في يناير 2026، وهو يسد الفجوة المعمارية من خلال دمج تصميم End-to-End NMS (الذي تم ابتكاره لأول مرة في YOLOv10) مباشرة في جوهره، مما يلغي تمامًا زمن انتقال المعالجة اللاحقة وتعقيد منطق النشر.

يقدم YOLO26 أيضًا العديد من الميزات الثورية:

مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج LLM الخاصة بـ Kimi K2 من Moonshot AI، يضمن هذا المزيج الهجين من SGD و Muon تدريبًا مستقرًا بشكل لا يصدق وتقاربًا أسرع بكثير.
إزالة DFL: تمت إزالة خسارة التركيز التوزيعي لعملية تصدير أنظف ومبسطة، مما يحسن بشكل كبير توافق الأجهزة الطرفية منخفضة الطاقة.
ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو متطلب حاسم لمراقبة الطائرات بدون طيار، والمراقبة الزراعية، ومستشعرات الحافة لإنترنت الأشياء.
سرعة استدلال أسرع بنسبة تصل إلى 43% على الـ CPU: لعمليات النشر التي تفتقر إلى وحدات GPU مخصصة، تم تحسين YOLO26 خصيصًا لتنفيذ CPU، متفوقًا بشكل كبير على الأجيال السابقة.

تعرف على المزيد حول YOLO26

للمهتمين باستكشاف مجموعة أوسع من البنى، توفر Ultralytics أيضًا رؤى حول YOLOv8، و YOLOv5، ونماذج متخصصة مثل YOLO لتطبيقات الكشف عن المفردات المفتوحة. في النهاية، سواء كنت تفضل الاستقرار المثبت لـ YOLO11 الابتكارات الثورية لـ YOLO26، فإن Ultralytics يوفر أدوات لا مثيل لها لتجسيد حلول الرؤية الحاسوبية الخاصة بك.

YOLO11 RTDETRv2: مقارنة بين تطور شبكات CNNs ومحولات الرؤية

YOLO11: معيار التنوع في العالم الواقعي

الهيكلة ونقاط القوة

RTDETRv2: محولات الوقت الحقيقي من Baidu

الهيكلة ونقاط القوة

تحليل الأداء والمقاييس

تحليل النتائج

النظام البيئي للتدريب وسهولة الاستخدام

حالات الاستخدام والتوصيات

متى تختار YOLO11

متى تختار RT-DETR

متى تختار Ultralytics YOLO26)

نظرة إلى المستقبل: قوة YOLO26

تعليقات