RTDETRv2 مقابل YOLOv6.0: تقييم المحولات في الوقت الحقيقي مقابل شبكات CNN الصناعية
يتطور مجال الرؤية الحاسوبية باستمرار، مما يوفر للمطورين عددًا لا يحصى من الخيارات المعمارية لاكتشاف الأجسام. هناك نموذجان بارزان يمثلان نهجين متباينين هما RTDETRv2، وهو محول رؤية متطور، و YOLOv6.YOLOv6، وهو شبكة عصبية تلافيفية (CNN) محسّنة للغاية ومصممة خصيصًا للتطبيقات الصناعية.
تستكشف هذه المقارنة التقنية الشاملة البنى الهندسية لكل منهما ومقاييس الأداء وسيناريوهات النشر المثالية. سنقوم أيضًا بفحص كيف يوفر Ultralytics الأوسع نطاقًا تجربة مطورين فائقة الجودة، مع التطلع في النهاية إلى إمكانات الجيل التالي من Ultralytics .
RTDETRv2: نهج محول الرؤية
تم تطوير RTDETRv2 من قبل باحثين في Baidu، وهو يعتمد على أساس RT-DETR الأصلي، ويمثل قفزة كبيرة إلى الأمام في مجال الكشف عن الكائنات باستخدام المحولات.
- المؤلفون: وينيو ليو، ييان تشاو، تشينياو تشانغ، كوي هوانغ، غوانزونغ وانغ، ويي ليو
- المنظمة: Baidu
- التاريخ: 2024-07-24
- Arxiv: 2407.17140
- GitHub: RT-DETR
- المستندات: RTDETRv2 GitHub README
أبرز الملامح المعمارية
يستخدم RTDETRv2 بنية هجينة تجمع بين مستخرج ميزات CNN ومفكك محول قوي. السمة الأكثر تميزًا لهذا النموذج هي تصميمه NMS. من خلال التخلص من Non-Maximum Suppression (NMS) أثناء المعالجة اللاحقة، يتنبأ النموذج بمربعات الحدود مباشرةً، مما يبسط النشر ويثبت زمن الاستدلال.
تعزز "حقيبة الهدايا المجانية" المدمجة في RTDETRv2 قدرتها على التعامل مع المشاهد المعقدة والأجسام المتداخلة، حيث أن آليات الانتباه الشاملة تفهم العلاقات المكانية بشكل أفضل من التلافيف الموضعية.
استخدام ذاكرة المحولات (Transformer)
على الرغم من أن المحولات تتفوق في فهم المشاهد المعقدة، إلا أنها تتطلب عادةً CUDA أعلى بكثير أثناء التدريب مقارنةً بشبكات CNN. وهذا قد يحد من أحجام الدفعات على وحدات معالجة الرسومات القياسية للمستهلكين ويزيد من الوقت الإجمالي للتدريب.
YOLOv6.0: تعظيم الإنتاجية الصناعية
نشأ YOLOv6. YOLOv6 في قسم Vision AI في Meituan، وقد تم تصميمه خصيصًا ليكون جهاز كشف من الجيل التالي للأنابيب الصناعية حيث يعتبر GPU أمرًا بالغ الأهمية.
- المؤلفون: تشوي لي، لولو لي، ييفي جينغ، هونغليانغ جيانغ، منغ تشنغ، بو تشانغ، زيدان كي، شياومينغ شو، وشيانغشيانغ تشو
- المنظمة: Meituan
- التاريخ: 2023-01-13
- Arxiv: 2301.05586
- GitHub: YOLOv6
التركيز المعماري
يعتمد YOLOv6.YOLOv6 على هيكل EfficientRep، المصمم بدقة لتقليل تكاليف الوصول إلى الذاكرة على مسرعات الأجهزة مثل NVIDIA . تتميز بنية العنق بوحدة تسلسل ثنائية الاتجاه (BiC) لتحسين دمج الميزات عبر مستويات مختلفة.
أثناء التدريب، يستخدم استراتيجية التدريب المدعوم بالمرساة (AAT) للاستفادة من النماذج القائمة على المراسي مع الحفاظ على وضع استدلال خالٍ من المراسي لتنفيذ أسرع. على الرغم من أنه يحقق إنتاجية استثنائية على وحدات معالجة الرسومات (GPU) من فئة الخوادم (مثل T4 و A100)، إلا أن بنيته المتخصصة يمكن أن تؤدي إلى زمن انتقال أقل من الأمثل عند نشره على أجهزة حافة CPU.
مقارنة الأداء
عند تقييم نماذج الإنتاج، من الضروري تحقيق التوازن بين الدقة (mAP) وسرعة الاستدلال والتكلفة الحسابية (FLOPs). يوضح الجدول أدناه كيفية مقارنة هذه النماذج ببعضها البعض.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
بينما يهيمن YOLOv6. YOLOv6 على سرعة المعالجة المطلقة على TensorRT يحقق RTDETRv2 mAP أعلى، لا سيما أنه يتكيف بشكل أفضل مع المتغيرات الأكبر للنموذج. ومع ذلك، يفتقر كلا النموذجين إلى التنوع الواسع الموجود في الأطر الموحدة الحديثة. YOLOv6. YOLOv6 هو في المقام الأول متخصص في الكشف، ويفتقر إلى الدعم الأصلي لمهام مثل تقسيم الحالات وتقدير الوضع الجاهز.
حالات الاستخدام والتوصيات
يعتمد الاختيار بين RT-DETR وYOLOv6 على متطلبات مشروعك المحددة، وقيود النشر، وتفضيلات النظام البيئي.
متى تختار RT-DETR
RT-DETR خيار قوي لـ:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وهياكل المحولات للكشف الشامل عن الكائنات دون NMS.
- سيناريوهات الدقة العالية مع زمن استجابة مرن: التطبيقات التي تكون فيها دقة detect هي الأولوية القصوى ويكون زمن استجابة الاستدلال الأعلى قليلاً مقبولاً.
- اكتشاف الكائنات الكبيرة: المشاهد التي تحتوي بشكل أساسي على كائنات متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشاملة للمحولات ميزة طبيعية.
متى تختار YOLOv6
YOLOv6 في الحالات التالية:
- النشر الصناعي المدرك للأجهزة: سيناريوهات حيث يوفر تصميم النموذج المدرك للأجهزة وإعادة التكوين الفعالة أداءً محسنًا على أجهزة مستهدفة محددة.
- detect سريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الخام على GPU لمعالجة الفيديو في الوقت الفعلي في بيئات محكومة.
- تكامل نظام Meituan البيئي: الفرق التي تعمل بالفعل ضمن مكدس تقنية Meituan والبنية التحتية للنشر.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر طرفي خالٍ من NMS: التطبيقات التي تتطلب استدلالًا متسقًا ومنخفض زمن الوصول دون تعقيد معالجة ما بعد التثبيط غير الأقصى.
- بيئات CPU فقط: الأجهزة التي لا تحتوي على تسريع GPU مخصص، حيث يوفر استدلال YOLO26 الأسرع بنسبة تصل إلى 43% على CPU ميزة حاسمة.
- اكتشاف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار الجوية أو تحليل مستشعرات إنترنت الأشياء، حيث تعزز ProgLoss و STAL الدقة بشكل كبير في الأجسام متناهية الصغر.
ميزة Ultralytics
يتضمن اختيار النموذج الصحيح أكثر من مجرد أرقام معيارية أولية؛ فتجربة المطور، ومرونة النشر، ودعم النظام البيئي لا تقل أهمية. من خلال استخدام النماذج المدمجة ضمن منصة Ultralytics، يكتسب المستخدمون مزايا كبيرة على مستودعات الأبحاث الثابتة.
- سهولة الاستخدام: في
ultralyticsتوفر Python واجهة برمجة تطبيقات سلسة. لا يتطلب تدريب النماذج والتحقق من صحتها وتصديرها سوى بضع أسطر من التعليمات البرمجية. - نظام بيئي يتم صيانته جيدًا: على عكس المستودعات الأكاديمية المعزولة، يتم تحديث منصة Ultralytics بنشاط. وهي تتميز بتكاملات قوية لأدوات مثل ONNX و OpenVINO و CoreML.
- كفاءة التدريب: تستهلك نماذج Ultralytics عادةً ذاكرة VRAM أقل بكثير أثناء التدريب مقارنة بمعماريات المحولات مثل RTDETRv2، مما يسمح بأحجام دفعات أكبر على الأجهزة الاستهلاكية.
- تعدد الاستخدامات: على عكس النطاق المحدد لـ YOLOv6-3.0، نماذج Ultralytics متعددة الأنماط، وتدعم بشكل أصلي تصنيف الصور، الصناديق المحيطة الموجهة (OBB)، وsegment ضمن إطار عمل موحد واحد.
نشر مبسط
باستخدام Ultralytics CLI، يصبح تصدير نموذج مدرب لنشره على الحافة أمرًا بسيطًا مثل تشغيل: yolo export model=yolo11n.pt format=tensorrt.
أدخل YOLO26: الحل النهائي
في حين أن RTDETRv2 و YOLOv6. YOLOv6 يقدمان مزايا محددة، إلا أن هذا المجال يتطور بسرعة. بالنسبة للفرق التي تبدأ مشاريع جديدة في مجال الرؤية الحاسوبية، نوصي بشدة باستخدام YOLO26، الذي أطلقته Ultralytics يناير 2026.
يجمع YOLO26 بين نقاط القوة في شبكات CNN الصناعية والمحولات الحديثة مع التخلص من نقاط الضعف في كل منهما:
- تصميم شامل خالٍ من NMS: اعتمادًا على الابتكار الذي تم تقديمه لأول مرة في YOLOv10، يلغي YOLO26 معالجة NMS اللاحقة بشكل أصلي، مما يضمن نشرًا مستقرًا ويمكن التنبؤ به، مشابهًا لـ RTDETRv2 ولكن بتكلفة إضافية أقل بكثير.
- مُحسِّن MuSGD: مستوحى من تقنيات تدريب نماذج اللغات الكبيرة (LLM) المتقدمة (مثل Kimi K2 من Moonshot AI)، يضمن هذا المُحسِّن الهجين تدريبًا مستقرًا وتقاربًا أسرع، متغلبًا على عدم الاستقرار المعروف في محولات الرؤية التقليدية.
- محسّن للحوسبة الطرفية: مع استدلال أسرع بنسبة تصل إلى 43% على CPU مقارنة بالأجيال السابقة والإزالة الاستراتيجية لدالة الخسارة البؤرية التوزيعية (DFL)، يُعد YOLO26 مناسبًا تمامًا للأجهزة المحمولة وأجهزة إنترنت الأشياء حيث لا يتوفر تسريع GPU.
- ProgLoss + STAL: تحقق دوال الخسارة المتقدمة هذه تحسينات ملحوظة في التعرف على الكائنات الصغيرة، وهو تحدٍ تاريخي لشبكات CNN، مما يجعل YOLO26 مثاليًا للصور الجوية والروبوتات.
مثال تدريبي
تتيح لك Ultralytics البديهية تدريب النماذج المتطورة بسلاسة. فيما يلي مثال قابل للتشغيل يوضح كيفية تدريب نموذج YOLO26 Nano على COCO8 :
from ultralytics import YOLO
# Load the newly released YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on the COCO8 dataset for 50 epochs
# The Ultralytics engine handles data caching and augmentation automatically
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's performance
metrics = model.val()
print(f"Validation mAP50-95: {metrics.box.map}")
# Export the trained model to ONNX format for production
model.export(format="onnx")
ملخص
عند مقارنة RTDETRv2 و YOLOv6. YOLOv6، يعتمد القرار إلى حد كبير على الأجهزة المحددة وقيود زمن الاستجابة. يتفوق RTDETRv2 في بيئات البحث والمعالجة من جانب الخادم حيث يكون التعامل مع الكائنات المتداخلة المعقدة أمرًا بالغ الأهمية. يظل YOLOv6. YOLOv6 خيارًا قويًا لخطوط الإنتاج عالية الإنتاجية المزودة NVIDIA القوية.
ومع ذلك، بالنسبة للمطورين الذين يبحثون عن أفضل ما في العالمين - الجمع بين أناقة المحولات NMS والسرعة الفائقة واستهلاك الذاكرة المنخفض لشبكات CNN - فإنYOLO26 لا مثيل لها. بدعم من الوثائق الشاملة والمجتمع النشط Ultralytics ، تضمن YOLO26 أن تكون مشاريع الرؤية الاصطناعية الخاصة بك قوية وقابلة للتطوير ومستقبلية.