YOLOv6.0 مقابل RTDETRv2: مواجهة بين الشبكات العصبية الصناعية والمحولات في الوقت الحقيقي
يتطلب اختيار البنية المثلى لتطبيقات الرؤية الحاسوبية تحقيق التوازن بين السرعة والدقة وقيود النشر. في هذا التحليل التقني الشامل، نقوم بتحليل YOLOv6.YOLOv6، وهي شبكة عصبية تلافيفية (CNN) من الدرجة الصناعية مصممة GPU عالية الإنتاجية، مقارنةً بـ RTDETRv2، وهو نموذج متطور قائم على المحولات يجلب آليات الانتباه إلى الكشف عن الكائنات في الوقت الفعلي.
في حين أن كلا النموذجين يمثلان إنجازات مهمة في مجال أبحاث الذكاء الاصطناعي، فإن المطورين الذين يبحثون عن خط أنابيب أكثر تنوعًا وكفاءة غالبًا ما يلجأون إلى Ultralytics القوية.
YOLOv6.0: الإنتاجية الصناعية
تم تطوير YOLOv6. YOLOv6 بواسطة قسم Vision AI في Meituan، وهو يركز بشكل كبير على تعظيم سرعات المعالجة الأولية على NVIDIA الأجهزة مثل NVIDIA ، مما يعزز مكانته في التطبيقات الصناعية القديمة.
- المؤلفون: تشوي لي، لولو لي، ييفي جينغ، وآخرون.
- المؤسسة:Meituan
- التاريخ: 2023-01-13
- ArXiv:2301.05586
- GitHub:meituan/YOLOv6
أبرز ملامح الهيكلة
يستخدم YOLOv6 بنية أساسية EfficientRep سهلة الاستخدام ومصممة خصيصًا GPU عالي السرعة GPU . تدمج البنية وحدة تسلسل ثنائي الاتجاه (BiC) في عنقها لإثراء دمج الميزات عبر درجات دقة مكانية مختلفة. أثناء التدريب، تستفيد من استراتيجية التدريب بمساعدة المراسي (AAT) لتسخير قوة التدريب القائم على المراسي مع الحفاظ على مسار استدلال خالٍ من المراسي.
نقاط القوة والضعف
نقاط القوة:
- إنتاجية استثنائية على أجهزة من فئة الخوادم مثل وحدات معالجة الرسومات T4 و A100.
- يوفر دروسًا تعليمية متخصصة في التكمية لنشر INT8 باستخدام RepOpt.
- نسبة معلمة إلى سرعة مواتية لتحليلات الفيديو واسعة النطاق.
نقاط الضعف:
- في المقام الأول كاشف مربع الحدود؛ يفتقر إلى تعدد المهام الجاهز للاستخدام (مثل Pose و OBB) الموجود في نماذج مثل Ultralytics YOLO11.
- الاعتماد بشكل أكبر على تقنية Non-Maximum Suppression (NMS) المعقدة أثناء المعالجة اللاحقة، مما يزيد من تباين زمن الاستجابة.
- نظام بيئي أقل نشاطًا مقارنة بالأطر السائدة، مما يجعل التحديثات ودعم المجتمع أقل قابلية للتنبؤ.
RTDETRv2: محولات الوقت الفعلي
بقيادة باحثين في Baidu، يعتمد RTDETRv2 على RT-DETR الأصلي RT-DETR تحسين إطار عمل محول الكشف باستخدام نهج "bag-of-freebies"، مما يحقق دقة متطورة دون التضحية بالقدرة على العمل في الوقت الفعلي.
- المؤلفون: وينييو ليف، ييان تشاو، تشينياو تشانغ، كوي هوانغ، قوانتشونغ وانغ، ويي ليو
- المؤسسة:بايدو
- التاريخ: 2024-07-24
- ArXiv:2407.17140
- GitHub:lyuwenyu/RT-DETR
أبرز ملامح الهيكلة
على عكس شبكات CNN التقليدية، فإن RTDETRv2 هي شبكة متكاملة من البداية إلى النهاية. من خلال الاستفادة من طبقات الانتباه في المحول، تلغي البنية تمامًا الحاجة إلى NMS . وهذا يسمح بتبسيط عملية الاستدلال. تقدم RTDETRv2 دمجًا عالي التحسين للميزات عبر النطاقات ومشفّرًا هجينًا فعالًا، مما يسمح لها بمعالجة COCO القياسية بدقة ملحوظة.
نقاط القوة والضعف
نقاط القوة:
- تحقق آليات الانتباه القائمة على المحولات متوسط دقة استثنائي (mAP)، لا سيما في المشاهد المعقدة أو الكثيفة.
- يعمل التصميم NMS على توحيد زمن انتقال الاستدلال وتبسيط التكامل في بيئات الإنتاج.
- ممتاز للسيناريوهات التي تتطلب أقصى دقة مطلقة حيث تكون قيود الأجهزة ضئيلة.
نقاط الضعف:
- تتطلب طبقات المحولات CUDA كبيرة أثناء التدريب، مما يعزل الباحثين الذين لا يمكنهم الوصول إلى وحدات معالجة الرسومات (GPU) المتطورة.
- تعد سرعات CPU أبطأ بشكل ملحوظ من شبكات CNN المتخصصة، مما يحد من استخدامها في الأجهزة المحمولة أو أجهزة إنترنت الأشياء.
- قد يكون الإعداد والضبط معقدين بالنسبة للفرق التي اعتادت على عمليات التعلم الآلي التقليدية (MLOps).
مقارنة مفصلة للأداء
يُقارن الجدول التالي بين YOLOv6. YOLOv6 و RTDETRv2 عبر مؤشرات الأداء الرئيسية. لاحظ التباين الشديد بين كفاءة معلمات YOLOv6 الأولية لـ RTDETRv2.
| النموذج | الحجم (بالبكسل) | mAPval 50-95 | السرعة وحدة المعالجة المركزية CPU ONNX (بالمللي ثانية) | السرعة T4 TensorRT10 (بالمللي ثانية) | المعلمات (M) | FLOPs (B) |
|---|---|---|---|---|---|---|
| YOLOv6-3.0n | 640 | 37.5 | - | 1.17 | 4.7 | 11.4 |
| YOLOv6-3.0s | 640 | 45.0 | - | 2.66 | 18.5 | 45.3 |
| YOLOv6-3.0m | 640 | 50.0 | - | 5.28 | 34.9 | 85.8 |
| YOLOv6-3.0l | 640 | 52.8 | - | 8.95 | 59.6 | 150.7 |
| RTDETRv2-s | 640 | 48.1 | - | 5.03 | 20 | 60 |
| RTDETRv2-m | 640 | 51.9 | - | 7.51 | 36 | 100 |
| RTDETRv2-l | 640 | 53.4 | - | 9.76 | 42 | 136 |
| RTDETRv2-x | 640 | 54.3 | - | 15.03 | 76 | 259 |
نصيحة حول النشر
إذا كنت تقوم بالنشر على CPU بحتة مثل Raspberry Pi، فإن النماذج القائمة على CNN تتفوق عمومًا على بنى المحولات في عدد الإطارات في الثانية (FPS). للحصول على أداء حافة مثالي، ضع في اعتبارك استخدام OpenVINO لتسريع الاستدلال.
حالات الاستخدام والتوصيات
RT-DETR الاختيار بين YOLOv6 RT-DETR على متطلبات مشروعك المحددة وقيود النشر وتفضيلات النظام البيئي.
متى تختار YOLOv6
YOLOv6 خيار قوي لـ:
- النشر الصناعي المراعي للأجهزة: سيناريوهات يوفر فيها تصميم النموذج المراعي للأجهزة وإعادة تحديد المعلمات بكفاءة أداءً محسّنًا على أجهزة مستهدفة محددة.
- الكشف السريع أحادي المرحلة: التطبيقات التي تعطي الأولوية لسرعة الاستدلال الأولي على GPU الفيديو في الوقت الفعلي في البيئات الخاضعة للرقابة.
- تكامل نظام Meituan البيئي: فرق تعمل بالفعل ضمن مجموعة تقنيات Meituan وبنيتها التحتية للنشر.
متى تختار RT-DETR
RT-DETR في الحالات التالية:
- أبحاث الكشف القائمة على المحولات: مشاريع تستكشف آليات الانتباه وبنى المحولات من أجل الكشف الشامل عن الأجسام دون الحاجة إلى NMS.
- سيناريوهات عالية الدقة مع زمن انتقال مرن: التطبيقات التي تكون فيها دقة الكشف هي الأولوية القصوى ويكون زمن الانتقال الاستدلالي الأعلى قليلاً مقبولاً.
- كشف الأجسام الكبيرة: المشاهد التي تحتوي بشكل أساسي على أجسام متوسطة إلى كبيرة الحجم، حيث توفر آلية الانتباه الشامل للمحولات ميزة طبيعية.
متى تختار Ultralytics YOLO26)
بالنسبة لمعظم المشاريع الجديدة، يوفر Ultralytics أفضل مزيج من الأداء وتجربة المطور:
- نشر الحافةNMS: التطبيقات التي تتطلب استنتاجًا متسقًا ومنخفض التأخير دون تعقيدات المعالجة اللاحقة لـ Non-Maximum Suppression.
- بيئاتCPU: الأجهزة التي لا تحتوي على GPU مخصص، حيث يوفر CPU الأسرع بنسبة تصل إلى 43٪ في YOLO26 ميزة حاسمة.
- كشف الأجسام الصغيرة: سيناريوهات صعبة مثل صور الطائرات بدون طيار أو تحليل مستشعرات إنترنت الأشياء حيث يعزز ProgLoss و STAL الدقة بشكل كبير على الأجسام الصغيرة.
ميزة Ultralytics: تقديم YOLO26
بينما يتفوق YOLOv6. YOLOv6 و RTDETRv2 في مجالاتهما المحددة، فإن مجال التعلم الآلي الحديث يتطلب نماذج تجمع بين السرعة والدقة وخبرة المطورين. يلبي Ultralytics هذه الاحتياجات بشكل مثالي، لا سيما مع إصدار YOLO26.
صدر Ultralytics في يناير 2026، وهو يمثل المعيار النهائي للرؤية الحاسوبية، متفوقًا بشكل كبير على النماذج القديمة مثل YOLOv8 والمشتقات المجتمعية مثل YOLO12.
لماذا يتفوق YOLO26 على المنافسين
- تصميم شامل NMS: تم تطويره لأول مرة في YOLOv10، يزيل YOLO26 بشكل أساسي NMS . وهذا يوفر بساطة النشر لـ RTDETRv2 مع الحفاظ على السرعة الفائقة لشبكة CNN عالية التحسين.
- MuSGD Optimizer: مستوحى من ابتكارات نماذج اللغة الكبيرة (مثل Kimi K2 من Moonshot AI)، يستخدم YOLO26 مزيجًا من SGD Muon. وهذا يضمن ديناميكيات تدريب مستقرة للغاية وتقاربًا سريعًا، مما يقلل من الوقت والموارد الحاسوبية اللازمة لمجموعات البيانات المخصصة.
- أداء حافة لا مثيل له: من خلال تنفيذ إزالة DFL (فقدان بؤرة التوزيع) بالكامل، يبسط YOLO26 هياكل التصدير. ينتج عن هذا التحسين CPU أسرع بنسبة تصل إلى 43٪ CPU مقارنة بالنماذج القديمة، مما يجعله البطل بلا منازع لأجهزة الذكاء الاصطناعي الحافة وأجهزة إنترنت الأشياء.
- تحسين اكتشاف الأجسام الصغيرة: أدى إدخال وظائف فقدان ProgLoss و STAL إلى تحقيق قفزة هائلة في اكتشاف الأجسام الصغيرة، وهو مطلب أساسي لتحليلات الطائرات بدون طيار والصور الجوية التي عانت منها YOLOv6 .
- تنوع المهام: على عكس YOLOv6 الذي يركز بشكل حصري على الكشف، يدعم YOLO26 سير العمل متعدد الوسائط بما في ذلك تقسيم المثيلات وتقدير الوضع وتصنيف الصور ومربع الحدود الموجه (OBB)— كل ذلك من خلال واجهة برمجة تطبيقات واحدة موحدة.
كفاءة التدريب وسهولة الاستخدام
تم تصميمPython Ultralytics Python لزيادة إنتاجية المطورين إلى أقصى حد. يمكنك الانتقال من التدريب إلى النشر في بضع أسطر من التعليمات البرمجية، متجاوزًا تمامًا الإعداد المعقد للبيئة الذي تتطلبه مستودعات الأبحاث المستقلة.
فيما يلي مثال كامل وقابل للتنفيذ حول كيفية تدريب وتقييم نموذج YOLO26 المتطور باستخدام Ultralytics :
from ultralytics import YOLO
# Load the state-of-the-art YOLO26 Nano model
model = YOLO("yolo26n.pt")
# Train the model on a custom dataset (e.g., COCO8) for 50 epochs
# The API automatically handles dataset caching and environment config
train_results = model.train(data="coco8.yaml", epochs=50, imgsz=640)
# Validate the model's accuracy on the validation split
val_metrics = model.val()
print(f"Validation mAP50-95: {val_metrics.box.map:.4f}")
# Export the trained model to ONNX for production deployment
model.export(format="onnx")
الخلاصة
يعد كل من YOLOv6.0 و RTDETRv2 مساهمتين رائعتين في مجتمع الذكاء الاصطناعي. يظل YOLOv6. YOLOv6 أداة قوية للأتمتة GPU الخام باستخدام GPU ، ويثبت RTDETRv2 أن بنى المحولات يمكنها تحقيق زمن انتقال في الوقت الفعلي مع تعظيم الدقة.
ومع ذلك، بالنسبة للفرق التي تحتاج إلى إطار عمل موثوق وجاهز للإنتاج مع دعم مجتمعي نشط، فإن YOLO Ultralytics YOLO هي الخيار الأفضل دائمًا. التكامل السلس مع منصات مثل Hugging Face و TensorRT، إلى جانب استهلاك الذاكرة المنخفض للغاية أثناء التدريب، يجعل الوصول إلى الذكاء الاصطناعي المتطور متاحًا للجميع. من خلال الترقية إلى YOLO26، يمكن للمطورين الاستفادة من مُحسِّن MuSGD المبتكر والبنية NMS لبناء خطوط إنتاج رؤية حاسوبية أسرع وأكثر ذكاءً وقابلية للتوسع.